DIGITO   Livraria  :  Cartoon  :  Opinião  :  Fórum  :  Primeira página  
Tecnologia  :  Software  :  Jogos  :  Caderno  :  Web  :  Formação  
 
  Digito por email
Receba gratuitamente indique o seu email
 
  Pub
 
  Pub
 
  Pesquisar
 
 
Apoio Clix

Símbolo de Acessibilidade na Web
  S O F T W A R E Índice   Notícias   Artigos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

  08/09/2000 - Paulo Andrade Enviar por email   Versão impressora
Tecnologia de OCR é hoje uma realidade
 
  Tecnologia de OCR é hoje uma realidade Antes do surgimento dos computadores, toda a informação que queríamos armazenar tinha que ser manuscrita ou digitada recorrendo às famosas máquinas de escrever. Hoje com os computadores tudo é mais fácil e rápido.

Neste artigo vamo-nos debruçar num tipo de programas muito útil que nos pode poupar imensas horas de trabalho. Trata-se dos OCRs, (optical caracter recognition), ou seja, uma tecnologia de transformação de textos em papel, em arquivos igualmente de texto, só que desta vez manipuláveis pelo próprio computador (por exemplo no Word).

Para que estes programas funcionem precisamos de ter um scanner, o qual vai digitalizar os textos ou imagens que temos em papel. De entre os scanners, há dois tipos a destacar; Os scanners de mesa, e os scanners de mão. Estes últimos são mais usados para a digitalização de pequenas imagens, usando-se os primeiros para trabalhos mais complexos

Reconhecimento óptico de caracteres (OCR)
Quando um scanner lê a imagem de um documento, ele converte os elementos escuros - texto e partes gráficas - da página, num mapa de bits (bitmap), uma matriz de pixels quadrados que podem estar activos (pretos) ou inactivos (brancos). Como os pixels são maiores que os detalhes da maior parte do texto, este processo degrada as extremidades mais finas dos caracteres, um problema que é responsável pela maior parte dos problemas para os sistemas de reconhecimento óptico de caracteres (OCR).

O programa de OCR lê o bitmap (imagem) gerado pelo scanner e pondera as áreas de pixels activos e inactivos da página, ou seja, mapeia o espaço em branco da página. Isto possibilita que o programa separe em blocos os parágrafos, colunas, títulos e partes gráficas. O espaço em branco entre as linhas de texto contidos num bloco define a base de cada linha, um detalhe essencial para o reconhecimento de caracteres no texto.

Na primeira etapa de conversão de imagens em texto, o programa tenta reconhecer cada carácter através de uma comparação pixel a pixel com o modelo de caracteres que o programa guarda na memória. Os modelos são compostos de conjuntos completos - números, letras, pontuação e caracteres especiais.
Como esta técnica obriga a uma correspondência muito próxima, os atributos do carácter, tais como negrito e itálico, devem ser idênticos para serem reconhecidos. Uma varredura (digitalização) de má qualidade não consegue bons resultados neste aspecto. Os caracteres não reconhecidos passam por um processo mais minucioso e demorado conhecido como extracção de recursos.

O programa calcula a altura x do texto relativamente à altura da letra minúscula x e analisa cada combinação das linhas rectas, curvas e áreas preenchidas de cada carácter, como no caso da letra o ou da b. Os programas OCR sabem, por exemplo, que o carácter com uma curva descendente abaixo da linha de base e uma área preenchida acima tem grande possibilidade de ser um g minúsculo. O programa faz sempre uma comparação com a tabela interna de que dispõe o que faz com que a velocidade de reconhecimento aumente.

Como estes dois processos acabam por não decifrar todos os caracteres, os programas OCR usam dois métodos para reconhecer os hieróglifos remanescentes. Alguns programas OCR marcam os caracteres não reconhecidos com um carácter especial - como ~, ou @ - e desistem. Faz-se necessário o uso de um processador de texto para localizar tais caracteres especiais, corrigindo-os manualmente. Alguns programas de OCR são capazes de mostrar um bitmap em zoom no ecrã e pedir que seja pressionada a tecla correspondente ao carácter em questão, que deverá ser substituído pelo bitmap. Outros programas de OCR ainda solicitam um corretor ortográfico especial para procurar erros óbvios e localizar as possíveis alternativas para as palavras que contêm caracteres especiais não reconhecidos. Por exemplo, para os programas de OCR, o número 1 e a letra l são muito similares, da mesma forma que o 5 e o S, ou ainda cl e o d. Uma palavra como aclimatar poderia transformar-se em adimatar. O corretor ortográfico reconhece esses erros típicos do OCR e corrige-os.

A maioria dos programas de OCR permite que o documento convertido seja gravado em ASCII ou em um formato possível de ser reconhecido pelos processadores de texto e folhas de cálculo mais populares.

Analisamos vários programas e deixamos de seguida algumas considerações:

Omnipage
O primeiro que analisámos foi o Omnipage da empresa americana Caere. É um software muito bom, permite reconhecimento em vários idiomas, e neste momento vai na sua versão 10. Além de possuir interface em português, tem ainda algumas características que passamos a referir:
  • Instalação fácil, dispondo duma lista com uma vasta gama de scanners;
  • Permite manter a aparência original da página, mantendo blocos de texto, colunas etc;
  • Rapidez no reconhecimento,
  • Possibilidade de treino para reconhecimento de texto difícil;
  • Possibilidade de exportar o texto em diversos formatos inclusive o html;
  • Auto-orientação da página;
  • Detecção de texto invertido;
  • reconhecimento em 12 idiomas.
O Omnipage está disponível no site da Caere em versão de demonstração limitada a 15 utilizações. Esta versão demo só dispõe de interface em inglês mantendo todas as características referidas anteriormente. Convém referir que o ficheiro tem aproximadamente 60 Mb, pelo que deverá ter atenção caso tenha uma ligação lenta.

Finereader
Este é um produto da empresa russa ABBYY software. Neste momento vai na sua versão 4 e possui capacidade para reconhecimento em 22 idiomas. O interface é em inglês e está disponível também em versão de demonstração no site da empresa. Esta demo (perto de 12 Megabytes) permite 50 reconhecimentos ou 60 dias de utilização.

Características mais relevantes:
  • Facilidade de instalação, com autodetecção do scanner;
  • Grande rapidez e precisão no reconhecimento, (maior até que a do próprio Omnipage);
  • Detecção de texto invertido, imagens, gráficos, colunas etc;
  • Múltiplos formatos de exportação nomeadamente pdf;
  • Possibilidade de guardar as imagens dos arquivos para voltar a fazer o reconhecimento se necessário;
  • Correcção para desvios da orientação da página até 10 graus.


Recognita
Este é um produto da empresa húngara Recognita Corp, que neste momento vai na sua versão 5, e possui capacidade de reconhecimento em 112 (sim cento e doze) idiomas.
É de instalação e configuração fáceis, mas em termos de reconhecimento de textos difíceis fica atrás dos dois que anteriormente citámos. Está disponível uma versão demo para testar no site da empresa que funciona durante 30 dias, no entanto atenção que são aproximadamente 68 mb.

Textbridge
Este é um produto da empresa Fuji-Xerox que está disponível em duas versões: o Textbridge Pro98, para Windows 98, e o Textbridge Pro Milenio, esta versão para o Windows nt e 2000.
Na nossa opinião peca relativamente aos outros três por não possuir o idioma português entre as línguas que é capaz de reconhecer. No entanto para a língua inglesa é bastante fiável. O Textbridge é capaz de trabalhar com a maioria dos scanners, possuindo também uma interface bastante intuitiva. Possui capacidade para exportar o texto reconhecido para diferentes formatos incluindo o pdf. Tem aproximadamente 18 Mb, e funciona durante 15 dias.

Naturalmente que para escolher o melhor produto é necessário experimentá-los todos e escolher o que melhor se adapte às necessidades de cada um. Existem outros mas escolhemos estes por serem os mais conhecidos. Na nossa opinião o Omnipage da Caere e o Finereader da ABsoftware são melhores que os restantes apontados. No entanto tudo dependerá do uso que queiramos fazer do produto.

Mais artigos >>


Cartoon  :  Opinião  :  Fórum  :  Primeira página  :  Voltar ao topo  
Tecnologia  :  Software  :  Jogos  :  Caderno  :  Web  :  Livraria  :  Formação