Reconocimiento óptico de caracteres
De Wikipedia, la enciclopedia libre
El software de reconocimiento óptico de caracteres, abreviado habitualmente como OCR (Optical character recognition), extrae de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto.
Mientras que en una imagen los caracteres se describen indicando cada uno de los puntos que los forman, al convertirlos a un formato de texto (por ejemplo ASCII o Unicode), pasan a estar descritos por un solo número, por lo que se produce una reducción significativa del espacio en memoria que ocupan.
A partir de ahí el texto es reconocido como texto, de modo que se pueden buscar en él cadenas de caracteres, exportar el texto a un editor de textos, o a otras aplicaciones, etc.
Actualmente, junto con el texto, se registra también el formato con el que ha sido escrito.
Una variante es el OMR (optical mark recognition) que se utiliza para reconocimiento de marcas. Un ejemplo sería la corrección automática de exámenes de tipo test, en los que la respuesta correcta se rodea con un círculo.
Tabla de contenidos |
[editar] Estado actual de la tecnología OCR
A día de hoy, el reconocimiento preciso en textos mecanografiados con escritura en caracteres latinos se considera un problema resuelto en la gran mayoría de sus aspectos.
El reconocimiento de la impresión manual, es decir, aquella que proviene de la caligrafía humana e incluso las versiones escritas a máquina, que se encuentran impresas en otras grafías (especialmente aquellas con un número muy grande de caracteres), sigue siendo una fuente de intensa investigación.
Los sistemas para el reconocimiento de los textos escritos a mano alzada han disfrutado, en años recientes, de algunos éxitos comerciales. Entre estos se encuentran los dispositivos conocidos como asistentes digitales personales tales como los que se encuentran instalados en el Palm OS. El Newton de Apple fue el pionero en este tipo de asistentes. Los algoritmos que usa el software de estos aparatos se aprovecha del hecho de que se conocen el orden, la velocidad y la dirección de los segmentos de línea como información de entrada. El usuario se puede entrenar y ayudar al dispositivo usando solamente formas específicas de letras. Estos mismos métodos no se pueden trasladar a los programas que se encargan de interpretar los caracteres de documentos escaneados y sigue siendo un problema de cierta entidad.
La proporción de texto reconocido se encuentra, actualmente, entre el 80 y el 90, en el caso de caracteres escritos a mano con gran claridad y pulcritud, pero estos porcentajes disminuyen sensiblemente en el caso de los escaneos de texto y es muy frecuente encontrar docenas de errores por página escaneada. Este problema condiciona la tecnología OCR haciéndola una tecnología útil en un reducido número de contextos. Esta variedad de OCR se conoce comúnmente en la industria como ICR (Intelligent Character Recognition).
El reconocimiento de textos cursivos, en el que todas las letras se encuentran conectadas formando una palabra, es un área de intensa investigación, con proporciones de reconocimiento incluso más bajas que las que se dan en los textos impresos a mano pero mediante caracteres individualizados. Para elevar los porcentajes de aciertos en la escritura caligráfica se requiere el uso adicionar de otro tipo de información, ya sea gramatical o contextual. Por ejemplo, el reconocimiento de palabras enteras que se encuentran, previamente, clasificadas en un diccionario es un problema más fácil de resolver que tratar de analizar, de manera individual, los caracteres de la escritura.
Un claro ejemplo de información contextual es la lectura de la línea donde se escribe la cantidad en un cheque (que se encuentra siempre escrita como un número). Aquí, el uso de un diccionario de reducidas dimensiones puede incrementar de manera considerable el porcentaje de aciertos. El conocimiento de la sintaxis gramatical de una lengua, que es explorada, puede también ayudar para determinar si una palabra es más probable que sea un verbo o un sustantivo permitiendo, de esta manera, una mayor exactitud. Simplemente por sí mismos, las formas de los caracteres individuales cursivos no pueden contener bastante información para reconocer con precisión todos los escritos a mano.
Existen otras áreas de colaboración, donde los humanos ayudan a las máquinas, y viceversa. Las técnicas de procesamiento de imágenes pueden ayudar a una lectura extraordinariamente compleja para un ser humano tales como el Palimpsesto de Arquímedes o los Manuscritos del Mar Muerto. Para problemas de reconocimiento muy complejos se usan las redes neuronales ya que pueden efectuar, de manera indistinta, tanto transformaciones no lineales como transformaciones afines.
[editar] Véase también
- Gestures del Mozilla
- Reconocimiento de escritura
- Reconocimiento de imágenes
- Reconocimiento de voz
- Reconocimiento de matrículas
- Sintetizador de voz
- Trazador de imágenes para convertir de imagen a gráfico vectorial
[editar] Programas OCR Libres
- Kooka http://kooka.kde.org/ (Programa para escaneo del projecto KDE)
- GOCR http://jocr.sourceforge.net/ (GOCR es un programa OCR (Optical Character Recognition) desarrollado bajo la Licencia Publica GNU
- ocrad
- ocre
[editar] Programas comerciales
- http://www.abbyy.com (programas SDK, leer formularios, documentos semi-estructurados y más)
- CVISION PdfCompressor OCR con PDFcompresión.