Reconocimiento óptico de caracteres


El reconocimiento óptico de caracteres o lector óptico de caracteres ( OCR ) es la conversión electrónica o mecánica de imágenes de texto mecanografiado, escrito a mano o impreso en texto codificado por máquina, ya sea de un documento escaneado, una foto de un documento, una foto de escena (por ejemplo el texto de letreros y vallas publicitarias en una foto de paisaje) o del texto de subtítulos superpuestos a una imagen (por ejemplo: de una transmisión de televisión). [1]

Ampliamente utilizado como una forma de ingreso de datos de registros de datos impresos en papel, ya sean documentos de pasaporte, facturas, extractos bancarios , recibos computarizados, tarjetas de presentación, correo, impresiones de datos estáticos o cualquier documentación adecuada, es un método común para digitalizar documentos impresos. textos para que puedan editarse electrónicamente, buscarse, almacenarse de manera más compacta, mostrarse en línea y usarse en procesos de máquina como computación cognitiva , traducción automática , texto a voz (extraído) , datos clave y minería de texto . OCR es un campo de investigación en reconocimiento de patrones , inteligencia artificial y visión artificial .

Las primeras versiones necesitaban ser entrenadas con imágenes de cada carácter y trabajaron en una fuente a la vez. Los sistemas avanzados capaces de producir un alto grado de precisión de reconocimiento para la mayoría de las fuentes ahora son comunes y admiten una variedad de entradas de formato de archivo de imagen digital. [2] Algunos sistemas son capaces de reproducir resultados formateados que se aproximan mucho a la página original, incluidas imágenes, columnas y otros componentes no textuales.

El reconocimiento óptico de caracteres temprano se puede remontar a tecnologías que involucran la telegrafía y la creación de dispositivos de lectura para ciegos. [3] En 1914, Emanuel Goldberg desarrolló una máquina que leía caracteres y los convertía en código telegráfico estándar. [4] Al mismo tiempo, Edmund Fournier d'Albe desarrolló el Optophone , un escáner de mano que, cuando se movía por una página impresa, producía tonos que correspondían a letras o caracteres específicos. [5]

A fines de la década de 1920 y en la década de 1930 , Emanuel Goldberg desarrolló lo que llamó una "Máquina estadística" para buscar archivos de microfilm utilizando un sistema de reconocimiento de código óptico. En 1931 se le concedió la patente estadounidense número 1.838.389 por la invención. La patente fue adquirida por IBM .

En 1974, Ray Kurzweil fundó la empresa Kurzweil Computer Products, Inc. y continuó con el desarrollo del OCR omnifuente , que podía reconocer texto impreso en prácticamente cualquier fuente (a menudo se le atribuye a Kurzweil la invención del OCR omnifuente, pero ya lo usaban empresas, incluida CompuScan, a finales de los años 60 y 70 [3] [6] ). Kurzweil decidió que la mejor aplicación de esta tecnología sería crear una máquina de lectura para ciegos, que permitiría a las personas ciegas que una computadora les leyera el texto en voz alta. Este dispositivo requirió la invención de dos tecnologías habilitadoras: el escáner de superficie plana CCD y el sintetizador de texto a voz. El 13 de enero de 1976, se dio a conocer el exitoso producto terminado durante una conferencia de prensa ampliamente difundida encabezada por Kurzweil y los líderes de la Federación Nacional de Ciegos . [ cita requerida ] En 1978, Kurzweil Computer Products comenzó a vender una versión comercial del programa informático de reconocimiento óptico de caracteres. LexisNexis fue uno de los primeros clientes y compró el programa para cargar documentos legales y de noticias en sus nacientes bases de datos en línea. Dos años más tarde, Kurzweil vendió su empresa a Xerox , que tenía interés en comercializar aún más la conversión de texto de papel a computadora. Xerox finalmente lo escindió como Scansoft, que se fusionó con Nuance Communications .


Vídeo del proceso de escaneado y reconocimiento óptico de caracteres (OCR) en tiempo real con un escáner portátil.