Reconocimiento óptico de caracteres


El reconocimiento óptico de caracteres o lector óptico de caracteres ( OCR ) es la conversión electrónica o mecánica de imágenes de texto mecanografiado, escrito a mano o impreso en texto codificado por máquina, ya sea de un documento escaneado, una foto de un documento, una escena-foto (por ejemplo el texto en letreros y vallas publicitarias en una foto de paisaje) o del texto de subtítulo superpuesto a una imagen (por ejemplo: de una transmisión de televisión). [1]

Video del proceso de escaneo y reconocimiento óptico de caracteres (OCR) en tiempo real con un escáner portátil.

Ampliamente utilizado como una forma de entrada de datos de registros de datos impresos en papel, ya sean documentos de pasaporte, facturas, extractos bancarios , recibos computarizados, tarjetas de visita, correo, impresiones de datos estáticos o cualquier documentación adecuada, es un método común de digitalización de impresos. textos para poder editarlos, buscarlos, almacenarlos de forma más compacta, visualizarlos en línea y utilizarlos en procesos de máquina como la computación cognitiva , la traducción automática , la conversión de texto a voz (extraída) , datos clave y minería de textos . OCR es un campo de investigación en reconocimiento de patrones , inteligencia artificial y visión por computadora .

Las primeras versiones debían entrenarse con imágenes de cada personaje y trabajar en una fuente a la vez. Los sistemas avanzados capaces de producir un alto grado de precisión de reconocimiento para la mayoría de las fuentes son ahora comunes y con soporte para una variedad de entradas de formato de archivo de imagen digital. [2] Algunos sistemas son capaces de reproducir resultados formateados que se aproximan mucho a la página original, incluidas imágenes, columnas y otros componentes no textuales.

El reconocimiento óptico temprano de caracteres se remonta a tecnologías que involucran la telegrafía y la creación de dispositivos de lectura para ciegos. [3] En 1914, Emanuel Goldberg desarrolló una máquina que leía caracteres y los convertía en código telegráfico estándar. [4] Al mismo tiempo, Edmund Fournier d'Albe desarrolló el Optophone , un escáner de mano que cuando se movía a través de una página impresa, producía tonos que correspondían a letras o caracteres específicos. [5]

A finales de la década de 1920 y principios de la de 1930, Emanuel Goldberg desarrolló lo que llamó una "máquina estadística" para buscar archivos de microfilm utilizando un sistema de reconocimiento óptico de códigos. En 1931 se le concedió la patente estadounidense número 1.838.389 por la invención. La patente fue adquirida por IBM .

Usuarios ciegos y con discapacidad visual

En 1974, Ray Kurzweil comenzó la compañía Kurzweil Computer Products, Inc. y desarrollo continuo de omni fuente OCR, lo que podría reconocer el texto impreso en prácticamente cualquier fuente (Kurzweil a menudo se le atribuye la invención omni-fuente OCR, pero estaba en uso por empresas, incluida CompuScan, a finales de los sesenta y setenta [3] [6] ). Kurzweil decidió que la mejor aplicación de esta tecnología sería crear una máquina de lectura para ciegos, que permitiría a las personas ciegas tener una computadora que les lea el texto en voz alta. Este dispositivo requirió la invención de dos tecnologías habilitadoras: el escáner de superficie plana CCD y el sintetizador de texto a voz. El 13 de enero de 1976, el exitoso producto terminado fue revelado durante una conferencia de prensa encabezada por Kurzweil y los líderes de la Federación Nacional de Ciegos . [ cita requerida ] En 1978, Kurzweil Computer Products comenzó a vender una versión comercial del programa de computadora de reconocimiento óptico de caracteres. LexisNexis fue uno de los primeros clientes y compró el programa para cargar papel legal y documentos de noticias en sus nacientes bases de datos en línea. Dos años más tarde, Kurzweil vendió su empresa a Xerox , que tenía interés en comercializar aún más la conversión de texto de papel a computadora. Xerox finalmente lo escindió como Scansoft , que se fusionó con Nuance Communications .

En la década de 2000, el OCR se puso a disposición en línea como servicio (WebOCR), en un entorno de computación en la nube y en aplicaciones móviles como la traducción en tiempo real de letreros en idiomas extranjeros en un teléfono inteligente . Con la llegada de los teléfonos inteligentes y las gafas inteligentes , el OCR se puede utilizar en aplicaciones de dispositivos móviles conectados a Internet que extraen el texto capturado con la cámara del dispositivo. Estos dispositivos que no tienen la funcionalidad de OCR incorporada en el sistema operativo normalmente usarán una API de OCR para extraer el texto del archivo de imagen capturado y proporcionado por el dispositivo. [7] [8] La API de OCR devuelve el texto extraído, junto con información sobre la ubicación del texto detectado en la imagen original, a la aplicación del dispositivo para su procesamiento posterior (como texto a voz) o visualización.

Hay varios sistemas de OCR comerciales y de código abierto disponibles para los sistemas de escritura más comunes , incluidos caracteres latinos, cirílicos, árabes, hebreos, índicos, bengalíes (bengalíes), devanagari, tamil, chinos, japoneses y coreanos.

Los motores de OCR se han desarrollado en muchos tipos de aplicaciones de OCR específicas de dominio, como OCR de recibos, OCR de facturas, OCR de cheques, OCR de documentos de facturación legal.

Pueden utilizarse para:

  • Entrada de datos para documentos comerciales, por ejemplo, cheque , pasaporte, factura, extracto bancario y recibo
  • Reconocimiento automático de matrículas
  • En los aeropuertos, para el reconocimiento de pasaportes y la extracción de información.
  • Extracción automática de información clave de documentos de seguros [ cita requerida ]
  • Reconocimiento de señales de tráfico [9]
  • Extraer información de la tarjeta de presentación en una lista de contactos [10]
  • Cree versiones textuales de documentos impresos más rápidamente, por ejemplo, escaneo de libros para el Proyecto Gutenberg
  • Haga que las imágenes electrónicas de documentos impresos se puedan buscar, por ejemplo, Google Books
  • Conversión de escritura a mano en tiempo real para controlar una computadora ( computación con lápiz )
  • Derrotar a los sistemas anti-bot CAPTCHA , aunque estos están diseñados específicamente para prevenir el OCR. [11] [12] [13] El propósito también puede ser probar la robustez de los sistemas anti-bot CAPTCHA.
  • Tecnología de asistencia para usuarios ciegos y con discapacidad visual
  • Escribir las instrucciones para vehículos identificando imágenes CAD en una base de datos que sean apropiadas para el diseño del vehículo a medida que cambia en tiempo real.
  • Hacer que los documentos escaneados se puedan buscar convirtiéndolos en PDF con capacidad de búsqueda

  • Reconocimiento óptico de caracteres (OCR): apunta al texto escrito a máquina, un glifo o carácter a la vez.
  • Reconocimiento óptico de palabras: apunta al texto escrito a máquina, una palabra a la vez (para idiomas que usan un espacio como separador de palabras ). (Por lo general, solo se llama "OCR").
  • Reconocimiento inteligente de caracteres (ICR): también tiene como objetivo el texto impreso o cursivo escrito a mano, un glifo o carácter a la vez, generalmente con aprendizaje automático .
  • Reconocimiento de palabras inteligente (IWR) - también está dirigido escrito a mano caracteres de imprenta o cursiva texto, una palabra a la vez. Esto es especialmente útil para lenguajes donde los glifos no están separados en cursiva.

El OCR es generalmente un proceso "sin conexión", que analiza un documento estático. Hay servicios basados ​​en la nube que brindan un servicio API de OCR en línea. El análisis del movimiento de escritura a mano se puede utilizar como entrada para el reconocimiento de escritura a mano . [14] En lugar de utilizar simplemente las formas de los glifos y las palabras, esta técnica es capaz de capturar movimientos, como el orden en el que se dibujan los segmentos , la dirección y el patrón de colocar el bolígrafo y levantarlo. Esta información adicional puede hacer que el proceso de un extremo a otro sea más preciso. Esta tecnología también se conoce como "reconocimiento de caracteres en línea", "reconocimiento dinámico de caracteres", "reconocimiento de caracteres en tiempo real" y "reconocimiento inteligente de caracteres".

Preprocesamiento

El software de OCR a menudo "preprocesa" las imágenes para mejorar las posibilidades de reconocimiento exitoso. Las técnicas incluyen: [15]

  • De- sesgo  - Si el documento no se ha alineado correctamente cuando se escanea, puede que tenga que ser inclinado unos pocos grados hacia la derecha o hacia la izquierda con el fin de hacer que las líneas de texto perfectamente horizontal o vertical.
  • Eliminación de manchas  : elimine los puntos positivos y negativos, suavizando los bordes
  • Binarización: convierte una imagen de color o escala de grises a blanco y negro (llamada " imagen binaria " porque hay dos colores). La tarea de binarización se realiza como una forma sencilla de separar el texto (o cualquier otro componente de imagen deseado) del fondo. [16] La tarea de la binarización en sí es necesaria ya que la mayoría de los algoritmos de reconocimiento comerciales funcionan solo en imágenes binarias, ya que resulta más sencillo hacerlo. [17] Además, la eficacia del paso de binarización influye en gran medida en la calidad de la etapa de reconocimiento de caracteres y se toman decisiones cuidadosas en la elección de la binarización empleada para un tipo de imagen de entrada determinado; ya que la calidad del método de binarización empleado para obtener el resultado binario depende del tipo de imagen de entrada (documento escaneado, imagen de texto de escena, documento histórico degradado, etc.). [18] [19]
  • Eliminación de líneas: limpia los cuadros y líneas que no son glifos
  • Análisis de diseño o "zonificación": identifica columnas, párrafos, leyendas, etc. como bloques distintos. Especialmente importante en diseños y tablas de varias columnas .
  • Detección de líneas y palabras: establece una línea de base para las formas de palabras y caracteres, separa las palabras si es necesario.
  • Reconocimiento de guiones: en documentos multilingües, el guión puede cambiar al nivel de las palabras y, por lo tanto, es necesaria la identificación del guión, antes de que se pueda invocar el OCR correcto para manejar el guión específico. [20]
  • Aislamiento de caracteres o "segmentación": para OCR por carácter, se deben separar varios caracteres que están conectados debido a artefactos de imagen; los caracteres individuales que se dividen en varias piezas debido a artefactos deben estar conectados.
  • Normalizar la relación de aspecto y la escala [21]

La segmentación de fuentes de paso fijo se logra de manera relativamente simple alineando la imagen a una cuadrícula uniforme basada en donde las líneas de cuadrícula verticales se cruzan con menos frecuencia con las áreas negras. Para fuentes proporcionales , se necesitan técnicas más sofisticadas porque los espacios en blanco entre letras a veces pueden ser mayores que entre palabras y las líneas verticales pueden cruzar más de un carácter. [22]

Reconocimiento de texto

Hay dos tipos básicos de algoritmos de OCR centrales, que pueden producir una lista clasificada de caracteres candidatos. [23]

  • La coincidencia de matrices implica comparar una imagen con un glifo almacenado píxel por píxel; también se conoce como "coincidencia de patrones", " reconocimiento de patrones " o " correlación de imágenes ". Esto se basa en que el glifo de entrada esté correctamente aislado del resto de la imagen y en que el glifo almacenado tenga una fuente similar y la misma escala. Esta técnica funciona mejor con texto escrito a máquina y no funciona bien cuando se encuentran fuentes nuevas. Esta es la técnica que implementó el primer OCR basado en fotocélulas físicas, de manera bastante directa.
  • La extracción de características descompone glifos en "características" como líneas, bucles cerrados, dirección de línea e intersecciones de línea. Las características de extracción reducen la dimensionalidad de la representación y hacen que el proceso de reconocimiento sea computacionalmente eficiente. Estas características se comparan con una representación vectorial abstracta de un carácter, que podría reducirse a uno o más prototipos de glifos. Las técnicas generales de detección de características en la visión por computadora son aplicables a este tipo de OCR, que se ve comúnmente en el reconocimiento de escritura "inteligente" y, de hecho, en la mayoría del software de OCR moderno. [24] Los clasificadores de vecinos más cercanos , como el algoritmo de k vecinos más cercanos, se utilizan para comparar características de imagen con características de glifo almacenadas y elegir la coincidencia más cercana. [25]

Software como Cuneiform y Tesseract utilizan un enfoque de dos pasos para el reconocimiento de caracteres. La segunda pasada se conoce como "reconocimiento adaptativo" y utiliza las formas de las letras reconocidas con alta confianza en la primera pasada para reconocer mejor las letras restantes en la segunda pasada. Esto es ventajoso para fuentes inusuales o escaneos de baja calidad donde la fuente está distorsionada (por ejemplo, borrosa o descolorida). [22]

El software OCR moderno como, por ejemplo, OCRopus o Tesseract utiliza redes neuronales que fueron entrenadas para reconocer líneas completas de texto en lugar de centrarse en caracteres individuales.

Una nueva técnica conocida como OCR iterativo recorta automáticamente un documento en secciones según el diseño de la página. El OCR se realiza en las secciones individualmente utilizando umbrales de nivel de confianza de caracteres variables para maximizar la precisión del OCR a nivel de página. [26]

El resultado de OCR se puede almacenar en el formato ALTO estandarizado , un esquema XML dedicado mantenido por la Biblioteca del Congreso de los Estados Unidos . Otros formatos comunes incluyen hOCR y PAGE XML.

Para obtener una lista de software de reconocimiento óptico de caracteres, consulte Comparación de software de reconocimiento óptico de caracteres .

Postprocesamiento

La precisión del OCR se puede aumentar si la salida está limitada por un léxico  , una lista de palabras que pueden aparecer en un documento. [15] Esto podría ser, por ejemplo, todas las palabras del idioma inglés o un léxico más técnico para un campo específico. Esta técnica puede ser problemática si el documento contiene palabras que no están en el léxico, como nombres propios . Tesseract usa su diccionario para influir en el paso de segmentación de caracteres, para mejorar la precisión. [22]

El flujo de salida puede ser un flujo de texto sin formato o un archivo de caracteres, pero los sistemas de OCR más sofisticados pueden preservar el diseño original de la página y producir, por ejemplo, un PDF anotado que incluye tanto la imagen original de la página como una representación textual con capacidad de búsqueda. .

El "análisis de vecinos cercanos" puede hacer uso de frecuencias de co-ocurrencia para corregir errores, notando que ciertas palabras a menudo se ven juntas. [27] Por ejemplo, "Washington, DC" es generalmente mucho más común en inglés que "Washington DOC".

El conocimiento de la gramática del idioma que se escanea también puede ayudar a determinar si es probable que una palabra sea un verbo o un sustantivo, por ejemplo, lo que permite una mayor precisión.

El algoritmo de distancia de Levenshtein también se ha utilizado en el posprocesamiento de OCR para optimizar aún más los resultados de una API de OCR. [28]

Optimizaciones específicas de la aplicación

En los últimos años, [ ¿cuándo? ] los principales proveedores de tecnología de OCR comenzaron a ajustar los sistemas de OCR para tratar de manera más eficiente con tipos específicos de entrada. Más allá de un léxico específico de la aplicación, se puede obtener un mejor rendimiento si se tienen en cuenta las reglas comerciales, la expresión estándar, [ aclaración necesaria ] o la rica información contenida en imágenes en color. Esta estrategia se denomina "OCR orientado a aplicaciones" u "OCR personalizado" y se ha aplicado al OCR de matrículas , facturas , capturas de pantalla , tarjetas de identificación , licencias de conducir y fabricación de automóviles .

The New York Times ha adaptado la tecnología OCR a una herramienta patentada que ellos mismos titulan, Document Helper , que permite a su equipo de noticias interactivas acelerar el procesamiento de documentos que necesitan ser revisados. Señalan que les permite procesar lo que equivale a 5400 páginas por hora en preparación para que los reporteros revisen el contenido. [29]

Existen varias técnicas para resolver el problema del reconocimiento de caracteres por medios distintos a los algoritmos mejorados de OCR.

Forzar una mejor entrada

Las fuentes especiales como las fuentes OCR-A , OCR-B o MICR , con tamaños, espacios y formas de caracteres distintivos especificados con precisión, permiten una mayor tasa de precisión durante la transcripción en el procesamiento de cheques bancarios. Irónicamente, sin embargo, varios motores de OCR prominentes fueron diseñados para capturar texto en fuentes populares como Arial o Times New Roman, y son incapaces de capturar texto en estas fuentes que son especializadas y muy diferentes de las fuentes de uso popular. Como Google Tesseract puede capacitarse para reconocer nuevas fuentes, puede reconocer fuentes OCR-A, OCR-B y MICR. [30]

Los "campos de peine" son recuadros preimpresos que animan a los humanos a escribir de forma más legible: un glifo por recuadro. [27] A menudo se imprimen en un "color de omisión" que el sistema OCR puede eliminar fácilmente. [27]

Palm OS utilizó un conjunto especial de glifos, conocido como " Graffiti ", que son similares a los caracteres impresos en inglés, pero simplificados o modificados para un reconocimiento más fácil en el hardware computacionalmente limitado de la plataforma. Los usuarios deberían aprender a escribir estos glifos especiales.

El OCR basado en zonas restringe la imagen a una parte específica de un documento. Esto a menudo se conoce como "Plantilla OCR".

Crowdsourcing

El crowdsourcing de humanos para realizar el reconocimiento de caracteres puede procesar rápidamente imágenes como el OCR controlado por computadora, pero con mayor precisión para reconocer imágenes que la que se obtiene con las computadoras. Los sistemas prácticos incluyen Amazon Mechanical Turk y reCAPTCHA . La Biblioteca Nacional de Finlandia ha desarrollado una interfaz en línea para que los usuarios corrijan textos con OCR en el formato ALTO estandarizado. [31] El crowdsourcing también se ha utilizado no para realizar el reconocimiento de personajes directamente, sino para invitar a los desarrolladores de software a desarrollar algoritmos de procesamiento de imágenes, por ejemplo, mediante el uso de torneos por orden de clasificación . [32]

Encargado por el Departamento de Energía de los EE. UU. (DOE), el Instituto de Investigación en Ciencias de la Información (ISRI) tenía la misión de fomentar la mejora de las tecnologías automatizadas para comprender los documentos impresos a máquina, y realizó la prueba anual de precisión de OCR más autorizada de 1992 hasta 1996. [33]

El reconocimiento del texto escrito a máquina en caracteres latinos todavía no es 100% exacto, incluso cuando se dispone de imágenes claras. Un estudio basado en el reconocimiento de páginas de periódicos del siglo XIX y principios del XX concluyó que la precisión de OCR carácter por carácter para software comercial de OCR variaba del 81% al 99%; [34] se puede lograr una precisión total mediante revisión humana o autenticación de diccionario de datos. Otras áreas, incluido el reconocimiento de la escritura a mano, la escritura cursiva y el texto impreso en otras escrituras (especialmente los caracteres del idioma de Asia oriental que tienen muchos trazos para un solo carácter), siguen siendo objeto de una investigación activa. La base de datos MNIST se usa comúnmente para probar la capacidad de los sistemas para reconocer dígitos escritos a mano.

Las tasas de precisión se pueden medir de varias formas, y la forma en que se miden puede afectar en gran medida la tasa de precisión informada. Por ejemplo, si el contexto de palabras (básicamente un léxico de palabras) no se usa para corregir el software que encuentra palabras inexistentes, una tasa de error de caracteres del 1% (99% de precisión) puede resultar en una tasa de error del 5% (95% de precisión). ) o peor si la medición se basa en si cada palabra completa fue reconocida sin letras incorrectas. [35] El uso de un conjunto de datos lo suficientemente grande es muy importante en las soluciones de reconocimiento de escritura a mano basadas en redes neuronales. Por otro lado, producir conjuntos de datos naturales es muy complicado y requiere mucho tiempo. [36]

Un ejemplo de las dificultades inherentes a la digitalización de texto antiguo es la incapacidad del OCR para diferenciar entre los caracteres " s " y "f" largos . [37]

Los sistemas de OCR basados ​​en la web para reconocer texto impreso a mano sobre la marcha se han vuelto bien conocidos como productos comerciales en los últimos años [ ¿cuándo? ] (consulte el historial de Tablet PC ). Se pueden lograr tasas de precisión del 80% al 90% en caracteres limpios e impresos a mano mediante un software de computación con lápiz , pero esa tasa de precisión aún se traduce en docenas de errores por página, lo que hace que la tecnología sea útil solo en aplicaciones muy limitadas. [ cita requerida ]

El reconocimiento de texto en cursiva es un área activa de investigación, con tasas de reconocimiento incluso más bajas que las del texto impreso a mano . Es probable que no sea posible lograr tasas más altas de reconocimiento de la escritura cursiva general sin el uso de información contextual o gramatical. Por ejemplo, reconocer palabras completas de un diccionario es más fácil que tratar de analizar caracteres individuales de un guión. La lectura de la línea Monto de un cheque (que siempre es un número escrito) es un ejemplo en el que el uso de un diccionario más pequeño puede aumentar considerablemente las tasas de reconocimiento. Las formas de los caracteres cursivas individuales en sí mismas simplemente no contienen suficiente información para reconocer con precisión (más del 98%) todas las letras cursivas escritas a mano. [ cita requerida ]

La mayoría de los programas permiten a los usuarios establecer "índices de confianza". Esto significa que si el software no alcanza el nivel de precisión deseado, se puede notificar al usuario para que lo revise manualmente.

Un error introducido por el escaneo OCR a veces se denomina "scanno" (por analogía con el término "error tipográfico" ). [38] [39]

Los caracteres para admitir OCR se agregaron al estándar Unicode en junio de 1993, con el lanzamiento de la versión 1.1.

Algunos de estos caracteres se asignan a partir de fuentes específicas de MICR , OCR-A u OCR-B .

  • Efecto AI
  • Aplicaciones de la inteligencia artificial
  • Comparación de software de reconocimiento óptico de caracteres
  • Ligüística computacional
  • Libreria digital
  • Sala de correo digital
  • Bolígrafo digital
  • Repositorio institucional
  • Legibilidad
  • Lista de tecnologías emergentes
  • Solución de reconocimiento de caracteres de tinta en vivo
  • Reconocimiento de caracteres de tinta magnética
  • Música OCR
  • OCR en idiomas indios
  • Reconocimiento óptico de marcas
  • Esquema de la inteligencia artificial
  • Reconocimiento de bocetos
  • Reconocimiento de voz
  • Motor Tesseract OCR
  • Grabación de voz

  1. ^ Bajo demanda, HPE Haven. "Documento OCR" . Archivado desde el original el 15 de abril de 2016.
  2. ^ OnDemand, HPE Haven. "indefinido" . Archivado desde el original el 19 de abril de 2016.
  3. ^ a b Schantz, Herbert F. (1982). La historia del OCR, reconocimiento óptico de caracteres . [Manchester Center, Vt.]: Asociación de usuarios de tecnologías de reconocimiento. ISBN 9780943072012.
  4. ^ Dhavale, Sunita Vikrant (10 de marzo de 2017). Técnicas avanzadas de filtrado y detección de spam basadas en imágenes . Hershey, PA: IGI Global. pag. 91. ISBN 9781683180142. Consultado el 27 de septiembre de 2019 .
  5. ^ d'Albe, EEF (1 de julio de 1914). "En un optofono de lectura de tipos" . Actas de la Royal Society A: Ciencias Matemáticas, Físicas e Ingeniería . 90 (619): 373–375. Código bibliográfico : 1914RSPSA..90..373D . doi : 10.1098 / rspa.1914.0061 .
  6. ^ "La Historia de OCR". Revista de procesamiento de datos . 12 : 46. 1970.
  7. ^ "Extracción de texto de imágenes mediante OCR en Android" . 27 de junio de 2015. Archivado desde el original el 15 de marzo de 2016.
  8. ^ "[Tutorial] OCR en Google Glass" . 23 de octubre de 2014. Archivado desde el original el 5 de marzo de 2016.
  9. ^ Qing-An Zeng (28 de octubre de 2015). Comunicaciones, redes y aplicaciones inalámbricas: Actas de la CMNA 2014 . Saltador. ISBN 978-81-322-2580-5.
  10. ^ "[javascript] Uso de OCR y extracción de entidades para búsqueda de empresas de LinkedIn" . 22 de julio de 2014. Archivado desde el original el 17 de abril de 2016.
  11. ^ "Cómo descifrar captchas" . andrewt.net. 28 de junio de 2006 . Consultado el 16 de junio de 2013 .
  12. ^ "Rompiendo un CAPTCHA visual" . Cs.sfu.ca. 10 de diciembre de 2002 . Consultado el 16 de junio de 2013 .
  13. ^ John Resig (23 de enero de 2009). "John Resig - OCR y redes neuronales en JavaScript" . Ejohn.org . Consultado el 16 de junio de 2013 .
  14. ^ Tappert, CC; Suen, CY; Wakahara, T. (1990). "El estado del arte en el reconocimiento de escritura a mano en línea" . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 12 (8): 787. doi : 10.1109 / 34.57669 . S2CID  42920826 .
  15. ^ a b "Reconocimiento óptico de caracteres (OCR): cómo funciona" . Nicomsoft.com . Consultado el 16 de junio de 2013 .
  16. ^ Sezgin, Mehmet; Sankur, Bulent (2004). "Encuesta sobre técnicas de umbralización de imágenes y evaluación cuantitativa del desempeño" (PDF) . Revista de imágenes electrónicas . 13 (1): 146. Código Bibliográfico : 2004JEI .... 13..146S . doi : 10.1117 / 1.1631315 . Archivado desde el original (PDF) el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
  17. ^ Gupta, Maya R .; Jacobson, Nathaniel P .; García, Eric K. (2007). "Binarización OCR y preprocesamiento de imágenes para la búsqueda de documentos históricos" (PDF) . Reconocimiento de patrones . 40 (2): 389. doi : 10.1016 / j.patcog.2006.04.043 . Archivado desde el original (PDF) el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
  18. ^ Trier, Oeivind Due; Jain, Anil K. (1995). "Evaluación dirigida por objetivos de los métodos de binarización" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 17 (12): 1191–1201. doi : 10.1109 / 34.476511 . Consultado el 2 de mayo de 2015 .
  19. ^ Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Víctor (2013). "Binarización de imágenes para la comprensión de texto de un extremo a otro en imágenes naturales" (PDF) . Análisis y reconocimiento de documentos (ICDAR) 2013 . 12ª Conferencia Internacional en: 128-132. doi : 10.1109 / ICDAR.2013.33 . ISBN 978-0-7695-4999-6. S2CID  8947361 . Consultado el 2 de mayo de 2015 .
  20. ^ Pati, PB; Ramakrishnan, AG (29 de mayo de 1987). "Identificación multi-script de nivel de palabra". Cartas de reconocimiento de patrones . 29 (9): 1218-1229. doi : 10.1016 / j.patrec.2008.01.027 .
  21. ^ "OCR básico en OpenCV | Damiles" . Blog.damiles.com. 20 de noviembre de 2008 . Consultado el 16 de junio de 2013 .
  22. ^ a b c Ray Smith (2007). "Una descripción general del motor Tesseract OCR" (PDF) . Archivado desde el original (PDF) el 28 de septiembre de 2010 . Consultado el 23 de mayo de 2013 .
  23. ^ "Introducción al OCR" . Dataid.com . Consultado el 16 de junio de 2013 .
  24. ^ "Cómo funciona el software OCR" . OCRWizard. Archivado desde el original el 16 de agosto de 2009 . Consultado el 16 de junio de 2013 .
  25. ^ "El reconocimiento y clasificación de patrones básicos con openCV | Damiles" . Blog.damiles.com. 14 de noviembre de 2008 . Consultado el 16 de junio de 2013 .
  26. ^ http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&co1=AND&d=PTXT&s1&89=10,679,079 & RS = 10,679,089
  27. ^ a b c "¿Cómo funciona el escaneo de documentos OCR?" . Explica esas cosas. 30 de enero de 2012 . Consultado el 16 de junio de 2013 .
  28. ^ "¿Cómo optimizar los resultados de la API de OCR al extraer texto de una imagen? - Comunidad de desarrolladores de Haven OnDemand" . Archivado desde el original el 22 de marzo de 2016.
  29. ^ Fehr, Tiff, Cómo aceleramos 900 páginas de documentos de Cohen en menos de 10 minutos , Times Insider, The New York Times , 26 de marzo de 2019
  30. ^ "Entrena a tu Tesseract" . Entrena tu tesseract . 20 de septiembre de 2018 . Consultado el 20 de septiembre de 2018 .
  31. ^ "¿Qué sentido tiene un editor de texto OCR interactivo en línea? - Fenno-Ugrica" . 21 de febrero de 2014.
  32. ^ Riedl, C .; Zanibbi, R .; Hearst, MA; Zhu, S .; Menietti, M .; Crusan, J .; Metelsky, I .; Lakhani, K. (20 de febrero de 2016). "Detección de figuras y etiquetas de piezas en patentes: desarrollo basado en competencia de algoritmos de procesamiento de imágenes". Revista Internacional de Análisis y Reconocimiento de Documentos . 19 (2): 155. arXiv : 1410.6751 . doi : 10.1007 / s10032-016-0260-8 . S2CID  11873638 .
  33. ^ "Código y datos para evaluar la precisión del OCR, originalmente de UNLV / ISRI" . Archivo de código de Google.
  34. ^ Holley, Rose (abril de 2009). "¿Qué tan bueno puede ser? Analizar y mejorar la precisión de OCR en programas de digitalización de periódicos históricos a gran escala" . Revista D-Lib . Consultado el 5 de enero de 2014 .
  35. ^ Suen, CY; Plamondon, R .; Tappert, A .; Thomassen, A .; Ward, JR; Yamamoto, K. (29 de mayo de 1987). Retos futuros en escritura a mano y aplicaciones informáticas . 3er Simposio Internacional sobre Escritura a Mano y Aplicaciones Informáticas, Montreal, 29 de mayo de 1987 . Consultado el 3 de octubre de 2008 .
  36. ^ Ayda Mohseni, Reza Azmi, Arvin Maleki, Kamran Layeghi (2019). Comparación de conjuntos de datos naturales y sintetizados en soluciones de escritura a mano basadas en redes neuronales . ITCT.CS1 maint: varios nombres: lista de autores ( enlace )
  37. ^ Sarantos Kapidakis, Cezary Mazurek, Marcin Werla (2015). Investigación y tecnología avanzada para bibliotecas digitales . Saltador. pag. 257. ISBN 9783319245928. Consultado el 3 de abril de 2018 .CS1 maint: varios nombres: lista de autores ( enlace )
  38. ^ Atkinson, Kristine H. (2015). "Reinvención de la literatura no patentada para el patentamiento farmacéutico". Analista de Patentes Farmacéuticas . 4 (5): 371–375. doi : 10.4155 / ppa.15.21 . PMID  26389649 .
  39. ^ http://www.hoopoes.com/jargon/entry/scanno.shtml Enlace muerto

  • OCR Unicode - Rango hexadecimal: 2440-245F Reconocimiento óptico de caracteres en Unicode
  • Bibliografía comentada de referencias al reconocimiento de caracteres de escritura a mano y la computación con lápiz