Esta comparación de software de reconocimiento óptico de caracteres incluye:
- Motores de OCR, que hacen la identificación real de caracteres.
- Software de análisis de diseño, que divide los documentos escaneados en zonas adecuadas para OCR
- Interfaces gráficas para uno o más motores de OCR
- Kits de desarrollo de software que se utilizan para agregar capacidades de OCR a otro software (por ejemplo, aplicaciones de procesamiento de formularios, sistemas de administración de imágenes de documentos, sistemas de descubrimiento electrónico, soluciones de administración de registros)
Nombre | Año de fundación | Última versión estable | Año de lanzamiento | Licencia | En línea | Ventanas | Mac OS X | Linux | BSD | Androide | iOS | Lenguaje de programación | SDK ? | Idiomas | Fuentes | Formatos de salida | Notas | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Google Drive OCR o Google Cloud Vision | 2015 | Propiedad | sí | Navegador | Navegador | Navegador | Desconocido | ? | ? | Desconocido | sí | 200+ | Todas las fuentes | texto | Entrada de blog de Google [1] [2] | |||
Tesseract | 1985 | 4.1.1 | 2019 | apache | No | sí | sí | sí | sí | ? | ? | C ++, C | sí | 100+ [3] | Cualquier fuente impresa | Texto, ALTO , hOCR , [4] PDF, otros con diferentes interfaces de usuario [5] o la API | Creado por Hewlett-Packard ; en desarrollo por Google [6] | |
ABBYY FineReader | 1989 | 15 | 2019 | Propiedad | sí | sí | sí | sí | sí | ? | ? | C / C ++ | sí | 192 [7] | Todas las fuentes | DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 [8] | ABBYY también suministra SDK para dispositivos integrados y móviles. Ediciones Professional, Corporate y Site License para Windows, Express Edition para Mac. [9] | |
E-aksharayan | 2010 | sí | No | sí | No | ? | ? | 14 | RTF, TXT, BRL | |||||||||
SDK de Asprise OCR | 1998 | 15 | 2015 | Propiedad | sí | sí | sí | sí | sí | ? | ? | Java, C #, VB.NET, C / C ++ / Delphi | sí | 20+ [10] | ? | Texto sin formato, PDF con capacidad de búsqueda, XML [11] | Java, C #, VB.NET, C / C ++ / Delphi SDK para reconocimiento de códigos de barras y OCR en Windows, Linux, Mac OS X y Unix. [12] | |
Software AnyDoc | 1989 | ? | ? | Propiedad | No | sí | No | No | No | ? | ? | VBScript | ? | ? | ? | Funciona con documentos estructurados, semiestructurados y no estructurados. | ||
Motor de OCR de ConPDS [13] | 2014 | 2020.12 | 2020 | Propiedad | No | sí | No | sí | No | sí | sí | C / C ++ | No, Plug-n-Play | ? | Fuentes compatibles con BIC ( estándar I SO 6346 ) e ILU ( estándar EN 13044-1 ) | JSON | ConPDS suministra un motor OCR capacitado a medida para la industria del transporte y el envío. Compatible con los siguientes lenguajes de programación: C / C ++, C #, VB.NET, Java y más bajo pedido. | |
Cuneiforme | 1996 | 1.1 | 2011-04-19 | Variante BSD | No | sí | sí | sí | sí | ? | ? | C / C ++ | sí | 28 | Cualquier fuente impresa | HTML, hOCR, nativo, RTF, TeX , TXT [14] | Sistema de clase empresarial, puede guardar formato de texto y reconoce tablas complicadas de cualquier estructura | |
SDK de Dynamsoft OCR | 2003 | 8.2 | 2012 | Propiedad | sí | sí | No | No | No | ? | ? | C / C ++ | sí | 40+ [15] | ? | PDF, TXT | ||
OmniPage | 1970 | 19,2 | 2015 | Propiedad | sí | sí | sí | sí | No | ? | ? | C / C ++, C # [16] | sí | 125 [17] | Fuentes impresas a máquina y a mano | DOC / DOCX XLS / XLSX PPTX RTF PDF PDF / A PDF con capacidad de búsqueda Texto HTML XML ePUB MP3 | Producto de Nuance Communications | |
Microsoft Office OneNote 2007 | 2011 | ? | 2007 | Propiedad | No | sí | No | No | No | ? | ? | ? | ? | ? | ? | |||
GOCR | 2000 | 0,52 [18] | 2018-10-15 | GPL | Sí [19] | sí | sí | sí | sí | ? | ? | C | ? | 20+ | ? | |||
Ocrad | ? | 0,26 [20] | 2017-03-31 | GPL | sí | No | sí | sí | sí | ? | ? | C ++ | sí | alfabeto latino | ? | Línea de comando | ||
SmartScore | 1991 | 10.5.8 | 2015-07 | Propiedad | No | sí | sí | No | No | ? | ? | ? | ? | ? | ? | Para partituras musicales | ||
Imágenes de documentos de Microsoft Office | ? | Office 2007 | 2007 | Propiedad | No | sí | No | No | No | ? | ? | ? | ? | ? | ? | Utiliza OmniPage [ cita requerida ] | ||
Puma.NET | ? | ? | 2009-10-29 | BSD | No | sí | No | No | No | ? | ? | C# | sí | 28 | Cualquier fuente impresa | .NET OCR SDK basado en el motor de reconocimiento CuneiForm de Cognitive Technologies. Envuelve el servidor COM de Puma y proporciona una API simplificada para aplicaciones .NET | ||
ReadSoft | ? | ? | ? | Propiedad | No | sí | No | No | No | ? | ? | ? | ? | ? | ? | Escanee, capture y clasifique documentos comerciales como facturas, formularios y órdenes de compra integrados con los procesos comerciales. | ||
Scantron | ? | ? | ? | Propiedad | No | sí | No | No | No | ? | ? | ? | ? | ? | ? | Para trabajar con interfaces localizadas, se requiere la compatibilidad con el idioma correspondiente. | ||
OCRFeeder | 2009-03 | 0.8.1 | 2014-12-22 | GPL | No | No | No | sí | No | ? | ? | Pitón | ? | ? | ? | Cuenta con una interfaz de usuario completa y tiene una herramienta de línea de comandos para operaciones automáticas. Tiene su propio algoritmo de segmentación, pero utiliza motores de OCR en todo el sistema, como Tesseract u Ocrad | ||
OCRopus | 2007 | 1.3.3 | 2017-12-16 | apache | No | No | sí | sí | sí | ? | ? | Pitón | ? | Todos los idiomas que utilizan la escritura latina (se pueden entrenar otros idiomas) | Escritura latina normal y Fraktur (se pueden entrenar otras escrituras) | TXT, hOCR, [21] PDF [22] | Marco conectable en desarrollo activo, utilizado para Google Books | |
Nombre | Año de fundación | Última versión estable | Año de lanzamiento | Licencia | En línea | Ventanas | Mac OS X | Linux | BSD | Androide | iOS | Lenguaje de programación | SDK? | Idiomas | Fuentes | Formatos de salida | Notas |
Evaluación
Un análisis de la precisión y confiabilidad de los paquetes de OCR Google Docs OCR, Tesseract, ABBYY FineReader y Transym, empleando un conjunto de datos que incluye 1227 imágenes de 15 categorías diferentes, concluyó que Google Docs OCR y ABBYY tienen un mejor desempeño que otros. [23]
Referencias
- ^ Dmitriy Genzel; Ashok Popat (6 de mayo de 2015). "Papel a digital en más de 200 idiomas" .
- ^ Ashok Popat (4 de septiembre de 2015). "IEEE SPS: reconocimiento óptico de caracteres para la mayoría de los idiomas del mundo" .
- ^ Basado en el recuento de archivos de aprendizaje de idiomas para la versión 3.04. Disponible en la página de descarga .
- ^ El uso se explica en el archivo Léame y las preguntas frecuentes de Tesseract
- ^ Como ODF con OCRFeeder
- ^ "GitHub - tesseract-ocr / tesseract: Tesseract Open Source OCR Engine (repositorio principal)" . Consultado el 5 de noviembre de 2018 .
- ^ "ABBYY FineReader 14: Especificaciones técnicas" . Finereader.abbyy.com . Consultado el 23 de febrero de 2017 .
- ^ "ABBYY FineReader 11: Especificaciones técnicas" . Finereader.abbyy.com . Consultado el 12 de septiembre de 2013 .
- ^ "Mejor software de OCR" . Ocrworld.com. 2010-03-30. Archivado desde el original el 23 de febrero de 2017 . Consultado el 12 de septiembre de 2013 .
- ^ "Funciones de Asprise OCR SDK" . asprise.com . Consultado el 21 de junio de 2014 .
- ^ "Funciones de la biblioteca Asprise Java OCR" . asprise.com . Consultado el 21 de junio de 2014 .
- ^ "Asprise Java, C # / VB.NET OCR API" . asprise.com. 2015-11-19 . Consultado el 19 de noviembre de 2015 .
- ^ "Página de inicio de ConPDS" .
- ^ Página de manual de Debian para Cuneiform para Linux versión 1.1.0
- ^ "Descarga de paquetes de idioma OCR SDK" . Dynamsoft.com . Consultado el 12 de septiembre de 2013 .
- ^ "OmniPage CSDK - Kit de herramientas de captura de documentos OCR | Imágenes de documentos y OCR" . Matiz. Archivado desde el original el 24 de agosto de 2010 . Consultado el 12 de septiembre de 2013 .
- ^ "Conversión de documentos estándar de OmniPage" . Matiz. Archivado desde el original el 13 de marzo de 2014 . Consultado el 25 de febrero de 2014 .
- ^ "Página de inicio de GOCR" . wasd.urz.uni-magdeburg.de . Consultado el 17 de octubre de 2018 .
- ^ "GOCR" . Jocr.sourceforge.net . Consultado el 12 de septiembre de 2013 .
- ^ Díaz, Antonio (16 de abril de 2015). "GNU Ocrad 0.26 lanzado" (lista de correo). info-gnu.
- ^ OCRopus incluye la herramienta ocropus-hocr que produce hOCR a partir de los resultados del reconocimiento.
- ^ En combinación con las herramientas hocr
- ^ Assefi, Mehdi (1 de diciembre de 2016). "OCR como servicio: una evaluación experimental de Google Docs OCR, Tesseract, ABBYY FineReader y Transym" . ResearchGate . Consultado el 31 de enero de 2019 .