CuneiForm Cognitive OpenOCR es un sistema OCR de código abierto de distribución gratuita desarrollado por la empresa de software rusa Cognitive Technologies .
Autor (es) original (es) | Tecnologías cognitivas |
---|---|
Desarrollador (es) | Tecnologías cognitivas |
Versión inicial | Fuente 2 de abril de 2008 [1] |
Lanzamiento estable | 1.1 / 19 de abril de 2011 |
Escrito en | C y C ++ |
Sistema operativo | Multiplataforma |
Tipo | Reconocimiento óptico de caracteres |
Licencia | Licencias Freeware / BSD |
Sitio web | launchpad |
CuneiForm OCR fue desarrollado por Cognitive Technologies como un producto comercial en 1993. El sistema vino con los modelos más populares de escáneres, MFP y software en Rusia y el resto del mundo: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti, etc.
En 2008, Cognitive Technologies abrió los códigos fuente del programa.
Características
CuneiForm es un sistema desarrollado para transformar las copias electrónicas de documentos en papel y archivos de imagen en un formato editable sin cambiar la estructura y las fuentes del documento original en modo automático o semiautomático. El sistema incluye dos componentes para el procesamiento individual y por lotes de documentos electrónicos.
La lista de idiomas admitidos por el sistema:
Además, el sistema admite una mezcla de ruso e inglés. El reconocimiento de otros idiomas mixtos solo se admite en la rama, desarrollada por Andrei Borovsky en 2009. [2] Educar el sistema para reconocer otros idiomas es difícil ya que cada idioma está relacionado con un archivo de datos, cuya estructura y método de desarrollo son no divulgado por los desarrolladores.
Historia
1993 - Cognitive Technologies firmó un contrato OEM con Corel , según los términos en los que la biblioteca de reconocimiento cognitivo se incorporó al paquete Corel Draw 3.0 (y versiones posteriores) popular en la esfera editorial.
1994 - El contrato con Hewlett-Packard sobre el equipo de todos los escáneres importados a Rusia con CuneiForm OCR. Este fue el primer contrato de HP con una empresa de software rusa.
1995 - El contrato con la corporación japonesa Epson para el suministro de sus escáneres con CuneiForm OCR. [3] El contrato OEM se firmó con el mayor fabricante mundial de máquinas de fax, impresoras láser, escáneres y otros equipos de oficina: Brother Corporation. Según el acuerdo, el nuevo escáner de rodillos Brother IC-150 estaba equipado con software Cognitive para escaneo y reconocimiento en todo el mundo.
1996 - Acuerdo de OEM con uno de los mayores fabricantes de monitores, máquinas de fax, impresoras láser, MFP y otros equipos de oficina del mundo: Samsung Information Systems America. Según el acuerdo, el nuevo dispositivo multifunción Samsung OFFICE MASTER OML-8630A iba a estar equipado con el sistema Cognitive Cuneiform LE de reconocimiento óptico de símbolos en todo el mundo.
- Acuerdo OEM con un fabricante líder mundial de equipos de oficina Xerox para equipar los dispositivos multifuncionales Xerox 3006 y Pro-610 con el sistema de reconocimiento CuneiForm.
- Lanzamiento de CuneiForm '96 OCR, con los primeros algoritmos de reconocimiento adaptativo del mundo.
Reconocimiento adaptativo : un método basado en una combinación de dos tipos de algoritmos de reconocimiento de caracteres impresos: multifont y omnifont. El sistema genera una fuente interna para cada documento de entrada basada en caracteres bien impresos mediante un ajuste dinámico (adaptación) a los símbolos de entrada específicos. Por lo tanto, el método combina la omnitud y la eficiencia tecnológica del enfoque omnifont con la alta precisión del reconocimiento de fuentes que mejora drásticamente la tasa de reconocimiento.
1997 - El primer uso de tecnologías basadas en redes neuronales en CuneiForm. Los algoritmos que utilizan redes neuronales para el reconocimiento de caracteres se desarrollan de la siguiente manera: la imagen del personaje que se va a reconocer (patrón) se reduce a un cierto tamaño estándar (normalizado). Los valores de luminancia del patrón normalizado se utilizan como parámetros de entrada para la red neuronal. El número de parámetros de salida de la red neuronal es igual al número de caracteres reconocidos. El resultado del reconocimiento es un símbolo, que corresponde al valor máximo del vector de salida de la red neuronal.
- Nuevo acuerdo OEM con Canon para equipar dispositivos multifunción importados a Rusia con el sistema CuneiForm;
- Nuevo contrato OEM con OKI Europe Limited para equipar MFP OKI FAX 4100 y OKI FAX 5200 MFD, importados a Rusia con el sistema CuneiForm;
- El primer sistema OCR CuneiForm MMX Update para la versión del procesador Intel MMX;
- Los escáneres NeuHause vienen con el sistema de reconocimiento CuneiForm;
- Lanzamiento del primer sistema de escaneo en red de Rusia CuneiForm 98 NEST.
1999
- Nuevo contrato OEM con la empresa Olivetti para el suministro de dispositivos multifunción importados a Rusia con el sistema CuneiForm;
- Acuerdo de distribución con un distribuidor europeo líder de la empresa de software WSKA (Francia) para la distribución de OCR Cuneiform Direct en Europa;
- Lanzamiento de la nueva versión del sistema, Cuneiform 2000, que implementa el método de "análisis cognitivo TM": se integra un sistema experto en el núcleo de reconocimiento, que analiza las alternativas a las estimaciones sobre la salida de cada algoritmo de detección, y elige el mejor opción.
- El método de "Meridian table segmentation TM" está desarrollado para mejorar la precisión de recrear la forma original de la tabla en el documento de salida;
- Se presenta el mecanismo de recreación del formulario de documento original: "Lo que escanea es lo que obtienes TM" . La tecnología tenía como objetivo guardar la forma original del documento escaneado en términos de la ubicación de sus componentes. Esto es particularmente importante para los documentos con topología compleja: textos multicolumna con encabezados, anotaciones, ilustraciones gráficas, tablas, etc.
2001 - Contrato OEM con Canon en sus equipos de escáneres y dispositivos multifunción con el software Cognitive Technologies CuneiForm OCR para Europa del Este
Perspectivas de desarrollo
- El 12 de diciembre de 2007 se lanzó la versión gratuita de OCR CuneiForm y se anunció la apertura de su fuente.
- 2 de abril de 2008, los códigos fuente de Cuneiform OCR se publican bajo la licencia BSD y, en el otoño, los textos fuente de la interfaz del sistema.
- La última versión de OpenSource para Windows no se ha actualizado desde el 14.02.2009. Esta versión ya no está disponible para descargar. En cambio, la versión de 11.11.2008 está disponible en la página de descarga.
- En 2009 se publicaron las interfaces gráficas para la versión abierta de Cuneiform basada en la biblioteca Qt 4 - Cuneiform-Qt, [4] YAGF . A partir de la versión 0.9.0 [5], la versión abierta para Linux se puede utilizar como biblioteca .
Ver también
- Puma.NET es una biblioteca contenedora para el motor de reconocimiento de Cognitive Technologies CuneiForm. Facilita la incorporación de la funcionalidad OCR en cualquier aplicación .NET Framework 2.0 (o superior).
Referencias
- ^ Tecnologías cognitivas открыла код OCR Cuneiform
- ^ http://bazaar.launchpad.net/~anb-symmetrica/cuneiform-linux/cuneiform-multilang/revision/400
- ^ [1] PCworld
- ^ Cuneiforme-Qt
- ^ Se lanza Cuneiform Linux 0.9.0
enlaces externos
- OpenOCR cognitivo, versión 11, BSD