Procesamiento de formularios

El procesamiento de formularios es un proceso mediante el cual se puede capturar información ingresada en campos de datos y convertirla a formato electrónico. Esto se puede hacer de forma manual o automática, pero el proceso general es que los humanos completan los datos en papel y luego los "capturan" de sus respectivos campos y los ingresan en una base de datos u otro formato electrónico.

Resumen [ editar ]

En el sentido más amplio, los sistemas de procesamiento de formularios pueden variar desde el procesamiento de formularios de solicitud pequeños hasta formularios de encuestas a gran escala con varias páginas. Hay varios problemas comunes relacionados con el procesamiento de formularios cuando se realiza manualmente. Estos son muchos esfuerzos humanos tediosos, los datos ingresados por el usuario pueden resultar en errores tipográficos, y muchas horas de trabajo son el resultado de este largo proceso. Si los formularios se procesan mediante aplicaciones basadas en software de computadora , estos problemas comunes se pueden resolver y minimizar en gran medida. La mayoría de los métodos para el procesamiento de formularios abordan las siguientes áreas.

Entrada de datos manual [ editar ]

Este método de procesamiento de datos involucra a operadores humanos que ingresan los datos que se encuentran en el formulario. El proceso manual de entrada de datos tiene muchas desventajas en cuanto a velocidad, precisión y costo. Con base en la velocidad promedio de un mecanógrafo profesional de 50 a 80 palabras por minuto, ^[1] uno podría estimar generosamente alrededor de doscientas páginas por hora para formularios con quince campos de una palabra (sin contar el tiempo de lectura y clasificación de páginas). Por el contrario, los escáneres comerciales modernos pueden escanear y digitalizar hasta 200 páginas por minuto . ^[2] La segunda gran desventaja de la entrada manual de datos es la probabilidad de errores tipográficos.. Al tener en cuenta el costo de la mano de obra y el espacio de trabajo, la entrada manual de datos es un proceso muy ineficiente.

Procesamiento automatizado de formularios [ editar ]

Este método puede automatizar el procesamiento de datos mediante el uso de plantillas y configuraciones predefinidas. En este caso, una plantilla sería un mapa del documento, detallando dónde se encuentran los campos de datos dentro del formulario o documento. En comparación con el proceso de entrada de datos manual, son preferibles los sistemas de entrada de formularios automáticos, ya que ayudan a reducir los problemas que se enfrentan durante el procesamiento manual de datos.

Los sistemas automáticos de entrada de formulario utilizan diferentes tipos de métodos de reconocimiento, tales como el reconocimiento óptico de caracteres (OCR) para la impresión de la máquina, lectura óptica (OMR) para las cajas de cheque / marca del sensor, código de barras reconocimiento (BCR) para códigos de barras, y el reconocimiento inteligente de caracteres (ICR ) para imprimir a mano.

Con la tecnología del sistema de procesamiento de formularios automatizado, los usuarios pueden procesar documentos a partir de sus imágenes escaneadas en un formato legible por computadora como ANSI, XML, CSV, PDF o ingresar directamente en una base de datos.

El procesamiento de formularios se ha desarrollado más allá de la captura básica de datos. El procesamiento de formularios no solo abarca un proceso de reconocimiento, sino que también ayuda a administrar el ciclo de vida completo de los documentos, que comienza desde el escaneo del documento hasta la extracción de los datos y, a menudo, hasta la entrega a un sistema de back-end. En algunos casos, también puede incluir el procesamiento o la generación de resultados bien formateados a través de cálculos y análisis. Un sistema de procesamiento de formularios automatizado puede ser valioso si es necesario procesar cientos o miles de imágenes todos los días.

Primer paso: evaluación de la estructura del formulario [ editar ]

El primer paso para comprender el procesamiento automatizado de formularios es analizar el tipo de formulario del que se desea extraer los datos. Los formularios se pueden clasificar en una de dos categorías de alto nivel con el fin de extraer datos. Se han propuesto cuatro categorías ^[3], sin embargo, la industria de la captura de documentos ha establecido estas dos:

Formas fijas. Este tipo de formulario se define como aquel en el que los datos a extraer se encuentran siempre en la misma posición absoluta en una página. Esto permite aplicar un tipo de cuadrícula de lente al documento y cada aparición posterior de este documento para extraer los datos. Un ejemplo de formulario fijo es un formulario de solicitud de crédito típico. ^[4]
Forma semiestructurada (o no estructurada). Este formulario es uno en el que la ubicación de los datos y los campos que contienen los datos varían de un documento a otro. Este tipo de documento se define quizás más fácilmente por el hecho de que no es un formulario fijo. En la industria de la captura de documentos, una forma semiestructurada también se denomina forma no estructurada. Ejemplos de este tipo de formularios incluyen cartas, contratos y facturas. Según un estudio de AIIM, alrededor del 80% de los documentos de una organización se incluyen en la definición semiestructurada. ^[5]

Aunque los componentes (descritos a continuación) utilizados para la extracción de datos de cualquier tipo de formulario son los mismos, la forma en que se aplican varía considerablemente según el tipo de documento.

Componentes [ editar ]

Varios componentes incluidos en el procesamiento de datos mediante el sistema automático de entrada de formularios incluyen

OCR: reconocimiento óptico de caracteres
OMR - Reconocimiento óptico de marcas
ICR: reconocimiento inteligente de caracteres
BCR: reconocimiento de códigos de barras
MICR: reconocimiento de caracteres de tinta magnética

OCR reconoce caracteres alfabéticos, numéricos, acentuados en mayúsculas / minúsculas impresos a máquina, muchos símbolos de moneda , dígitos, símbolos aritméticos, caracteres de puntuación expandidos y más.

ICR reconoce impresos a mano de Estados Unidos y en inglés Europeo caracteres usando predefinidos conjuntos de caracteres: mayúsculas, minúsculas, mayúsculas y minúsculas alfabético, dígitos, la moneda (incluyendo $ (dólar), ¢ (ciento) € (Euro) £ (libras), ¥ ( Yen)), caracteres aritméticos y de puntuación (incluido el punto, la coma, comillas simples , comillas dobles,! & ()? @ {} \ #% * + - /:; <=>)

MICR es una tecnología de reconocimiento para facilitar el procesamiento de las fuentes MICR de los cheques. Esto minimiza las posibilidades de errores en la compensación de cheques. También es útil para una transferencia de fondos más fácil y rápida. MICR proporciona un método seguro y de alta velocidad para escanear y procesar información.

El reconocimiento óptico de marcas (OMR) identifica las burbujas rellenadas a mano o las casillas de verificación de los formularios impresos. Por lo general, OMR admite el reconocimiento de marcas únicas y múltiples. Los campos a reconocer se pueden especificar como cuadrículas (filas por columnas) o burbujas individuales.

El reconocimiento de códigos de barras puede leer más de 20 códigos de barras industriales 1D y 2D, incluidos Code39, CODABAR, Interleaved 2 of 5 , Code93 y más. Detecta automáticamente todos los códigos de barras en una imagen o área especificada dentro de la imagen.

Proceso [ editar ]

El proceso de procesamiento de formularios automatizado generalmente incluye los siguientes pasos:

Un lote de formularios completados se escanea con un escáner de alta velocidad.
Las imágenes se limpian con algoritmos de procesamiento de imágenes de documentos para mejorar la precisión
Los formularios se clasifican en función de los formularios de plantilla originales y los campos se extraen utilizando los componentes de reconocimiento adecuados
Los campos que el sistema marcó con poca confianza se ponen en cola para que los verifique un operador humano
Los datos verificados se guardan en una base de datos o se exportan a un formato de texto con capacidad de búsqueda, como CSV, XML o PDF

Requisitos previos [ editar ]

Aunque el procesamiento de formularios automatizado tiene muchas ventajas importantes sobre la entrada manual de datos, todavía tiene algunas limitaciones. Para lograr la mejor precisión, se deben seguir algunos requisitos previos.

Formato de escaneo: Incluye el formato de archivo escaneado, Resolución y DPI, Modo de color
Configuración: el diseño de la imagen escaneada debe configurarse para esta automatización
Reconocimiento: los formatos de salida predefinidos
Resultado / análisis: cualquier formato específico de presentación de datos de resultado de valor de captura.

Una consideración muy importante es la indexación, que determina los metadatos que se utilizarán para describir los datos contenidos en los documentos. Este atributo quizás impulse la solución de procesamiento de formularios más que cualquier otro.

Enlaces externos [ editar ]

Wikiquote tiene citas relacionadas con: Procesamiento de formularios

Informes de inteligencia de mercado AIIM

Referencias [ editar ]

^ Teresia R. Ostrach (1997), Typing Speed: How Fast is Average (PDF) , archivado desde el original (PDF) en 2012-05-02
^ "Kodak introduce el escáner comercial i1860 de 200 páginas por minuto" . Engadget . Consultado el 4 de noviembre de 2011 .
↑ Kuznetsov, Sergei O .; Mandal, Deba P .; Kundu, malayo K .; Pal, Sankar Kumar (25 de junio de 2011). Reconocimiento de patrones e inteligencia artificial: 4ª Conferencia Internacional, PReMI 2011, Moscú, Rusia, 27 de junio - 1 de julio de 2011, Actas . Saltador. ISBN 9783642217869.
^ Vassylyev, Artur (10 de junio de 2008). "CAPTURA DE FORMAS Y DOCUMENTOS SEMIESTRUCTURADOS: RETOS Y TECNOLOGÍAS DISPONIBLES" (PDF) . Archivado desde el original (PDF) el 28 de abril de 2017 . Consultado el 4 de abril de 2017 .
^ "Procesamiento de formularios: experiencias de usuario de reconocimiento de texto y escritura a mano (OCR / ICR)" (PDF) . Consultado el 4 de abril de 2017 .

[1] Teresia R. Ostrach (1997), Typing Speed: How Fast is Average (PDF) , archivado desde el original (PDF) en 2012-05-02

[2] "Kodak introduce el escáner comercial i1860 de 200 páginas por minuto" . Engadget . Consultado el 4 de noviembre de 2011 .

[3] Kuznetsov, Sergei O .; Mandal, Deba P .; Kundu, malayo K .; Pal, Sankar Kumar (25 de junio de 2011). Reconocimiento de patrones e inteligencia artificial: 4ª Conferencia Internacional, PReMI 2011, Moscú, Rusia, 27 de junio - 1 de julio de 2011, Actas . Saltador. ISBN 9783642217869.

[4] Vassylyev, Artur (10 de junio de 2008). "CAPTURA DE FORMAS Y DOCUMENTOS SEMIESTRUCTURADOS: RETOS Y TECNOLOGÍAS DISPONIBLES" (PDF) . Archivado desde el original (PDF) el 28 de abril de 2017 . Consultado el 4 de abril de 2017 .

[5] "Procesamiento de formularios: experiencias de usuario de reconocimiento de texto y escritura a mano (OCR / ICR)" (PDF) . Consultado el 4 de abril de 2017 .

[1]