Mosaico de documentos

Mosaicos de documento es un proceso que puntos múltiples, la superposición de instantáneas de imágenes de un documento conjunto para producir un compuesto de alta grande, resolución. El documento se desliza con la mano debajo de una cámara fija sobre el escritorio hasta que el campo de visión de la cámara captura todas las partes del documento. A medida que el documento se desliza debajo de la cámara, el sistema de visión realiza un seguimiento aproximado de todos los movimientos del documento. El documento se toma instantáneas periódicamente de modo que las instantáneas sucesivas se superponen en aproximadamente un 50%. Luego, el sistema encuentra los pares superpuestos y los une repetidamente hasta que todos los pares se unen como una sola pieza de documento. ^[1]

El mosaico de documentos se puede dividir en cuatro procesos principales.

Seguimiento
Detección de características
Establecimiento de correspondencias
Mosaico de imágenes.

Seguimiento (proceso de correlación simple)

En este proceso, el sistema realiza un seguimiento aproximado del movimiento del documento que se desliza debajo de la cámara. El seguimiento se realiza mediante un proceso llamado proceso de correlación simple . En el primer fotograma de instantáneas, se extrae un pequeño parche del centro de la imagen como plantilla de correlación, como se muestra en la Figura 1. El proceso de correlación se realiza en el tamaño cuatro veces mayor del área del parche del siguiente fotograma. El movimiento del papel está indicado por el pico en la función de correlación. El pico en la función de correlación indica el movimiento del papel. La plantilla se vuelve a muestrear a partir de este marco y el seguimiento continúa hasta que la plantilla alcanza el borde del documento. Una vez que la plantilla llega al borde del documento, se toma otra instantánea y el proceso de seguimiento se realiza repetidamente hasta que se crea una imagen de todo el documento. Las instantáneas se almacenan en una lista ordenada para facilitar el emparejamiento de las imágenes superpuestas en procesos posteriores.

Detección de funciones para una coincidencia eficiente

La detección de características es el proceso de encontrar la transformación que alinea una imagen con otra. Hay dos enfoques principales para la detección de características. ^[2]^[3]

Enfoque basado en características : los parámetros de movimiento se estiman a partir de correspondencias de puntos. Este enfoque es adecuado para el caso de que haya una gran cantidad de características estables y detectables.
Enfoque sin rasgos distintivos : cuando el movimiento entre las dos imágenes es pequeño, los parámetros de movimiento se estiman mediante flujo óptico . Por otro lado, cuando el movimiento entre las dos imágenes es grande, los parámetros de movimiento se estiman utilizando una correlación cruzada generalizada . Sin embargo, este enfoque requiere recursos computacionalmente costosos.

Cada imagen se segmenta en una jerarquía de columnas, líneas y palabras para que coincida con los conjuntos organizados de características en las imágenes. La estimación del ángulo de sesgo y la búsqueda de columnas, líneas y palabras son ejemplos de operaciones de detección de características.

Estimación del ángulo de sesgo

En primer lugar, se estima el ángulo que forman las filas de texto con las líneas de trama de la imagen (ángulo de inclinación). Se supone que se encuentra en el rango de ± 20 °. Se selecciona aleatoriamente un pequeño parche de texto en la imagen y luego se gira en el rango de ± 20 ° hasta que se maximiza la variación de las intensidades de píxeles del parche sumadas a lo largo de las líneas de trama. ^[4] Consulte la figura 2.

Para garantizar que el ángulo de inclinación encontrado sea preciso, el sistema de mosaico de documentos realiza cálculos en muchos parches de imagen y deriva la estimación final al encontrar el promedio de los ángulos individuales ponderados por la variación de las intensidades de píxeles de cada parche.

Búsqueda de columnas, líneas y palabras

En esta operación, el documento distorsionado se segmenta intuitivamente en una jerarquía de columnas, líneas y palabras. La sensibilidad a la iluminación y la coloración de la página del documento deformado se puede eliminar aplicando un operador de Sobel a la imagen deformada y estableciendo el umbral de la salida para obtener la imagen inclinada y degradada binaria. ^[5] Consulte la figura 3.

La operación se puede dividir aproximadamente en 3 pasos: segmentación de columnas, segmentación de líneas y segmentación de palabras.

Las columnas se segmentan fácilmente del gradiente binario , las imágenes se desvían sumando píxeles verticalmente como se muestra en la Figura 4.
Las líneas de base de cada fila se segmentan de la misma manera que el proceso de segmentación de columnas, pero de forma horizontal.
Finalmente, las palabras individuales se segmentan aplicando el proceso vertical en cada fila segmentada.

Estas segmentaciones son importantes porque el mosaico del documento se crea haciendo coincidir las esquinas inferiores derechas de las palabras en un par de imágenes superpuestas. Además, la operación de segmentación puede organizar la lista de imágenes en el contexto de una jerarquía de filas y columnas de manera confiable.

La operación de segmentación implica una cantidad considerable de suma en el gradiente binario , imágenes sin sesgo, que se realiza mediante la construcción de una matriz de sumas parciales ^[6] cuyos elementos están dados por

${\ Displaystyle p_ {iy} = \ sum _ {u = 1} ^ {i} \ sum _ {v = 1} ^ {j} b_ {uv}}$

La matriz de sumas parciales se calcula en una pasada a través del gradiente binario , imagen desviada. ^[6]

${\ Displaystyle \ sum _ {u = u_ {1}} ^ {u_ {2}} \ sum _ {v = v_ {1}} ^ {v_ {2}} b_ {uv} = p_ {u_ {2} v_ {2}} + p_ {u_ {1} v_ {1}} - p_ {u_ {1} v_ {2}} - p_ {u_ {2} v_ {1}}}$

Establecimiento de correspondencias

Las dos imágenes ahora están organizadas en jerarquía de listas enlazadas en la siguiente estructura:

imagen = lista de columnas
fila = lista de palabras
columna = lista de fila
palabra = longitud (en píxeles)

En la parte inferior de la estructura, se registra la longitud de cada palabra para establecer la correspondencia entre dos imágenes para reducir la búsqueda solo en las estructuras correspondientes de los grupos de palabras con las longitudes coincidentes.

Búsqueda de coincidencias de semillas

Se realiza un hallazgo de coincidencia inicial comparando cada fila en image1 con cada fila en image2. Luego, las dos filas se comparan entre sí por cada palabra. Si la longitud (en píxeles) de las dos palabras (una de image1 y otra de image2) y sus vecinos inmediatos concuerdan entre sí dentro de un umbral de tolerancia predefinido (5 píxeles, por ejemplo), se supone que coinciden. Se asume que la fila de cada imagen coincide si hay tres o más coincidencias de palabras entre las dos filas. La operación de búsqueda de coincidencia inicial finaliza cuando se encuentran dos pares de coincidencia de filas consecutivas.

Creación de listas de coincidencias

Después de finalizar una operación de búsqueda de coincidencias de semillas, el siguiente proceso es crear la lista de coincidencias para generar los puntos de correspondencias de las dos imágenes. El proceso se realiza buscando los pares coincidentes de filas fuera de la fila semilla.

Mosaico de imágenes

Figura 5 : Mosaico de dos imágenes de documentos. El desenfoque es evidente en el mosaico afín (b), pero no en el mosaico construido utilizando una proyectividad de plano a plano (a). Los primeros planos de las costuras típicas de (a) y (b) se muestran en (c) y (d) respectivamente. ^[1]

Dada la lista de puntos correspondientes de las dos imágenes, el siguiente proceso es encontrar la transformación de la parte superpuesta de las imágenes. Suponiendo un modelo de cámara estenopeica , la transformación entre los píxeles (u, v) de la imagen 1 y los píxeles (u0, v0) de la imagen 2 se demuestra mediante una proyectividad de plano a plano. ^[7]

${\ Displaystyle \ left [{\ begin {array} {c} su '\\ sv' \\ s \ end {array}} \ right] = \ left [{\ begin {array} {ccc} p_ {11} & p_ {12} & p_ {13} \\ p_ {21} & p_ {22} & p_ {23} \\ p_ {31} & p_ {32} & 1 \ end {matriz}} \ right] \ left [{\ begin {matriz } {c} u \\ v \\ 1 \ end {matriz}} \ right] \ qquad Eq.1}$

Los parámetros de la proyectividad se encuentran a partir de cuatro pares de puntos coincidentes. La técnica de regresión RANSAC ^[8] se utiliza para rechazar coincidencias atípicas y estimar la proyectividad de las buenas coincidencias restantes.

La proyectividad se ajusta con precisión mediante la correlación en las esquinas de la parte superpuesta para obtener cuatro correspondencias con la precisión de subpíxeles. Por lo tanto, la imagen1 se transforma en el sistema de coordenadas de la imagen2 utilizando la ecuación 1. El resultado típico del proceso se muestra en la Figura 5.

Muchas imágenes afrontando

Finalmente, la composición de la página completa se construye mapeando todas las imágenes en el sistema de coordenadas de una imagen de “ancla”, que normalmente es la más cercana al centro de la página. Las transformaciones en el marco de anclaje se calculan concatenando las transformaciones por pares encontradas anteriormente. El mosaico de documentos sin procesar se muestra en la Figura 6.

Sin embargo, puede haber un problema de imágenes no consecutivas que se superponen. Este problema se puede resolver realizando sub-mosaicos jerárquicos. Como se muestra en la Figura 7, image1 e image2 se registran, al igual que image3 e image4, creando dos sub-mosaicos. Estos dos sub-mosaicos se cosen luego juntos en otro proceso de mosaico.

Áreas aplicadas

Hay varias áreas a las que se puede aplicar la técnica del mosaico de documentos, tales como:

Segmentación de texto de imágenes de documentos ^[5]
Reconocimiento de documentos ^[4]
Interacción con papel en el escritorio digital ^[9]
Mosaicos de vídeo para entornos virtuales ^[10]
Técnicas de registro de imágenes ^[3]

Artículos de investigación relevantes

Huang, TS; Netravali, AN (1994). "Movimiento y estructura de correspondencias de características: una revisión". Actas del IEEE . 82 (2): 252–268. doi : 10.1109 / 5.265351 .
DG Lowe. [1] Organización perceptiva y reconocimiento visual. Editores Académicos Kluwer, Boston, 1985.
Irani, M .; Peleg, S. (1991). "Mejora de la resolución mediante el registro de imágenes". CVGIP: Modelos gráficos y procesamiento de imágenes . 53 (3): 231–239. doi : 10.1016 / 1049-9652 (91) 90045-L .
Shivakumara, P .; Kumar, G. Hemantha; Guru, DS; Nagabhushan, P. (2006). "Enfoque basado en ventana deslizante para mosaicos de imágenes de documentos" . Computación de imagen y visión . 24 (1): 94–100. doi : 10.1016 / j.imavis.2005.09.015 .
[2] Mosaico de imágenes de documentos basado en cámaras. (Dakota del Norte). Imagen (Rochester, NY), 1.
Kumar, GH; Shivakumara, P .; Guru, DS; Nagabhushan (2004). "Mosaico de imágenes de documentos: un enfoque novedoso" (PDF) . Texto . 29 (3): 329–341. CiteSeerX 10.1.1.107.4304 . doi : 10.1007 / bf02703782 .
Sato, T., Ikeda, S., Kanbara, M., Iketani, A., Nakajima, N., Yokoya, N. y Yamada, K. (sin fecha). Mosaico de videos de alta resolución para documentos y fotos mediante la estimación del movimiento de la cámara. Mosaic Una revista para el estudio interdisciplinario de la literatura.

Referencias

^ ^a ^b ^c ^d Zappalá, Anthony; Vaya, Andrew; Taylor, Michael (1999). "Documento en mosaico". Computación de imagen y visión . 17 (8): 589–595. doi : 10.1016 / S0262-8856 (98) 00178-4 .
^ Mann, S .; Picard, RW (1995). "Video órbitas del grupo proyectivo: una nueva perspectiva sobre el mosaico de imágenes". Informe técnico (Sección de Computación Perceptual), Laboratorio de Medios del MIT (338). CiteSeerX 10.1.1.56.6000 .
^ a b Brown, LG (1992). "Un estudio de las técnicas de registro de imágenes". Encuestas de computación ACM . 24 (4): 325–376. CiteSeerX 10.1.1.35.2732 . doi : 10.1145 / 146370.146374 .
^ a b Bloomberg, Dan S .; Kopec, Gary E .; Dasari, Lakshmi (1995). "Medición de la inclinación y la orientación de la imagen del documento" (PDF) . En Vincent, Luc M; Baird, Henry S (eds.). Reconocimiento de documentos II . Actas del SPIE. 2422 . págs. 302–315. Código Bibliográfico : 1995SPIE.2422..302B . doi : 10.1117 / 12.205832 .
^ a b Taylor, MJ; Zappala, A .; Newman, WM; Danza, CR (1999). "Documentos a través de cámaras". Computación de imagen y visión . 17 (11): 831–844. doi : 10.1016 / S0262-8856 (98) 00155-3 .
^ a b Preparata, FP; Shamos, MI (1985). Geometría computacional: una introducción . Monografías en Informática. Springer – Verlag. ISBN 9780387961316.
^ Mundy, JL; Zisserman, A. (1992). "Apéndice-Geometría proyectiva para visión artificial" . Invarianza geométrica en visión artificial . Cambridge MA: MIT Press. CiteSeerX 10.1.1.17.1329 .
^ Martin A. Fischler; Robert C. Bolles (1981). "Consenso de muestra aleatoria: un paradigma para el ajuste de modelos con aplicaciones de análisis de imágenes y cartografía automatizada" (PDF) . Comunicaciones de la ACM . 24 (6): 381–395. doi : 10.1145 / 358669.358692 .
^ Wellner, P. (1993). "Interactuar con papel en el escritorio digital". Comunicaciones de la ACM . 36 (7): 87–97. CiteSeerX 10.1.1.53.7526 . doi : 10.1145 / 159544.159630 .
^ Szeliski, R. (1996). "Video mosaicos para entornos virtuales". Aplicaciones y gráficos informáticos IEEE . 16 (2): 22–306. doi : 10.1109 / 38.486677 .

Bibliografía

Anthony, Zappalá; Andrew Gee; Michael Taylor (1999). "Documento en mosaico". Computación de imagen y visión . 17 (8): 589–595. doi : 10.1016 / S0262-8856 (98) 00178-4 .

enlaces externos

Página de inicio de Advanced Vision

[MyRef2-1] Zappalá, Anthony; Vaya, Andrew; Taylor, Michael (1999). "Documento en mosaico". Computación de imagen y visión . 17 (8): 589–595. doi : 10.1016 / S0262-8856 (98) 00178-4 .

[MyRef3-2] Mann, S .; Picard, RW (1995). "Video órbitas del grupo proyectivo: una nueva perspectiva sobre el mosaico de imágenes". Informe técnico (Sección de Computación Perceptual), Laboratorio de Medios del MIT (338). CiteSeerX 10.1.1.56.6000 .

[MyRef4-3] Brown, LG (1992). "Un estudio de las técnicas de registro de imágenes". Encuestas de computación ACM . 24 (4): 325–376. CiteSeerX 10.1.1.35.2732 . doi : 10.1145 / 146370.146374 .

[MyRef5-4] Bloomberg, Dan S .; Kopec, Gary E .; Dasari, Lakshmi (1995). "Medición de la inclinación y la orientación de la imagen del documento" (PDF) . En Vincent, Luc M; Baird, Henry S (eds.). Reconocimiento de documentos II . Actas del SPIE. 2422 . págs. 302–315. Código Bibliográfico : 1995SPIE.2422..302B . doi : 10.1117 / 12.205832 .

[MyRef6-5] Taylor, MJ; Zappala, A .; Newman, WM; Danza, CR (1999). "Documentos a través de cámaras". Computación de imagen y visión . 17 (11): 831–844. doi : 10.1016 / S0262-8856 (98) 00155-3 .

[MyRef7-6] Preparata, FP; Shamos, MI (1985). Geometría computacional: una introducción . Monografías en Informática. Springer – Verlag. ISBN 9780387961316.

[MyRef8-7] Mundy, JL; Zisserman, A. (1992). "Apéndice-Geometría proyectiva para visión artificial" . Invarianza geométrica en visión artificial . Cambridge MA: MIT Press. CiteSeerX 10.1.1.17.1329 .

[MyRef9-8] Martin A. Fischler; Robert C. Bolles (1981). "Consenso de muestra aleatoria: un paradigma para el ajuste de modelos con aplicaciones de análisis de imágenes y cartografía automatizada" (PDF) . Comunicaciones de la ACM . 24 (6): 381–395. doi : 10.1145 / 358669.358692 .

[MyRef10-9] Wellner, P. (1993). "Interactuar con papel en el escritorio digital". Comunicaciones de la ACM . 36 (7): 87–97. CiteSeerX 10.1.1.53.7526 . doi : 10.1145 / 159544.159630 .

[MyRef11-10] Szeliski, R. (1996). "Video mosaicos para entornos virtuales". Aplicaciones y gráficos informáticos IEEE . 16 (2): 22–306. doi : 10.1109 / 38.486677 .

[1]