Adaptación de formas afines

La adaptación de forma afín es una metodología para adaptar iterativamente la forma de los granos de suavizado en un grupo afín de granos de suavizado a la estructura de la imagen local en la región de vecindad de un punto de imagen específico. De manera equivalente, la adaptación de formas afines se puede lograr deformando iterativamente un parche de imagen local con transformaciones afines mientras se aplica un filtro simétrico rotacionalmente a los parches de imagen deformados. Siempre que este proceso iterativo converja, el punto fijo resultante será invariante afín . En el área de la visión por computadora , esta idea se ha utilizado para definir operadores de puntos de interés invariantes afines, así como métodos de análisis de texturas invariantes afines.

Operadores de puntos de interés afines adaptados

Los puntos de interés obtenidos del detector de manchas Laplaciano adaptado a la escala o del detector de esquinas de Harris de múltiples escalas con selección automática de escala son invariantes a las traslaciones, rotaciones y recalificaciones uniformes en el dominio espacial. Sin embargo, las imágenes que constituyen la entrada a un sistema de visión por computadora también están sujetas a distorsiones de perspectiva. Para obtener puntos de interés que sean más robustos a las transformaciones de perspectiva, un enfoque natural es diseñar un detector de características que sea invariante para las transformaciones afines .

La invariancia afín se puede lograr a partir de mediciones de la misma matriz de segundo momento con ventana de múltiples escalas ${\ Displaystyle \ mu}$ como se usa en el operador de Harris multiescala siempre que extendamos el concepto de espacio de escala regular obtenido por convolución con núcleos gaussianos rotacionalmente simétricos a un espacio de escala gaussiano afín obtenido por núcleos gaussianos adaptados a la forma (Lindeberg 1994 sección 15.3; Lindeberg y Garding 1997). Para una imagen bidimensional ${\ Displaystyle I}$ , dejar ${\ Displaystyle {\ bar {x}} = (x, y) ^ {T}}$ y deja ${\ Displaystyle \ Sigma _ {t}}$ ser una matriz 2 × 2 definida positiva. Entonces, un kernel gaussiano no uniforme se puede definir como

{\ Displaystyle g ({\ bar {x}}; \ Sigma) = {\ frac {1} {2 \ pi {\ sqrt {\ operatorname {det} \ Sigma _ {t}}}}} e ^ {- {\ bar {x}} \ Sigma _ {t} ^ {- 1} {\ bar {x}} / 2}}

y dada cualquier imagen de entrada ${\ Displaystyle I_ {L}}$ el espacio de escala afín gaussiano es el espacio de escala de tres parámetros definido como

{\ Displaystyle L ({\ bar {x}}; \ Sigma _ {t}) = \ int _ {\ bar {xi}} I_ {L} (x- \ xi) \, g ({\ bar {\ xi}}; \ Sigma _ {t}) \, d {\ bar {\ xi}}.}

A continuación, introduzca una transformación afín ${\ Displaystyle \ eta = B \ xi}$ dónde ${\ Displaystyle B}$ es una matriz de 2 × 2 y define una imagen transformada ${\ Displaystyle I_ {R}}$ como

{\ Displaystyle I_ {L} ({\ bar {\ xi}}) = I_ {R} ({\ bar {\ eta}})}

.

Entonces, las representaciones afines del espacio de escala ${\ Displaystyle L}$ y ${\ Displaystyle R}$ de ${\ Displaystyle I_ {L}}$ y ${\ Displaystyle I_ {R}}$ , respectivamente, están relacionados de acuerdo con

{\ Displaystyle L ({\ bar {\ xi}}, \ Sigma _ {L}) = R ({\ bar {\ eta}}, \ Sigma _ {R})}

siempre que las matrices de formas afines ${\ Displaystyle \ Sigma _ {L}}$ y ${\ Displaystyle \ Sigma _ {R}}$ están relacionados de acuerdo con

{\ Displaystyle \ Sigma _ {R} = B \ Sigma _ {L} B ^ {T}}

.

Sin tener en cuenta los detalles matemáticos, que desafortunadamente se vuelven algo técnicos si se apunta a una descripción precisa de lo que está sucediendo, el mensaje importante es que el espacio de escala afín gaussiano está cerrado bajo transformaciones afines .

Si nosotros, dada la notación ${\ Displaystyle \ nabla L = (L_ {x}, L_ {y}) ^ {T}}$ así como matriz de forma local ${\ Displaystyle \ Sigma _ {t}}$ y una matriz de formas de integración ${\ Displaystyle \ Sigma _ {s}}$ , introducir una matriz de segundo momento multiescala adaptada a afines de acuerdo con

{\ Displaystyle \ mu _ {L} ({\ bar {x}}; \ Sigma _ {t}, \ Sigma _ {s}) = g ({\ bar {x}} - {\ bar {\ xi} }; \ Sigma _ {s}) \, \ left (\ nabla _ {L} ({\ bar {\ xi}}; \ Sigma _ {t}) \ nabla _ {L} ^ {T} ({\ barra {\ xi}}; \ Sigma _ {t}) \ derecha)}

se puede demostrar que bajo cualquier transformación afín ${\ Displaystyle {\ bar {q}} = B {\ bar {p}}}$ La matriz de segundo momento multiescala adaptada a afines se transforma de acuerdo con

{\ Displaystyle \ mu _ {L} ({\ bar {p}}; \ Sigma _ {t}, \ Sigma _ {s}) = B ^ {T} \ mu _ {R} ({\ bar {q }}; B \ Sigma _ {t} B ^ {T}, B \ Sigma _ {s} B ^ {T}) B}

.

Una vez más, sin tener en cuenta los detalles técnicos algo desordenados, el mensaje importante aquí es que dada una correspondencia entre los puntos de la imagen ${\ displaystyle {\ bar {p}}}$ y ${\ Displaystyle {\ bar {q}}}$ , la transformación afín ${\ Displaystyle B}$ se puede estimar a partir de las mediciones de las matrices de segundo momento de múltiples escalas ${\ Displaystyle \ mu _ {L}}$ y ${\ Displaystyle \ mu _ {R}}$ en los dos dominios.

Una consecuencia importante de este estudio es que si podemos encontrar una transformación afín ${\ Displaystyle B}$ tal que ${\ Displaystyle \ mu _ {R}}$ es una constante multiplicada por la matriz unitaria, entonces obtenemos un punto fijo que es invariante a las transformaciones afines (Lindeberg 1994 sección 15.4; Lindeberg y Garding 1997). A los efectos de la implementación práctica, esta propiedad a menudo se puede alcanzar de dos formas principales. El primer enfoque se basa en transformaciones de los filtros de suavizado y consta de:

estimar la matriz de segundo momento ${\ Displaystyle \ mu}$ en el dominio de la imagen,
determinación de un nuevo núcleo de suavizado adaptado con matriz de covarianza proporcional a ${\ Displaystyle \ mu ^ {- 1}}$ ,
suavizar la imagen original mediante el kernel de suavizado adaptado a la forma, y
repetir esta operación hasta que la diferencia entre dos matrices de segundo momento sucesivas sea suficientemente pequeña.

El segundo enfoque se basa en deformaciones en el dominio de la imagen e implica:

estimando ${\ Displaystyle \ mu}$ en el dominio de la imagen,
estimar una transformación afín local proporcional a ${\ Displaystyle {\ hat {B}} = \ mu ^ {1/2}}$ dónde ${\ Displaystyle \ mu ^ {1/2}}$ denota la matriz de raíz cuadrada de ${\ Displaystyle \ mu}$ ,
deformando la imagen de entrada por la transformación afín ${\ Displaystyle {\ hat {B}} ^ {- 1}}$ y
repitiendo esta operación hasta ${\ Displaystyle \ mu}$ está lo suficientemente cerca de una constante multiplicada por la matriz unitaria.

Este proceso general se conoce como adaptación de forma afín (Lindeberg y Garding 1997; Baumberg 2000; Mikolajczyk y Schmid 2004; Tuytelaars y van Gool 2004; Ravela 2004; Lindeberg 2008). En el caso continuo ideal, los dos enfoques son matemáticamente equivalentes. Sin embargo, en implementaciones prácticas, el primer enfoque basado en filtros suele ser más preciso en presencia de ruido, mientras que el segundo enfoque basado en deformaciones suele ser más rápido.

En la práctica, el proceso de adaptación de formas afines descrito aquí a menudo se combina con la selección de escala automática de detección de puntos de interés como se describe en los artículos sobre detección de manchas y detección de esquinas , para obtener puntos de interés que son invariantes para el grupo afín completo, incluidos los cambios de escala. Además del operador de Harris de múltiples escalas de uso común, esta adaptación de forma afín también se puede aplicar a otros tipos de operadores de puntos de interés, como el operador Laplacian / Difference of Gaussian blob y el determinante del Hessian (Lindeberg 2008). La adaptación de formas afines también se puede utilizar para el reconocimiento de texturas invariantes afines y la segmentación de texturas invariantes afines.

Estrechamente relacionada con la noción de adaptación de forma afín está la noción de normalización afín , que define un marco de referencia invariante afín como se describe con más detalle en Lindeberg (2013a, b, 2021: Apéndice I.3), de modo que cualquier medición de imagen realizada en la afinidad El marco de referencia invariante es invariante afín.

Ver también

Referencias

A. Baumberg (2000). "Coincidencia confiable de funciones en vistas muy separadas". Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones . págs. I: 1774-1781. doi : 10.1109 / CVPR.2000.855899 .
T. Lindeberg (1994). Teoría del espacio-escala en visión artificial . Saltador. ISBN 0-7923-9418-6.
T. Lindeberg y J. Garding (1997). "Suavizado adaptado a la forma en la estimación de señales de profundidad 3-D de distorsiones afines de la estructura 2-D local" . Computación de imagen y visión . 15 (6): 415–434. doi : 10.1016 / S0262-8856 (97) 01144-X .
T. Lindeberg (2008). "Espacio de escala" . Enciclopedia de Ciencias de la Computación e Ingeniería ( Benjamin Wah , ed), John Wiley and Sons . IV . págs. 2495-2504. doi : 10.1002 / 9780470050118.ecse609 .
T. Lindeberg (2013a). "Invarianza de operaciones visuales a nivel de campos receptivos" . PLOS ONE . 8 (7): e66990: 1-33. doi : 10.1371 / journal.pone.0066990 .
T. Lindeberg (2013b). "Teoría axiomática generalizada del espacio-escala" . Avances en imágenes y física electrónica . 178 (7): 1–96. doi : 10.1016 / B978-0-12-407701-0.00001-7 .
T. Lindeberg (2021). "Teoría normativa de los campos visuales receptivos" . Heliyon . 7 (1): e05897. doi : 10.1016 / j.heliyon.2021.e05897 .
K. Mikolajczyk, K. y C. Schmid (2004). "Detectores de puntos de interés invariantes de escala y afines" (PDF) . Revista Internacional de Visión por Computador . 60 (1): 63–86. doi : 10.1023 / B: VISI.0000027790.02288.f2 . Integración del operador Harris de múltiples escalas con la metodología para la selección automática de escalas, así como con la adaptación de formas afines.
T. Tuytelaars y L. van Gool K. (2004). "Coincidencia de vistas ampliamente separadas basadas en regiones invariantes afines" (PDF) . Revista Internacional de Visión por Computador . 59 (1): 63–86. doi : 10.1023 / B: VISI.0000020671.28016.e8 . Archivado desde el original (PDF) el 12 de junio de 2010.