Detector de región afín de Harris

En los campos de la visión por computadora y el análisis de imágenes , el detector de región afín de Harris pertenece a la categoría de detección de características . La detección de características es un paso de procesamiento previo de varios algoritmos que se basan en la identificación de puntos característicos o puntos de interés para hacer correspondencias entre imágenes, reconocer texturas, categorizar objetos o crear panoramas.

Descripción general

El detector afín de Harris puede identificar regiones similares entre imágenes que están relacionadas a través de transformaciones afines y tienen iluminaciones diferentes. Estos detectores afines invariantes deberían ser capaces de identificar regiones similares en imágenes tomadas desde diferentes puntos de vista que se relacionan mediante una transformación geométrica simple: escalado, rotación y cizallamiento. Estas regiones detectadas se han denominado invariantes y covariantes . Por un lado, las regiones se detectan invariantes de la transformación de la imagen, pero las regiones cambian covariablemente con la transformación de la imagen. ^[1] No se detenga demasiado en estas dos convenciones de nomenclatura; lo importante es entender que el diseño de estos puntos de interés los hará compatibles entre imágenes tomadas desde varios puntos de vista. Otros detectores que son invariantes afines incluyen el detector de región afín de Hesse , las regiones extremas máximamente estables , el detector de prominencia Kadir-Brady , las regiones basadas en bordes (EBR) y las regiones basadas en extremos de intensidad (IBR).

Mikolajczyk y Schmid (2002) describieron por primera vez el detector afín de Harris tal como se utiliza hoy en día en un detector de punto de interés invariante afín . ^[2] Trabajos anteriores en esta dirección incluyen el uso de la adaptación de formas afines de Lindeberg y Garding para calcular descriptores de imágenes invariantes afines y de esta manera reducir la influencia de las deformaciones de la imagen en perspectiva, ^[3] el uso de puntos característicos adaptados afines para una amplia coincidencia de la línea de base mediante Baumberg ^[4] y el primer uso de puntos característicos invariantes de escala por Lindeberg; ^[5]^[6]^[7] para obtener una descripción general de los antecedentes teóricos. El detector afín de Harris se basa en la combinación de puntos de esquina detectados a través de la detección de esquinas de Harris , análisis de múltiples escalas a través del espacio de escala gaussiana y normalización afín utilizando un algoritmo iterativo de adaptación de formas afines . El algoritmo recursivo e iterativo sigue un enfoque iterativo para detectar estas regiones:

Identifique los puntos de la región inicial utilizando el detector Harris-Laplace de escala invariante .
Para cada punto inicial, normalice la región para que sea invariante afín utilizando la adaptación de forma afín .
Estime iterativamente la región afín: selección de la escala de integración adecuada, escala de diferenciación y localice espacialmente los puntos de interés.
Actualice la región afín utilizando estas escalas y localizaciones espaciales.
Repita el paso 3 si no se cumple el criterio de parada.

Descripción del algoritmo

Detector de Harris-Laplace (puntos de la región inicial)

El detector afín de Harris se basa en gran medida tanto en la medida de Harris como en una representación espacial en escala gaussiana . Por lo tanto, sigue un breve examen de ambos. Para obtener una derivación más exhaustiva, consulte la detección de esquinas y el espacio de escala gaussiana o sus artículos asociados. ^[6]^[8]

Medida de esquina de Harris

El algoritmo del detector de esquinas de Harris se basa en un principio central: en una esquina, la intensidad de la imagen cambiará en gran medida en múltiples direcciones. Alternativamente, esto se puede formular examinando los cambios de intensidad debidos a los cambios en una ventana local. Alrededor de un punto de esquina, la intensidad de la imagen cambiará mucho cuando la ventana se mueva en una dirección arbitraria. Siguiendo esta intuición y mediante una inteligente descomposición, el detector de Harris utiliza la matriz del segundo momento como base de sus decisiones de esquina. (Consulte la detección de esquinas para obtener una derivación más completa). La matriz ${\ Displaystyle A}$ , también se ha denominado matriz de autocorrelación y tiene valores estrechamente relacionados con las derivadas de la intensidad de la imagen .

{\ Displaystyle A (\ mathbf {x}) = \ sum _ {p, q} w (p, q) {\ begin {bmatrix} I_ {x} ^ {2} (p, q) & I_ {x} I_ {y} (p, q) \\ I_ {x} I_ {y} (p, q) & I_ {y} ^ {2} (p, q) \\\ end {bmatrix}}}

dónde ${\ Displaystyle I_ {x}}$ y ${\ Displaystyle I_ {y}}$ son las respectivas derivadas (de la intensidad de píxeles) en el ${\ Displaystyle x}$ y ${\ Displaystyle y}$ dirección en el punto ${\ Displaystyle p}$ , ${\ Displaystyle q}$ ); ${\ Displaystyle p}$ y ${\ Displaystyle q}$ son los parámetros de posición de la función de ponderación w. Las entradas fuera de la diagonal son el producto de ${\ Displaystyle I_ {x}}$ y ${\ Displaystyle I_ {y}}$ , mientras que las entradas diagonales son cuadrados de las respectivas derivadas . La función de ponderación ${\ Displaystyle w (x, y)}$ puede ser uniforme, pero es más típicamente un isotrópico, circular gaussiano,

{\ Displaystyle w (x, y) = g (x, y, \ sigma) = {\ frac {1} {2 \ pi \ sigma ^ {2}}} e ^ {\ left (- {\ frac {x ^ {2} + y ^ {2}} {2 \ sigma ^ {2}}} \ right)}}

que actúa para promediar en una región local al mismo tiempo que pondera esos valores cerca del centro más fuertemente.

Como resultado, esto ${\ Displaystyle A}$ La matriz describe la forma de la medida de autocorrelación debida a cambios en la ubicación de la ventana. Por lo tanto, si dejamos ${\ Displaystyle \ lambda _ {1}}$ y ${\ Displaystyle \ lambda _ {2}}$ ser los valores propios de ${\ Displaystyle A}$ , estos valores proporcionarán una descripción cuantitativa de cómo cambia la medida de autocorrelación en el espacio: sus principales curvaturas. Como señalan Harris y Stephens (1988), la ${\ Displaystyle A}$ La matriz centrada en los puntos de las esquinas tendrá dos valores propios positivos grandes. ^[8] En lugar de extraer estos valores propios mediante métodos como la descomposición de valores singulares, se utiliza la medida de Harris basada en la traza y el determinante:

{\ Displaystyle R = \ det (A) - \ alpha \ operatorname {trace} ^ {2} (A) = \ lambda _ {1} \ lambda _ {2} - \ alpha (\ lambda _ {1} + \ lambda _ {2}) ^ {2}}

dónde ${\ Displaystyle \ alpha}$ es una constante. Los puntos de esquina tienen valores propios positivos grandes y, por lo tanto, tendrían una gran medida de Harris. Por lo tanto, los puntos de esquina se identifican como máximos locales de la medida de Harris que están por encima de un umbral especificado.

{\ Displaystyle {\ begin {alineado} \ {x_ {c} \} = {\ big \ {} x_ {c} | R (x_ {c})> R (x_ {i}), \ forall x_ {i } \ in W (x_ {c}) {\ big \}}, \\ R (x_ {c})> t_ {umbral} \ end {alineado}}}

dónde ${\ Displaystyle \ {x_ {c} \}}$ son el conjunto de todos los puntos de las esquinas, ${\ Displaystyle R (x)}$ es la medida de Harris calculada en ${\ Displaystyle x}$ , ${\ Displaystyle W (x_ {c})}$ es un conjunto de 8 vecinos centrado en ${\ Displaystyle x_ {c}}$ y ${\ displaystyle t_ {umbral}}$ es un umbral especificado.

Barrio de 8 puntos

Espacio de escala gaussiano

Una representación espacial en escala gaussiana de una imagen es el conjunto de imágenes que resultan de la convolución de un núcleo gaussiano de varios tamaños con la imagen original. En general, la representación se puede formular como:

{\ Displaystyle L (\ mathbf {x}, s) = G (s) \ otimes I (\ mathbf {x})}

dónde ${\ Displaystyle G (s)}$ es un núcleo gaussiano circular isotrópico como se define arriba. La convolución con un kernel gaussiano suaviza la imagen usando una ventana del tamaño del kernel. A mayor escala, ${\ Displaystyle s}$ , corresponde a una imagen resultante más suave. Mikolajczyk y Schmid (2001) señalan que las derivadas y otras medidas deben normalizarse a través de escalas. ^[9] Una derivada de orden ${\ Displaystyle m}$ , ${\ Displaystyle D_ {i_ {1}, ... i_ {m}}}$ , debe estar normalizado por un factor ${\ Displaystyle s ^ {m}}$ en la siguiente manera:

{\ Displaystyle D_ {i_ {1}, \ dots, i_ {m}} (\ mathbf {x}, s) = s ^ {m} L_ {i_ {1}, \ dots, i_ {m}} (\ mathbf {x}, s)}

Estas derivadas, o cualquier medida arbitraria, se pueden adaptar a una representación de espacio de escala calculando esta medida utilizando un conjunto de escalas de forma recursiva donde el ${\ Displaystyle nth}$ la escala es ${\ Displaystyle s_ {n} = k ^ {n} s_ {0}}$ . Consulte el espacio de la escala para obtener una descripción más completa.

Combinando el detector de Harris en el espacio de escala gaussiano

El detector de Harris-Laplace combina el detector de esquinas de Harris 2D tradicional con la idea de una representación espacial de escala gaussiana para crear un detector invariante de escala. Los puntos de esquina de Harris son buenos puntos de partida porque se ha demostrado que tienen una buena invariancia de rotación y de iluminación, además de identificar los puntos interesantes de la imagen. ^[10] Sin embargo, los puntos no son invariantes de escala y, por lo tanto, la matriz de segundo momento debe modificarse para reflejar una propiedad invariante de escala. Denotemos, ${\ Displaystyle M = \ mu (\ mathbf {x}, \ sigma _ {\ mathit {I}}, \ sigma _ {\ mathit {D}})}$ como la matriz de segundo momento adaptada a escala utilizada en el detector Harris-Laplace.

{\ Displaystyle M = \ mu (\ mathbf {x}, \ sigma _ {\ mathit {I}}, \ sigma _ {\ mathit {D}}) = \ sigma _ {D} ^ {2} g (\ sigma _ {I}) \ otimes {\ begin {bmatrix} L_ {x} ^ {2} (\ mathbf {x}, \ sigma _ {D}) & L_ {x} L_ {y} (\ mathbf {x} , \ sigma _ {D}) \\ L_ {x} L_ {y} (\ mathbf {x}, \ sigma _ {D}) & L_ {y} ^ {2} (\ mathbf {x}, \ sigma _ {D}) \ end {bmatrix}}}

^[11]

dónde ${\ Displaystyle g (\ sigma _ {I})}$ es el núcleo de escala gaussiano ${\ Displaystyle \ sigma _ {I}}$ y ${\ Displaystyle \ mathbf {x} = (x, y)}$ . Similar al espacio de escala gaussiana, ${\ Displaystyle L (\ mathbf {x})}$ es la imagen suavizada por Gauss. La ${\ Displaystyle \ mathbf {\ otimes}}$ operador denota convolución. ${\ Displaystyle L_ {x} (\ mathbf {x}, \ sigma _ {D})}$ y ${\ Displaystyle L_ {y} (\ mathbf {x}, \ sigma _ {D})}$ son las derivadas en su dirección respectiva aplicadas a la imagen suavizada y calculadas usando un kernel gaussiano con escala ${\ Displaystyle \ sigma _ {D}}$ . En términos de nuestro marco de espacio de escala gaussiano, el ${\ Displaystyle \ sigma _ {I}}$ El parámetro determina la escala actual en la que se detectan los puntos de las esquinas de Harris.

Sobre la base de esta matriz de segundo momento adaptada a la escala, el detector de Harris-Laplace es un proceso doble: aplicar el detector de esquina de Harris a múltiples escalas y elegir automáticamente la escala característica .

Puntos de esquina de Harris multiescala

El algoritmo busca en un número fijo de escalas predefinidas. Este conjunto de escalas se define como:

{\ Displaystyle {\ sigma _ {1} \ dots \ sigma _ {n}} = {k ^ {1} \ sigma _ {0} \ dots k ^ {n} \ sigma _ {0}}}

Mikolajczyk y Schmid (2004) utilizan ${\ Displaystyle k = 1.4}$ . Para cada escala de integración, ${\ Displaystyle \ sigma _ {I}}$ , elegida de este conjunto, se elige la escala de diferenciación apropiada para que sea un factor constante de la escala de integración: ${\ Displaystyle \ sigma _ {D} = s \ sigma _ {I}}$ . Mikolajczyk y Schmid (2004) utilizaron ${\ Displaystyle s = 0,7}$ . ^[11] Con estas escalas, los puntos de interés se detectan mediante una medida de Harris en el ${\ Displaystyle \ mu (\ mathbf {x}, \ sigma _ {\ mathit {I}}, \ sigma _ {\ mathit {D}})}$ matriz. La esquina, como la medida típica de Harris, se define como:

{\ Displaystyle {\ mathit {esquina}} = \ det (\ mu (\ mathbf {x}, \ sigma _ {\ mathit {I}}, \ sigma _ {\ mathit {D}})) - \ alpha \ nombre de operador {trace} ^ {2} (\ mu (\ mathbf {x}, \ sigma _ {\ mathit {I}}, \ sigma _ {\ mathit {D}}))}

Al igual que el detector de Harris tradicional, los puntos de esquina son los máximos locales (vecindad de 8 puntos) de las esquinas que están por encima de un umbral especificado.

Identificación de escala característica

Un algoritmo iterativo basado en Lindeberg (1998) localiza espacialmente los puntos de las esquinas y selecciona la escala característica . ^[6] La búsqueda iterativa tiene tres pasos clave, que se llevan a cabo para cada punto. ${\ Displaystyle \ mathbf {x}}$ que se detectaron inicialmente a escala ${\ Displaystyle \ sigma _ {I}}$ por el detector Harris multiescala ( ${\ Displaystyle k}$ indica el ${\ displaystyle kth}$ iteración):

Elige la escala ${\ Displaystyle \ sigma _ {I} ^ {(k + 1)}}$ que maximiza el Laplaciano de Gauss (LoG) sobre un rango predefinido de escalas vecinas. Las escalas vecinas se eligen típicamente de un rango que se encuentra dentro de una vecindad de dos espacios de escala . Es decir, si los puntos originales se detectaron utilizando un factor de escala de ${\ Displaystyle 1.4}$ entre escalas sucesivas, una vecindad de dos espacios de escala es el rango ${\ Displaystyle t \ in [0.7, \ dots, 1.4]}$ . Así, las escalas gaussianas examinadas son: ${\ Displaystyle \ sigma _ {I} ^ {(k + 1)} = t \ sigma _ {I} ^ {k}}$ . La medición de LoG se define como:

{\ Displaystyle | LoG (\ mathbf {x}, \ sigma _ {I}) | = \ sigma _ {I} ^ {2} | L_ {xx} (\ mathbf {x}, \ sigma _ {I}) + L_ {yy} (\ mathbf {x}, \ sigma _ {I}) |}

dónde

{\ Displaystyle L_ {xx}}

y

{\ Displaystyle L_ {yy}}

son las segundas derivadas en sus respectivas direcciones. ^[12] El

{\ Displaystyle \ sigma _ {I} ^ {2}}

El factor (como se discutió anteriormente en el espacio de escala gaussiano) se usa para normalizar el LoG a través de escalas y hacer que estas medidas sean comparables, haciendo así un máximo relevante. Mikolajczyk y Schmid (2001) demuestran que la medida LoG alcanza el porcentaje más alto de puntos de esquina detectados correctamente en comparación con otras medidas de selección de escala. ^[9] La escala que maximiza esta medida de LoG en la vecindad de dos espacios de escala se considera la escala característica,

{\ Displaystyle \ sigma _ {I} ^ {(k + 1)}}

y se utiliza en iteraciones posteriores. Si no se encuentran extremos o máximos del LoG, este punto se descarta de búsquedas futuras.

Usando la escala característica, los puntos se localizan espacialmente. Es decir, el punto ${\ Displaystyle \ mathbf {x} ^ {(k + 1)}}$ se elige de manera que maximice la medida de la esquina de Harris ( esquina como se define arriba) dentro de un vecindario local de 8 × 8.
Criterio de parada : ${\ Displaystyle \ sigma _ {I} ^ {(k + 1)} == \ sigma _ {I} ^ {(k)}}$ y ${\ Displaystyle \ mathbf {x} ^ {(k + 1)} == \ mathbf {x} ^ {(k)}}$ .

Si no se cumple el criterio de detención, el algoritmo se repite desde el paso 1 utilizando el nuevo ${\ Displaystyle k + 1}$ puntos y escala. Cuando se cumple el criterio de detención, los puntos encontrados representan aquellos que maximizan el LoG a través de escalas (selección de escala) y maximizan la medida de esquina de Harris en un vecindario local (selección espacial).

Puntos afines invariantes

Teoría matemática

Los puntos detectados por Harris-Laplace son invariantes en escala y funcionan bien para regiones isotrópicas que se ven desde el mismo ángulo de visión. Para ser invariante a transformaciones afines arbitrarias (y puntos de vista), el marco matemático debe revisarse. La matriz del segundo momento ${\ Displaystyle \ mathbf {\ mu}}$ se define más generalmente para regiones anisotrópicas:

{\ Displaystyle \ mu (\ mathbf {x}, \ Sigma _ {I}, \ Sigma _ {D}) = \ det (\ Sigma _ {D}) g (\ Sigma _ {I}) * (\ nabla L (\ mathbf {x}, \ Sigma _ {D}) \ nabla L (\ mathbf {x}, \ Sigma _ {D}) ^ {T})}

dónde ${\ Displaystyle \ Sigma _ {I}}$ y ${\ Displaystyle \ Sigma _ {D}}$ son matrices de covarianza que definen la diferenciación y la integración de las escalas del kernel gaussiano. Aunque esto puede parecer significativamente diferente de la matriz de segundo momento en el detector de Harris-Laplace; de hecho, es idéntico. El anterior ${\ Displaystyle \ mu}$ matriz era la versión isotrópica 2D en la que las matrices de covarianza ${\ Displaystyle \ Sigma _ {I}}$ y ${\ Displaystyle \ Sigma _ {D}}$ eran matrices de identidad 2x2 multiplicadas por factores ${\ Displaystyle \ sigma _ {I}}$ y ${\ Displaystyle \ sigma _ {D}}$ , respectivamente. En la nueva formulación, se puede pensar en los núcleos gaussianos como distribuciones gaussianas multivariadas en contraposición a un núcleo gaussiano uniforme. Se puede pensar en un núcleo gaussiano uniforme como una región circular isotrópica. De manera similar, un kernel gaussiano más general define un elipsoide. De hecho, los autovectores y autovalores de la matriz de covarianza definen la rotación y el tamaño del elipsoide. Por lo tanto, podemos ver fácilmente que esta representación nos permite definir completamente una región afín elíptica arbitraria sobre la que queremos integrar o diferenciar.

El objetivo del detector invariante afín es identificar regiones en imágenes que están relacionadas mediante transformaciones afines. Por tanto, consideramos un punto ${\ Displaystyle \ mathbf {x} _ {L}}$ y el punto transformado ${\ Displaystyle \ mathbf {x} _ {R} = A \ mathbf {x} _ {L}}$ , donde A es una transformación afín. En el caso de las imágenes, tanto ${\ Displaystyle \ mathbf {x} _ {R}}$ y ${\ Displaystyle \ mathbf {x} _ {L}}$ vivir en ${\ Displaystyle R ^ {2}}$ espacio. Las matrices de segundo momento se relacionan de la siguiente manera: ^[3]

{\ Displaystyle {\ begin {alineado} \ mu (\ mathbf {x} _ {L}, \ Sigma _ {I, L}, \ Sigma _ {D, L}) & {} = A ^ {T} \ mu (\ mathbf {x} _ {R}, \ Sigma _ {I, R}, \ Sigma _ {D, R}) A \\ M_ {L} & {} = \ mu (\ mathbf {x} _ {L}, \ Sigma _ {I, L}, \ Sigma _ {D, L}) \\ M_ {R} & {} = \ mu (\ mathbf {x} _ {R}, \ Sigma _ {I , R}, \ Sigma _ {D, R}) \\ M_ {L} & {} = A ^ {T} M_ {R} A \\\ Sigma _ {I, R} & {} = A \ Sigma _ {I, L} A ^ {T} {\ text {y}} \ Sigma _ {D, R} = A \ Sigma _ {D, L} A ^ {T} \ end {alineado}}}

dónde ${\ Displaystyle \ Sigma _ {I, b}}$ y ${\ Displaystyle \ Sigma _ {D, b}}$ son las matrices de covarianza para el ${\ Displaystyle b}$ marco de referencia. Si continuamos con esta formulación y hacemos cumplir esa

{\ Displaystyle {\ begin {alineado} \ Sigma _ {I, L} = \ sigma _ {I} M_ {L} ^ {- 1} \\\ Sigma _ {D, L} = \ sigma _ {D} M_ {L} ^ {- 1} \ end {alineado}}}

dónde ${\ Displaystyle \ sigma _ {I}}$ y ${\ Displaystyle \ sigma _ {D}}$ son factores escalares, se puede demostrar que las matrices de covarianza para el punto relacionado están relacionadas de manera similar:

{\ Displaystyle {\ begin {alineado} \ Sigma _ {I, R} = \ sigma _ {I} M_ {R} ^ {- 1} \\\ Sigma _ {D, R} = \ sigma _ {D} M_ {R} ^ {- 1} \ end {alineado}}}

Al requerir que las matrices de covarianza satisfagan estas condiciones, surgen varias propiedades interesantes. Una de estas propiedades es que la raíz cuadrada de la matriz de segundo momento, ${\ Displaystyle M ^ {\ tfrac {1} {2}}}$ Transformará la región anisotrópica original en regiones isotrópicas que están relacionadas simplemente a través de una matriz de rotación pura. ${\ Displaystyle R}$ . Estas nuevas regiones isotrópicas se pueden considerar como un marco de referencia normalizado. Las siguientes ecuaciones formulan la relación entre los puntos normalizados ${\ displaystyle x_ {R} ^ {'}}$ y ${\ Displaystyle x_ {L} ^ {'}}$ :

{\ Displaystyle {\ begin {alineado} A = M_ {R} ^ {- {\ tfrac {1} {2}}} RM_ {L} ^ {\ tfrac {1} {2}} \\ x_ {R} ^ {'} = M_ {R} ^ {\ tfrac {1} {2}} x_ {R} \\ x_ {L} ^ {'} = M_ {L} ^ {\ tfrac {1} {2}} x_ {L} \\ x_ {L} ^ {'} = Rx_ {R} ^ {'} \\\ end {alineado}}}

La matriz de rotación se puede recuperar utilizando métodos de gradiente como los del descriptor SIFT . Como se discutió con el detector de Harris, los autovalores y autovectores de la matriz de segundo momento, ${\ Displaystyle M = \ mu (\ mathbf {x}, \ Sigma _ {I}, \ Sigma _ {D})}$ caracterizar la curvatura y la forma de las intensidades de píxeles. Es decir, el vector propio asociado con el valor propio más grande indica la dirección del cambio más grande y el vector propio asociado con el valor propio más pequeño define la dirección del cambio mínimo. En el caso 2D, los autovectores y autovalores definen una elipse. Para una región isotrópica, la región debe ser de forma circular y no elíptica. Este es el caso cuando los valores propios tienen la misma magnitud. Por lo tanto, una medida de la isotropía alrededor de una región local se define como sigue:

{\ Displaystyle {\ mathcal {Q}} = {\ frac {\ lambda _ {\ min} (M)} {\ lambda _ {\ max} (M)}}}

dónde ${\ Displaystyle \ lambda}$ denotar valores propios. Esta medida tiene el rango ${\ Displaystyle [0 \ dots 1]}$ . Un valor de ${\ Displaystyle 1}$ corresponde a la isotropía perfecta.

Algoritmo iterativo

Usando este marco matemático, el algoritmo del detector afín de Harris descubre iterativamente la matriz de segundo momento que transforma la región anisotrópica en una región normalizada en la que la medida isotrópica está lo suficientemente cerca de uno. El algoritmo utiliza esta matriz de adaptación de forma , ${\ Displaystyle U}$ , para transformar la imagen en un marco de referencia normalizado. En este espacio normalizado, los parámetros de los puntos de interés (ubicación espacial, escala de integración y escala de diferenciación) se refinan utilizando métodos similares al detector de Harris-Laplace. La matriz de segundo momento se calcula en este marco de referencia normalizado y debe tener una medida isotrópica cercana a uno en la iteración final. En cada ${\ Displaystyle k}$ En la iteración, cada región de interés está definida por varios parámetros que el algoritmo debe descubrir: ${\ Displaystyle U ^ {(k)}}$ matriz, posición ${\ Displaystyle \ mathbf {x} ^ {(k)}}$ , escala de integración ${\ Displaystyle \ sigma _ {I} ^ {(k)}}$ y escala de diferenciación ${\ Displaystyle \ sigma _ {D} ^ {(k)}}$ . Debido a que el detector calcula la matriz de segundo momento en el dominio transformado, es conveniente denotar esta posición transformada como ${\ Displaystyle \ mathbf {x} _ {w} ^ {(k)}}$ dónde ${\ Displaystyle U ^ {(k)} \ mathbf {x} _ {w} ^ {(k)} = \ mathbf {x ^ {(k)}}}$ .

El detector inicializa el espacio de búsqueda con puntos detectados por el detector Harris-Laplace.
${\ displaystyle U ^ {(0)} = {\ mathit {identidad}}}$ y ${\ Displaystyle \ mathbf {x} ^ {(0)}}$ , ${\ Displaystyle \ sigma _ {D} ^ {(0)}}$ , y ${\ Displaystyle \ sigma _ {I} ^ {(0)}}$ son los del detector Harris-Laplace.
Aplicar la matriz de adaptación de forma de iteración anterior , ${\ Displaystyle U ^ {(k-1)}}$ para generar el marco de referencia normalizado, ${\ Displaystyle U ^ {(k-1)} \ mathbf {x} _ {w} ^ {(k-1)} = \ mathbf {x} ^ {(k-1)}}$ . Para la primera iteración, aplica ${\ Displaystyle U ^ {(0)}}$ .
Seleccione la escala de integración , ${\ Displaystyle \ sigma _ {I} ^ {(k)}}$ , utilizando un método similar al detector Harris-Laplace. La escala se elige como la escala que maximiza el Laplaciano de Gauss (LoG). El espacio de búsqueda de las escalas son los que están dentro de dos espacios de escala de la escala de iteraciones anteriores.
${\ Displaystyle \ sigma _ {I} ^ {(k)} = {\ underset {\ sigma _ {I} = t \ sigma _ {I} ^ {(k-1)} \ encima de t \ in [0.7, \ dots, 1.4]} {\ operatorname {argmax}}} \, \ sigma _ {I} ^ {2} \ det (L_ {xx} (\ mathbf {x}, \ sigma _ {I}) + L_ { yy} (\ mathbf {x}, \ sigma _ {I}))}$
Es importante señalar que la escala de integración en el ${\ Displaystyle U-normalizado}$ el espacio difiere significativamente del espacio no normalizado. Por tanto, es necesario buscar la escala de integración en lugar de utilizar la escala en el espacio no normalizado.
Seleccione la escala de diferenciación , ${\ Displaystyle \ sigma _ {D} ^ {(k)}}$ . Para reducir el espacio de búsqueda y los grados de libertad, se considera que la escala de diferenciación está relacionada con la escala de integración mediante un factor constante: ${\ Displaystyle \ sigma _ {D} ^ {k} = s \ sigma _ {I} ^ {k}}$ . Por razones obvias, el factor constante es menor que uno. Mikolajczyk y Schmid (2001) señalan que un factor demasiado pequeño hará que el suavizado (integración) sea demasiado significativo en comparación con la diferenciación y un factor demasiado grande no permitirá que la integración promedie la matriz de covarianza. ^[9] Es común elegir ${\ Displaystyle s \ in [0.5,0.75]}$ . De este conjunto, la escala elegida maximizará la medida isotrópica ${\ Displaystyle {\ mathcal {Q}} = {\ frac {\ lambda _ {min} (\ mu)} {\ lambda _ {max} (\ mu)}}}$ .
${\ Displaystyle \ sigma _ {D} ^ {(k)} = {\ underset {\ sigma _ {D} = s \ sigma _ {I} ^ {(k)}, \; s \ in [0.5, \ puntos, 0,75]} {\ operatorname {argmax}}} \, {\ frac {\ lambda _ {\ min} (\ mu (\ mathbf {x} _ {w} ^ {(k)}, \ sigma _ { I} ^ {k}, \ sigma _ {D}))} {\ lambda _ {\ max} (\ mu (\ mathbf {x} _ {w} ^ {(k)}, \ sigma _ {I} ^ {k}, \ sigma _ {D}))}}}$
dónde ${\ Displaystyle \ mu (\ mathbf {x} _ {w} ^ {(k)}, \ sigma _ {I} ^ {k}, \ sigma _ {D})}$ es la matriz de segundo momento evaluada en el marco de referencia normalizado. Este proceso de maximización hace que los valores propios converjan al mismo valor.
Localización espacial: seleccione el punto ${\ Displaystyle \ mathbf {x} _ {w} ^ {(k)}}$ que maximiza la medida de la esquina de Harris ( ${\ Displaystyle {\ mathit {esquina}}}$ ) dentro de un vecindario de 8 puntos alrededor del anterior ${\ Displaystyle \ mathbf {x} _ {w} ^ {(k-1)}}$ punto.
${\ Displaystyle \ mathbf {x} _ {w} ^ {(k)} = {\ underset {\ mathbf {x} _ {w} \ in W (\ mathbf {x} _ {w} ^ {(k- 1)})} {\ operatorname {argmax}}} \, \ det (\ mu (\ mathbf {x} _ {w}, \ sigma _ {I} ^ {k}, \ sigma _ {D} ^ { (k)})) - \ alpha \ operatorname {trace} ^ {2} (\ mu (\ mathbf {x} _ {w}, \ sigma _ {I} ^ {k}, \ sigma _ {D} ^ {(k)}))}$
dónde ${\ Displaystyle \ mu}$ es la matriz de segundo momento como se define arriba. La ventana ${\ Displaystyle W (\ mathbf {x} _ {w} ^ {(k-1)})}$ es el conjunto de los 8 vecinos más cercanos del punto de la iteración anterior en el marco de referencia normalizado. Debido a que nuestra localización espacial se realizó en el ${\ Displaystyle U}$ -marco de referencia normalizado, el punto recién elegido debe transformarse de nuevo al marco de referencia original. Esto se logra transformando un vector de desplazamiento y agregando esto al punto anterior:
${\ Displaystyle \ mathbf {x} ^ {(k)} = \ mathbf {x} ^ {(k-1)} + U ^ {(k-1)} \ cdot (\ mathbf {x} _ {w} ^ {(k)} - \ mathbf {x} _ {w} ^ {(k-1)})}$
Como se mencionó anteriormente, la raíz cuadrada de la matriz de segundo momento define la matriz de transformación que genera el marco de referencia normalizado. Por lo tanto, necesitamos guardar esta matriz: ${\ Displaystyle \ mu _ {i} ^ {(k)} = \ mu ^ {- {\ tfrac {1} {2}}} (\ mathbf {x} _ {w} ^ {(k)}, \ sigma _ {I} ^ {(k)}, \ sigma _ {D} ^ {(k)})}$ . La matriz de transformación ${\ Displaystyle U}$ se actualiza: ${\ Displaystyle U ^ {(k)} = \ mu _ {i} ^ {(k)} \ cdot U ^ {(k-1)}}$ . Para asegurarnos de que la imagen se muestrea correctamente y estamos expandiendo la imagen en la dirección del menor cambio (valor propio más pequeño), fijamos el valor propio máximo: ${\ Displaystyle \ lambda _ {max} (U ^ {(k)}) = 1}$ . Usando este método de actualización, uno puede ver fácilmente que el final ${\ Displaystyle U}$ La matriz toma la siguiente forma:
${\ Displaystyle U = \ prod _ {k} \ mu _ {i} ^ {(k)} \ cdot U ^ {(0)} = \ prod _ {k} (\ mu ^ {- {\ tfrac {1 } {2}}}) ^ {(k)} \ cdot U ^ {(0)}}$
Si no se cumple el criterio de detención , continúe con la siguiente iteración en el paso 2. Debido a que el algoritmo resuelve iterativamente el ${\ Displaystyle U-normalización}$ matriz que transforma una región anisotrópica en una región isotrópica, tiene sentido detenerse cuando la medida isotrópica, ${\ Displaystyle {\ mathcal {Q}} = {\ frac {\ lambda _ {\ min} (\ mu)} {\ lambda _ {\ max} (\ mu)}}}$ , está lo suficientemente cerca de su valor máximo 1. Suficientemente cerca implica la siguiente condición de parada :
${\ Displaystyle 1 - {\ frac {\ lambda _ {\ min} (\ mu _ {i} ^ {(k)})} {\ lambda _ {\ max} (\ mu _ {i} ^ {(k )})}} <\ varepsilon _ {C}}$
Mikolajczyk y Schmid (2004) tuvieron un buen éxito con ${\ Displaystyle \ epsilon _ {C} = 0.05}$ .

Computación e implementación

La complejidad computacional del detector Harris-Affine se divide en dos partes: detección de punto inicial y normalización de la región afín. El algoritmo de detección de puntos inicial, Harris-Laplace, tiene complejidad ${\ Displaystyle {\ mathcal {O}} (n)}$ dónde ${\ Displaystyle n}$ es el número de píxeles de la imagen. El algoritmo de normalización de la región afín detecta automáticamente la escala y estima la matriz de adaptación de forma . ${\ Displaystyle U}$ . Este proceso tiene complejidad ${\ Displaystyle {\ mathcal {O}} ((m + k) p)}$ , dónde ${\ Displaystyle p}$ es el número de puntos iniciales, ${\ Displaystyle m}$ es el tamaño del espacio de búsqueda para la selección automática de escala y ${\ Displaystyle k}$ es el número de iteraciones necesarias para calcular el ${\ Displaystyle U}$ matriz. ^[11]

Existen algunos métodos para reducir la complejidad del algoritmo a expensas de la precisión. Un método consiste en eliminar la búsqueda en el paso de la escala de diferenciación. En lugar de elegir un factor ${\ Displaystyle s}$ a partir de un conjunto de factores, el algoritmo acelerado elige la escala para que sea constante entre iteraciones y puntos: ${\ Displaystyle \ sigma _ {D} = s \ sigma _ {I}, \; s = constante}$ . Aunque esta reducción en el espacio de búsqueda podría disminuir la complejidad, este cambio puede afectar severamente la convergencia de la ${\ Displaystyle U}$ matriz.

Análisis

Convergencia

Uno puede imaginar que este algoritmo podría identificar puntos de interés duplicados en múltiples escalas. Debido a que el algoritmo afín de Harris analiza cada punto inicial proporcionado por el detector de Harris-Laplace de forma independiente, no hay discriminación entre puntos idénticos. En la práctica, se ha demostrado que, en última instancia, todos estos puntos convergerán hacia el mismo punto de interés. Después de terminar de identificar todos los puntos de interés, el algoritmo tiene en cuenta los duplicados comparando las coordenadas espaciales ( ${\ Displaystyle \ mathbf {x}}$ ), la escala de integración ${\ Displaystyle \ sigma _ {I}}$ , la medida isotrópica ${\ displaystyle {\ tfrac {\ lambda _ {\ min} (U)} {\ lambda _ {\ max} (U)}}}$ y sesgar. ^[11] Si estos parámetros de puntos de interés son similares dentro de un umbral especificado, entonces se etiquetan como duplicados. El algoritmo descarta todos estos puntos duplicados excepto el punto de interés más cercano al promedio de los duplicados. Por lo general, el 30% de los puntos afines de Harris son distintos y lo suficientemente diferentes como para no descartarse. ^[11]

Mikolajczyk y Schmid (2004) demostraron que a menudo los puntos iniciales (40%) no convergen. El algoritmo detecta esta divergencia deteniendo el algoritmo iterativo si la inversa de la medida isotrópica es mayor que un umbral especificado: ${\ displaystyle {\ tfrac {\ lambda _ {\ max} (U)} {\ lambda _ {\ min} (U)}}> t _ {\ text {diverge}}}$ . Mikolajczyk y Schmid (2004) utilizan ${\ Displaystyle t_ {diverge} = 6}$ . De los que sí convergieron, el número típico de iteraciones requeridas fue de 10. ^[2]

Medida cuantitativa

El análisis cuantitativo de los detectores de regiones afines tiene en cuenta tanto la precisión de las ubicaciones de los puntos como la superposición de las regiones en dos imágenes. Mioklajcyzk y Schmid (2004) amplían la medida de repetibilidad de Schmid et al. (1998) como la relación entre las correspondencias de puntos y los puntos mínimos detectados de las dos imágenes. ^[11]^[13]

{\ Displaystyle R _ {\ text {score}} = {\ frac {C (A, B)} {\ min (n_ {A}, n_ {B})}}}

dónde ${\ Displaystyle C (A, B)}$ son el número de puntos correspondientes en las imágenes ${\ Displaystyle A}$ y ${\ Displaystyle B}$ . ${\ Displaystyle n_ {B}}$ y ${\ Displaystyle n_ {A}}$ son el número de puntos detectados en las respectivas imágenes. Debido a que cada imagen representa un espacio 3D, podría darse el caso de que la única imagen contenga objetos que no están en la segunda imagen y, por lo tanto, cuyos puntos de interés no tengan ninguna posibilidad de corresponder. Para que la medida de repetibilidad sea válida, se eliminan estos puntos y solo se deben considerar los puntos que se encuentran en ambas imágenes; ${\ Displaystyle n_ {A}}$ y ${\ Displaystyle n_ {B}}$ solo cuente esos puntos de manera que ${\ Displaystyle x_ {A} = H \ cdot x_ {B}}$ . Para un par de dos imágenes relacionadas mediante una matriz de homografía ${\ Displaystyle H}$ , dos puntos, ${\ Displaystyle \ mathbf {x_ {a}}}$ y ${\ Displaystyle \ mathbf {x_ {b}}}$ se dice que corresponden si:

Región de superposición de dos regiones elípticas.

El error en la ubicación de los píxeles es inferior a 1,5 píxeles: ${\ Displaystyle \ | \ mathbf {x_ {a}} -H \ cdot \ mathbf {x_ {b}} \ | <1.5}$
El error de superposición de los dos puntos afines ( ${\ Displaystyle \ epsilon _ {S}}$ ) debe ser inferior a un umbral especificado (normalmente el 40%). ^[1] Para las regiones afines, este error de superposición es el siguiente:
${\ Displaystyle \ epsilon _ {S} = 1 - {\ frac {\ mu _ {a} \ cap (H ^ {T} \ mu _ {b} H)} {\ mu _ {a} \ cup (H ^ {T} \ mu _ {b} H)}}}$
dónde ${\ Displaystyle \ mu _ {a}}$ y ${\ Displaystyle \ mu _ {b}}$ son las regiones elípticas recuperadas cuyos puntos satisfacen: ${\ Displaystyle \ mu ^ {T} \ mathbf {x} \ mu = 1}$ . Básicamente, esta medida toma una relación de áreas: el área de superposición (intersección) y el área total (unión). La superposición perfecta tendría una proporción de uno y tendría un ${\ Displaystyle \ epsilon _ {S} = 0}$ . Las diferentes escalas afectan la región de superposición y, por lo tanto, deben tenerse en cuenta al normalizar el área de cada región de interés. Las regiones con un error de superposición de hasta el 50% son detectores viables que se pueden emparejar con un buen descriptor. ^[1]
Una segunda medida, una puntuación de coincidencia , evalúa de manera más práctica la capacidad del detector para identificar puntos de coincidencia entre imágenes. Mikolajczyk y Schmid (2005) utilizan un descriptor SIFT para identificar puntos coincidentes. Además de ser los puntos más cercanos en el espacio SIFT, dos puntos emparejados también deben tener un error de superposición suficientemente pequeño (como se define en la medida de repetibilidad). La puntuación coincidente es la relación entre el número de puntos coincidentes y el mínimo del total de puntos detectados en cada imagen:
${\ Displaystyle M_ {score} = {\ frac {M (A, B)} {\ min (n_ {A}, n_ {B})}}}$ , ^[1]
dónde ${\ Displaystyle M (A, B)}$ son el número de puntos coincidentes y ${\ Displaystyle n_ {B}}$ y ${\ Displaystyle n_ {A}}$ son el número de regiones detectadas en las imágenes respectivas.

Robustez a afines y otras transformaciones

Mikolajczyk y col. (2005) han realizado un análisis exhaustivo de varios detectores de regiones afines de última generación: detectores afines Harris, afines hessianos , MSER , ^[14] IBR y EBR ^[15] y salientes ^[16] . ^[1] Mikolajczyk y col. analizaron tanto imágenes estructuradas como imágenes texturizadas en su evaluación. Los binarios de Linux de los detectores y sus imágenes de prueba están disponibles gratuitamente en su página web . Un breve resumen de los resultados de Mikolajczyk et al. (2005) siguen; consulte Una comparación de detectores de regiones afines para obtener un análisis más cuantitativo.

Cambio de ángulo del punto de vista: el detector afín de Harris tiene una robustez razonable (promedio) para este tipo de cambios. El detector mantiene una puntuación de repetibilidad superior al 50% hasta un ángulo del punto de vista superior a 40 grados. El detector tiende a detectar un gran número de regiones repetibles y adaptables incluso bajo un gran cambio de punto de vista.
Cambio de escala: el detector afín de Harris se mantiene muy consistente bajo cambios de escala. Aunque el número de puntos disminuye considerablemente en cambios de gran escala (por encima de 2.8), la repetibilidad (50-60%) y las puntuaciones de coincidencia (25-30%) permanecen muy constantes, especialmente con imágenes texturizadas. Esto es coherente con el alto rendimiento del algoritmo iterativo de selección automática de escala.
Imágenes borrosas: el detector afín de Harris se mantiene muy estable bajo imágenes borrosas. Debido a que el detector no depende de la segmentación de la imagen o los límites de la región, la repetibilidad y las puntuaciones de coincidencia permanecen constantes.
Artefactos JPEG: el detector afín de Harris se degrada de manera similar a otros detectores afines: la repetibilidad y las puntuaciones de coincidencia caen significativamente por encima del 80% de compresión.
Cambios de iluminación: el detector afín de Harris, al igual que otros detectores afines, es muy resistente a los cambios de iluminación: la repetibilidad y las puntuaciones de coincidencia permanecen constantes con luz decreciente. Esto debería esperarse porque los detectores dependen en gran medida de intensidades relativas (derivadas) y no de intensidades absolutas.

Tendencias generales

Los puntos de la región afín de Harris tienden a ser pequeños y numerosos. Tanto el detector Harris-Affine como el Hessian-Affine identifican consistentemente el doble de puntos repetibles que otros detectores afines: ~ 1000 regiones para una imagen de 800x640. ^[1] Es menos probable que las regiones pequeñas se ocluyan, pero tienen menos posibilidades de superponerse a regiones vecinas.
El detector afín Harris responde bien a escenas texturizadas en las que hay muchas partes en forma de esquina. Sin embargo, para algunas escenas estructuradas, como edificios, el detector Harris-Affine funciona muy bien. Esto es complementario a MSER que tiende a funcionar mejor con escenas bien estructuradas (segmentables).
En general, el detector afín de Harris funciona muy bien, pero todavía está por detrás de MSER y Hessian-Affine en todos los casos, excepto en imágenes borrosas.
Los detectores Harris-Affine y Hessian-Affine son menos precisos que otros: su puntuación de repetibilidad aumenta a medida que aumenta el umbral de superposición.
Las regiones invariantes afines detectadas aún pueden diferir en su rotación e iluminación. Cualquier descriptor que use estas regiones debe tener en cuenta la invariancia al usar las regiones para emparejar u otras comparaciones.

Aplicaciones

Recuperación de imágenes basada en contenido ^[17]^[18]
Reconocimiento basado en modelos
Recuperación de objetos en video ^[19]
Minería de datos visual: identificación de objetos, personajes y escenas importantes en videos ^[20]
Reconocimiento y categorización de objetos ^[21]
Análisis de imágenes de detección remota : detección de objetos a partir de imágenes de detección remota ^[22]

Paquetes de software

Funciones covariantes afines : K. Mikolajczyk mantiene una página web que contiene binarios de Linux del detector Harris-Affine además de otros detectores y descriptores. También hay disponible código Matlab que se puede utilizar para ilustrar y calcular la repetibilidad de varios detectores. El código y las imágenes también están disponibles para duplicar los resultados encontrados en Mikolajczyk et al. (2005) artículo.
lip-vireo : código binario para Linux, Windows y SunOS del grupo de investigación VIREO. Ver más en la página de inicio

enlaces externos

[1] - Presentación de diapositivas de Mikolajczyk et al. en su artículo de 2005.
[2] - Laboratorio de visión por computadora de Cordelia Schmid
[3] - Código, imágenes de prueba, bibliografía de características covariantes afines mantenidas por Krystian Mikolajczyk y el grupo de geometría visual del grupo de robótica de la Universidad de Oxford.
[4] - Bibliografía de detectores de características (y manchas) mantenidos por el Instituto de Robótica y Sistemas Inteligentes de la USC
[5] - Implementación digital de Laplacian of Gaussian

Ver también

Arpillera-afín
MSER
Detector de salinidad Kadir
Espacio de escala
Isotropía
Detección de esquinas
Detección de puntos de interés
Adaptación de formas afines
Derivados de imagen
Visión por computador
ASIFT -> Affine-Sift (Un algoritmo de coincidencia de imágenes invariante totalmente afín)

Referencias

^ a b c d e f K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir y L. Van Gool, Una comparación de detectores de regiones afines. En IJCV 65 (1/2): 43-72, 2005
^ a b Mikolajcyk, K. y Schmid, C. 2002. Un detector de punto de interés invariante afín. En Actas de la 8ª Conferencia Internacional sobre Visión por Computador , Vancouver, Canadá.
↑ a b T. Lindeberg y J. Garding (1997). "Suavizado adaptado a la forma en la estimación de las señales de profundidad 3- {D} de distorsiones afines de la estructura local 2- {D}". Computación de imagen y visión 15: págs. 415—434.
^ A. Baumberg (2000). "Coincidencia confiable de funciones en vistas muy separadas". Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones: páginas I: 1774—1781.
^ Lindeberg, Tony, teoría del espacio de escala en la visión por computadora, Kluwer Academic Publishers, 1994 , ISBN 0-7923-9418-6
↑ a b c T. Lindeberg (1998). "Detección de características con selección automática de escala". Revista Internacional de Visión por Computador 30 (2): págs. 77-116.
^ Lindeberg, T. (2008). "Espacio de escala" . En Wah, Benjamin (ed.). Enciclopedia de Ciencias e Ingeniería de la Computación . IV . John Wiley e hijos. págs. 2495-2504. doi : 10.1002 / 9780470050118.ecse609 . ISBN 978-0470050118.
↑ a b C. Harris y M. Stephens (1988). "Un detector combinado de esquinas y bordes". Actas de la 4ª Conferencia de Visión de Alvey: páginas 147-151. Archivado el 16 de septiembre de 2007 en la Wayback Machine.
^ a b c K. Mikolajczyk y C. Schmid. Indexación basada en puntos de interés invariantes de escala. En Proceedings of the 8th International Conference on Computer Vision, Vancouver, Canadá, páginas 525-531, 2001.
^ Schmid, C., Mohr, R. y Bauckhage, C. 2000. Evaluación de detectores de puntos de interés. Revista Internacional de Visión por Computador, 37 (2): 151-172.
^ a b c d e f Mikolajczyk, K. y Schmid, C. 2004. Detectores de puntos de interés invariantes de escala y afines. Revista Internacional de Visión por Computador 60 (1): 63-86.
^ Filtros espaciales: Laplaciano / Laplaciano de Gauss
^ C. Schmid, R. Mohr y C. Bauckhage. Comparar y evaluar puntos de interés . En International Conference on Computer Vision , págs. 230-135, 1998.
^ J.Matas, O. Chum, M. Urban y T. Pajdla, Estéreo de línea de base amplia y robusto de regiones extremas máximamente estables. En BMVC p. 384-393, 2002.
^ T. Tuytelaars y L. Van Gool, Coincidencia de puntos de vista ampliamente separados basados en regiones invariantes afines. En IJCV 59 (1): 61-85, 2004.
^ T. Kadir, A. Zisserman y M. Brady, Un detector de región saliente invariante afín. En ECCV p. 404-416, 2004.
^ http://staff.science.uva.nl/~gevers/pub/overview.pdf
^ R. Datta, J. Li y JZ Wang, "Recuperación de imágenes basada en contenido: enfoques y tendencias de la nueva era", en Proc. En t. Taller sobre recuperación de información multimedia, págs. 253-262, 2005. Transacciones de la IEEE sobre multimedia, vol. 7, no. 1, págs. 127-142, 2005. Archivado el 28 de septiembre de 2007 en la Wayback Machine.
^ J. Sivic y A. Zisserman. Google de videos: un enfoque de recuperación de texto para la coincidencia de objetos en videos. En Actas de la Conferencia Internacional sobre Visión por Computador, Niza, Francia, 2003.
^ J. Sivic y A. Zisserman. Minería de datos de video usando configuraciones de regiones invariantes de puntos de vista. En Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington DC, EE. UU., Págs. 488-495, 2004.
^ G. Dorko y C. Schmid. Selección de vecindarios invariantes de escala para el reconocimiento de clases de objetos. En Actas de la Conferencia Internacional sobre Visión por Computador, Niza, Francia, págs.634-640, 2003.
^ Beril Sirmacek y Cem Unsalan (enero de 2011). "Un marco probabilístico para la detección de edificios en imágenes aéreas y de satélite" (PDF) . Transacciones IEEE sobre geociencia y teledetección . 49 (1): 211-221. doi : 10.1109 / TGRS.2010.2053713 . S2CID 10637950 .

[miko05-1] K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir y L. Van Gool, Una comparación de detectores de regiones afines. En IJCV 65 (1/2): 43-72, 2005

[miko02-2] Mikolajcyk, K. y Schmid, C. 2002. Un detector de punto de interés invariante afín. En Actas de la 8ª Conferencia Internacional sobre Visión por Computador , Vancouver, Canadá.

[lindgard97-3] T. Lindeberg y J. Garding (1997). "Suavizado adaptado a la forma en la estimación de las señales de profundidad 3- {D} de distorsiones afines de la estructura local 2- {D}". Computación de imagen y visión 15: págs. 415—434.

[4] A. Baumberg (2000). "Coincidencia confiable de funciones en vistas muy separadas". Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones: páginas I: 1774—1781.

[lin94-5] Lindeberg, Tony, teoría del espacio de escala en la visión por computadora, Kluwer Academic Publishers, 1994 , ISBN 0-7923-9418-6

[lin98-6] T. Lindeberg (1998). "Detección de características con selección automática de escala". Revista Internacional de Visión por Computador 30 (2): págs. 77-116.

[7] Lindeberg, T. (2008). "Espacio de escala" . En Wah, Benjamin (ed.). Enciclopedia de Ciencias e Ingeniería de la Computación . IV . John Wiley e hijos. págs. 2495-2504. doi : 10.1002 / 9780470050118.ecse609 . ISBN 978-0470050118.

[harris88-8] C. Harris y M. Stephens (1988). "Un detector combinado de esquinas y bordes". Actas de la 4ª Conferencia de Visión de Alvey: páginas 147-151. Archivado el 16 de septiembre de 2007 en la Wayback Machine.

[miko01-9] K. Mikolajczyk y C. Schmid. Indexación basada en puntos de interés invariantes de escala. En Proceedings of the 8th International Conference on Computer Vision, Vancouver, Canadá, páginas 525-531, 2001.

[10] Schmid, C., Mohr, R. y Bauckhage, C. 2000. Evaluación de detectores de puntos de interés. Revista Internacional de Visión por Computador, 37 (2): 151-172.

[miko04-11] Mikolajczyk, K. y Schmid, C. 2004. Detectores de puntos de interés invariantes de escala y afines. Revista Internacional de Visión por Computador 60 (1): 63-86.

[12] Filtros espaciales: Laplaciano / Laplaciano de Gauss

[schmid98-13] C. Schmid, R. Mohr y C. Bauckhage. Comparar y evaluar puntos de interés . En International Conference on Computer Vision , págs. 230-135, 1998.

[14] J.Matas, O. Chum, M. Urban y T. Pajdla, Estéreo de línea de base amplia y robusto de regiones extremas máximamente estables. En BMVC p. 384-393, 2002.

[15] T. Tuytelaars y L. Van Gool, Coincidencia de puntos de vista ampliamente separados basados en regiones invariantes afines. En IJCV 59 (1): 61-85, 2004.

[16] T. Kadir, A. Zisserman y M. Brady, Un detector de región saliente invariante afín. En ECCV p. 404-416, 2004.

[17] ttp://staff.science.uva.nl/~gevers/pub/overview.pdf

[18] R. Datta, J. Li y JZ Wang, "Recuperación de imágenes basada en contenido: enfoques y tendencias de la nueva era", en Proc. En t. Taller sobre recuperación de información multimedia, págs. 253-262, 2005. Transacciones de la IEEE sobre multimedia, vol. 7, no. 1, págs. 127-142, 2005. Archivado el 28 de septiembre de 2007 en la Wayback Machine.

[19] J. Sivic y A. Zisserman. Google de videos: un enfoque de recuperación de texto para la coincidencia de objetos en videos. En Actas de la Conferencia Internacional sobre Visión por Computador, Niza, Francia, 2003.

[20] J. Sivic y A. Zisserman. Minería de datos de video usando configuraciones de regiones invariantes de puntos de vista. En Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington DC, EE. UU., Págs. 488-495, 2004.

[21] G. Dorko y C. Schmid. Selección de vecindarios invariantes de escala para el reconocimiento de clases de objetos. En Actas de la Conferencia Internacional sobre Visión por Computador, Niza, Francia, págs.634-640, 2003.

[Sirmacek2011a-22] Beril Sirmacek y Cem Unsalan (enero de 2011). "Un marco probabilístico para la detección de edificios en imágenes aéreas y de satélite" (PDF) . Transacciones IEEE sobre geociencia y teledetección . 49 (1): 211-221. doi : 10.1109 / TGRS.2010.2053713 . S2CID 10637950 .

[1]