Detección de esquinas

La detección de esquinas es un enfoque utilizado dentro de los sistemas de visión por computadora para extraer ciertos tipos de características e inferir el contenido de una imagen. La detección de esquinas se utiliza con frecuencia en la detección de movimiento , registro de imágenes , seguimiento de video , creación de mosaicos de imágenes , unión de panoramas , reconstrucción 3D y reconocimiento de objetos . La detección de esquinas se superpone con el tema de la detección de puntos de interés .

Salida de un algoritmo típico de detección de esquinas

Formalización

Una esquina se puede definir como la intersección de dos bordes. Una esquina también se puede definir como un punto para el que hay dos direcciones de borde dominantes y diferentes en una vecindad local del punto.

Un punto de interés es un punto en una imagen que tiene una posición bien definida y puede detectarse de forma robusta. Esto significa que un punto de interés puede ser una esquina pero también puede ser, por ejemplo, un punto aislado de máxima o mínima intensidad local, finales de línea o un punto en una curva donde la curvatura es localmente máxima.

En la práctica, la mayoría de los denominados métodos de detección de esquinas detectan puntos de interés en general y, de hecho, el término "esquina" y "punto de interés" se utilizan de forma más o menos intercambiable a lo largo de la bibliografía. ^[1] En consecuencia, si solo se van a detectar esquinas, es necesario hacer un análisis local de los puntos de interés detectados para determinar cuáles de ellos son esquinas reales. Ejemplos de detección de bordes que se pueden utilizar con posprocesamiento para detectar esquinas son el operador de Kirsch y el conjunto de enmascaramiento Frei-Chen. ^[2]

"Esquina", "punto de interés" y "característica" se utilizan indistintamente en la literatura, lo que confunde el tema. Específicamente, hay varios detectores de manchas que pueden denominarse "operadores de puntos de interés", pero que a veces se denominan erróneamente "detectores de esquina". Además, existe una noción de detección de crestas para capturar la presencia de objetos alargados.

Los detectores de esquina no suelen ser muy robustos y, a menudo, requieren la introducción de grandes redundancias para evitar que el efecto de errores individuales domine la tarea de reconocimiento.

Una determinación de la calidad de un detector de esquinas es su capacidad para detectar la misma esquina en múltiples imágenes similares, bajo condiciones de diferente iluminación, traslación, rotación y otras transformaciones.

Un enfoque simple para la detección de esquinas en imágenes es usar la correlación , pero esto se vuelve muy costoso y subóptimo computacionalmente. Un enfoque alternativo utilizado con frecuencia se basa en un método propuesto por Harris y Stephens (a continuación), que a su vez es una mejora de un método de Moravec.

Algoritmo de detección de esquinas de Moravec

Este es uno de los primeros algoritmos de detección de esquinas y define una esquina como un punto con baja auto-similitud. ^[3] El algoritmo prueba cada píxel de la imagen para ver si hay una esquina, considerando qué tan similar es un parche centrado en el píxel a parches cercanos que se superponen en gran medida. La similitud se mide tomando la suma de las diferencias cuadradas (SSD) entre los píxeles correspondientes de dos parches. Un número más bajo indica más similitud.

Si el píxel está en una región de intensidad uniforme, los parches cercanos se verán similares. Si el píxel está en un borde, los parches cercanos en una dirección perpendicular al borde se verán bastante diferentes, pero los parches cercanos en una dirección paralela al borde darán como resultado solo un pequeño cambio. Si el píxel está en una característica con variación en todas las direcciones, ninguno de los parches cercanos se verá similar.

La fuerza de la esquina se define como el SSD más pequeño entre el parche y sus vecinos (horizontal, vertical y en las dos diagonales). La razón es que si este número es alto, entonces la variación a lo largo de todos los cambios es igual o mayor que él, por lo que se captura que todos los parches cercanos se vean diferentes.

Si el número de resistencia de la esquina se calcula para todas las ubicaciones, que sea localmente máximo para una ubicación indica que una característica de interés está presente en ella.

Como señala Moravec, uno de los principales problemas con este operador es que no es isótropo : si hay un borde que no está en la dirección de los vecinos (horizontal, vertical o diagonal), entonces el SSD más pequeño será grande y el borde se elegirá incorrectamente como un punto de interés. ^[4]

Los algoritmos de detección de esquinas de Harris & Stephens / Shi – Tomasi

Harris y Stephens ^[5] mejoraron el detector de esquina de Moravec al considerar el diferencial de la puntuación de esquina con respecto a la dirección directamente, en lugar de usar parches desplazados. (Esta puntuación de esquina a menudo se denomina autocorrelación , ya que el término se usa en el artículo en el que se describe este detector. Sin embargo, las matemáticas en el artículo indican claramente que se usa la suma de diferencias cuadradas).

Sin pérdida de generalidad, asumiremos que se utiliza una imagen bidimensional en escala de grises. Deja que esta imagen sea dada por ${\ Displaystyle I}$ . Considere tomar un parche de imagen sobre el área ${\ Displaystyle (u, v)}$ y moviéndolo por ${\ Displaystyle (x, y)}$ . La suma ponderada de diferencias cuadradas (SSD) entre estos dos parches, denotada ${\ Displaystyle S}$ , es dado por:

{\ Displaystyle S (x, y) = \ sum _ {u} \ sum _ {v} w (u, v) \, \ left (I (u + x, v + y) -I (u, v) \ right) ^ {2}}

${\ Displaystyle I (u + x, v + y)}$ puede aproximarse mediante una expansión de Taylor . Dejar ${\ Displaystyle I_ {x}}$ y ${\ Displaystyle I_ {y}}$ ser las derivadas parciales de ${\ Displaystyle I}$ , tal que

{\ Displaystyle I (u + x, v + y) \ approx I (u, v) + I_ {x} (u, v) x + I_ {y} (u, v) y}

Esto produce la aproximación

{\ Displaystyle S (x, y) \ approx \ sum _ {u} \ sum _ {v} w (u, v) \, \ left (I_ {x} (u, v) x + I_ {y} ( u, v) y \ right) ^ {2},}

que se puede escribir en forma de matriz:

{\ Displaystyle S (x, y) \ approx {\ begin {bmatrix} x & y \ end {bmatrix}} A {\ begin {bmatrix} x \\ y \ end {bmatrix}},}

donde A es el tensor de estructura ,

{\ Displaystyle A = \ sum _ {u} \ sum _ {v} w (u, v) {\ begin {bmatrix} I_ {x} (u, v) ^ {2} & I_ {x} (u, v ) I_ {y} (u, v) \\ I_ {x} (u, v) I_ {y} (u, v) & I_ {y} (u, v) ^ {2} \ end {bmatrix}} = {\ begin {bmatrix} \ langle I_ {x} ^ {2} \ rangle & \ langle I_ {x} I_ {y} \ rangle \\\ langle I_ {x} I_ {y} \ rangle & \ langle I_ { y} ^ {2} \ rangle \ end {bmatrix}}}

En palabras, encontramos la covarianza de la derivada parcial de la intensidad de la imagen. ${\ Displaystyle I}$ Con respeto a ${\ Displaystyle x}$ y ${\ Displaystyle y}$ ejes.

Los paréntesis angulares denotan promediado (es decir, suma sobre ${\ Displaystyle (u, v)}$ ). ${\ Displaystyle w (u, v)}$ denota el tipo de ventana que se desliza sobre la imagen. Si se usa un filtro de caja, la respuesta será anisotrópica , pero si se usa un gaussiano , entonces la respuesta será isotrópica .

Una esquina (o en general un punto de interés) se caracteriza por una gran variación de ${\ Displaystyle S}$ en todas las direcciones del vector ${\ displaystyle {\ begin {bmatrix} x & y \ end {bmatrix}}}$ . Analizando los valores propios de ${\ Displaystyle A}$ , esta caracterización se puede expresar de la siguiente manera: ${\ Displaystyle A}$ debe tener dos valores propios "grandes" para un punto de interés. Con base en las magnitudes de los valores propios, se pueden hacer las siguientes inferencias basadas en este argumento:

Si ${\ Displaystyle \ lambda _ {1} \ approx 0}$ y ${\ Displaystyle \ lambda _ {2} \ approx 0}$ entonces este pixel ${\ Displaystyle (x, y)}$ no tiene características de interés.
Si ${\ Displaystyle \ lambda _ {1} \ approx 0}$ y ${\ Displaystyle \ lambda _ {2}}$ tiene un valor positivo grande, entonces se encuentra una ventaja.
Si ${\ Displaystyle \ lambda _ {1}}$ y ${\ Displaystyle \ lambda _ {2}}$ tienen valores positivos grandes, entonces se encuentra una esquina.

Harris y Stephens señalan que el cálculo exacto de los valores propios es computacionalmente costoso, ya que requiere el cálculo de una raíz cuadrada y, en cambio, sugieren la siguiente función ${\ Displaystyle M_ {c}}$ , dónde ${\ Displaystyle \ kappa}$ es un parámetro de sensibilidad ajustable:

{\ Displaystyle M_ {c} = \ lambda _ {1} \ lambda _ {2} - \ kappa \ left (\ lambda _ {1} + \ lambda _ {2} \ right) ^ {2} = \ det ( A) - \ kappa \ operatorname {trace} ^ {2} (A)}

Por lo tanto, el algoritmo ^[6] no tiene que calcular realmente la descomposición de los valores propios de la matriz. ${\ Displaystyle A}$ y en cambio es suficiente evaluar el determinante y la traza de ${\ Displaystyle A}$ para encontrar rincones, o más bien puntos de interés en general.

El detector de esquinas Shi – Tomasi ^[7] calcula directamente ${\ Displaystyle \ min (\ lambda _ {1}, \ lambda _ {2})}$ porque bajo ciertos supuestos, las esquinas son más estables para el seguimiento. Tenga en cuenta que este método también se denomina a veces detector de esquinas Kanade-Tomasi.

El valor de ${\ Displaystyle \ kappa}$ tiene que ser determinado empíricamente, y en la literatura se han reportado como factibles valores en el rango de 0.04 a 0.15.

Uno puede evitar configurar el parámetro ${\ Displaystyle \ kappa}$ utilizando la medida de esquina ^{[8] de} Noble ${\ Displaystyle M_ {c} '}$ que equivale a la media armónica de los valores propios:

{\ Displaystyle M_ {c} '= 2 {\ frac {\ det (A)} {\ operatorname {trace} (A) + \ epsilon}},}

${\ Displaystyle \ epsilon}$ siendo una pequeña constante positiva.

Si ${\ Displaystyle A}$ se puede interpretar como la matriz de precisión para la posición de la esquina, la matriz de covarianza para la posición de la esquina es ${\ Displaystyle A ^ {- 1}}$ , es decir

{\ Displaystyle {\ frac {1} {\ langle I_ {x} ^ {2} \ rangle \ langle I_ {y} ^ {2} \ rangle - \ langle I_ {x} I_ {y} \ rangle ^ {2 }}} {\ begin {bmatrix} \ langle I_ {y} ^ {2} \ rangle & - \ langle I_ {x} I_ {y} \ rangle \\ - \ langle I_ {x} I_ {y} \ rangle & \ langle I_ {x} ^ {2} \ rangle \ end {bmatrix}}.}

La suma de los valores propios de ${\ Displaystyle A ^ {- 1}}$ , que en ese caso puede interpretarse como una varianza generalizada (o una "incertidumbre total") de la posición de la esquina, está relacionada con la medida de la esquina de Noble ${\ Displaystyle M_ {c} '}$ por la siguiente ecuación:

{\ Displaystyle \ lambda _ {1} (A ^ {- 1}) + \ lambda _ {2} (A ^ {- 1}) = {\ frac {\ operatorname {trace} (A)} {\ det ( A)}} \ approx {\ frac {2} {M_ {c} '}}.}

El detector de esquinas Förstner

Detección de esquinas usando el algoritmo de Förstner

En algunos casos, es posible que desee calcular la ubicación de una esquina con una precisión de subpíxeles. Para lograr una solución aproximada, el algoritmo de Förstner ^[9] resuelve el punto más cercano a todas las líneas tangentes de la esquina en una ventana dada y es una solución de mínimos cuadrados. El algoritmo se basa en el hecho de que para una esquina ideal, las líneas tangentes se cruzan en un solo punto.

La ecuación de una recta tangente ${\ Displaystyle T _ {\ mathbf {x} '} (\ mathbf {x})}$ en pixel ${\ Displaystyle \ mathbf {x} '}$ es dado por:

{\ Displaystyle T _ {\ mathbf {x '}} (\ mathbf {x}) = \ nabla I (\ mathbf {x'}) ^ {\ top} (\ mathbf {x} - \ mathbf {x '}) = 0}

dónde ${\ Displaystyle \ nabla I (\ mathbf {x '}) = {\ begin {bmatrix} I _ {\ mathbf {x}} & I _ {\ mathbf {y}} \ end {bmatrix}} ^ {\ top}}$ es el vector degradado de la imagen ${\ Displaystyle I}$ a ${\ Displaystyle \ mathbf {x '}}$ .

El punto ${\ Displaystyle \ mathbf {x} _ {0}}$ más cercano a todas las líneas tangentes en la ventana ${\ Displaystyle N}$ es:

{\ Displaystyle \ mathbf {x} _ {0} = {\ underset {\ mathbf {x} \ in \ mathbb {R} ^ {2 \ times 1}} {\ operatorname {argmin}}} \ int _ {\ mathbf {x '} \ in N} T _ {\ mathbf {x'}} (\ mathbf {x}) ^ {2} d \ mathbf {x '}}

La distancia desde ${\ Displaystyle \ mathbf {x} _ {0}}$ a las rectas tangentes ${\ Displaystyle T _ {\ mathbf {x '}}}$ está ponderado por la magnitud del gradiente, lo que da más importancia a las tangentes que pasan por píxeles con gradientes fuertes.

Resolviendo para ${\ Displaystyle \ mathbf {x} _ {0}}$ :

{\ displaystyle {\ begin {alineado} \ mathbf {x} _ {0} & = {\ underset {\ mathbf {x} \ in \ mathbb {R} ^ {2 \ times 1}} {\ operatorname {argmin} }} \ int _ {\ mathbf {x '} \ in N} \ left (\ nabla I \ left (\ mathbf {x'} \ right) ^ {\ top} \ left (\ mathbf {x} - \ mathbf {x '} \ right) \ right) ^ {2} d \ mathbf {x'} \\ & = {\ underset {\ mathbf {x} \ in \ mathbb {R} ^ {2 \ times 1}} { \ operatorname {argmin}}} \ int _ {\ mathbf {x '} \ in N} (\ mathbf {x} - \ mathbf {x'}) ^ {\ top} \ nabla I (\ mathbf {x '} ) \ nabla I (\ mathbf {x '}) ^ {\ top} (\ mathbf {x} - \ mathbf {x'}) d \ mathbf {x '} \\ & = {\ underset {\ mathbf {x } \ in \ mathbb {R} ^ {2 \ times 1}} {\ operatorname {argmin}}} \ left (\ mathbf {x} ^ {\ top} A \ mathbf {x} -2 \ mathbf {x} ^ {\ top} \ mathbf {b} + c \ right) \ end {alineado}}}

${\ Displaystyle A \ in \ mathbb {R} ^ {2 \ times 2}, {\ textbf {b}} \ in \ mathbb {R} ^ {2 \ times 1}, c \ in \ mathbb {R}}$ se definen como:

{\ Displaystyle {\ begin {alineado} A & = \ int \ nabla I (\ mathbf {x '}) \ nabla I (\ mathbf {x'}) ^ {\ top} d \ mathbf {x '} \\\ mathbf {b} & = \ int \ nabla I (\ mathbf {x '}) \ nabla I (\ mathbf {x'}) ^ {\ top} \ mathbf {x '} d \ mathbf {x'} \\ c & = \ int \ mathbf {x '} ^ {\ top} \ nabla I (\ mathbf {x'}) \ nabla I (\ mathbf {x '}) ^ {\ top} \ mathbf {x'} d \ mathbf {x '} \\\ end {alineado}}}

Se puede minimizar esta ecuación diferenciando con respecto a ${\ Displaystyle x}$ y poniéndolo igual a 0:

{\ Displaystyle 2A \ mathbf {x} -2 \ mathbf {b} = 0 \ Flecha derecha A \ mathbf {x} = \ mathbf {b}}

Tenga en cuenta que ${\ Displaystyle A \ in \ mathbb {R} ^ {2 \ times 2}}$ es el tensor de estructura . Para que la ecuación tenga solución, ${\ Displaystyle A}$ debe ser invertible, lo que implica que ${\ Displaystyle A}$ debe ser de rango completo (rango 2). Por lo tanto, la solución

{\ Displaystyle x_ {0} = A ^ {- 1} \ mathbf {b}}

solo existe donde existe una esquina real en la ventana ${\ Displaystyle N}$ .

Lindeberg ^[10]^[11] ha presentado una metodología para realizar la selección automática de escala para este método de localización de esquinas minimizando el residuo normalizado

{\ Displaystyle {\ tilde {d}} _ {\ min} = {\ frac {cb ^ {T} A ^ {- 1} b} {\ operatorname {trace} A}}}

sobre escamas. Por lo tanto, el método tiene la capacidad de adaptar automáticamente los niveles de escala para calcular los gradientes de imagen al nivel de ruido en los datos de imagen, eligiendo niveles de escala más gruesos para datos de imagen ruidosos y niveles de escala más finos para estructuras similares a esquinas casi ideales.

Notas:

${\ Displaystyle c}$ puede verse como un residuo en el cálculo de la solución de mínimos cuadrados: si ${\ Displaystyle c = 0}$ , entonces no hubo ningún error.
este algoritmo se puede modificar para calcular los centros de características circulares cambiando las líneas tangentes a líneas normales.

El operador de Harris multiescala

El cálculo de la segunda matriz de momentos (a veces también se denomina tensor de estructura ) ${\ Displaystyle A}$ en el operador de Harris, requiere el cálculo de las derivadas de la imagen ${\ Displaystyle I_ {x}, I_ {y}}$ en el dominio de la imagen, así como la suma de combinaciones no lineales de estas derivadas en vecindarios locales. Dado que el cálculo de derivadas generalmente implica una etapa de suavizado del espacio de escala, una definición operativa del operador de Harris requiere dos parámetros de escala: (i) una escala local para suavizar antes del cálculo de las derivadas de la imagen , y (ii) una escala de integración para acumular las operaciones no lineales sobre operadores derivados en un descriptor de imagen integrado.

Con ${\ Displaystyle I}$ denotando la intensidad de la imagen original, deje ${\ Displaystyle L}$ denotar la representación espacial de escala de ${\ Displaystyle I}$ obtenido por convolución con un kernel gaussiano

{\ Displaystyle g (x, y, t) = {\ frac {1} {2 {\ pi} t}} e ^ {- \ left (x ^ {2} + y ^ {2} \ right) / 2t }}

con parámetro de escala local ${\ Displaystyle t}$ :

{\ Displaystyle L (x, y, t) \ = g (x, y, t) * I (x, y)}

y deja ${\ Displaystyle L_ {x} = \ parcial _ {x} L}$ y ${\ Displaystyle L_ {y} = \ parcial _ {y} L}$ denotar las derivadas parciales de ${\ Displaystyle L}$ . Además, introduzca una función de ventana gaussiana ${\ Displaystyle g (x, y, s)}$ con parámetro de escala de integración ${\ Displaystyle s}$ . Entonces, la matriz de segundo momento de múltiples escalas ^[12]^[13]^[14] se puede definir como

{\ Displaystyle \ mu (x, y; t, s) = \ int _ {\ xi = - \ infty} ^ {\ infty} \ int _ {\ eta = - \ infty} ^ {\ infty} {\ begin {bmatriz} L_ {x} ^ {2} (x- \ xi, y- \ eta; t) & L_ {x} (x- \ xi, y- \ eta; t) \, L_ {y} (x- \ xi, y- \ eta; t) \\ L_ {x} (x- \ xi, y- \ eta; t) \, L_ {y} (x- \ xi, y- \ eta; t) & L_ { y} ^ {2} (x- \ xi, y- \ eta; t) \ end {bmatrix}} g (\ xi, \ eta; s) \, d \ xi \, d \ eta.}

Entonces, podemos calcular valores propios de ${\ Displaystyle \ mu}$ de manera similar a los valores propios de ${\ Displaystyle A}$ y defina la medida de esquina de Harris multiescala como

{\ Displaystyle M_ {c} (x, y; t, s) = \ det (\ mu (x, y; t, s)) - \ kappa \, \ operatorname {trace} ^ {2} (\ mu ( x, y; t, s)).}

Sobre la elección del parámetro de escala local ${\ Displaystyle t}$ y el parámetro de escala de integración ${\ Displaystyle s}$ , estos parámetros de escala suelen estar acoplados por un parámetro de escala de integración relativa ${\ Displaystyle \ gamma}$ tal que ${\ Displaystyle s = \ gamma ^ {2} t}$ , dónde ${\ Displaystyle \ gamma}$ generalmente se elige en el intervalo ${\ Displaystyle [1,2]}$ . ^[12]^[13] Por lo tanto, podemos calcular la medida de esquina de Harris de múltiples escalas ${\ Displaystyle M_ {c} (x, y; t, \ gamma ^ {2} t)}$ a cualquier escala ${\ Displaystyle t}$ en el espacio de escala para obtener un detector de esquina de múltiples escalas, que responde a estructuras de esquina de diferentes tamaños en el dominio de la imagen.

En la práctica, este detector de esquina de múltiples escalas a menudo se complementa con un paso de selección de escala , en el que el operador laplaciano con escala normalizada ^[11]^[12]

{\ Displaystyle \ nabla _ {\ mathrm {norma}} ^ {2} L (x, y; t) \ = t \ nabla ^ {2} L (x, y, t) = t (L_ {xx} ( x, y, t) + L_ {yy} (x, y, t))}

se calcula en cada escala en el espacio de escala y los puntos de esquina adaptados a la escala con selección automática de escala (el "operador de Harris-Laplace") se calculan a partir de los puntos que son simultáneamente: ^[15]

máximos espaciales de la medida de esquina de múltiples escalas ${\ Displaystyle M_ {c} (x, y; t, \ gamma ^ {2} t)}$
${\ displaystyle ({\ hat {x}}, {\ hat {y}}; t) = \ operatorname {argmaxlocal} _ {(x, y)} M_ {c} \ left (x, y; t, \ gamma ^ {2} t \ right)}$
máximos o mínimos locales sobre escalas del operador laplaciano normalizado en escala ^[11] ${\ Displaystyle \ nabla _ {\ mathrm {norma}} ^ {2} (x, y, t)}$ :
${\ displaystyle {\ hat {t}} = \ operatorname {argmaxminlocal} _ {t} \ nabla _ {\ mathrm {norm}} ^ {2} L ({\ hat {x}}, {\ hat {y} }; t)}$

El enfoque de la curvatura de la curva de nivel

Un enfoque anterior para la detección de esquinas es detectar puntos donde la curvatura de las curvas de nivel y la magnitud del gradiente son simultáneamente altas. ^[16]^[17] Una forma diferencial de detectar tales puntos es calculando la curvatura de la curva de nivel reescalada (el producto de la curvatura de la curva de nivel y la magnitud del gradiente elevada a la potencia de tres)

{\ Displaystyle {\ tilde {\ kappa}} (x, y; t) = L_ {x} ^ {2} L_ {yy} + L_ {y} ^ {2} L_ {xx} -2L_ {x} L_ {y} L_ {xy}}

y para detectar máximos positivos y mínimos negativos de esta expresión diferencial en alguna escala ${\ Displaystyle t}$ en la representación del espacio de escala ${\ Displaystyle L}$ de la imagen original. ^[10]^[11] Sin embargo, un problema principal al calcular la entidad de curvatura de la curva de nivel reescalada en una sola escala es que puede ser sensible al ruido y a la elección del nivel de escala. Un mejor método es calcular el ${\ Displaystyle \ gamma}$ -curvatura de curva de nivel reescalada normalizada

{\ Displaystyle {\ tilde {\ kappa}} _ {\ mathrm {norma}} (x, y; t) = t ^ {2 \ gamma} (L_ {x} ^ {2} L_ {yy} + L_ { y} ^ {2} L_ {xx} -2L_ {x} L_ {y} L_ {xy})}

con ${\ Displaystyle \ gamma = 7/8}$ y para detectar extremos de espacio de escala con signo de esta expresión, que son puntos y escalas que son máximos positivos y mínimos negativos con respecto al espacio y la escala.

{\ displaystyle ({\ hat {x}}, {\ hat {y}}; {\ hat {t}}) = \ operatorname {argminmaxlocal} _ {(x, y; t)} {\ tilde {\ kappa }} _ {\ mathrm {norma}} (x, y; t)}

en combinación con un paso de localización complementario para manejar el aumento del error de localización en escalas más gruesas. ^[10]^[11]^[12] De esta manera, los valores de escala más grandes se asociarán con esquinas redondeadas de gran extensión espacial, mientras que los valores de escala más pequeños se asociarán con esquinas afiladas con extensión espacial pequeña. Este enfoque es el primer detector de esquinas con selección automática de escala (antes del "operador de Harris-Laplace" anterior) y se ha utilizado para rastrear esquinas bajo variaciones de gran escala en el dominio de la imagen ^[18] y para hacer coincidir las respuestas de las esquinas con los bordes para calcular características de imagen estructural para el reconocimiento de objetos basado en geon . ^[19]

Laplaciano de Gauss, diferencias de Gauss y determinante de los puntos de interés del espacio-escala de Hesse

LoG ^[11]^[12]^[15] es un acrónimo que significa laplaciano de gaussiano , DoG ^[20] es un acrónimo que significa diferencia de gaussianos (DoG es una aproximación de LoG) y DoH es un acrónimo que significa determinante de la Arpillera. ^[11] Todos estos puntos de interés invariantes en escala se extraen detectando extremos del espacio de escala de expresiones diferenciales normalizadas en escala, es decir, puntos en el espacio de escala donde las expresiones diferenciales normalizadas en escala correspondientes asumen extremos locales con respecto tanto al espacio como a la escala. ^[11]

{\ displaystyle ({\ hat {x}}, {\ hat {y}}; {\ hat {t}}) = \ operatorname {argminmaxlocal} _ {(x, y; t)} (D _ {\ mathrm { norma}} L) (x, y; t)}

dónde ${\ Displaystyle D_ {norma} L}$ denota la entidad diferencial normalizada en escala apropiada (definida a continuación).

Estos detectores se describen de forma más completa en la detección de manchas . El laplaciano de escala normalizada de las características gaussianas y de diferencia de gauss (Lindeberg 1994, 1998; Lowe 2004) ^[11]^[12]^[20]

{\ Displaystyle {\ begin {alineado} \ nabla _ {\ mathrm {norm}} ^ {2} L (x, y; t) & = t \, (L_ {xx} + L_ {yy}) \\ & \ approx {\ frac {t \ left (L (x, y; t + \ Delta t) -L (x, y; t) \ right)} {\ Delta t}} \ end {alineado}}}

no necesariamente crean características altamente selectivas, ya que estos operadores también pueden dar lugar a respuestas cerca de los bordes. Por lo tanto, para mejorar la capacidad de detección de las esquinas de las diferencias del detector de Gauss, el detector de características utilizado en el sistema SIFT ^[20] utiliza una etapa de posprocesamiento adicional, donde los valores propios del hessiano de la imagen en la escala de detección se examinan en una escala de detección. de forma similar al operador de Harris. Si la relación de los valores propios es demasiado alta, la imagen local se considera demasiado parecida a un borde, por lo que la característica se rechaza. También se puede definir el detector de características laplaciano de Gauss de Lindeberg para que comprenda un umbral complementario en un invariante diferencial complementario para suprimir las respuestas cerca de los bordes. ^[21]

El determinante de escala normalizada del operador de Hesse (Lindeberg 1994, 1998) ^[11]^[12]

{\ Displaystyle \ det H _ {\ mathrm {norma}} L = t ^ {2} (L_ {xx} L_ {yy} -L_ {xy} ^ {2})}

Por otro lado, es altamente selectivo para características de imagen bien localizadas y solo responde cuando hay variaciones significativas en el nivel de gris en dos direcciones de imagen ^[11]^[14] y, en este y otros aspectos, es un mejor detector de puntos de interés que el laplaciano de el gaussiano. El determinante del hessiano es una expresión diferencial covariante afín y tiene mejores propiedades de selección de escala bajo transformaciones de imágenes afines que el operador laplaciano (Lindeberg 2013, 2015). ^[21]^[22] Experimentalmente, esto implica que el determinante de los puntos de interés de Hesse tiene mejores propiedades de repetibilidad bajo la deformación de la imagen local que los puntos de interés laplacianos, lo que a su vez conduce a un mejor rendimiento de la correspondencia basada en imágenes en términos de puntajes de eficiencia más altos y 1- puntuaciones de precisión. ^[21]

Las propiedades de selección de escala, las propiedades de transformación afín y las propiedades experimentales de estos y otros detectores de puntos de interés en el espacio de escala se analizan en detalle en (Lindeberg 2013, 2015). ^[21]^[22]

Puntos de interés del espacio de escala basados en las medidas de fuerza de la característica Lindeberg Hessian

Inspirado en las propiedades estructuralmente similares de la matriz de Hesse ${\ Displaystyle Hf}$ de una función ${\ Displaystyle f}$ y la matriz de segundo momento (tensor de estructura) ${\ Displaystyle \ mu}$ , como puede manifestarse, por ejemplo, en términos de sus propiedades de transformación similares bajo deformaciones de imagen afines ^[13]^[21]

{\ Displaystyle (Hf ') = A ^ {- T} \, (Hf) \, A ^ {- 1}}

,

{\ Displaystyle \ mu '= A ^ {- T} \, \ mu \, A ^ {- 1}}

,

Lindeberg (2013, 2015) ^[21]^[22] propuso definir cuatro medidas de fuerza de características a partir de la matriz de Hesse en formas relacionadas, ya que los operadores de Harris y Shi-y-Tomasi se definen a partir del tensor de estructura (matriz de segundo momento). Específicamente, definió las siguientes medidas de resistencia de características de arpillera sin firmar y firmadas:

la medida de resistencia de la característica de arpillera sin firmar I:
${\ Displaystyle D_ {1, \ mathrm {norm}} L = {\ begin {cases} t ^ {2} \, (\ det HL-k \, \ operatorname {trace} ^ {2} HL) & {\ mbox {if}} \, \ det HL-k \, \ operatorname {trace} ^ {2} HL> 0 \\ 0 & {\ mbox {de otro modo}} \ end {cases}}}$
la medida de resistencia de la característica de arpillera firmada I:
${\ Displaystyle {\ tilde {D}} _ {1, \ mathrm {norma}} L = {\ begin {cases} t ^ {2} \, (\ det HL-k \, \ operatorname {trace} ^ { 2} HL) & {\ mbox {if}} \, \ det HL-k \, \ operatorname {trace} ^ {2} HL> 0 \\ t ^ {2} \, (\ det HL + k \, \ operatorname {trace} ^ {2} HL) & {\ mbox {if}} \, \ det HL + k \, \ operatorname {trace} ^ {2} HL <0 \\ 0 & {\ mbox {de lo contrario}} \ end {cases}}}$
la medida de resistencia de la característica de arpillera sin firmar II:
${\ Displaystyle D_ {2, \ mathrm {norma}} L = t \, \ min (| \ lambda _ {1} (HL) |, | \ lambda _ {2} (HL) |)}$
la medida de resistencia de la característica de arpillera firmada II:
${\ Displaystyle {\ tilde {D}} _ {2, \ mathrm {norm}} L = {\ begin {cases} t \, \ lambda _ {1} (HL) & {\ mbox {if}} \, | \ lambda _ {1} (HL) | <| \ lambda _ {2} (HL) | \\ t \, \ lambda _ {2} (HL) & {\ mbox {if}} \, | \ lambda _ {2} (HL) | <| \ lambda _ {1} (HL) | \\ t \, (\ lambda _ {1} (HL) + \ lambda _ {2} (HL)) / 2 & {\ mbox {de lo contrario}} \ end {cases}}}$

dónde ${\ Displaystyle \ operatorname {trace} HL = L_ {xx} + L_ {yy}}$ y ${\ Displaystyle \ det HL = L_ {xx} L_ {yy} -L_ {xy} ^ {2}}$ denotar la traza y el determinante de la matriz de Hesse ${\ displaystyle HL}$ de la representación del espacio-escala ${\ Displaystyle L}$ a cualquier escala ${\ Displaystyle t}$ , mientras que

{\ Displaystyle \ lambda _ {1} (HL) = L_ {pp} = {\ frac {1} {2}} \ left (L_ {xx} + L_ {yy} - {\ sqrt {(L_ {xx}) -L_ {yy}) ^ {2} + 4L_ {xy} ^ {2}}} \ right)}

{\ Displaystyle \ lambda _ {2} (HL) = L_ {qq} = {\ frac {1} {2}} \ left (L_ {xx} + L_ {yy} + {\ sqrt {(L_ {xx}) -L_ {yy}) ^ {2} + 4L_ {xy} ^ {2}}} \ right)}

denotar los valores propios de la matriz de Hesse. ^[23]

La medida de resistencia de la característica de arpillera sin firmar ${\ Displaystyle D_ {1, \ mathrm {norm}} L}$ responde a los extremos locales con valores positivos y no es sensible a los puntos silla, mientras que la medida de fuerza de la característica hessiana firmada ${\ Displaystyle {\ tilde {D}} _ {1, \ mathrm {norma}} L}$ también responde a los puntos silla con valores negativos. La medida de resistencia de la característica de arpillera sin firmar ${\ Displaystyle D_ {2, \ mathrm {norma}} L}$ es insensible a la polaridad local de la señal, mientras que la medida de fuerza de la característica hessiana firmada ${\ Displaystyle {\ tilde {D}} _ {2, \ mathrm {norma}} L}$ responde a la polaridad local de la señal mediante el signo de su salida.

En Lindeberg (2015) ^[21] estas cuatro entidades diferenciales se combinaron con la selección de escala local basada en la detección de extremos de escala-espacio

{\ displaystyle ({\ hat {x}}, {\ hat {y}}; {\ hat {t}}) = \ operatorname {argminmaxlocal} _ {(x, y; t)} (D _ {\ mathrm { norma}} L) (x, y; t)}

o enlace de escala. Además, la arpillera firmada y no firmada cuenta con medidas de resistencia ${\ Displaystyle D_ {2, \ mathrm {norma}} L}$ y ${\ Displaystyle {\ tilde {D}} _ {2, \ mathrm {norma}} L}$ se combinaron con umbrales complementarios en ${\ Displaystyle D_ {1, \ mathrm {norm}} L> 0}$ .

Mediante experimentos de coincidencia de imágenes con transformaciones de escala en un conjunto de datos de póster con 12 carteles con coincidencia de múltiples vistas sobre transformaciones de escala hasta un factor de escala de 6 y variaciones de dirección de visualización hasta un ángulo de inclinación de 45 grados con descriptores de imagen local definidos a partir de reformulaciones de los descriptores de imagen pura en los operadores SIFT y SURF para medir las mediciones en términos de operadores derivados de Gauss (Gauss-SIFT y Gauss-SURF) en lugar de SIFT original como se define a partir de una pirámide de imagen o SURF original como se define a partir de wavelets de Haar, se mostró esa detección de puntos de interés en el espacio de escala basada en la medida de fuerza de la característica de Hesse sin firmar ${\ Displaystyle D_ {1, \ mathrm {norm}} L}$ permitió el mejor rendimiento y mejor rendimiento que los puntos de interés del espacio de escala obtenidos del determinante de la hessiana ${\ Displaystyle \ det H _ {\ mathrm {norm}} L = t ^ {2} \ left (L_ {xx} L_ {yy} -L_ {xy} ^ {2} \ right)}$ . Tanto el arpillera sin firmar cuentan con medida de fuerza ${\ Displaystyle D_ {1, \ mathrm {norm}} L}$ , la medida de resistencia de la característica de arpillera firmada ${\ Displaystyle {\ tilde {D}} _ {1, norm} L}$ y el determinante de la arpillera ${\ Displaystyle \ det H_ {norm} L}$ permitió un mejor rendimiento que el laplaciano de la gaussiana ${\ Displaystyle \ nabla _ {\ mathrm {norma}} ^ {2} L = t \, (L_ {xx} + L_ {yy})}$ . Cuando se combina con la vinculación de escala y el umbral complementario en ${\ Displaystyle D_ {1, \ mathrm {norm}} L> 0}$ , la medida de resistencia de la característica de arpillera firmada ${\ Displaystyle {\ tilde {D}} _ {2, \ mathrm {norma}} L}$ permitió además un mejor rendimiento que el laplaciano de la gaussiana ${\ Displaystyle \ nabla _ {\ mathrm {norma}} ^ {2} L}$ .

Además, se demostró que todos estos detectores diferenciales de puntos de interés en el espacio de escala definidos a partir de la matriz de Hesse permiten la detección de un mayor número de puntos de interés y un mejor rendimiento de coincidencia en comparación con los operadores de Harris y Shi-and-Tomasi definidos a partir de la estructura. tensor (matriz de segundo momento).

En Lindeberg (2013) se ofrece un análisis teórico de las propiedades de selección de escala de estas cuatro medidas de fuerza de características de Hesse y otras entidades diferenciales para detectar puntos de interés en el espacio de escala, incluido el Laplaciano de Gauss y el determinante de Hesse ^[22]. y un análisis de sus propiedades de transformación afines, así como propiedades experimentales en Lindeberg (2015). ^[21]

Operadores de puntos de interés afines adaptados

Los puntos de interés obtenidos del operador de Harris multiescala con selección automática de escala son invariantes a las traslaciones, rotaciones y recalificaciones uniformes en el dominio espacial. Sin embargo, las imágenes que constituyen la entrada a un sistema de visión por computadora también están sujetas a distorsiones de perspectiva. Para obtener un operador de punto de interés que sea más robusto a las transformaciones de perspectiva, un enfoque natural es diseñar un detector de características que sea invariante para las transformaciones afines . En la práctica, los puntos de interés invariantes afines se pueden obtener aplicando una adaptación de forma afín donde la forma del núcleo de suavizado se deforma iterativamente para que coincida con la estructura de la imagen local alrededor del punto de interés o, de manera equivalente, un parche de imagen local se deforma iterativamente mientras que la forma del suavizado el núcleo permanece rotacionalmente simétrico (Lindeberg 1993, 2008; Lindeberg y Garding 1997; Mikolajzcyk y Schmid 2004). ^[12]^[13]^[14]^[15] Por lo tanto, además del operador Harris de múltiples escalas de uso común, la adaptación de formas afines se puede aplicar a otros detectores de esquina como se enumeran en este artículo, así como a detectores de manchas diferenciales como el Laplaciano / diferencia del operador gaussiano, el determinante del operador de Hesse ^[14] y del operador de Hesse-Laplace.

El algoritmo de detección de esquinas de Wang y Brady

El detector de Wang y Brady ^[24] considera que la imagen es una superficie y busca lugares donde haya una gran curvatura a lo largo del borde de la imagen. En otras palabras, el algoritmo busca lugares donde el borde cambia de dirección rápidamente. La puntuación de la esquina ${\ Displaystyle C}$ , es dado por:

{\ Displaystyle C = \ left ({\ frac {\ delta ^ {2} I} {\ delta \ mathbf {t} ^ {2}}} \ right) ^ {2} -c | \ nabla I | ^ { 2},}

dónde ${\ Displaystyle {\ bf {t}}}$ es el vector unitario perpendicular al gradiente, y ${\ Displaystyle c}$ determina cuán fóbico al borde es el detector. Los autores también señalan que se requiere suavizar (se sugiere gaussiano) para reducir el ruido.

El suavizado también provoca el desplazamiento de las esquinas, por lo que los autores derivan una expresión para el desplazamiento de una esquina de 90 grados y la aplican como factor de corrección a las esquinas detectadas.

El detector de esquinas SUSAN

SUSAN ^[25] es un acrónimo de núcleo asimilador de segmento univalor más pequeño. Este método es objeto de una patente británica de 1994 que ya no está en vigor. ^[26]

Para la detección de características, SUSAN coloca una máscara circular sobre el píxel que se va a probar (el núcleo). La región de la máscara es ${\ Displaystyle M}$ , y un píxel de esta máscara está representado por ${\ Displaystyle {\ vec {m}} \ in M}$ . El núcleo está en ${\ displaystyle {\ vec {m}} _ {0}}$ . Cada píxel se compara con el núcleo mediante la función de comparación:

{\ Displaystyle c ({\ vec {m}}) = e ^ {- \ left ({\ frac {I ({\ vec {m}}) - I ({\ vec {m}} _ {0}) } {t}} \ right) ^ {6}}}

dónde ${\ Displaystyle t}$ es el umbral de diferencia de brillo, ^[27] ${\ Displaystyle I}$ es el brillo del píxel y la potencia del exponente se ha determinado empíricamente. Esta función tiene la apariencia de un sombrero de copa suavizado o una función rectangular . El área de la SUSAN viene dada por:

{\ Displaystyle n (M) = \ sum _ {{\ vec {m}} \ in M} c ({\ vec {m}})}

Si ${\ Displaystyle c}$ es la función rectangular, entonces ${\ Displaystyle n}$ es el número de píxeles en la máscara que están dentro ${\ Displaystyle t}$ del núcleo. La respuesta del operador SUSAN viene dada por:

{\ displaystyle R (M) = {\ begin {cases} gn (M) & {\ mbox {if}} \ n (M)

dónde ${\ Displaystyle g}$ se denomina "umbral geométrico". En otras palabras, el operador SUSAN solo tiene una puntuación positiva si el área es lo suficientemente pequeña. El SUSAN más pequeño localmente se puede encontrar usando supresión no máxima, y este es el operador SUSAN completo.

El valor ${\ Displaystyle t}$ determina qué tan similares deben ser los puntos al núcleo antes de que se consideren parte del segmento univalor. El valor de ${\ Displaystyle g}$ determina el tamaño mínimo del segmento univalor. Si ${\ Displaystyle g}$ es lo suficientemente grande, entonces se convierte en un detector de bordes .

Para la detección de esquinas, se utilizan dos pasos más. En primer lugar, se encuentra el centroide de SUSAN. Una esquina adecuada tendrá el centroide lejos del núcleo. El segundo paso insiste en que todos los puntos de la línea desde el núcleo a través del centroide hasta el borde de la máscara están en SUSAN.

El detector de esquinas de Trajkovic y Hedley

De manera similar a SUSAN, este detector ^[28] prueba directamente si un parche debajo de un píxel es auto-similar al examinar los píxeles cercanos. ${\ Displaystyle {\ vec {c}}}$ es el píxel a considerar, y ${\ Displaystyle {\ vec {p}} \ in P}$ es un punto en un círculo ${\ Displaystyle P}$ centrado alrededor ${\ Displaystyle {\ vec {c}}}$ . El punto ${\ Displaystyle {\ vec {p}} '}$ es el punto opuesto a ${\ Displaystyle {\ vec {p}}}$ a lo largo del diámetro.

La función de respuesta se define como:

{\ Displaystyle r ({\ vec {c}}) = \ min _ {{\ vec {p}} \ in P} \ left (\ left (I ({\ vec {p}}) - I ({\ vec {c}}) \ right) ^ {2} + \ left (I ({\ vec {p}} ') - I ({\ vec {c}}) \ right) ^ {2} \ right)}

Será grande cuando no haya una dirección en la que el píxel central sea similar a dos píxeles cercanos a lo largo de un diámetro. ${\ Displaystyle P}$ es un círculo discretizado (un círculo de Bresenham ), por lo que la interpolación se usa para diámetros intermedios para dar una respuesta más isotrópica. Dado que cualquier cálculo da un límite superior en el ${\ Displaystyle \ min}$ , las direcciones horizontal y vertical se comprueban primero para ver si vale la pena proceder con el cálculo completo de ${\ Displaystyle c}$ .

Detectores de funciones basados en AST

AST es un acrónimo de prueba de segmento acelerada. Esta prueba es una versión relajada del criterio de esquina SUSAN. En lugar de evaluar el disco circular, solo los píxeles en un círculo de radio de Bresenham ${\ Displaystyle r}$ alrededor del punto candidato. Si ${\ Displaystyle n}$ Los píxeles contiguos son todos más brillantes que el núcleo en al menos ${\ Displaystyle t}$ o todo más oscuro que el núcleo por ${\ Displaystyle t}$ , entonces el píxel debajo del núcleo se considera una característica. Se informa que esta prueba produce características muy estables. ^[29] La elección del orden en el que se prueban los píxeles es un problema de las veinte preguntas . La construcción de árboles de decisión cortos para este problema da como resultado los detectores de características más eficientes desde el punto de vista computacional disponibles.

El primer algoritmo de detección de esquinas basado en el AST es FAST ( características de la prueba de segmento acelerada ). ^[29] Aunque ${\ Displaystyle r}$ En principio, puede tomar cualquier valor, FAST usa solo un valor de 3 (correspondiente a un círculo de 16 píxeles de circunferencia), y las pruebas muestran que los mejores resultados se logran con ${\ Displaystyle n}$ siendo 9. Este valor de ${\ Displaystyle n}$ es el más bajo en el que no se detectan los bordes. El orden en el que se prueban los píxeles lo determina el algoritmo ID3 a partir de un conjunto de imágenes de entrenamiento. Confusamente, el nombre del detector es algo similar al nombre del artículo que describe el detector de Trajkovic y Hedley.

Síntesis automática de detectores

Trujillo y Olague ^[30] introdujeron un método mediante el cual se utiliza la programación genética para sintetizar automáticamente operadores de imágenes que pueden detectar puntos de interés. Los conjuntos de terminales y funciones contienen operaciones primitivas que son comunes en muchos diseños artificiales propuestos anteriormente. La aptitud mide la estabilidad de cada operador a través de la tasa de repetibilidad y promueve una dispersión uniforme de los puntos detectados en el plano de la imagen. El desempeño de los operadores evolucionados se ha confirmado experimentalmente utilizando secuencias de entrenamiento y prueba de imágenes transformadas progresivamente. Por lo tanto, se considera que el algoritmo GP propuesto es competitivo para los humanos para el problema de la detección de puntos de interés.

Detectores de puntos de interés espacio-temporales

Laptev y Lindeberg extendieron al operador Harris al espacio-tiempo. ^[31] Deja ${\ Displaystyle \ mu}$ denotar la matriz espacio-temporal de segundo momento definida por

{\ Displaystyle A = \ sum _ {u} \ sum _ {v} \ sum _ {w} h (u, v, w) {\ begin {bmatrix} L_ {x} (u, v, w) ^ { 2} & L_ {x} (u, v, w) L_ {y} (u, v, w) & L_ {x} (u, v, w) L_ {t} (u, v, w) \\ L_ { x} (u, v, w) L_ {y} (u, v, w) & L_ {y} (u, v, w) ^ {2} & L_ {y} (u, v, w) L_ {t} (u, v, w) \\ L_ {x} (u, v, w) L_ {t} (u, v, w) & L_ {y} (u, v, w) L_ {t} (u, v , w) & L_ {t} (u, v, w) ^ {2} \\\ end {bmatrix}} = {\ begin {bmatrix} \ langle L_ {x} ^ {2} \ rangle & \ langle L_ { x} L_ {y} \ rangle & \ langle L_ {x} L_ {t} \ rangle \\\ langle L_ {x} L_ {y} \ rangle & \ langle L_ {y} ^ {2} \ rangle & \ langle L_ {y} L_ {t} \ rangle \\\ langle L_ {x} L_ {t} \ rangle & \ langle L_ {y} L_ {t} \ rangle & \ langle L_ {t} ^ {2} \ rangle \\\ end {bmatrix}}}

Entonces, para una elección adecuada de ${\ Displaystyle k <1/27}$ , los puntos de interés espacio-temporales se detectan a partir de los extremos espacio-temporales de la siguiente medida espacio-temporal de Harris:

{\ Displaystyle H = \ det (\ mu) - \ kappa \, \ operatorname {trace} ^ {2} (\ mu).}

El determinante del operador de Hesse ha sido extendido al espacio-tiempo conjunto por Willems et al ^[32] y Lindeberg, ^[33] dando lugar a la siguiente expresión diferencial normalizada en escala:

{\ Displaystyle \ det (H _ {(x, y, t), \ mathrm {norm}} L) = \, s ^ ​​{2 \ gamma _ {s}} \ tau ^ {\ gamma _ {\ tau}} \ left (L_ {xx} L_ {yy} L_ {tt} + 2L_ {xy} L_ {xt} L_ {yt} -L_ {xx} L_ {yt} ^ {2} -L_ {yy} L_ {xt} ^ {2} -L_ {tt} L_ {xy} ^ {2} \ right).}

En el trabajo de Willems et al, ^[32] una expresión más simple correspondiente a ${\ Displaystyle \ gamma _ {s} = 1}$ y ${\ Displaystyle \ gamma _ {\ tau} = 1}$ se utilizó. En Lindeberg, ^[33] se demostró que ${\ Displaystyle \ gamma _ {s} = 5/4}$ y ${\ Displaystyle \ gamma _ {\ tau} = 5/4}$ implica mejores propiedades de selección de escala en el sentido de que los niveles de escala seleccionados obtenidos de una mancha gaussiana espacio-temporal con extensión espacial ${\ Displaystyle s = s_ {0}}$ y extensión temporal ${\ Displaystyle \ tau = \ tau _ {0}}$ coincidirá perfectamente con la extensión espacial y la duración temporal de la mancha, con la selección de escala realizada mediante la detección de los extremos espacio-temporales de la escala espacio-temporal de la expresión diferencial.

El operador laplaciano ha sido extendido a datos de video espacio-temporales por Lindeberg, ^[33] dando lugar a los siguientes dos operadores espacio-temporales, que también constituyen modelos de campos receptivos de neuronas no rezagadas vs. rezagadas en el LGN:

{\ Displaystyle \ partial _ {t, \ mathrm {norma}} (\ nabla _ {(x, y), \ mathrm {norma}} ^ {2} L) = s ^ {\ gamma _ {s}} \ tau ^ {\ gamma _ {\ tau} / 2} (L_ {xxt} + L_ {yyt}),}

{\ Displaystyle \ partial _ {tt, \ mathrm {norma}} (\ nabla _ {(x, y), \ mathrm {norma}} ^ {2} L) = s ^ {\ gamma _ {s}} \ tau ^ {\ gamma _ {\ tau}} (L_ {xxtt} + L_ {yytt}).}

Para el primer operador, las propiedades de selección de escala requieren el uso ${\ Displaystyle \ gamma _ {s} = 1}$ y ${\ Displaystyle \ gamma _ {\ tau} = 1/2}$ , si queremos que este operador asuma su valor máximo sobre escalas espacio-temporales a un nivel de escala espacio-temporal que refleje la extensión espacial y la duración temporal de una mancha gaussiana de inicio. Para el segundo operador, las propiedades de selección de escala requieren el uso ${\ Displaystyle \ gamma _ {s} = 1}$ y ${\ Displaystyle \ gamma _ {\ tau} = 3/4}$ , si queremos que este operador asuma su valor máximo sobre escalas espacio-temporales a un nivel de escala espacio-temporal que refleje la extensión espacial y la duración temporal de una mancha gaussiana parpadeante.

Las extensiones de color de los detectores de puntos de interés espacio-temporales han sido investigadas por Everts et al. ^[34]

Bibliografía

^ Andrew Willis y Yunfeng Sui (2009). "Un modelo algebraico para la detección rápida de esquinas". 2009 IEEE 12th International Conference on Computer Vision . IEEE. págs. 2296-2302. doi : 10.1109 / ICCV.2009.5459443 . ISBN 978-1-4244-4420-5.
^ Shapiro, Linda y George C. Stockman (2001). Visión por computadora , pág. 257. Prentice Books, Upper Saddle River. ISBN 0-13-030796-3 .
^ H. Moravec (1980). "Evitación de obstáculos y navegación en el mundo real por un robot Rover" . Informe técnico CMU-RI-TR-3 Universidad Carnegie-Mellon, Instituto de Robótica .
^ Evitación de obstáculos y navegación en el mundo real por un robot Rover que ve, Hans Moravec, marzo de 1980, Departamento de Ciencias de la Computación, Universidad de Stanford (tesis de doctorado)
^ C. Harris y M. Stephens (1988). "Un detector combinado de esquinas y bordes" (PDF) . Actas de la 4ª Conferencia de Alvey Vision . págs. 147-151.
^ Javier Sánchez, Nelson Monzón y Agustín Salgado (2018). "Un análisis e implementación del detector de esquinas Harris" (PDF) . Procesamiento de imágenes en línea . 8 : 305–328. doi : 10.5201 / ipol.2018.229 . Archivado desde el original el 3 de octubre de 2018.
^ J. Shi y C. Tomasi (junio de 1994). "Buenas características para rastrear". 9ª Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones . Saltador. págs. 593–600. CiteSeerX 10.1.1.36.2669 . doi : 10.1109 / CVPR.1994.323794 .
{{cite techreport | autor = C. Tomasi y T. Kanade | title = Detección y seguimiento de características puntuales | año = 1991 | número = CMU-CS-91-132 | institución = Escuela de Ciencias de la Computación, Universidad Carnegie Mellon | citeseerx = 10.1.1.45.5770
^ A. Noble (1989). Descripciones de superficies de imagen (Ph.D.). Departamento de Ciencias de la Ingeniería, Universidad de Oxford. pag. 45.
^ Förstner, W; Gülch (1987). "Un operador rápido para la detección y ubicación precisa de distintos puntos, esquinas y centros de características circulares" (PDF) . ISPRS .^{[ enlace muerto permanente ]}
^ a b c T. Lindeberg (1994). "Detección de cruces con selección automática de escalas de detección y escalas de localización" . Proc. 1er Congreso Internacional de Procesado de Imágenes . Yo . Austin, Texas. págs. 924–928.
^ a b c d e f g h yo j k Tony Lindeberg (1998). "Detección de características con selección automática de escala" . Revista Internacional de Visión por Computador . 30 (2). págs. 77-116.
^ a b c d e f g h T. Lindeberg (1994). Teoría del espacio-escala en visión artificial . Saltador. ISBN 978-0-7923-9418-1.
^ a b c d T. Lindeberg y J. Garding "Suavizado adaptado a la forma en la estimación de señales de profundidad 3-D de distorsiones afines de la estructura 2-D local". Computación de imagen y visión 15 (6): págs. 415–434, 1997.
^ a b c d T. Lindeberg (2008). "Espacio de escala" . En Benjamin Wah (ed.). Enciclopedia Wiley de Ciencias e Ingeniería Informática . IV . John Wiley e hijos. págs. 2495–2504. doi : 10.1002 / 9780470050118.ecse609 . ISBN 978-0-470-05011-8.
^ a b c K. Mikolajczyk, K. y C. Schmid (2004). "Detectores de puntos de interés invariantes de escala y afines" (PDF) . Revista Internacional de Visión por Computador . 60 (1): 63–86. doi : 10.1023 / B: VISI.0000027790.02288.f2 .
^ L. Kitchen y A. Rosenfeld (1982). "Detección de esquinas de nivel de grises". Cartas de reconocimiento de patrones . 1 (2). págs. 95-102.
^ JJ Koenderink y W. Richards (1988). "Operadores de curvatura bidimensional" . Revista de la Sociedad Americana de Óptica A . 5 (7). págs. 1136-1141.
^ L. Bretzner y T. Lindeberg (1998). "Seguimiento de características con selección automática de escalas espaciales" . Visión por computadora y comprensión de imágenes . 71 . págs. 385–392.
^ T. Lindeberg y M.-X. Li (1997). "Segmentación y clasificación de aristas mediante aproximación de longitud de descripción mínima y claves de unión complementarias" . Visión por computadora y comprensión de imágenes . 67 (1). págs. 88–98.
^ a b c D. Lowe (2004). "Características de imagen distintivas de los puntos clave de escala invariable" . Revista Internacional de Visión por Computador . 60 (2): 91. CiteSeerX 10.1.1.73.2924 . doi : 10.1023 / B: VISI.0000029664.99615.94 .
^ a b c d e f g h T. Lindeberg `` Coincidencia de imágenes utilizando puntos de interés de espacio de escala generalizados '', Journal of Mathematical Imaging and Vision, volumen 52, número 1, páginas 3-36, 2015.
^ a b c d T. Lindeberg "Propiedades de selección de escala de detectores de puntos de interés de espacio de escala generalizados", Journal of Mathematical Imaging and Vision, Volumen 46, Número 2, páginas 177-210, 2013.
^ Lindeberg, T. (1998). "Detección de bordes y detección de crestas con selección automática de escala" . Revista Internacional de Visión por Computador . 30 (2): 117-154. doi : 10.1023 / A: 1008097225773 .
^ H. Wang y M. Brady (1995). "Algoritmo de detección de esquinas en tiempo real para estimación de movimiento". Computación de imagen y visión . 13 (9): 695–703. doi : 10.1016 / 0262-8856 (95) 98864-P .
^ SM Smith y JM Brady (mayo de 1997). "SUSAN - un nuevo enfoque para el procesamiento de imágenes de bajo nivel" . Revista Internacional de Visión por Computador . 23 (1): 45–78. doi : 10.1023 / A: 1007963824710 .
SM Smith y JM Brady (enero de 1997), "Método de procesamiento digital de imágenes para determinar la posición de los bordes y / o esquinas en las mismas para la orientación de un vehículo no tripulado". Patente del Reino Unido 2272285, titular: Secretario de Estado de Defensa, Reino Unido.
^ Patente GB 2272285 , lista de inventores (formato libre), "Determinación de la posición de bordes y esquinas en imágenes", publicada 1994-05-11, publicada 1994-05-11, asignada a Secr Defense
^ "El detector de bordes SUSAN en detalle" .
^ M. Trajkovic y M. Hedley (1998). "Detección rápida de esquinas". Computación de imagen y visión . 16 (2): 75–87. doi : 10.1016 / S0262-8856 (97) 00056-5 .
^ a b E. Rosten y T. Drummond (mayo de 2006). "Machine learning para la detección de esquinas de alta velocidad" . Congreso Europeo de Visión por Computador .
^ Leonardo Trujillo y Gustavo Olague (2008). "Diseño automatizado de operadores de imagen que detectan puntos de interés" (PDF) . Computación evolutiva . 16 (4): 483–507. doi : 10.1162 / evco.2008.16.4.483 . PMID 19053496 . Archivado desde el original (PDF) el 17 de julio de 2011.
^ Ivan Laptev y Tony Lindeberg (2003). "Puntos de interés del espacio-tiempo" . Congreso Internacional de Visión por Computador . IEEE. págs. 432–439.
^ a b Geert Willems, Tinne Tuytelaars y Luc van Gool (2008). "Un detector de puntos de interés espaciotemporal-temporal denso e invariante de escala eficiente". Congreso Europeo de Visión por Computador . Springer Lecture Notes en Ciencias de la Computación. 5303 . págs. 650–663. doi : 10.1007 / 978-3-540-88688-4_48 .
^ a b c Tony Lindeberg (2018). "Selección de escala espacio-temporal en datos de video". Revista de Visión y Imágenes Matemáticas . 60 (4). págs. 525–562. doi : 10.1007 / s10851-017-0766-9 .
^ I. Everts, J. van Gemert y T. Gevers (2014). "Evaluación de puntos de interés espacio-temporales de color para el reconocimiento de la acción humana". Transacciones IEEE sobre procesamiento de imágenes . 23 (4). págs. 1569-1589. doi : 10.1109 / TIP.2014.2302677 .

Implementaciones de referencia

Esta sección proporciona enlaces externos para hacer referencia a implementaciones de algunos de los detectores descritos anteriormente. Estas implementaciones de referencia son proporcionadas por los autores del artículo en el que se describe por primera vez el detector. Estos pueden contener detalles no presentes o explícitos en los artículos que describen las características.

Detección de DoG (como parte del sistema SIFT ), ejecutables de Windows y Linux x86
Harris-Laplace , ejecutables estáticos de Linux . También contiene detectores DoG y LoG y adaptación afín para todos los detectores incluidos.
Detector FAST , código fuente C, C ++, MATLAB y ejecutables para varios sistemas operativos y arquitecturas.
lip-vireo , [LoG, DoG, Harris-Laplacian, Hessian y Hessian-Laplacian], [SIFT, flip invariante SIFT, PCA-SIFT, PSIFT, Steerable Filters, SPIN] [Linux, Windows y SunOS] ejecutables.
Procesamiento de imágenes de bajo nivel SUSAN , código fuente C.
Implementación en línea del detector de esquinas Harris - IPOL

Ver también

detección de manchas
adaptación de forma afín
espacio de escala
detección de crestas
detección de puntos de interés
detección de características (visión por computadora)
derivados de la imagen

enlaces externos

Lindeberg, Tony (2001) [1994], "Detección de esquinas" , Enciclopedia de matemáticas , EMS Press
Brostow, "Detección de esquinas - UCL Computer Science"

[willis-1] Andrew Willis y Yunfeng Sui (2009). "Un modelo algebraico para la detección rápida de esquinas". 2009 IEEE 12th International Conference on Computer Vision . IEEE. págs. 2296-2302. doi : 10.1109 / ICCV.2009.5459443 . ISBN 978-1-4244-4420-5.

[2] Shapiro, Linda y George C. Stockman (2001). Visión por computadora , pág. 257. Prentice Books, Upper Saddle River. ISBN 0-13-030796-3 .

[moravec-3] H. Moravec (1980). "Evitación de obstáculos y navegación en el mundo real por un robot Rover" . Informe técnico CMU-RI-TR-3 Universidad Carnegie-Mellon, Instituto de Robótica .

[4] Evitación de obstáculos y navegación en el mundo real por un robot Rover que ve, Hans Moravec, marzo de 1980, Departamento de Ciencias de la Computación, Universidad de Stanford (tesis de doctorado)

[harris-5] C. Harris y M. Stephens (1988). "Un detector combinado de esquinas y bordes" (PDF) . Actas de la 4ª Conferencia de Alvey Vision . págs. 147-151.

[sanchez-6] Javier Sánchez, Nelson Monzón y Agustín Salgado (2018). "Un análisis e implementación del detector de esquinas Harris" (PDF) . Procesamiento de imágenes en línea . 8 : 305–328. doi : 10.5201 / ipol.2018.229 . Archivado desde el original el 3 de octubre de 2018.

[shitomasi-7] J. Shi y C. Tomasi (junio de 1994). "Buenas características para rastrear". 9ª Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones . Saltador. págs. 593–600. CiteSeerX 10.1.1.36.2669 . doi : 10.1109 / CVPR.1994.323794 .
{{cite techreport | autor = C. Tomasi y T. Kanade | title = Detección y seguimiento de características puntuales | año = 1991 | número = CMU-CS-91-132 | institución = Escuela de Ciencias de la Computación, Universidad Carnegie Mellon | citeseerx = 10.1.1.45.5770

[noble-8] A. Noble (1989). Descripciones de superficies de imagen (Ph.D.). Departamento de Ciencias de la Ingeniería, Universidad de Oxford. pag. 45.

[9] Förstner, W; Gülch (1987). "Un operador rápido para la detección y ubicación precisa de distintos puntos, esquinas y centros de características circulares" (PDF) . ISPRS .^{[ enlace muerto permanente ]}

[lindeberg94icip-10] T. Lindeberg (1994). "Detección de cruces con selección automática de escalas de detección y escalas de localización" . Proc. 1er Congreso Internacional de Procesado de Imágenes . Yo . Austin, Texas. págs. 924–928.

[lindeberg98-11] yo j k Tony Lindeberg (1998). "Detección de características con selección automática de escala" . Revista Internacional de Visión por Computador . 30 (2). págs. 77-116.

[lindeberg94book-12] T. Lindeberg (1994). Teoría del espacio-escala en visión artificial . Saltador. ISBN 978-0-7923-9418-1.

[LinGar97-IVC-13] T. Lindeberg y J. Garding "Suavizado adaptado a la forma en la estimación de señales de profundidad 3-D de distorsiones afines de la estructura 2-D local". Computación de imagen y visión 15 (6): págs. 415–434, 1997.

[lindeberg08enc-14] T. Lindeberg (2008). "Espacio de escala" . En Benjamin Wah (ed.). Enciclopedia Wiley de Ciencias e Ingeniería Informática . IV . John Wiley e hijos. págs. 2495–2504. doi : 10.1002 / 9780470050118.ecse609 . ISBN 978-0-470-05011-8.

[schmid-15] K. Mikolajczyk, K. y C. Schmid (2004). "Detectores de puntos de interés invariantes de escala y afines" (PDF) . Revista Internacional de Visión por Computador . 60 (1): 63–86. doi : 10.1023 / B: VISI.0000027790.02288.f2 .

[kitchen82-16] L. Kitchen y A. Rosenfeld (1982). "Detección de esquinas de nivel de grises". Cartas de reconocimiento de patrones . 1 (2). págs. 95-102.

[richards88-17] JJ Koenderink y W. Richards (1988). "Operadores de curvatura bidimensional" . Revista de la Sociedad Americana de Óptica A . 5 (7). págs. 1136-1141.

[brelin98feattrack-18] L. Bretzner y T. Lindeberg (1998). "Seguimiento de características con selección automática de escalas espaciales" . Visión por computadora y comprensión de imágenes . 71 . págs. 385–392.

[lindebergli97-19] T. Lindeberg y M.-X. Li (1997). "Segmentación y clasificación de aristas mediante aproximación de longitud de descripción mínima y claves de unión complementarias" . Visión por computadora y comprensión de imágenes . 67 (1). págs. 88–98.

[sift-20] D. Lowe (2004). "Características de imagen distintivas de los puntos clave de escala invariable" . Revista Internacional de Visión por Computador . 60 (2): 91. CiteSeerX 10.1.1.73.2924 . doi : 10.1023 / B: VISI.0000029664.99615.94 .

[Lin15JMIV-21] T. Lindeberg `` Coincidencia de imágenes utilizando puntos de interés de espacio de escala generalizados '', Journal of Mathematical Imaging and Vision, volumen 52, número 1, páginas 3-36, 2015.

[Lin13JMIV-22] T. Lindeberg "Propiedades de selección de escala de detectores de puntos de interés de espacio de escala generalizados", Journal of Mathematical Imaging and Vision, Volumen 46, Número 2, páginas 177-210, 2013.

[23] Lindeberg, T. (1998). "Detección de bordes y detección de crestas con selección automática de escala" . Revista Internacional de Visión por Computador . 30 (2): 117-154. doi : 10.1023 / A: 1008097225773 .

[wangbrady-24] H. Wang y M. Brady (1995). "Algoritmo de detección de esquinas en tiempo real para estimación de movimiento". Computación de imagen y visión . 13 (9): 695–703. doi : 10.1016 / 0262-8856 (95) 98864-P .

[susan-25] SM Smith y JM Brady (mayo de 1997). "SUSAN - un nuevo enfoque para el procesamiento de imágenes de bajo nivel" . Revista Internacional de Visión por Computador . 23 (1): 45–78. doi : 10.1023 / A: 1007963824710 .
SM Smith y JM Brady (enero de 1997), "Método de procesamiento digital de imágenes para determinar la posición de los bordes y / o esquinas en las mismas para la orientación de un vehículo no tripulado". Patente del Reino Unido 2272285, titular: Secretario de Estado de Defensa, Reino Unido.

[26] Patente GB 2272285 , lista de inventores (formato libre), "Determinación de la posición de bordes y esquinas en imágenes", publicada 1994-05-11, publicada 1994-05-11, asignada a Secr Defense

[27] "El detector de bordes SUSAN en detalle" .

[hedley-28] M. Trajkovic y M. Hedley (1998). "Detección rápida de esquinas". Computación de imagen y visión . 16 (2): 75–87. doi : 10.1016 / S0262-8856 (97) 00056-5 .

[fast-29] E. Rosten y T. Drummond (mayo de 2006). "Machine learning para la detección de esquinas de alta velocidad" . Congreso Europeo de Visión por Computador .

[geneticprogramming-30] Leonardo Trujillo y Gustavo Olague (2008). "Diseño automatizado de operadores de imagen que detectan puntos de interés" (PDF) . Computación evolutiva . 16 (4): 483–507. doi : 10.1162 / evco.2008.16.4.483 . PMID 19053496 . Archivado desde el original (PDF) el 17 de julio de 2011.

[laplin03-31] Ivan Laptev y Tony Lindeberg (2003). "Puntos de interés del espacio-tiempo" . Congreso Internacional de Visión por Computador . IEEE. págs. 432–439.

[willems08-32] Geert Willems, Tinne Tuytelaars y Luc van Gool (2008). "Un detector de puntos de interés espaciotemporal-temporal denso e invariante de escala eficiente". Congreso Europeo de Visión por Computador . Springer Lecture Notes en Ciencias de la Computación. 5303 . págs. 650–663. doi : 10.1007 / 978-3-540-88688-4_48 .

[lindeberg18-33] Tony Lindeberg (2018). "Selección de escala espacio-temporal en datos de video". Revista de Visión y Imágenes Matemáticas . 60 (4). págs. 525–562. doi : 10.1007 / s10851-017-0766-9 .

[everts14-34] I. Everts, J. van Gemert y T. Gevers (2014). "Evaluación de puntos de interés espacio-temporales de color para el reconocimiento de la acción humana". Transacciones IEEE sobre procesamiento de imágenes . 23 (4). págs. 1569-1589. doi : 10.1109 / TIP.2014.2302677 .

[1]