Tensor de estructura

En matemáticas, el tensor de estructura , también conocido como matriz de segundo momento , es una matriz derivada del gradiente de una función . Resume las direcciones predominantes del gradiente en una vecindad específica de un punto y el grado en que esas direcciones son coherentes . El tensor de estructura se utiliza a menudo en el procesamiento de imágenes y la visión por computadora . ^[1]^[2]^[3]

El tensor de estructura 2D

Versión continua

Para una función ${\ Displaystyle I}$ de dos variables p = ( x , y ) , el tensor de estructura es la matriz 2 × 2

{\ Displaystyle S_ {w} (p) = {\ begin {bmatrix} \ int w (r) (I_ {x} (pr)) ^ {2} \, dr & \ int w (r) I_ {x} ( pr) I_ {y} (pr) \, dr \\ [10pt] \ int w (r) I_ {x} (pr) I_ {y} (pr) \, dr & \ int w (r) (I_ {y } (pr)) ^ {2} \, dr \ end {bmatrix}}}

dónde ${\ Displaystyle I_ {x}}$ y ${\ Displaystyle I_ {y}}$ son las derivadas parciales de ${\ Displaystyle I}$ con respecto a x e y ; las integrales se extienden sobre el plano ${\ Displaystyle \ mathbb {R} ^ {2}}$ ; y w es de unos fijo "función de ventana", una distribución en dos variables. Tenga en cuenta que la matriz ${\ Displaystyle S_ {w}}$ es en sí mismo una función de p = ( x , y ) .

La fórmula anterior también se puede escribir como ${\ Displaystyle S_ {w} (p) = \ int w (r) S_ {0} (pr) \, dr}$ , dónde ${\ Displaystyle S_ {0}}$ es la función con valores de matriz definida por

{\ Displaystyle S_ {0} (p) = {\ begin {bmatrix} (I_ {x} (p)) ^ {2} & I_ {x} (p) I_ {y} (p) \\ [10pt] I_ {x} (p) I_ {y} (p) & (I_ {y} (p)) ^ {2} \ end {bmatrix}}}

Si el gradiente ${\ Displaystyle \ nabla I = (I_ {x}, I_ {y}) ^ {\ text {T}}}$ de ${\ Displaystyle I}$ se ve como una matriz de 2 × 1 (una sola columna), donde ${\ displaystyle (.) ^ {\ text {T}}}$ denota la operación de transposición , convirtiendo un vector de fila en un vector de columna, la matriz ${\ Displaystyle S_ {0}}$ se puede escribir como el producto de la matriz ${\ Displaystyle (\ nabla I) (\ nabla I) ^ {\ text {T}}}$ , también conocido como producto externo o producto tensor. Sin embargo, tenga en cuenta que el tensor de estructura ${\ Displaystyle S_ {w} (p)}$ no se puede factorizar de esta manera en general, excepto si ${\ Displaystyle w}$ es una función delta de Dirac .

Versión discreta

En el procesamiento de imágenes y otras aplicaciones similares, la función ${\ Displaystyle I}$ generalmente se da como una matriz discreta de muestras ${\ Displaystyle I [p]}$ , donde p es un par de índices enteros. El tensor de estructura 2D en un píxel dado generalmente se toma como la suma discreta

{\ Displaystyle S_ {w} [p] = {\ begin {bmatrix} \ sum _ {r} w [r] (I_ {x} [pr]) ^ {2} & \ sum _ {r} w [r ] I_ {x} [pr] I_ {y} [pr] \\ [10pt] \ sum _ {r} w [r] I_ {x} [pr] I_ {y} [pr] & \ sum _ {r } w [r] (I_ {y} [pr]) ^ {2} \ end {bmatrix}}}

Aquí el índice de suma r varía sobre un conjunto finito de pares de índices (la "ventana", típicamente ${\ Displaystyle \ {- m .. + m \} \ times \ {- m .. + m \}}$ para algunos m ), y w [ r ] es un "peso de ventana" fijo que depende de r , de modo que la suma de todos los pesos es 1. Los valores ${\ Displaystyle I_ {x} [p], I_ {y} [p]}$ son las derivadas parciales muestreadas en el píxel p ; que, por ejemplo, puede estimarse a partir de ${\ Displaystyle I}$ por fórmulas de diferencias finitas .

La fórmula del tensor de estructura se puede escribir también como ${\ Displaystyle S_ {w} [p] = \ sum _ {r} w [r] S_ {0} [pr]}$ , dónde ${\ Displaystyle S_ {0}}$ es la matriz de valores matriciales tal que

{\ Displaystyle S_ {0} [p] = {\ begin {bmatrix} (I_ {x} [p]) ^ {2} & I_ {x} [p] I_ {y} [p] \\ [10pt] I_ {x} [p] I_ {y} [p] & (I_ {y} [p]) ^ {2} \ end {bmatrix}}}

Interpretación

La importancia del tensor de estructura 2D ${\ Displaystyle S_ {w}}$ se deriva del hecho de valores propios ${\ Displaystyle \ lambda _ {1}, \ lambda _ {2}}$ (que se puede pedir para que ${\ Displaystyle \ lambda _ {1} \ geq \ lambda _ {2} \ geq 0}$ ) y los vectores propios correspondientes ${\ Displaystyle e_ {1}, e_ {2}}$ resumir la distribución del gradiente ${\ Displaystyle \ nabla I = (I_ {x}, I_ {y})}$ de ${\ Displaystyle I}$ dentro de la ventana definida por ${\ Displaystyle w}$ centrado en ${\ Displaystyle p}$ . ^[1]^[2]^[3]

Es decir, si ${\ Displaystyle \ lambda _ {1}> \ lambda _ {2}}$ , luego ${\ Displaystyle e_ {1}}$ (o ${\ Displaystyle -e_ {1}}$ ) es la dirección que se alinea al máximo con el degradado dentro de la ventana.

En particular, si ${\ Displaystyle \ lambda _ {1}> 0, \ lambda _ {2} = 0}$ entonces el gradiente es siempre un múltiplo de ${\ Displaystyle e_ {1}}$ (positivo, negativo o cero); este es el caso si y solo si ${\ Displaystyle I}$ dentro de la ventana varía a lo largo de la dirección ${\ Displaystyle e_ {1}}$ pero es constante a lo largo ${\ Displaystyle e_ {2}}$ . Esta condición de valores propios también se llama condición de simetría lineal porque entonces las iso-curvas de ${\ Displaystyle I}$ Consisten en líneas paralelas, es decir, existe una función unidimensional ${\ Displaystyle g}$ que puede generar la función bidimensional ${\ Displaystyle I}$ como ${\ Displaystyle I (x, y) = g (d ^ {\ text {T}} p)}$ para algún vector constante ${\ Displaystyle d = (d_ {x}, d_ {y}) ^ {T}}$ y las coordenadas ${\ Displaystyle p = (x, y) ^ {T}}$ .

Si ${\ Displaystyle \ lambda _ {1} = \ lambda _ {2}}$ , por otro lado, el gradiente en la ventana no tiene una dirección predominante; lo que sucede, por ejemplo, cuando la imagen tiene simetría rotacional dentro de esa ventana. Esta condición de valores propios también se denomina cuerpo equilibrado o condición de equilibrio direccional porque se cumple cuando todas las direcciones del gradiente en la ventana son igualmente frecuentes / probables.

Además, la condición ${\ Displaystyle \ lambda _ {1} = \ lambda _ {2} = 0}$ sucede si y solo si la función ${\ Displaystyle I}$ es constante ${\ Displaystyle \ nabla I = (0,0)}$ ) dentro ${\ Displaystyle W}$ .

De manera más general, el valor de ${\ Displaystyle \ lambda _ {k}}$ , para k = 1 o k = 2, es el ${\ Displaystyle w}$ -Promedio ponderado, en la vecindad de p , del cuadrado de la derivada direccional de ${\ Displaystyle I}$ a lo largo de ${\ Displaystyle e_ {k}}$ . La relativa discrepancia entre los dos valores propios de ${\ Displaystyle S_ {w}}$ es un indicador del grado de anisotropía del gradiente en la ventana, es decir, qué tan fuertemente está sesgado hacia una dirección particular (y su opuesto). ^[4]^[5] Este atributo se puede cuantificar por la coherencia , definida como

{\ Displaystyle c_ {w} = \ left ({\ frac {\ lambda _ {1} - \ lambda _ {2}} {\ lambda _ {1} + \ lambda _ {2}}} \ right) ^ { 2}}

Si ${\ Displaystyle \ lambda _ {2}> 0}$ . Esta cantidad es 1 cuando el gradiente está totalmente alineado y 0 cuando no tiene una dirección preferida. La fórmula es indefinida, incluso en el límite , cuando la imagen es constante en la ventana ( ${\ Displaystyle \ lambda _ {1} = \ lambda _ {2} = 0}$ ). Algunos autores lo definen como 0 en ese caso.

Tenga en cuenta que el promedio del gradiente ${\ Displaystyle \ nabla I}$ dentro de la ventana no es un buen indicador de anisotropía. Los vectores de gradiente alineados pero orientados de manera opuesta se cancelarían en este promedio, mientras que en el tensor de estructura se suman correctamente. ^[6] Esta es una de las razones por las que ${\ Displaystyle (\ nabla I) (\ nabla I) ^ {\ text {T}}}$ se utiliza en el promedio del tensor de estructura para optimizar la dirección en lugar de ${\ Displaystyle \ nabla I}$ .

Ampliando el radio efectivo de la función de ventana ${\ Displaystyle w}$ (es decir, aumentando su varianza), se puede hacer que el tensor de estructura sea más robusto frente al ruido, a costa de una resolución espacial disminuida. ^[5]^[7] La base formal de esta propiedad se describe con más detalle a continuación, donde se muestra que una formulación multiescala del tensor de estructura, denominada tensor de estructura multiescala , constituye un verdadero multiescala. representación de datos direccionales bajo variaciones de la extensión espacial de la función de ventana .

Versión compleja

La interpretación e implementación del tensor de estructura 2D se vuelve particularmente accesible usando números complejos. ^[2] El tensor de estructura consta de 3 números reales

{\ Displaystyle S_ {w} (p) = {\ begin {bmatrix} \ mu _ {20} & \ mu _ {11} \\ [10pt] \ mu _ {11} & \ mu _ {02} \ end {bmatrix}}}

dónde ${\ estilo de texto \ mu _ {20} = \ int (w (r) (I_ {x} (pr)) ^ {2} \, dr}$ , ${\ estilo de texto \ mu _ {02} = \ int (w (r) (I_ {y} (pr)) ^ {2} \, dr}$ y ${\ estilo de texto \ mu _ {11} = \ int w (r) I_ {x} (pr) I_ {y} (pr) \, dr}$ en el que las integrales se pueden reemplazar por sumas para una representación discreta. Usando la relación de Parseval, está claro que los tres números reales son los momentos de segundo orden del espectro de potencia de ${\ Displaystyle I}$ . El siguiente momento complejo de segundo orden del espectro de potencia de ${\ Displaystyle I}$ luego se puede escribir como

{\ estilo de texto \ kappa _ {20} = \ mu _ {20} - \ mu _ {02} + i2 \ mu _ {11} = \ int (w (r) (I_ {x} (pr) + iI_ { y} (pr)) ^ {2} \, dr = (\ lambda _ {1} - \ lambda _ {2}) \ exp (i2 \ phi)}

dónde ${\ Displaystyle i = {\ sqrt {-1}}}$ y ${\ Displaystyle \ phi}$ es el ángulo de dirección del vector propio más significativo del tensor de estructura ${\ Displaystyle \ phi = \ angle {e_ {1}}}$ mientras que ${\ Displaystyle \ lambda _ {1}}$ y ${\ Displaystyle \ lambda _ {2}}$ son los valores propios más y menos significativos. De esto se sigue que ${\ Displaystyle \ kappa _ {20}}$ contiene tanto una certeza ${\ Displaystyle | \ kappa _ {20} | = \ lambda _ {1} - \ lambda _ {2}}$ y la dirección óptima en la representación de doble ángulo, ya que es un número complejo que consta de dos números reales. También se deduce que si el gradiente se representa como un número complejo y se reasigna al cuadrado (es decir, los ángulos del argumento del gradiente complejo se duplica), el promedio actúa como un optimizador en el dominio mapeado, ya que entrega directamente tanto el óptimo dirección (en representación de doble ángulo) y la certeza asociada. El número complejo representa así cuánta estructura lineal (simetría lineal) hay en la imagen ${\ Displaystyle I}$ , y el número complejo se obtiene directamente promediando el gradiente en su representación de ángulo doble (compleja) sin calcular los valores propios y los vectores propios explícitamente.

Asimismo, el siguiente momento complejo de segundo orden del espectro de potencia de ${\ Displaystyle I}$ , que resulta ser siempre real porque ${\ Displaystyle I}$ es real,

{\ estilo de texto \ kappa _ {11} = \ mu _ {20} + \ mu _ {02} = \ int (w (r) | I_ {x} (pr) + iI_ {y} (pr) | ^ { 2} \, dr = \ lambda _ {1} + \ lambda _ {2}}

se puede obtener, con ${\ Displaystyle \ lambda _ {1}}$ y ${\ Displaystyle \ lambda _ {2}}$ siendo los valores propios como antes. Observe que esta vez la magnitud del gradiente complejo se eleva al cuadrado (que siempre es real).

Sin embargo, la descomposición del tensor de estructura en sus autovectores produce sus componentes de tensor como

{\ Displaystyle S_ {w} (p) = \ lambda _ {1} e_ {1} e_ {1} ^ {\ text {T}} + \ lambda _ {2} e_ {2} e_ {2} ^ { \ text {T}} = (\ lambda _ {1} - \ lambda _ {2}) e_ {1} e_ {1} ^ {\ text {T}} + \ lambda _ {2} (e_ {1} e_ {1} ^ {\ text {T}} + e_ {2} e_ {2} ^ {\ text {T}}) = (\ lambda _ {1} - \ lambda _ {2}) e_ {1} e_ {1} ^ {\ text {T}} + \ lambda _ {2} E}

dónde ${\ Displaystyle E}$ es la matriz de identidad en 2D porque los dos vectores propios son siempre ortogonales (y suman la unidad). El primer término en la última expresión de la descomposición, ${\ Displaystyle (\ lambda _ {1} - \ lambda _ {2}) e_ {1} e_ {1} ^ {\ text {T}}}$ , representa el componente de simetría lineal del tensor de estructura que contiene toda la información direccional (como una matriz de rango 1), mientras que el segundo término representa el componente de cuerpo equilibrado del tensor, que carece de información direccional (que contiene una matriz de identidad ${\ Displaystyle E}$ ). Para saber cuánta información direccional hay en ${\ Displaystyle I}$ es lo mismo que comprobar qué tan grande ${\ Displaystyle \ lambda _ {1} - \ lambda _ {2}}$ se compara con ${\ Displaystyle \ lambda _ {2}}$ .

Evidentemente, ${\ Displaystyle \ kappa _ {20}}$ es el equivalente complejo del primer término en la descomposición del tensor, mientras que

{\ Displaystyle (| \ kappa _ {20} | - \ kappa _ {11}) / 2 = \ lambda _ {2}}

es el equivalente del segundo término. Así, los dos escalares, que comprenden tres números reales,

{\ Displaystyle {\ begin {array} {c} \ kappa _ {20} = (\ lambda _ {1} - \ lambda _ {2}) \ exp (i2 \ phi) & = & w * (h * I) ^ {2} \\\ kappa _ {11} = \ lambda _ {1} + \ lambda _ {2} & = & w * | h * I | ^ {2} \\\ end {matriz}}}

dónde ${\ Displaystyle h (x, y) = (x + iy) \ exp (- (x ^ {2} + y ^ {2}) / (2 \ sigma ^ {2}))}$ es el filtro de gradiente (complejo), y ${\ Displaystyle *}$ es la convolución, constituyen una representación compleja del tensor de estructura 2D. Como se discutió aquí y en otros lugares ${\ Displaystyle w}$ define la imagen local que suele ser gaussiana (con una cierta variación que define la escala exterior), y ${\ Displaystyle \ sigma}$ es el parámetro (escala interna) que determina el rango de frecuencia efectivo en el que la orientación ${\ Displaystyle 2 \ phi}$ se estima.

La elegancia de la representación compleja se debe a que los dos componentes del tensor de estructura se pueden obtener como promedios e independientemente. A su vez, esto significa que ${\ Displaystyle \ kappa _ {20}}$ y ${\ Displaystyle \ kappa _ {11}}$ se puede utilizar en una representación espacial de escala para describir la evidencia de la presencia de una orientación única y la evidencia de la hipótesis alternativa, la presencia de múltiples orientaciones equilibradas, sin calcular los autovectores y autovalores. Hasta la fecha, no se ha demostrado que exista una función, como elevar al cuadrado los números complejos, para tensores de estructura con dimensiones superiores a dos. En Bigun 91, se ha presentado con el debido argumento que esto se debe a que los números complejos son álgebras conmutativas, mientras que los cuaterniones, el posible candidato para construir tal funcional, constituyen un álgebra no conmutativa. ^[8]

La representación compleja del tensor de estructura se utiliza con frecuencia en el análisis de huellas dactilares para obtener mapas de dirección que contienen certezas que a su vez se utilizan para mejorarlas, para encontrar las ubicaciones de las singularidades globales (núcleos y deltas) y locales (minucias), así como evaluar automáticamente la calidad de las huellas dactilares.

El tensor de estructura 3D

Definición

El tensor de estructura se puede definir también para una función ${\ Displaystyle I}$ de tres variables p = ( x , y , z ) de forma totalmente análoga. Es decir, en la versión continua tenemos ${\ Displaystyle S_ {w} (p) = \ int w (r) S_ {0} (pr) \, dr}$ , dónde

{\ Displaystyle S_ {0} (p) = {\ begin {bmatrix} (I_ {x} (p)) ^ {2} & I_ {x} (p) I_ {y} (p) & I_ {x} (p ) I_ {z} (p) \\ [10pt] I_ {x} (p) I_ {y} (p) & (I_ {y} (p)) ^ {2} & I_ {y} (p) I_ { z} (p) \\ [10pt] I_ {x} (p) I_ {z} (p) & I_ {y} (p) I_ {z} (p) & (I_ {z} (p)) ^ { 2} \ end {bmatrix}}}

dónde ${\ Displaystyle I_ {x}, I_ {y}, I_ {z}}$ son las tres derivadas parciales de ${\ Displaystyle I}$ , y la integral se extiende sobre ${\ Displaystyle \ mathbb {R} ^ {3}}$ .

En la versión discreta, ${\ Displaystyle S_ {w} [p] = \ sum _ {r} w [r] S_ {0} [pr]}$ , dónde

{\ Displaystyle S_ {0} [p] = {\ begin {bmatrix} (I_ {x} [p]) ^ {2} & I_ {x} [p] I_ {y} [p] & I_ {x} [p ] I_ {z} [p] \\ [10pt] I_ {x} [p] I_ {y} [p] & (I_ {y} [p]) ^ {2} & I_ {y} [p] I_ { z} [p] \\ [10pt] I_ {x} [p] I_ {z} [p] & I_ {y} [p] I_ {z} [p] & (I_ {z} [p]) ^ { 2} \ end {bmatrix}}}

y la suma varía sobre un conjunto finito de índices 3D, generalmente ${\ Displaystyle \ {- m .. + m \} \ times \ {- m .. + m \} \ times \ {- m .. + m \}}$ para algunos m .

Interpretación

Como en el caso tridimensional, los valores propios ${\ Displaystyle \ lambda _ {1}, \ lambda _ {2}, \ lambda _ {3}}$ de ${\ Displaystyle S_ {w} [p]}$ , y los vectores propios correspondientes ${\ Displaystyle e_ {1}, e_ {2}, e_ {3}}$ , resume la distribución de las direcciones del gradiente dentro de la vecindad de p definida por la ventana ${\ Displaystyle w}$ . Esta información se puede visualizar como un elipsoide cuyos semiejes son iguales a los autovalores y están dirigidos a lo largo de sus correspondientes autovectores. ^[9]

Representación elipsoidal del tensor de estructura 3D.

En particular, si el elipsoide se estira a lo largo de un solo eje, como un cigarro (es decir, si ${\ Displaystyle \ lambda _ {1}}$ es mucho más grande que ambos ${\ Displaystyle \ lambda _ {2}}$ y ${\ Displaystyle \ lambda _ {3}}$ ), significa que el gradiente en la ventana está predominantemente alineado con la dirección ${\ Displaystyle e_ {1}}$ , de modo que las isosuperficies de ${\ Displaystyle I}$ tienden a ser planos y perpendiculares a ese vector. Esta situación ocurre, por ejemplo, cuando p se encuentra en una característica similar a una placa delgada, o en el límite uniforme entre dos regiones con valores contrastantes.

El elipsoide tensor de estructura de un vecindario similar a una superficie (" surfel "), donde

{\ Displaystyle \ lambda _ {1}> \!> \ lambda _ {2} \ approx \ lambda _ {3}}

.

Una ventana 3D que se extiende a lo largo de una superficie lisa de límite entre dos regiones uniformes de una imagen 3D.

El tensor de estructura correspondiente elipsoide.

Si el elipsoide se aplana en una sola dirección, como un panqueque (es decir, si ${\ Displaystyle \ lambda _ {3}}$ es mucho más pequeño que ambos ${\ Displaystyle \ lambda _ {1}}$ y ${\ Displaystyle \ lambda _ {2}}$ ), significa que las direcciones del gradiente están extendidas pero perpendiculares a ${\ Displaystyle e_ {3}}$ ; de modo que las isosuperficies tienden a ser como tubos paralelos a ese vector. Esta situación ocurre, por ejemplo, cuando p se encuentra en una característica similar a una línea delgada, o en una esquina pronunciada del límite entre dos regiones con valores contrastantes.

El tensor de estructura de una vecindad en forma de línea ("curva"), donde

{\ Displaystyle \ lambda _ {1} \ approx \ lambda _ {2}> \!> \ lambda _ {3}}

.

Una ventana 3D que se extiende a lo largo de una característica similar a una línea de una imagen 3D.

El tensor de estructura correspondiente elipsoide.

Finalmente, si el elipsoide es aproximadamente esférico (es decir, si ${\ Displaystyle \ lambda _ {1} \ approx \ lambda _ {2} \ approx \ lambda _ {3}}$ ), significa que las direcciones del gradiente en la ventana están distribuidas más o menos uniformemente, sin preferencia marcada; para que la función ${\ Displaystyle I}$ es principalmente isotrópico en ese vecindario. Esto sucede, por ejemplo, cuando la función tiene simetría esférica en la vecindad de p . En particular, si el elipsoide degenera en un punto (es decir, si los tres valores propios son cero), significa que ${\ Displaystyle I}$ es constante (tiene gradiente cero) dentro de la ventana.

El tensor de estructura en una vecindad isotrópica, donde

{\ Displaystyle \ lambda _ {1} \ approx \ lambda _ {2} \ approx \ lambda _ {3}}

.

Una ventana 3D que contiene una característica esférica de una imagen 3D.

El tensor de estructura correspondiente elipsoide.

El tensor de estructura multiescala

El tensor de estructura es una herramienta importante en el análisis del espacio de escala . El tensor de estructura de múltiples escalas (o matriz de segundo momento de múltiples escalas ) de una función ${\ Displaystyle I}$ contrasta con otras características de espacio de escala de un parámetro, un descriptor de imagen que se define sobre dos parámetros de escala. Un parámetro de escala, denominado escala local ${\ Displaystyle t}$ , es necesario para determinar la cantidad de suavizado previo al calcular el gradiente de la imagen ${\ Displaystyle (\ nabla I) (x; t)}$ . Otro parámetro de escala, denominado escala de integración ${\ Displaystyle s}$ , es necesario para especificar la extensión espacial de la función de ventana ${\ Displaystyle w (\ xi; s)}$ que determina los pesos para la región en el espacio sobre la cual los componentes del producto exterior del gradiente por sí mismos ${\ Displaystyle (\ nabla I) (\ nabla I) ^ {\ text {T}}}$ se acumulan.

Más precisamente, suponga que ${\ Displaystyle I}$ es una señal de valor real definida sobre ${\ Displaystyle \ mathbb {R} ^ {k}}$ . Para cualquier escala local ${\ Displaystyle t> 0}$ , deje que una representación multiescala ${\ Displaystyle I (x; t)}$ de esta señal sea dada por ${\ Displaystyle I (x; t) = h (x; t) * I (x)}$ dónde ${\ Displaystyle h (x; t)}$ representa un núcleo de pre-suavizado. Además, deja ${\ Displaystyle (\ nabla I) (x; t)}$ denotar el gradiente de la representación del espacio de escala . Entonces, el tensor de estructura multiescala / matriz de segundo momento se define mediante ^[7]^[10]^[11]

{\ Displaystyle \ mu (x; t, s) = \ int _ {\ xi \ in \ mathbb {R} ^ {k}} (\ nabla I) (x- \ xi; t) \, (\ nabla I ) ^ {\ text {T}} (x- \ xi; t) \, w (\ xi; s) \, d \ xi}

Conceptualmente, uno puede preguntarse si sería suficiente usar familias auto-similares de funciones de suavizado ${\ Displaystyle h (x; t)}$ y ${\ Displaystyle w (\ xi; s)}$ . Sin embargo, si uno aplicara ingenuamente, por ejemplo, un filtro de caja, entonces podrían ocurrir fácilmente artefactos no deseables. Si uno quiere que el tensor de estructura de múltiples escalas se comporte bien en ambas escalas locales crecientes ${\ Displaystyle t}$ y escalas de integración cada vez mayores ${\ Displaystyle s}$ , entonces se puede demostrar que tanto la función de suavizado como la función de ventana deben ser gaussianas. ^[7] Las condiciones que especifican esta unicidad son similares a los axiomas del espacio de escala que se utilizan para derivar la unicidad del núcleo gaussiano para un espacio de escala gaussiana regular de intensidades de imagen.

Hay diferentes formas de manejar las variaciones de escala de dos parámetros en esta familia de descriptores de imágenes. Si mantenemos el parámetro de escala local ${\ Displaystyle t}$ fijo y aplicar versiones cada vez más ampliadas de la función de ventana aumentando el parámetro de escala de integración ${\ Displaystyle s}$ solo, entonces obtenemos una verdadera representación espacial de escala formal de los datos direccionales calculados en la escala local dada ${\ Displaystyle t}$ . ^[7] Si acoplamos la escala local y la escala de integración mediante una escala de integración relativa ${\ Displaystyle r \ geq 1}$ , tal que ${\ Displaystyle s = rt}$ luego por cualquier valor fijo de ${\ Displaystyle r}$ , obtenemos una variación reducida de un parámetro auto-similar, que se utiliza con frecuencia para simplificar los algoritmos computacionales, por ejemplo, en la detección de esquinas , detección de puntos de interés , análisis de texturas y coincidencia de imágenes . Variando la escala de integración relativa ${\ Displaystyle r \ geq 1}$ en tal variación de escala auto-similar, obtenemos otra forma alternativa de parametrizar la naturaleza multiescala de los datos direccionales obtenidos aumentando la escala de integración.

Se puede realizar una construcción conceptualmente similar para señales discretas, con la integral de convolución reemplazada por una suma de convolución y con el núcleo gaussiano continuo ${\ Displaystyle g (x; t)}$ reemplazado por el kernel gaussiano discreto ${\ Displaystyle T (n; t)}$ :

{\ Displaystyle \ mu (x; t, s) = \ sum _ {n \ in \ mathbb {Z} ^ {k}} (\ nabla I) (xn; t) \, (\ nabla I) ^ {\ texto {T}} (xn; t) \, w (n; s)}

Al cuantificar los parámetros de la escala ${\ Displaystyle t}$ y ${\ Displaystyle s}$ en una implementación real, una progresión geométrica finita ${\ Displaystyle \ alpha ^ {i}}$ se utiliza habitualmente, con i comprendido entre 0 y algún índice de escala máximo m . Por lo tanto, los niveles de escala discreta tendrán ciertas similitudes con la pirámide de la imagen , aunque el submuestreo espacial no se puede usar necesariamente para preservar datos más precisos para las etapas de procesamiento posteriores.

Aplicaciones

Los valores propios del tensor de estructura juegan un papel importante en muchos algoritmos de procesamiento de imágenes, para problemas como la detección de esquinas , la detección de puntos de interés y el seguimiento de características . ^[9]^[12]^[13]^[14]^[15]^[16]^[17] El tensor de estructura también juega un papel central en el algoritmo de flujo óptico de Lucas-Kanade , y en sus extensiones para estimar la adaptación de forma afín ; ^[10] donde la magnitud de ${\ Displaystyle \ lambda _ {2}}$ es un indicador de la fiabilidad del resultado calculado. El tensor se ha utilizado para el análisis del espacio de escala , ^[7] estimación de la orientación de la superficie local a partir de señales monoculares o binoculares, ^[11] mejora de huellas dactilares no lineales , ^[18] procesamiento de imágenes basado en difusión , ^[19]^[20]^{[21 ]}^[22] y varios otros problemas de procesamiento de imágenes. El tensor de estructura también se puede aplicar en geología para filtrar datos sísmicos . ^[23]

Procesamiento de datos de video espacio-temporales con el tensor de estructura

El tensor de estructura tridimensional se ha utilizado para analizar datos de vídeo tridimensionales (vistos como una función de x , y y tiempo t ). ^[4] Si uno en este contexto apunta a descriptores de imagen que son invariantes bajo transformaciones galileanas, para hacer posible comparar medidas de imagen que se han obtenido bajo variaciones de velocidades de imagen desconocidas a priori ${\ Displaystyle v = (v_ {x}, v_ {y}) ^ {\ text {T}}}$

{\ displaystyle {\ begin {bmatrix} x '\\ y' \\ t '\ end {bmatrix}} = G {\ begin {bmatrix} x \\ y \\ t \ end {bmatrix}} = {\ begin {bmatrix} x-v_ {x} \, t \\ y-v_ {y} \, t \\ t \ end {bmatrix}}}

,

Sin embargo, desde un punto de vista computacional es preferible parametrizar los componentes en la matriz de tensor de estructura / segundo momento. ${\ Displaystyle S}$ utilizando la noción de diagonalización galileana ^[24]

{\ Displaystyle S '= R _ {\ text {espacio}} ^ {- {\ text {T}}} \, G ^ {- {\ text {T}}} \, S \, G ^ {- 1} \, R _ {\ text {espacio}} ^ {- 1} = {\ begin {bmatrix} \ nu _ {1} & \, & \, \\\, & \ nu _ {2} & \, \\ \, & \, & \ nu _ {3} \ end {bmatrix}}}

dónde ${\ Displaystyle G}$ denota una transformación galileana del espacio-tiempo y ${\ displaystyle R _ {\ text {espacio}}}$ una rotación bidimensional sobre el dominio espacial, en comparación con el uso mencionado anteriormente de valores propios de un tensor de estructura 3-D, que corresponde a una descomposición de valores propios y una rotación tridimensional (no física) del espacio-tiempo

{\ displaystyle S '' = R _ {\ text {espacio-tiempo}} ^ {- {\ text {T}}} \, S \, R _ {\ text {espacio-tiempo}} ^ {- 1} = {\ begin {bmatrix } \ lambda _ {1} && \\ & \ lambda _ {2} & \\ && \ lambda _ {3} \ end {bmatrix}}}

.

Sin embargo, para obtener una verdadera invariancia galileana, también es necesario adaptar la forma de la función de ventana espacio-temporal, ^[24]^[25] correspondiente a la transferencia de la adaptación de forma afín ^[10] de datos de imágenes espaciales a espacio-temporales. En combinación con descriptores de histogramas espacio-temporales locales, ^[26] estos conceptos juntos permiten el reconocimiento invariante de Galileo de eventos espacio-temporales. ^[27]

Ver también

Tensor
Operador de tensor
Derivado direccional
Gaussiano
Detección de esquinas
Detección de bordes
Método Lucas-Kanade
Adaptación de formas afines
Tensor de estructura generalizada

Referencias

^ a b J. Bigun y G. Granlund (1986), Detección de orientación óptima de simetría lineal . Tech. Informe LiTH-ISY-I-0828, Laboratorio de Visión por Computadora, Universidad de Linkoping, Suecia 1986; Informe de tesis, Estudios de Linköping en ciencia y tecnología No. 85, 1986.
↑ a b c J. Bigun y G. Granlund (1987). "Detección de la orientación óptima de la simetría lineal". Primero int. Conf. en Computer Vision, ICCV, (Londres) . Piscataway: IEEE Computer Society Press, Piscataway. págs. 433–438.
^ a b H. Knutsson (1989). "Representación de la estructura local mediante tensores". Actas 6ª Conf. Escandinava. sobre análisis de imágenes . Oulu: Universidad de Oulu. págs. 244-251.
^ a b B. Jahne (1993). Procesamiento de imágenes espacio-temporales: teoría y aplicaciones científicas . 751 . Berlín: Springer-Verlag.
^ a b G. Medioni, M. Lee y C. Tang (marzo de 2000). Un marco computacional para la extracción y segmentación de características . Ciencia de Elsevier.
^ T. Brox, J. Weickert, B. Burgeth y P. Mrazek (2004). "Tensores de estructura no lineal" (113): 1–32. Parámetro desconocido |book-title=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )CS1 maint: varios nombres: lista de autores ( enlace )
^ a b c d e T. Lindeberg (1993), Teoría del espacio-escala en la visión por computadora . Kluwer Academic Publishers, (consulte las secciones 14.4.1 y 14.2.3 en las páginas 359–360 y 355–356 para obtener declaraciones detalladas sobre cómo el tensor de estructura / matriz de segundo momento de múltiples escalas define una representación de múltiples escalas verdadera y determinada de manera única de datos direccionales).
^ J. Bigun; G. Granlund y J. Wiklund (1991). "Estimación de Orientación Multidimensional con Aplicaciones al Análisis de Textura y Flujo Óptico". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 13 (8): 775–790. doi : 10.1109 / 34.85668 .
^ a b M. Nicolescu y G. Medioni (2003). "Segmentación de movimiento con límites precisos: un enfoque de votación tensorial". Proc. IEEE Visión por Computadora y Reconocimiento de Patrones . 1 . págs. 382–389.
^ a b c T. Lindeberg y J. Garding (1997). "Suavizado adaptado a la forma en la estimación de señales de profundidad 3-D de distorsiones afines de la estructura 2-D local" . Computación de imagen y visión . 15 (6): 415–434. doi : 10.1016 / S0262-8856 (97) 01144-X .
↑ a b J. Garding y T. Lindeberg (1996). "Cálculo directo de señales de forma utilizando operadores derivados espaciales adaptados a la escala , International Journal of Computer Vision, volumen 17, número 2, páginas 163-191.
^ W. Förstner (1986). "Un algoritmo de correspondencia basado en características para el procesamiento de imágenes". 26 : 150-166. Parámetro desconocido |book-title=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )
^ C. Harris y M. Stephens (1988). "Un detector combinado de esquinas y bordes". Proc. de la IV Conferencia Visión ALVEY . págs. 147-151.
^ K. Rohr (1997). "Sobre operadores diferenciales 3D para la detección de puntos de referencia". 15 (3): 219-233. Parámetro desconocido |book-title=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )
^ I. Laptev y T. Lindeberg (2003). "Puntos de interés del espacio-tiempo" . Congreso Internacional de Visión por Computador ICCV'03 . Yo . págs. 432–439. doi : 10.1109 / ICCV.2003.1238378 .
^ B. Triggs (2004). "Detección de puntos clave con posición estable, orientación y escala bajo cambios de iluminación". Proc. Congreso Europeo de Visión por Computador . 4 . págs. 100-113.
^ C. Kenney, M. Zuliani y B. Manjunath (2005). "Un enfoque axiomático para la detección de esquinas". Proc. IEEE Visión por Computadora y Reconocimiento de Patrones . págs. 191-197.
^ A. Almansa y T. Lindeberg (2000), Mejora de imágenes de huellas dactilares utilizando operadores de espacio de escala adaptados a la forma . Transacciones de IEEE sobre procesamiento de imágenes, volumen 9, número 12, páginas 2027–2042.
^ J. Weickert (1998), Difusión anisotrópica en el procesamiento de imágenes, Teuber Verlag, Stuttgart.
^ D. Tschumperle y Deriche (septiembre de 2002). "Difusión de PDE en imágenes con valores vectoriales": 16-25. Parámetro desconocido |book-title=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )
^ S. Arseneau & J. Cooperstock (septiembre de 2006). "Un marco de difusión asimétrica para el análisis de uniones". Conferencia británica sobre visión artificial . 2 . págs. 689–698.
^ S. Arseneau y J. Cooperstock (noviembre de 2006). "Una representación mejorada de las uniones a través de la difusión de tensor asimétrico". Simposio Internacional de Computación Visual .
^ Yang, Shuai; Chen, Anqing; Chen, Hongde (25 de mayo de 2017). "Filtrado de datos sísmicos mediante algoritmo de medios no locales basado en tensor de estructura" . Geociencias abiertas . 9 (1): 151–160. Bibcode : 2017OGeo .... 9 ... 13Y . doi : 10.1515 / geo-2017-0013 . ISSN 2391-5447 . S2CID 134392619 .
^ a b T. Lindeberg; A. Akbarzadeh e I. Laptev (agosto de 2004). "Operadores de interés espacio-temporal corregidos por Galileo" . Conferencia Internacional sobre Reconocimiento de Patrones ICPR'04 . Yo . págs. 57–62. doi : 10.1109 / ICPR.2004.1334004 .
^ I. Laptev y T. Lindeberg (agosto de 2004). "Adaptación de la velocidad de los puntos de interés del espacio-tiempo" . Conferencia Internacional sobre Reconocimiento de Patrones ICPR'04 . Yo . págs. 52–56. doi : 10.1109 / ICPR.2004.971 .
^ I. Laptev y T. Lindeberg (mayo de 2004). "Descriptores locales para reconocimiento espacio-temporal" . Taller ECCV'04 sobre coherencia espacial para el análisis de movimiento visual (Praga, República Checa) Springer Lecture Notes in Computer Science . 3667 . págs. 91-103. doi : 10.1007 / 11676959 .
^ I. Laptev; B. Caputo; C. Schuldt y T. Lindeberg (2007). "Eventos de movimiento adaptados a la velocidad local para el reconocimiento espacio-temporal" . Visión por computadora y comprensión de imágenes . 108 . págs. 207–229. doi : 10.1016 / j.cviu.2006.11.023 .

Recursos

Descarga MATLAB Source
Tutorial de tensor de estructura (original)

[bigun86-1] J. Bigun y G. Granlund (1986), Detección de orientación óptima de simetría lineal . Tech. Informe LiTH-ISY-I-0828, Laboratorio de Visión por Computadora, Universidad de Linkoping, Suecia 1986; Informe de tesis, Estudios de Linköping en ciencia y tecnología No. 85, 1986.

[bigun87-2] J. Bigun y G. Granlund (1987). "Detección de la orientación óptima de la simetría lineal". Primero int. Conf. en Computer Vision, ICCV, (Londres) . Piscataway: IEEE Computer Society Press, Piscataway. págs. 433–438.

[knutsson89-3] H. Knutsson (1989). "Representación de la estructura local mediante tensores". Actas 6ª Conf. Escandinava. sobre análisis de imágenes . Oulu: Universidad de Oulu. págs. 244-251.

[Jahne1993-4] B. Jahne (1993). Procesamiento de imágenes espacio-temporales: teoría y aplicaciones científicas . 751 . Berlín: Springer-Verlag.

[MedioniEA-5] G. Medioni, M. Lee y C. Tang (marzo de 2000). Un marco computacional para la extracción y segmentación de características . Ciencia de Elsevier.

[6] T. Brox, J. Weickert, B. Burgeth y P. Mrazek (2004). "Tensores de estructura no lineal" (113): 1–32. Parámetro desconocido |book-title=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )CS1 maint: varios nombres: lista de autores ( enlace )

[lin94book-7] T. Lindeberg (1993), Teoría del espacio-escala en la visión por computadora . Kluwer Academic Publishers, (consulte las secciones 14.4.1 y 14.2.3 en las páginas 359–360 y 355–356 para obtener declaraciones detalladas sobre cómo el tensor de estructura / matriz de segundo momento de múltiples escalas define una representación de múltiples escalas verdadera y determinada de manera única de datos direccionales).

[bigun91-8] J. Bigun; G. Granlund y J. Wiklund (1991). "Estimación de Orientación Multidimensional con Aplicaciones al Análisis de Textura y Flujo Óptico". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 13 (8): 775–790. doi : 10.1109 / 34.85668 .

[Medioni-9] M. Nicolescu y G. Medioni (2003). "Segmentación de movimiento con límites precisos: un enfoque de votación tensorial". Proc. IEEE Visión por Computadora y Reconocimiento de Patrones . 1 . págs. 382–389.

[lingar97-10] T. Lindeberg y J. Garding (1997). "Suavizado adaptado a la forma en la estimación de señales de profundidad 3-D de distorsiones afines de la estructura 2-D local" . Computación de imagen y visión . 15 (6): 415–434. doi : 10.1016 / S0262-8856 (97) 01144-X .

[garlin96-11] J. Garding y T. Lindeberg (1996). "Cálculo directo de señales de forma utilizando operadores derivados espaciales adaptados a la escala , International Journal of Computer Vision, volumen 17, número 2, páginas 163-191.

[12] W. Förstner (1986). "Un algoritmo de correspondencia basado en características para el procesamiento de imágenes". 26 : 150-166. Parámetro desconocido |book-title=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )

[13] C. Harris y M. Stephens (1988). "Un detector combinado de esquinas y bordes". Proc. de la IV Conferencia Visión ALVEY . págs. 147-151.

[14] K. Rohr (1997). "Sobre operadores diferenciales 3D para la detección de puntos de referencia". 15 (3): 219-233. Parámetro desconocido |book-title=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )

[15] I. Laptev y T. Lindeberg (2003). "Puntos de interés del espacio-tiempo" . Congreso Internacional de Visión por Computador ICCV'03 . Yo . págs. 432–439. doi : 10.1109 / ICCV.2003.1238378 .

[16] B. Triggs (2004). "Detección de puntos clave con posición estable, orientación y escala bajo cambios de iluminación". Proc. Congreso Europeo de Visión por Computador . 4 . págs. 100-113.

[17] C. Kenney, M. Zuliani y B. Manjunath (2005). "Un enfoque axiomático para la detección de esquinas". Proc. IEEE Visión por Computadora y Reconocimiento de Patrones . págs. 191-197.

[18] A. Almansa y T. Lindeberg (2000), Mejora de imágenes de huellas dactilares utilizando operadores de espacio de escala adaptados a la forma . Transacciones de IEEE sobre procesamiento de imágenes, volumen 9, número 12, páginas 2027–2042.

[19] J. Weickert (1998), Difusión anisotrópica en el procesamiento de imágenes, Teuber Verlag, Stuttgart.

[20] D. Tschumperle y Deriche (septiembre de 2002). "Difusión de PDE en imágenes con valores vectoriales": 16-25. Parámetro desconocido |book-title=ignorado ( ayuda );Cite journal requiere |journal=( ayuda )

[21] S. Arseneau & J. Cooperstock (septiembre de 2006). "Un marco de difusión asimétrica para el análisis de uniones". Conferencia británica sobre visión artificial . 2 . págs. 689–698.

[22] S. Arseneau y J. Cooperstock (noviembre de 2006). "Una representación mejorada de las uniones a través de la difusión de tensor asimétrico". Simposio Internacional de Computación Visual .

[23] Yang, Shuai; Chen, Anqing; Chen, Hongde (25 de mayo de 2017). "Filtrado de datos sísmicos mediante algoritmo de medios no locales basado en tensor de estructura" . Geociencias abiertas . 9 (1): 151–160. Bibcode : 2017OGeo .... 9 ... 13Y . doi : 10.1515 / geo-2017-0013 . ISSN 2391-5447 . S2CID 134392619 .

[lin04icpr-24] T. Lindeberg; A. Akbarzadeh e I. Laptev (agosto de 2004). "Operadores de interés espacio-temporal corregidos por Galileo" . Conferencia Internacional sobre Reconocimiento de Patrones ICPR'04 . Yo . págs. 57–62. doi : 10.1109 / ICPR.2004.1334004 .

[25] I. Laptev y T. Lindeberg (agosto de 2004). "Adaptación de la velocidad de los puntos de interés del espacio-tiempo" . Conferencia Internacional sobre Reconocimiento de Patrones ICPR'04 . Yo . págs. 52–56. doi : 10.1109 / ICPR.2004.971 .

[26] I. Laptev y T. Lindeberg (mayo de 2004). "Descriptores locales para reconocimiento espacio-temporal" . Taller ECCV'04 sobre coherencia espacial para el análisis de movimiento visual (Praga, República Checa) Springer Lecture Notes in Computer Science . 3667 . págs. 91-103. doi : 10.1007 / 11676959 .

[27] I. Laptev; B. Caputo; C. Schuldt y T. Lindeberg (2007). "Eventos de movimiento adaptados a la velocidad local para el reconocimiento espacio-temporal" . Visión por computadora y comprensión de imágenes . 108 . págs. 207–229. doi : 10.1016 / j.cviu.2006.11.023 .

[1]