Orientación (visión por computadora)

En la visión por computadora y el procesamiento de imágenes, una suposición común es que las regiones de imagen suficientemente pequeñas pueden caracterizarse como localmente unidimensionales, por ejemplo, en términos de líneas o bordes. Para imágenes naturales, esta suposición suele ser correcta, excepto en puntos específicos, por ejemplo, esquinas o cruces o cruces de líneas, o en regiones de texturas de alta frecuencia. Sin embargo, el tamaño que deben tener las regiones para que aparezcan como unidimensionales varía tanto entre imágenes como dentro de una imagen. Además, en la práctica, una región local nunca es exactamente unidimensional, pero puede serlo con un grado suficiente de aproximación.

Las regiones de imagen que son unidimensionales también se denominan unidimensionales simples o intrínsecas (i1D).

Dada una imagen de dimensión d (d = 2 para imágenes ordinarias), una representación matemática de una región de imagen i1D local es

${\ Displaystyle f (\ mathbf {x}) = g (\ mathbf {x} \ cdot {\ hat {\ mathbf {n}}})}$

dónde ${\ Displaystyle f}$ es la función de intensidad de la imagen que varía sobre una coordenada de imagen local ${\ Displaystyle \ mathbf {x}}$ (un vector d-dimensional), ${\ Displaystyle g}$ es una función de una variable, y ${\ Displaystyle {\ hat {\ mathbf {n}}}}$ es un vector unitario.

La función de intensidad ${\ Displaystyle f}$ es constante en todas las direcciones que son perpendiculares a ${\ Displaystyle {\ hat {\ mathbf {n}}}}$ . Intuitivamente, la orientación de una región i1D está representada por el vector ${\ Displaystyle {\ hat {\ mathbf {n}}}}$ . Sin embargo, para un ${\ Displaystyle f}$ , ${\ Displaystyle {\ hat {\ mathbf {n}}}}$ no está determinado de forma única. Si

${\ Displaystyle {\ tilde {\ mathbf {n}}} = - {\ hat {\ mathbf {n}}}}$

${\ Displaystyle {\ tilde {g}} (x) = g (-x)}$

luego ${\ Displaystyle f}$ Se puede escribir como

${\ Displaystyle f (\ mathbf {x}) = {\ tilde {g}} (\ mathbf {x} \ cdot {\ tilde {\ mathbf {n}}})}$

lo que implica que ${\ Displaystyle {\ tilde {\ mathbf {n}}} = - {\ hat {\ mathbf {n}}}}$ también es una representación válida de la orientación local.

Para evitar esta ambigüedad en la representación de la orientación local se han propuesto dos representaciones

La representación de doble ángulo
La representación tensorial

La representación de doble ángulo solo es válida para imágenes 2D (d = 2), pero la representación tensorial se puede definir para dimensiones arbitrarias d de los datos de la imagen.

Relación con la dirección

Una línea entre dos puntos p1 y p2 no tiene una dirección dada, pero tiene una orientación bien definida. Sin embargo, si uno de los puntos p1 se usa como referencia u origen, entonces el otro punto p2 puede describirse en términos de un vector que apunta en la dirección a p2. Intuitivamente, la orientación se puede considerar como una dirección sin signo. Formalmente, esto se relaciona con espacios proyectivos donde la orientación de un vector corresponde a la clase de equivalencia de vectores que son versiones escaladas del vector.

Para el borde de una imagen, podemos hablar de su dirección, que se puede definir en términos del degradado, apuntando en la dirección de aumento máximo de la intensidad de la imagen (de oscuro a brillante). Esto implica que dos bordes pueden tener la misma orientación, pero los gradientes de imagen correspondientes apuntan en direcciones opuestas si los bordes van en direcciones diferentes.

Relación con los gradientes

En el procesamiento de imágenes, el cálculo del gradiente de imagen local es una operación común, por ejemplo, para la detección de bordes . Si ${\ Displaystyle f}$ arriba es un borde, entonces su gradiente es paralelo a ${\ Displaystyle {\ hat {\ mathbf {n}}}}$ . Como ya se discutió anteriormente, el gradiente no es una representación única de la orientación. Además, en el caso de una región local que está centrada en una línea, el gradiente de la imagen es aproximadamente cero. Sin embargo, en este caso el vector ${\ Displaystyle {\ hat {\ mathbf {n}}}}$ todavía está bien definido excepto por su signo. Por lo tanto, ${\ Displaystyle {\ hat {\ mathbf {n}}}}$ es un punto de partida más apropiado para definir la orientación local que el degradado de la imagen.

Estimación de la orientación de la imagen local

Se han propuesto varios métodos para calcular o estimar una representación de orientación a partir de datos de imagen. Éstas incluyen

Métodos basados en filtros de cuadratura
El tensor de estructura
Usando una aproximación polinomial local
El tensor de energía ^[1]
El tensor de límite ^[2]

El primer enfoque se puede utilizar tanto para la representación de doble ángulo (solo imágenes 2D) como para la representación tensorial, y los otros métodos calculan una representación tensorial de la orientación local.

Aplicación de la orientación de la imagen local.

Dado que se ha calculado una representación de la orientación de la imagen local para algunos datos de imagen, esta formación se puede utilizar para resolver las siguientes tareas:

Estimación de la consistencia de líneas o bordes
Estimación de la información de curvatura
Detección de puntos de esquina ^[3]
Reducción de ruido adaptativa o anisotrópica
Estimación de movimiento

Referencias

^ Felsberg, Michael y Gösta Granlund. " Detección de puntos de interés mediante la agrupación de canales y el tensor de energía 2D ". Simposio conjunto de reconocimiento de patrones. Springer, Berlín, Heidelberg, 2004.
^ Köthe, Ullrich. " Detección integrada de bordes y uniones con el tensor de límites ". ICCV. Vol. 3. 2003.
^ Chabat, François, Guang-Zhong Yang y David M. Hansell. " Un detector de orientación de esquinas ". Computación de imagen y visión 17.10 (1999): 761-769.

[1] Felsberg, Michael y Gösta Granlund. " Detección de puntos de interés mediante la agrupación de canales y el tensor de energía 2D ". Simposio conjunto de reconocimiento de patrones. Springer, Berlín, Heidelberg, 2004.

[2] Köthe, Ullrich. " Detección integrada de bordes y uniones con el tensor de límites ". ICCV. Vol. 3. 2003.

[3] Chabat, François, Guang-Zhong Yang y David M. Hansell. " Un detector de orientación de esquinas ". Computación de imagen y visión 17.10 (1999): 761-769.

[1]