Filtro Log Gabor

En el procesamiento de señales, es útil analizar simultáneamente las características de espacio y frecuencia de una señal. Si bien la transformada de Fourier proporciona la información de frecuencia de la señal, no está localizada. Esto significa que no podemos determinar qué parte de una señal (quizás larga) produjo una frecuencia en particular. Es posible utilizar una transformada de Fourier de tiempo corto para este propósito, sin embargo, la transformada de Fourier de tiempo corto limita las funciones básicas para que sean sinusoidales. Para proporcionar una descomposición de la señal de frecuencia espacial más flexible, se han propuesto varios filtros (incluidas las ondículas). El filtro Log-Gabor ^[1] es uno de esos filtros que es una mejora con respecto al filtro Gabor original . ^[2]La ventaja de este filtro sobre las muchas alternativas es que se ajusta mejor a las estadísticas de imágenes naturales en comparación con los filtros de Gabor y otros filtros de ondas .

Aplicaciones

El filtro de Log-Gabor puede describir una señal en términos de las respuestas de frecuencia local. Debido a que esta es una técnica fundamental de análisis de señales, tiene muchas aplicaciones en el procesamiento de señales. De hecho, cualquier aplicación que utilice filtros de Gabor u otras funciones de base de ondas puede beneficiarse del filtro de Log-Gabor. Sin embargo, es posible que no haya ningún beneficio dependiendo de los detalles del problema de diseño. Sin embargo, se ha demostrado que el filtro Log-Gabor es particularmente útil en aplicaciones de procesamiento de imágenes, ya que se ha demostrado que captura mejor las estadísticas de imágenes naturales.

En el procesamiento de imágenes, hay algunos ejemplos de bajo nivel del uso de filtros Log-Gabor. La detección de bordes es una de esas operaciones primitivas, donde los bordes de la imagen están etiquetados. Debido a que los bordes aparecen en el dominio de la frecuencia como frecuencias altas, es natural usar un filtro como el Log-Gabor para seleccionar estos bordes. ^[3]^[4] Estos bordes detectados se pueden utilizar como entrada para un algoritmo de segmentación o un algoritmo de reconocimiento. Un problema relacionado es la detección de esquinas. En la detección de esquinas, el objetivo es encontrar puntos en la imagen que sean esquinas. Es útil encontrar esquinas porque representan ubicaciones estables que se pueden usar para problemas de coincidencia de imágenes. La esquina se puede describir en términos de información de frecuencia localizada utilizando un filtro de Log-Gabor. ^[5]

En el reconocimiento de patrones , la imagen de entrada debe transformarse en una representación de características que sea más fácil para que un algoritmo de clasificación separe clases. Las características formadas a partir de la respuesta de los filtros Log-Gabor pueden formar un buen conjunto de características para algunas aplicaciones porque pueden representar localmente información de frecuencia. Por ejemplo, el filtro se ha utilizado con éxito en la clasificación de expresiones faciales. ^[6] Existe alguna evidencia de que el sistema visual humano procesa la información visual de manera similar. ^[7]

Existe una gran cantidad de otras aplicaciones que requieren información de frecuencia localizada. El filtro Log-Gabor se ha utilizado en aplicaciones como mejora de imagen, ^[8] análisis de voz, ^[9] detección de contorno, ^[10] síntesis de textura ^[11] y eliminación de ruido de imagen ^[12], entre otras.

Enfoques existentes

Existen varios enfoques para calcular la información de frecuencia localizada. Estos enfoques son ventajosos porque, a diferencia de la transformada de Fourier, estos filtros pueden representar más fácilmente discontinuidades en la señal. Por ejemplo, la transformada de Fourier puede representar una arista, pero solo mediante el uso de un número infinito de ondas sinusoidales.

Filtros Gabor

Al considerar los filtros que extraen información de frecuencia local, existe una relación entre la resolución de frecuencia y la resolución de tiempo / espacio. Cuando se toman más muestras, la resolución de la información de frecuencia es mayor, sin embargo, la resolución de tiempo / espacio será menor. Del mismo modo, tomar solo unas pocas muestras significa una mayor resolución espacial / temporal, pero esto a costa de una menor resolución de frecuencia. Un buen filtro debería poder obtener la máxima resolución de frecuencia dada una resolución de tiempo / espacio establecida, y viceversa. El filtro Gabor logra este límite. ^[2] Debido a esto, el filtro de Gabor es un buen método para localizar simultáneamente información espacial / temporal y frecuencial. Un filtro de Gabor en el dominio del espacio (o del tiempo) se formula como una envolvente gaussiana multiplicada por una exponencial compleja. Se encontró que las respuestas corticales en el sistema visual humano pueden modelarse mediante el filtro de Gabor. ^[7]^[13] El filtro Gabor fue modificado por Morlet para formar una transformada de ondícula continua ortonormal. ^[14]

Aunque el filtro Gabor logra una sensación de optimización en términos de compensación espacio-frecuencia, en ciertas aplicaciones puede que no sea un filtro ideal. En ciertos anchos de banda, el filtro de Gabor tiene un componente de CC distinto de cero. Esto significa que la respuesta del filtro depende del valor medio de la señal. Si la salida del filtro se va a utilizar para una aplicación como el reconocimiento de patrones, este componente de CC no es deseable porque proporciona una característica que cambia con el valor promedio. Como veremos pronto, el filtro Log-Gabor no presenta este problema. Además, el filtro Gabor original tiene una respuesta de impulso de longitud infinita. Finalmente, el filtro de Gabor original, aunque es óptimo en el sentido de la incertidumbre, no se ajusta adecuadamente a las estadísticas de las imágenes naturales. Como se muestra en ^[1] , es mejor elegir un filtro con una cola inclinada más larga en una tarea de codificación de imágenes.

En determinadas aplicaciones, otras descomposiciones tienen ventajas. Aunque hay muchas descomposiciones de este tipo posibles, aquí presentamos brevemente dos métodos populares: ondas de sombrero mexicano y la pirámide orientable.

Sombrero Mexicano Wavelet

La ondícula de Ricker , comúnmente llamada ondícula de sombrero mexicano, es otro tipo de filtro que se utiliza para modelar datos. En múltiples dimensiones, esto se convierte en el laplaciano de una función gaussiana . Por razones de complejidad computacional, el laplaciano de una función gaussiana a menudo se simplifica como una diferencia de gaussianos . Esta diferencia de función gaussiana se ha utilizado en varias aplicaciones de visión por computadora, como la detección de puntos clave. ^[15] La desventaja de la ondícula del sombrero mexicano es que exhibe algo de aliasing y no representa bien las orientaciones oblicuas.

Pirámide orientable

La descomposición piramidal orientable ^[16] se presentó como una alternativa a las ondas de Morlet (Gabor) y Ricker. Esta descomposición ignora la restricción de ortogonalidad de la formulación de ondículas y, al hacer esto, es posible construir un conjunto de filtros que son independientes tanto de la traslación como de la rotación. La desventaja de la descomposición piramidal orientable es que está demasiado completa. Esto significa que se utilizan más filtros de los realmente necesarios para describir la señal.

Definición

Field introdujo el filtro Log-Gabor y demostró que es capaz de codificar mejor imágenes naturales en comparación con el filtro Gabor original. ^[1] Además, el filtro Log-Gabor no tiene el mismo problema de CC que el filtro Gabor original. Una función de Log-Gabor unidimensional tiene la respuesta de frecuencia:

${\ Displaystyle G (f) = \ exp \ left ({\ frac {- \ left (\ log (f / f_ {0}) \ right) ^ {2}} {2 \ left (\ log (\ sigma / f_ {0}) \ right) ^ {2}}} \ right)}$

dónde ${\ Displaystyle f_ {0}}$ y ${\ Displaystyle \ sigma}$ son los parámetros del filtro. ${\ Displaystyle f_ {0}}$ dará la frecuencia central del filtro. ${\ Displaystyle \ sigma}$ afecta el ancho de banda del filtro. Es útil mantener la misma forma mientras se varía el parámetro de frecuencia. Para hacer esto, la proporción ${\ Displaystyle \ sigma / f_ {0}}$ debe permanecer constante. La siguiente figura muestra la respuesta de frecuencia del Gabor en comparación con el Log-Gabor:

Diferencia en el dominio de la frecuencia entre los filtros de Gabor y Log-Gabor. El filtro de Gabor tiene una respuesta distinta de cero a la frecuencia de CC, mientras que el Log-Gabor siempre es cero. Debido a esto, el filtro de Gabor tiende a sobrerrepresentar las frecuencias más bajas. Esto es particularmente evidente en el dominio de registro.

Otra definición del filtro Log-Gabor es considerarlo como una función de distribución de probabilidad , con una distribución normal , pero considerando el logaritmo de frecuencias. Esto tiene sentido en contextos donde se aplica la ley de Weber-Fechner , como en la percepción visual o auditiva. Siguiendo la regla del cambio de variable, una función Log-Gabor unidimensional tiene, por tanto, la respuesta de frecuencia modificada:

${\ Displaystyle G (f) = {\ frac {f_ {0}} {f}} \ exp \ left ({\ frac {- \ left (\ log (f / f_ {0}) \ right) ^ {2 }} {2 \ left (\ log (\ sigma / f_ {0}) \ right) ^ {2}}} \ right)}$

Tenga en cuenta que esto se extiende al origen y que todavía tenemos ${\ Displaystyle G (0) = 0}$ .

En ambas definiciones, debido al cero en el valor de DC, no es posible derivar una expresión analítica para el filtro en el dominio del espacio. En la práctica, el filtro se diseña primero en el dominio de la frecuencia, y luego una transformada de Fourier inversa da la respuesta al impulso en el dominio del tiempo.

Filtro de Log-Gabor bidimensional

Descomposición multiescala de una imagen natural mediante filtros log-Gabor. Para representar los bordes de la imagen en diferentes niveles, la correlación de los filtros log-Gabor se calculó a diferentes escalas (en el sentido de las agujas del reloj); consulte esta página para ver una implementación.

Al igual que el filtro Gabor, el filtro log-Gabor ha tenido una gran popularidad en el procesamiento de imágenes. ^[4] Debido a esto, es útil considerar la extensión bidimensional del filtro log-Gabor. Con esta dimensión adicional, el filtro no solo está diseñado para una frecuencia particular, sino que también está diseñado para una orientación particular. El componente de orientación es una función de distancia gaussiana según el ángulo en coordenadas polares (ver [1] o [2] ):

${\ Displaystyle G (f, \ theta) = \ exp \ left ({\ frac {- (\ log (f / f_ {0})) ^ {2}} {2 (\ log (\ sigma _ {f}) / f_ {0})) ^ {2}}} \ right) \ exp \ left ({\ frac {- (\ theta - \ theta _ {0}) ^ {2}} {2 \ sigma _ {\ theta } ^ {2}}} \ right)}$

donde aquí ahora hay cuatro parámetros: ${\ Displaystyle f_ {0}}$ la frecuencia central, ${\ Displaystyle \ sigma _ {f}}$ el parámetro de ancho para la frecuencia, ${\ Displaystyle \ theta _ {0}}$ la orientación del centro, y ${\ Displaystyle \ sigma _ {\ theta}}$ el parámetro de ancho de la orientación. A continuación se muestra un ejemplo de este filtro.

Construcción de filtro Log Gabor bidimensional. El filtro bidimensional consta de un componente basado en la frecuencia (a) y un componente basado en la orientación (b). Los dos componentes se combinan para formar el componente final (c).

Diferencia en el dominio espacial entre los filtros de Gabor y Log-Gabor. En el dominio espacial, la respuesta de los filtros Gabor y Log-Gabor es casi idéntica. A la izquierda está la parte real y a la derecha la parte imaginaria de la respuesta al impulso.

El ancho de banda en la frecuencia viene dado por:

${\ Displaystyle B = 2 {\ sqrt {2 / \ log (2)}} \ left (\ | \ log (\ sigma _ {f} / f_ {0}) \ | \ right)}$

Tenga en cuenta que el ancho de banda resultante está en unidades de octavas.

El ancho de banda angular viene dado por:

${\ Displaystyle B _ {\ theta} = 2 \ sigma _ {\ theta} {\ sqrt {2 \ log 2}}}$

En muchas aplicaciones prácticas, un conjunto de filtros está diseñado para formar un banco de filtros . Debido a que los filtros no forman un conjunto de bases ortogonales, el diseño del banco de filtros es algo así como un arte y puede depender de la tarea particular en cuestión. Los parámetros necesarios que se deben elegir son: las frecuencias mínima y máxima, el ancho de banda del filtro, el número de orientaciones, el ancho de banda angular, el escalado del filtro y el número de escalas.

Ver también

Transformada de Gabor
Onda de Gabor
Filtro Gabor
Átomo de Gabor
Detección de características (visión por computadora) para otros detectores de características de bajo nivel
Derivados de imagen
Reducción de ruido de imagen
Detección de crestas para las relaciones entre detectores de bordes y detectores de crestas

Referencias

^ ^a b c D. J. Field. Relaciones entre las estadísticas de imágenes naturales y las propiedades de respuesta de las células corticales . J. Opt. Soc. Soy. A, 1987, págs. 2379-2394.
^ a b D. Gabor. Teoría de la comunicación. J. Inst. Electr. Ing. 93, 1946.
^ Z. Xiao, C. Guo, Y. Ming y L. Qiang. Investigación sobre log Gabor wavelet y su aplicación en la detección de bordes de imágenes . En International Conference on Signal Processing, volumen 1, páginas 592–595, agosto de 2002.
↑ a b Sylvain Fischer, Filip Sroubek, Laurent U. Perrinet, Rafael Redondo, Gabriel Cristobal. Ondas 2D log-Gabor autoinvertibles . En t. Revista de visión computacional, 2007
^ X. Gao, F. Sattar y R. Venkateswarlu. Detección de esquinas multiescala de imágenes de nivel de gris basada en la transformada de ondículas log-Gabor . IEEE Transactions on Circuits and Systems for Video Technology, 17 (7): 868–875, julio de 2007.
^ N. Rose. Clasificación de expresiones faciales mediante filtros de Gabor y log-Gabor . En International Conference on Automatic Face and Gesture Recognition (FGR), páginas 346–350, abril de 2006.
^ a b J. G. Daugman. Relación de incertidumbre para la resolución en el espacio, la frecuencia espacial y la orientación optimizada por filtros corticales visuales bidimensionales . Revista de la Optical Society of America, 1985, págs. 1160-9.
^ W. Wang, J. Li, F. Huang y H. Feng. Diseño e implementación de filtro log-Gabor en mejora de imagen de huellas dactilares . Cartas de reconocimiento de patrones, 2008. págs. 301–308.
^ L. He, M. Lech, N. Maddage y N. Allen. Reconocimiento de estrés y emociones mediante análisis de filtro log-Gabor de espectrogramas de voz . Computación afectiva e interacción inteligente, 2009, págs. 1-6
^ Sylvain Fischer, Rafael Redondo, Laurent Perrinet, Gabriel Cristobal. Aproximación escasa de imágenes inspiradas en la arquitectura funcional de las áreas visuales primarias . Revista EURASIP sobre avances en el procesamiento de señales, número especial sobre percepción de imágenes, 2007
^ Paula S. Leon, Ivo Vanzetta, Guillaume S. Masson, Laurent U. Perrinet. Motion Clouds: síntesis de estímulos basada en modelos de texturas aleatorias de tipo natural para el estudio de la percepción del movimiento . Revista de neurofisiología, 107 (11): 3217--3226, 2012
^ P. Kovesi. Fase que preserva la eliminación de ruido de las imágenes . Conferencia de la Sociedad Australiana de Reconocimiento de Patrones: DICTA'99, 1999, págs. 212-217.
^ Andrew B. Watson. La transformada de la corteza: cálculo rápido de imágenes neuronales simuladas . Revista de visión artificial, gráficos y procesamiento de imágenes. 1987. págs. 311-327.
^ A. Grossmann y J. Morlet. Descomposición de funciones de Hardy en ondas cuadradas integrables de forma constante . SIAM Journal on Mathematical Analysis, 1984, págs. 723-736.
^ DG Lowe. Características de imagen distintivas de puntos clave invariantes de escala . Revista Internacional de Visión por Computador, 2004, págs. 91-110.
^ EP Simoncelli y WT Freeman. La pirámide orientable: una arquitectura flexible para el cálculo derivado de múltiples escalas . IEEE Int'l Conf on Image Processing, 1995. págs. 444 - 447

enlaces externos

[3] (obsoleto hasta la fecha)
Una implementación de Python con ejemplos para la visión: [4]

[field-1] D. J. Field. Relaciones entre las estadísticas de imágenes naturales y las propiedades de respuesta de las células corticales . J. Opt. Soc. Soy. A, 1987, págs. 2379-2394.

[gabor-2] D. Gabor. Teoría de la comunicación. J. Inst. Electr. Ing. 93, 1946.

[3] Z. Xiao, C. Guo, Y. Ming y L. Qiang. Investigación sobre log Gabor wavelet y su aplicación en la detección de bordes de imágenes . En International Conference on Signal Processing, volumen 1, páginas 592–595, agosto de 2002.

[ReferenceA-4] Sylvain Fischer, Filip Sroubek, Laurent U. Perrinet, Rafael Redondo, Gabriel Cristobal. Ondas 2D log-Gabor autoinvertibles . En t. Revista de visión computacional, 2007

[5] X. Gao, F. Sattar y R. Venkateswarlu. Detección de esquinas multiescala de imágenes de nivel de gris basada en la transformada de ondículas log-Gabor . IEEE Transactions on Circuits and Systems for Video Technology, 17 (7): 868–875, julio de 2007.

[6] N. Rose. Clasificación de expresiones faciales mediante filtros de Gabor y log-Gabor . En International Conference on Automatic Face and Gesture Recognition (FGR), páginas 346–350, abril de 2006.

[gaborbio-7] J. G. Daugman. Relación de incertidumbre para la resolución en el espacio, la frecuencia espacial y la orientación optimizada por filtros corticales visuales bidimensionales . Revista de la Optical Society of America, 1985, págs. 1160-9.

[8] W. Wang, J. Li, F. Huang y H. Feng. Diseño e implementación de filtro log-Gabor en mejora de imagen de huellas dactilares . Cartas de reconocimiento de patrones, 2008. págs. 301–308.

[9] L. He, M. Lech, N. Maddage y N. Allen. Reconocimiento de estrés y emociones mediante análisis de filtro log-Gabor de espectrogramas de voz . Computación afectiva e interacción inteligente, 2009, págs. 1-6

[10] Sylvain Fischer, Rafael Redondo, Laurent Perrinet, Gabriel Cristobal. Aproximación escasa de imágenes inspiradas en la arquitectura funcional de las áreas visuales primarias . Revista EURASIP sobre avances en el procesamiento de señales, número especial sobre percepción de imágenes, 2007

[11] Paula S. Leon, Ivo Vanzetta, Guillaume S. Masson, Laurent U. Perrinet. Motion Clouds: síntesis de estímulos basada en modelos de texturas aleatorias de tipo natural para el estudio de la percepción del movimiento . Revista de neurofisiología, 107 (11): 3217--3226, 2012

[12] P. Kovesi. Fase que preserva la eliminación de ruido de las imágenes . Conferencia de la Sociedad Australiana de Reconocimiento de Patrones: DICTA'99, 1999, págs. 212-217.

[13] Andrew B. Watson. La transformada de la corteza: cálculo rápido de imágenes neuronales simuladas . Revista de visión artificial, gráficos y procesamiento de imágenes. 1987. págs. 311-327.

[14] A. Grossmann y J. Morlet. Descomposición de funciones de Hardy en ondas cuadradas integrables de forma constante . SIAM Journal on Mathematical Analysis, 1984, págs. 723-736.

[15] DG Lowe. Características de imagen distintivas de puntos clave invariantes de escala . Revista Internacional de Visión por Computador, 2004, págs. 91-110.

[16] EP Simoncelli y WT Freeman. La pirámide orientable: una arquitectura flexible para el cálculo derivado de múltiples escalas . IEEE Int'l Conf on Image Processing, 1995. págs. 444 - 447

[1]