Correlación de fase

La correlación de fase es un enfoque para estimar el desplazamiento de traducción relativo entre dos imágenes similares ( correlación de imágenes digitales ) u otros conjuntos de datos. Se usa comúnmente en el registro de imágenes y se basa en una representación de los datos en el dominio de la frecuencia , generalmente calculada por transformadas rápidas de Fourier . El término se aplica particularmente a un subconjunto de técnicas de correlación cruzada que aíslan la información de fase de la representación en el espacio de Fourier del correlograma cruzado .

Ejemplo

La siguiente imagen demuestra el uso de la correlación de fase para determinar el movimiento de traducción relativo entre dos imágenes corrompidas por ruido gaussiano independiente. La imagen fue traducida por (30,33) píxeles. En consecuencia, se puede ver claramente un pico en la representación de correlación de fase en aproximadamente (30,33).

Phase correlation.png

Método

Dadas dos imágenes de entrada ${\ Displaystyle \ g_ {a}}$ y ${\ Displaystyle \ g_ {b}}$ :

Aplique una función de ventana (por ejemplo, una ventana de Hamming ) en ambas imágenes para reducir los efectos de los bordes (esto puede ser opcional dependiendo de las características de la imagen). Luego, calcule la transformada discreta de Fourier 2D de ambas imágenes.

{\ Displaystyle \ \ mathbf {G} _ {a} = {\ mathcal {F}} \ {g_ {a} \}, \; \ mathbf {G} _ {b} = {\ mathcal {F}} \ {g_ {b} \}}

Calcule el espectro de potencia cruzada tomando el conjugado complejo del segundo resultado, multiplicando las transformadas de Fourier juntas por elementos y normalizando este producto por elementos.

{\ Displaystyle \ R = {\ frac {\ mathbf {G} _ {a} \ circ \ mathbf {G} _ {b} ^ {*}} {| \ mathbf {G} _ {a} \ circ \ mathbf {G} _ {b} ^ {*} |}}}

Dónde ${\ Displaystyle \ circ}$ es el producto Hadamard ( producto de entrada) y los valores absolutos también se toman a nivel de entrada. Escrito por entrada para el índice de elementos ${\ Displaystyle (j, k)}$ :

{\ Displaystyle \ R_ {jk} = {\ frac {G_ {a, jk} \ cdot G_ {b, jk} ^ {*}} {| G_ {a, jk} \ cdot G_ {b, jk} ^ { *} |}}}

Obtenga la correlación cruzada normalizada aplicando la transformada de Fourier inversa.

{\ Displaystyle \ r = {\ mathcal {F}} ^ {- 1} \ {R \}}

Determine la ubicación del pico en ${\ Displaystyle \ r}$ .

{\ Displaystyle \ (\ Delta x, \ Delta y) = \ arg \ max _ {(x, y)} \ {r \}}

Por lo general, los métodos de interpolación se utilizan para estimar la ubicación del pico en el correlograma cruzado a valores no enteros , a pesar de que los datos son discretos, y este procedimiento a menudo se denomina "registro de subpíxeles". En la literatura técnica se proporciona una gran variedad de métodos de interpolación de subpíxeles. Se han utilizado métodos de interpolación de picos comunes, como la interpolación parabólica, y el paquete de visión por computadora OpenCV utiliza un método basado en centroides , aunque estos generalmente tienen una precisión inferior en comparación con los métodos más sofisticados.

Debido a que la representación de Fourier de los datos ya se ha calculado, es especialmente conveniente usar el teorema de cambio de Fourier con reales turnos -valued (sub-enteros) para este propósito, que esencialmente interpola usando los sinusoidales funciones base de la transformada de Fourier. Foroosh et al. ^[1] En este método, la ubicación del pico de subpíxeles se aproxima mediante una fórmula simple que incluye el valor de píxel máximo y los valores de sus vecinos más cercanos, donde ${\ Displaystyle r _ {(0,0)}}$ es el valor pico y ${\ Displaystyle r _ {(1,0)}}$ es el vecino más cercano en la dirección x (asumiendo, como en la mayoría de los enfoques, que ya se ha encontrado el desplazamiento de números enteros y que las imágenes de comparación difieren sólo en un desplazamiento de subpíxeles).

{\ Displaystyle \ \ Delta x = {\ frac {r _ {(1,0)}} {r _ {(1,0)} \ pm r _ {(0,0)}}}}

^{[ aclaración necesaria ]}

Foroosh et al. El método es bastante rápido en comparación con la mayoría de los métodos, aunque no siempre es el más preciso. Algunos métodos desplazan el pico en el espacio de Fourier y aplican optimización no lineal para maximizar el pico del correlograma, pero tienden a ser muy lentos ya que deben aplicar una transformada de Fourier inversa o su equivalente en la función objetivo. ^[2]

También es posible inferir la ubicación del pico a partir de las características de fase en el espacio de Fourier sin la transformación inversa, como señaló Stone. ^[3] Estos métodos suelen utilizar un ajuste de mínimos cuadrados lineales (LLS) de los ángulos de fase a un modelo plano. La larga latencia del cálculo del ángulo de fase en estos métodos es una desventaja, pero la velocidad a veces puede ser comparable a la de Foroosh et al. método dependiendo del tamaño de la imagen. A menudo se comparan favorablemente en velocidad con las múltiples iteraciones de funciones objetivas extremadamente lentas en métodos iterativos no lineales.

Dado que todos los métodos de cálculo de desplazamiento de subpíxeles son fundamentalmente interpolativos, el rendimiento de un método en particular depende de qué tan bien los datos subyacentes se ajustan a las suposiciones del interpolador. Este hecho también puede limitar la utilidad de una alta precisión numérica en un algoritmo, ya que la incertidumbre debida a la elección del método de interpolación puede ser mayor que cualquier error numérico o de aproximación en el método particular.

Los métodos de subpíxeles también son particularmente sensibles al ruido en las imágenes, y la utilidad de un algoritmo particular se distingue no solo por su velocidad y precisión, sino también por su resistencia a los tipos particulares de ruido en la aplicación.

Razón fundamental

El método se basa en el teorema del desplazamiento de Fourier . Deja que las dos imágenes ${\ Displaystyle \ g_ {a}}$ y ${\ Displaystyle \ g_ {b}}$ Ser versiones desplazadas circularmente entre sí:

{\ Displaystyle \ g_ {b} (x, y) \ {\ stackrel {\ mathrm {def}} {=}} \ g_ {a} ((x- \ Delta x) {\ bmod {M}}, ( y- \ Delta y) {\ bmod {N}})}

(donde están las imágenes ${\ Displaystyle \ M \ times N}$ en tamaño).

Entonces, las transformadas discretas de Fourier de las imágenes se desplazarán relativamente en fase :

{\ Displaystyle \ mathbf {G} _ {b} (u, v) = \ mathbf {G} _ {a} (u, v) e ^ {- 2 \ pi i ({\ frac {u \ Delta x} {M}} + {\ frac {v \ Delta y} {N}})}}

Luego, se puede calcular el espectro de potencia cruzada normalizado para factorizar la diferencia de fase:

{\ Displaystyle {\ begin {alineado} R (u, v) & = {\ frac {\ mathbf {G} _ {a} \ mathbf {G} _ {b} ^ {*}} {| \ mathbf {G } _ {a} \ mathbf {G} _ {b} ^ {*} |}} \\ & = {\ frac {\ mathbf {G} _ {a} \ mathbf {G} _ {a} ^ {* } e ^ {2 \ pi i ({\ frac {u \ Delta x} {M}} + {\ frac {v \ Delta y} {N}})}} {| \ mathbf {G} _ {a} \ mathbf {G} _ {a} ^ {*} e ^ {2 \ pi i ({\ frac {u \ Delta x} {M}} + {\ frac {v \ Delta y} {N}})} |}} \\ & = {\ frac {\ mathbf {G} _ {a} \ mathbf {G} _ {a} ^ {*} e ^ {2 \ pi i ({\ frac {u \ Delta x} {M}} + {\ frac {v \ Delta y} {N}})}} {| \ mathbf {G} _ {a} \ mathbf {G} _ {a} ^ {*} |}} \\ & = e ^ {2 \ pi i ({\ frac {u \ Delta x} {M}} + {\ frac {v \ Delta y} {N}})} \ end {alineado}}}

dado que la magnitud de una exponencial imaginaria siempre es uno, y la fase de ${\ Displaystyle \ \ mathbf {G} _ {a} \ mathbf {G} _ {a} ^ {*}}$ siempre es cero.

La transformada de Fourier inversa de un exponencial complejo es un delta de Kronecker , es decir, un solo pico:

{\ Displaystyle \ r (x, y) = \ delta (x + \ Delta x, y + \ Delta y)}

Este resultado podría haberse obtenido calculando directamente la correlación cruzada . La ventaja de este método es que la transformada discreta de Fourier y su inversa se pueden realizar utilizando la transformada rápida de Fourier , que es mucho más rápida que la correlación para imágenes grandes.

Beneficios

A diferencia de muchos algoritmos de dominio espacial, el método de correlación de fase es resistente al ruido, las oclusiones y otros defectos típicos de las imágenes médicas o de satélite. ^{[ cita requerida ]}

El método se puede ampliar para determinar las diferencias de rotación y escala entre dos imágenes convirtiendo primero las imágenes en coordenadas logarítmicas polares . Debido a las propiedades de la transformada de Fourier , los parámetros de rotación y escala pueden determinarse de manera invariante a la traducción. ^[4]^[5]

Limitaciones

En la práctica, es más probable que ${\ Displaystyle \ g_ {b}}$ será un simple cambio lineal de ${\ Displaystyle \ g_ {a}}$ , en lugar de un cambio circular como lo requiere la explicación anterior. En esos casos, ${\ Displaystyle \ r}$ no será una simple función delta, lo que reducirá el rendimiento del método. En tales casos, se debe emplear una función de ventana (como una ventana de Gauss o Tukey) durante la transformada de Fourier para reducir los efectos de borde, o las imágenes deben rellenarse con ceros para que los efectos de borde se puedan ignorar. Si las imágenes consisten en un fondo plano, con todos los detalles situados lejos de los bordes, entonces un desplazamiento lineal será equivalente a un desplazamiento circular, y la derivación anterior se mantendrá exactamente. El pico se puede agudizar mediante el uso de correlación de borde o vector. ^[6]

Para imágenes periódicas (como un tablero de ajedrez), la correlación de fase puede producir resultados ambiguos con varios picos en la salida resultante.

Aplicaciones

La correlación de fase es el método preferido para la conversión de estándares de televisión , ya que deja la menor cantidad de artefactos.

Ver también

General

Televisión

Conversión de estándares de televisión
Conversión de estándares inversos

Referencias

^ H. Foroosh (Shekarforoush), JB Zerubia y M. Berthod, "Extensión de la correlación de fase al registro de subpíxeles", Transacciones de IEEE sobre procesamiento de imágenes, V. 11, No. 3, marzo de 2002, págs. 188-200.
^ EgM Sjödahl y LR Benckert, "Fotografía electrónica moteada: análisis de un algoritmo que proporciona el desplazamiento con precisión de subpíxeles", Appl Opt. 1993 1 de mayo; 32 (13): 2278-84. doi : 10.1364 / AO.32.002278
^ Harold S. Stone, "Un algoritmo rápido y directo basado en Fourier para el registro de imágenes de subpíxeles", Transacciones IEEE sobre geociencia y teledetección, V. 39, No. 10, octubre de 2001, págs. 2235-2242
^ E. De Castro y C. Morandi "Registro de imágenes traducidas y rotadas mediante transformadas finitas de Fourier", Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, septiembre de 1987
^ B. S Reddy y BN Chatterji, "Una técnica basada en FFT para la traducción, rotación y registro de imágenes invariantes de escala", IEEE Transactions on Image Processing 5, no. 8 (1996): 1266–1271.
^ http://www.jprr.org/index.php/jprr/article/viewFile/355/148

enlaces externos

Uso de Matlab para realizar una correlación cruzada normalizada en imágenes

[1] H. Foroosh (Shekarforoush), JB Zerubia y M. Berthod, "Extensión de la correlación de fase al registro de subpíxeles", Transacciones de IEEE sobre procesamiento de imágenes, V. 11, No. 3, marzo de 2002, págs. 188-200.

[2] EgM Sjödahl y LR Benckert, "Fotografía electrónica moteada: análisis de un algoritmo que proporciona el desplazamiento con precisión de subpíxeles", Appl Opt. 1993 1 de mayo; 32 (13): 2278-84. doi : 10.1364 / AO.32.002278

[3] Harold S. Stone, "Un algoritmo rápido y directo basado en Fourier para el registro de imágenes de subpíxeles", Transacciones IEEE sobre geociencia y teledetección, V. 39, No. 10, octubre de 2001, págs. 2235-2242

[4] E. De Castro y C. Morandi "Registro de imágenes traducidas y rotadas mediante transformadas finitas de Fourier", Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, septiembre de 1987

[5] B. S Reddy y BN Chatterji, "Una técnica basada en FFT para la traducción, rotación y registro de imágenes invariantes de escala", IEEE Transactions on Image Processing 5, no. 8 (1996): 1266–1271.

[6] ttp://www.jprr.org/index.php/jprr/article/viewFile/355/148

[1]