Matriz esencial

En visión artificial , la matriz esencial es una ${\ Displaystyle 3 \ times 3}$ matriz , ${\ Displaystyle \ mathbf {E}}$ que relaciona los puntos correspondientes en imágenes estéreo asumiendo que las cámaras satisfacen el modelo de cámara estenopeica .

Función

Más específicamente, si ${\ Displaystyle \ mathbf {y}}$ y ${\ Displaystyle \ mathbf {y} '}$ son coordenadas de imagen normalizadas homogéneas en la imagen 1 y 2, respectivamente, luego

{\ Displaystyle (\ mathbf {y} ') ^ {\ top} \, \ mathbf {E} \, \ mathbf {y} = 0}

Si ${\ Displaystyle \ mathbf {y}}$ y ${\ Displaystyle \ mathbf {y} '}$ corresponden al mismo punto 3D de la escena.

La relación anterior que define la matriz esencial fue publicada en 1981 por H. Christopher Longuet-Higgins , introduciendo el concepto a la comunidad de visión por computadora. El libro de Richard Hartley y Andrew Zisserman informa que una matriz análoga apareció en fotogrametría mucho antes de eso. El artículo de Longuet-Higgins incluye un algoritmo para estimar ${\ Displaystyle \ mathbf {E}}$ a partir de un conjunto de coordenadas de imagen normalizadas correspondientes, así como un algoritmo para determinar la posición relativa y la orientación de las dos cámaras dado que ${\ Displaystyle \ mathbf {E}}$ es conocida. Finalmente, muestra cómo se pueden determinar las coordenadas 3D de los puntos de la imagen con la ayuda de la matriz esencial.

Usar

La matriz esencial puede verse como un precursor de la matriz fundamental . Ambas matrices se pueden usar para establecer restricciones entre puntos de imagen coincidentes, pero la matriz esencial solo se puede usar en relación con las cámaras calibradas, ya que los parámetros de la cámara interna deben conocerse para lograr la normalización. Sin embargo, si las cámaras están calibradas, la matriz esencial puede ser útil para determinar tanto la posición relativa y la orientación entre las cámaras como la posición 3D de los puntos de imagen correspondientes.

Derivación y definición

Esta derivación sigue el artículo de Longuet-Higgins.

Dos cámaras normalizadas proyectan el mundo 3D en sus respectivos planos de imagen. Deje que las 3D coordenadas de un punto P sean ${\ Displaystyle (x_ {1}, x_ {2}, x_ {3})}$ y ${\ Displaystyle (x '_ {1}, x' _ {2}, x '_ {3})}$ relativo al sistema de coordenadas de cada cámara. Dado que las cámaras están normalizadas, las coordenadas de imagen correspondientes son

{\ Displaystyle {\ begin {pmatrix} y_ {1} \\ y_ {2} \ end {pmatrix}} = {\ frac {1} {x_ {3}}} {\ begin {pmatrix} x_ {1} \ \ x_ {2} \ end {pmatrix}}}

y

{\ displaystyle {\ begin {pmatrix} y '_ {1} \\ y' _ {2} \ end {pmatrix}} = {\ frac {1} {x '_ {3}}} {\ begin {pmatrix } x '_ {1} \\ x' _ {2} \ end {pmatrix}}}

Una representación homogénea de las dos coordenadas de la imagen viene dada por

{\ displaystyle {\ begin {pmatrix} y_ {1} \\ y_ {2} \\ 1 \ end {pmatrix}} = {\ frac {1} {x_ {3}}} {\ begin {pmatrix} x_ { 1} \\ x_ {2} \\ x_ {3} \ end {pmatrix}}}

y

{\ displaystyle {\ begin {pmatrix} y '_ {1} \\ y' _ {2} \\ 1 \ end {pmatrix}} = {\ frac {1} {x '_ {3}}} {\ comenzar {pmatrix} x '_ {1} \\ x' _ {2} \\ x '_ {3} \ end {pmatrix}}}

que también se puede escribir de forma más compacta como

{\ Displaystyle \ mathbf {y} = {\ frac {1} {x_ {3}}} \, {\ tilde {\ mathbf {x}}}}

y

{\ Displaystyle \ mathbf {y} '= {\ frac {1} {x' _ {3}}} \, {\ tilde {\ mathbf {x}}} '}

dónde ${\ Displaystyle \ mathbf {y}}$ y ${\ Displaystyle \ mathbf {y} '}$ son representaciones homogéneas de las coordenadas de la imagen 2D y ${\ Displaystyle {\ tilde {\ mathbf {x}}}}$ y ${\ Displaystyle {\ tilde {\ mathbf {x}}} '}$ son coordenadas 3D adecuadas pero en dos sistemas de coordenadas diferentes.

Otra consecuencia de las cámaras normalizadas es que sus respectivos sistemas de coordenadas se relacionan mediante traslación y rotación. Esto implica que los dos conjuntos de coordenadas 3D están relacionados como

{\ Displaystyle {\ tilde {\ mathbf {x}}} '= \ mathbf {R} \, ({\ tilde {\ mathbf {x}}} - \ mathbf {t})}

dónde ${\ Displaystyle \ mathbf {R}}$ es un ${\ Displaystyle 3 \ times 3}$ matriz de rotación y ${\ Displaystyle \ mathbf {t}}$ es un vector de traducción tridimensional.

La matriz esencial se define entonces como:

{\ Displaystyle \ mathbf {E} = \ mathbf {R} \, [\ mathbf {t}] _ {\ times}}

dónde ${\ Displaystyle [\ mathbf {t}] _ {\ times}}$ es la representación matricial del producto cruzado con ${\ Displaystyle \ mathbf {t}}$ .

Para ver que esta definición de la matriz esencial describe una restricción en las coordenadas de la imagen correspondiente, multiplique ${\ Displaystyle \ mathbf {E}}$ de izquierda a derecha con las coordenadas 3D del punto P en los dos sistemas de coordenadas diferentes:

{\ Displaystyle ({\ tilde {\ mathbf {x}}} ') ^ {T} \, \ mathbf {E} \, {\ tilde {\ mathbf {x}}} \, {\ stackrel {(1) } {=}} \, ({\ tilde {\ mathbf {x}}} - \ mathbf {t}) ^ {T} \, \ mathbf {R} ^ {T} \, \ mathbf {R} \, [\ mathbf {t}] _ {\ times} \, {\ tilde {\ mathbf {x}}} \, {\ stackrel {(2)} {=}} \, ({\ tilde {\ mathbf {x }}} - \ mathbf {t}) ^ {T} \, [\ mathbf {t}] _ {\ times} \, {\ tilde {\ mathbf {x}}} \, {\ stackrel {(3) } {=}} \, 0}

Inserte las relaciones anteriores entre ${\ Displaystyle {\ tilde {\ mathbf {x}}} '}$ y ${\ Displaystyle {\ tilde {\ mathbf {x}}}}$ y la definición de ${\ Displaystyle \ mathbf {E}}$ en términos de ${\ Displaystyle \ mathbf {R}}$ y ${\ Displaystyle \ mathbf {t}}$ .
${\ Displaystyle \ mathbf {R} ^ {T} \, \ mathbf {R} = \ mathbf {I}}$ desde ${\ Displaystyle \ mathbf {R}}$ es una matriz de rotación.
Propiedades de la representación matricial del producto cruzado .

Finalmente, se puede suponer que tanto ${\ Displaystyle x_ {3}}$ y ${\ displaystyle x '_ {3}}$ son> 0, de lo contrario no son visibles en ambas cámaras. Esto da

{\ displaystyle 0 = ({\ tilde {\ mathbf {x}}} ') ^ {T} \, \ mathbf {E} \, {\ tilde {\ mathbf {x}}} = {\ frac {1} {x '_ {3}}} ({\ tilde {\ mathbf {x}}}') ^ {T} \, \ mathbf {E} \, {\ frac {1} {x_ {3}}} { \ tilde {\ mathbf {x}}} = (\ mathbf {y} ') ^ {T} \, \ mathbf {E} \, \ mathbf {y}}

que es la restricción que define la matriz esencial entre los puntos de imagen correspondientes.

Propiedades

No todos los arbitrarios ${\ Displaystyle 3 \ times 3}$ La matriz puede ser una matriz esencial para algunas cámaras estéreo. Para ver este aviso que se define como el producto matricial de una matriz de rotación y una matriz de simetría sesgada , ambos ${\ Displaystyle 3 \ times 3}$ . La matriz simétrica sesgada debe tener dos valores singulares que sean iguales y otro que sea cero. La multiplicación de la matriz de rotación no cambia los valores singulares lo que significa que también la matriz esencial tiene dos valores singulares que son iguales y uno que es cero. Las propiedades descritas aquí a veces se denominan restricciones internas de la matriz esencial.

Si la matriz esencial ${\ Displaystyle \ mathbf {E}}$ se multiplica por un escalar distinto de cero, el resultado es nuevamente una matriz esencial que define exactamente la misma restricción que ${\ Displaystyle \ mathbf {E}}$ lo hace. Esto significa que ${\ Displaystyle \ mathbf {E}}$ puede verse como un elemento de un espacio proyectivo , es decir, dos de tales matrices se consideran equivalentes si una es una multiplicación escalar distinta de cero de la otra. Esta es una posición relevante, por ejemplo, si ${\ Displaystyle \ mathbf {E}}$ se estima a partir de los datos de la imagen. Sin embargo, también es posible adoptar la posición de que ${\ Displaystyle \ mathbf {E}}$ Se define como

{\ Displaystyle \ mathbf {E} = [\ mathbf {\ widetilde {t}}] _ {\ times} \, \ mathbf {R}}

dónde ${\ Displaystyle \ mathbf {\ widetilde {t}} = - \ mathbf {R} \ mathbf {t}}$ , y entonces ${\ Displaystyle \ mathbf {E}}$ tiene una "escala" bien definida. Depende de la aplicación qué puesto sea el más relevante.

Las restricciones también se pueden expresar como

{\ Displaystyle \ det \ mathbf {E} = 0}

y

{\ Displaystyle 2 \ mathbf {E} \ mathbf {E} ^ {T} \ mathbf {E} - \ operatorname {tr} (\ mathbf {E} \ mathbf {E} ^ {T}) \ mathbf {E} = 0.}

Aquí, la última ecuación es una restricción de matriz, que puede verse como 9 restricciones, una para cada elemento de la matriz. Estas restricciones se utilizan a menudo para determinar la matriz esencial a partir de cinco pares de puntos correspondientes.

La matriz esencial tiene cinco o seis grados de libertad, según se considere o no un elemento proyectivo. La matriz de rotación ${\ Displaystyle \ mathbf {R}}$ y el vector de traducción ${\ Displaystyle \ mathbf {t}}$ tienen tres grados de libertad cada uno, en total seis. Sin embargo, si la matriz esencial se considera un elemento proyectivo, se debe restar un grado de libertad relacionado con la multiplicación escalar dejando cinco grados de libertad en total.

Estimacion

Dado un conjunto de puntos de imagen correspondientes, es posible estimar una matriz esencial que satisface la restricción epipolar definitoria para todos los puntos del conjunto. Sin embargo, si los puntos de la imagen están sujetos a ruido, que es el caso común en cualquier situación práctica, no es posible encontrar una matriz esencial que satisfaga exactamente todas las restricciones.

Dependiendo de cómo se mida el error relacionado con cada restricción, es posible determinar o estimar una matriz esencial que satisfaga de manera óptima las restricciones para un conjunto dado de puntos de imagen correspondientes. El enfoque más sencillo es establecer un problema de mínimos cuadrados totales , comúnmente conocido como el algoritmo de ocho puntos .

Extrayendo rotación y traslación

Dado que la matriz esencial se ha determinado para un par de cámaras estéreo, por ejemplo, utilizando el método de estimación anterior, esta información se puede usar para determinar también la rotación. ${\ Displaystyle \ mathbf {R}}$ y traducción ${\ Displaystyle \ mathbf {t}}$ (hasta una escala) entre los sistemas de coordenadas de las dos cámaras. En estas derivaciones ${\ Displaystyle \ mathbf {E}}$ se ve como un elemento proyectivo en lugar de tener una escala bien determinada.

Encontrar una solución

El siguiente método para determinar ${\ Displaystyle \ mathbf {R}}$ y ${\ Displaystyle \ mathbf {t}}$ se basa en realizar una SVD de ${\ Displaystyle \ mathbf {E}}$ , vea el libro de Hartley & Zisserman. ^[1] También es posible determinar ${\ Displaystyle \ mathbf {R}}$ y ${\ Displaystyle \ mathbf {t}}$ sin una SVD, por ejemplo, siguiendo el artículo de Longuet-Higgins.

Una SVD de ${\ Displaystyle \ mathbf {E}}$ da

{\ Displaystyle \ mathbf {E} = \ mathbf {U} \, \ mathbf {\ Sigma} \, \ mathbf {V} ^ {T}}

dónde ${\ Displaystyle \ mathbf {U}}$ y ${\ Displaystyle \ mathbf {V}}$ son ortogonales ${\ Displaystyle 3 \ times 3}$ matrices y ${\ Displaystyle \ mathbf {\ Sigma}}$ es un ${\ Displaystyle 3 \ times 3}$ matriz diagonal con

{\ displaystyle \ mathbf {\ Sigma} = {\ begin {pmatrix} s & 0 & 0 \\ 0 & s & 0 \\ 0 & 0 & 0 \ end {pmatrix}}}

Las entradas diagonales de ${\ Displaystyle \ mathbf {\ Sigma}}$ son los valores singulares de ${\ Displaystyle \ mathbf {E}}$ que, de acuerdo con las restricciones internas de la matriz esencial, debe constar de dos valores idénticos y uno cero. Definir

{\ displaystyle \ mathbf {W} = {\ begin {pmatrix} 0 & -1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \ end {pmatrix}}}

con

{\ displaystyle \ mathbf {W} ^ {- 1} = \ mathbf {W} ^ {T} = {\ begin {pmatrix} 0 & 1 & 0 \\ - 1 & 0 & 0 \\ 0 & 0 & 1 \ end {pmatrix}}}

y haz el siguiente ansatz

{\ Displaystyle [\ mathbf {t}] _ {\ times} = \ mathbf {U} \, \ mathbf {W} \, \ mathbf {\ Sigma} \, \ mathbf {U} ^ {T}}

{\ Displaystyle \ mathbf {R} = \ mathbf {U} \, \ mathbf {W} ^ {- 1} \, \ mathbf {V} ^ {T}}

Desde ${\ Displaystyle \ mathbf {\ Sigma}}$ puede no cumplir completamente con las restricciones cuando se trata de datos del mundo real (imágenes de cámara fe), la alternativa

{\ Displaystyle [\ mathbf {t}] _ {\ times} = \ mathbf {U} \, \ mathbf {Z} \, \ mathbf {U} ^ {T}}

con

{\ displaystyle \ mathbf {Z} = {\ begin {pmatrix} 0 & 1 & 0 \\ - 1 & 0 & 0 \\ 0 & 0 & 0 \ end {pmatrix}}}

puede ayudar.

Prueba

Primero, estas expresiones para ${\ Displaystyle \ mathbf {R}}$ y ${\ Displaystyle [\ mathbf {t}] _ {\ times}}$ satisfacen la ecuación definitoria para la matriz esencial

{\ Displaystyle [\ mathbf {t}] _ {\ times} \, \ mathbf {R} = \ mathbf {U} \, \ mathbf {W} \, \ mathbf {\ Sigma} \, \ mathbf {U} ^ {T} \ mathbf {U} \, \ mathbf {W} ^ {- 1} \, \ mathbf {V} ^ {T} \, = \ mathbf {U} \, \ mathbf {\ Sigma} \, \ mathbf {V} ^ {T} = \ mathbf {E}}

En segundo lugar, debe demostrarse que este ${\ Displaystyle [\ mathbf {t}] _ {\ times}}$ es una representación matricial del producto cruzado para algunos ${\ Displaystyle \ mathbf {t}}$ . Desde

{\ displaystyle \ mathbf {W} \, \ mathbf {\ Sigma} = {\ begin {pmatrix} 0 & -s & 0 \\ s & 0 & 0 \\ 0 & 0 & 0 \ end {pmatrix}}}

es el caso que ${\ Displaystyle \ mathbf {W} \, \ mathbf {\ Sigma}}$ es simétrica sesgada, es decir, ${\ Displaystyle (\ mathbf {W} \, \ mathbf {\ Sigma}) ^ {T} = - \ mathbf {W} \, \ mathbf {\ Sigma}}$ . Este es también el caso de nuestro ${\ Displaystyle [\ mathbf {t}] _ {\ times}}$ , desde

{\ displaystyle ([\ mathbf {t}] _ {\ times}) ^ {T} = \ mathbf {U} \, (\ mathbf {W} \, \ mathbf {\ Sigma}) ^ {T} \, \ mathbf {U} ^ {T} = - \ mathbf {U} \, \ mathbf {W} \, \ mathbf {\ Sigma} \, \ mathbf {U} ^ {T} = - [\ mathbf {t} ] _ {\ times}}

De acuerdo con las propiedades generales de la representación matricial del producto cruzado, se deduce que ${\ Displaystyle [\ mathbf {t}] _ {\ times}}$ debe ser el operador de productos cruzados de exactamente un vector ${\ Displaystyle \ mathbf {t}}$ .

En tercer lugar, también debe demostrarse que la expresión anterior para ${\ Displaystyle \ mathbf {R}}$ es una matriz de rotación. Es el producto de tres matrices que son todas ortogonales, lo que significa que ${\ Displaystyle \ mathbf {R}}$ también es ortogonal o ${\ Displaystyle \ det (\ mathbf {R}) = \ pm 1}$ . Para ser una matriz de rotación adecuada, también debe satisfacer ${\ Displaystyle \ det (\ mathbf {R}) = 1}$ . Dado que, en este caso, ${\ Displaystyle \ mathbf {E}}$ se ve como un elemento proyectivo, esto se puede lograr invirtiendo el signo de ${\ Displaystyle \ mathbf {E}}$ si necesario.

Encontrar todas las soluciones

Hasta ahora, una posible solución para ${\ Displaystyle \ mathbf {R}}$ y ${\ Displaystyle \ mathbf {t}}$ ha sido establecido dado ${\ Displaystyle \ mathbf {E}}$ . Sin embargo, no es la única solución posible y puede que ni siquiera sea una solución válida desde un punto de vista práctico. Para empezar, dado que la escala de ${\ Displaystyle \ mathbf {E}}$ no está definido, la escala de ${\ Displaystyle \ mathbf {t}}$ también está indefinido. Debe estar en el espacio nulo de ${\ Displaystyle \ mathbf {E}}$ desde

{\ Displaystyle \ mathbf {E} \, \ mathbf {t} = \ mathbf {R} \, [\ mathbf {t}] _ {\ times} \, \ mathbf {t} = \ mathbf {0}}

Sin embargo, para el análisis posterior de las soluciones, la escala exacta de ${\ Displaystyle \ mathbf {t}}$ no es tan importante como su "signo", es decir, en qué dirección apunta. Dejar ${\ Displaystyle {\ hat {\ mathbf {t}}}}$ ser vector normalizado en el espacio nulo de ${\ Displaystyle \ mathbf {E}}$ . Entonces es el caso que ambos ${\ Displaystyle {\ hat {\ mathbf {t}}}}$ y ${\ Displaystyle - {\ hat {\ mathbf {t}}}}$ son vectores de traducción válidos relativos ${\ Displaystyle \ mathbf {E}}$ . También es posible cambiar ${\ Displaystyle \ mathbf {W}}$ dentro ${\ Displaystyle \ mathbf {W} ^ {- 1}}$ en las derivaciones de ${\ Displaystyle \ mathbf {R}}$ y ${\ Displaystyle \ mathbf {t}}$ sobre. Para el vector de traslación, esto solo provoca un cambio de signo, que ya se ha descrito como una posibilidad. Para la rotación, en cambio, esto producirá una transformación diferente, al menos en el caso general.

Para resumir, dado ${\ Displaystyle \ mathbf {E}}$ hay dos direcciones opuestas que son posibles para ${\ Displaystyle \ mathbf {t}}$ y dos rotaciones diferentes que son compatibles con esta matriz esencial. En total, esto da cuatro clases de soluciones para la rotación y traslación entre los dos sistemas de coordenadas de la cámara. Además de eso, también hay una escala desconocida ${\ Displaystyle s> 0}$ para la dirección de traducción elegida.

Sin embargo, resulta que solo una de las cuatro clases de soluciones puede realizarse en la práctica. Dadas un par de coordenadas de imagen correspondientes, tres de las soluciones siempre producirán un punto 3D que se encuentra detrás de al menos una de las dos cámaras y, por lo tanto, no se puede ver. Solo una de las cuatro clases producirá de manera consistente puntos 3D que se encuentran frente a ambas cámaras. Entonces esta debe ser la solución correcta. Aún así, sin embargo, tiene una escala positiva indeterminada relacionada con el componente de traducción.

La determinación anterior de ${\ Displaystyle \ mathbf {R}}$ y ${\ Displaystyle \ mathbf {t}}$ asume que ${\ Displaystyle \ mathbf {E}}$ Satisfacer las limitaciones internas de la matriz esencial . Si este no es el caso, que, por ejemplo, suele ser el caso si ${\ Displaystyle \ mathbf {E}}$ se ha estimado a partir de datos de imágenes reales (y ruidosos), se debe suponer que satisface aproximadamente las restricciones internas. El vector ${\ Displaystyle {\ hat {\ mathbf {t}}}}$ luego se elige como vector singular derecho de ${\ Displaystyle \ mathbf {E}}$ correspondiente al valor singular más pequeño.

Puntos 3D de los puntos de imagen correspondientes

Existen muchos métodos para computar ${\ Displaystyle (x_ {1}, x_ {2}, x_ {3})}$ dadas las correspondientes coordenadas de imagen normalizadas ${\ Displaystyle (y_ {1}, y_ {2})}$ y ${\ Displaystyle (y '_ {1}, y' _ {2})}$ , si se conoce la matriz esencial y se han determinado las correspondientes transformaciones de rotación y traslación.

Ver también

Cajas de herramientas

Estimación de matrices esenciales en MATLAB (Manolis Lourakis).

enlaces externos

Una investigación de la matriz esencial por RI Hartley

Referencias

^ Hartley, Richard; Andrew Zisserman (2004). Geometría de múltiples vistas en visión artificial (2ª ed.). Cambridge, Reino Unido. ISBN 978-0-511-18711-7. OCLC 171123855 .

David Nistér (junio de 2004). "Una solución eficiente al problema de la pose relativa de cinco puntos". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 26 (6): 756–777. doi : 10.1109 / TPAMI.2004.17 . PMID 18579936 . S2CID 886598 .
H. Stewénius y C. Engels y D. Nistér (junio de 2006). "Desarrollos recientes sobre la orientación relativa directa". Revista ISPRS de Fotogrametría y Percepción Remota . 60 (4): 284-294. Código Bibliográfico : 2006JPRS ... 60..284S . CiteSeerX 10.1.1.61.9329 . doi : 10.1016 / j.isprsjprs.2006.03.005 .
H. Christopher Longuet-Higgins (septiembre de 1981). "Un algoritmo informático para reconstruir una escena a partir de dos proyecciones". Naturaleza . 293 (5828): 133-135. Código bibliográfico : 1981Natur.293..133L . doi : 10.1038 / 293133a0 . S2CID 4327732 .
Richard Hartley y Andrew Zisserman (2003). Geometría de vista múltiple en visión artificial . Prensa de la Universidad de Cambridge. ISBN 978-0-521-54051-3.
Yi Ma; Stefano Soatto ; Jana Košecká ; S. Shankar Sastry (2004). Una invitación a la visión 3-D . Saltador. ISBN 978-0-387-00893-6.
Gang Xu y Zhengyou Zhang (1996). Geometría epipolar en estéreo, movimiento y reconocimiento de objetos . Editores académicos de Kluwer. ISBN 978-0-7923-4199-4.

[1] Hartley, Richard; Andrew Zisserman (2004). Geometría de múltiples vistas en visión artificial (2ª ed.). Cambridge, Reino Unido. ISBN 978-0-511-18711-7. OCLC 171123855 .

[1]