Modelo de cámara estenopeica

El modelo de la cámara estenopeica describe la relación matemática entre las coordenadas de un punto en el espacio tridimensional y su proyección en el plano de la imagen de una cámara estenopeica ideal , donde la apertura de la cámara se describe como un punto y no se utilizan lentes para enfocar la luz. El modelo no incluye, por ejemplo, distorsiones geométricas o desenfoques de objetos desenfocados provocados por lentes y aperturas de tamaño finito. Tampoco tiene en cuenta que la mayoría de las cámaras prácticas solo tienen coordenadas de imagen discretas. Esto significa que el modelo de cámara estenopeica solo se puede utilizar como una aproximación de primer orden del mapeo de una escena 3D a una Imagen 2D . Su validez depende de la calidad de la cámara y, en general, disminuye desde el centro de la imagen hacia los bordes a medida que aumentan los efectos de distorsión de la lente.

Un diagrama de una cámara estenopeica .

Algunos de los efectos que el modelo de cámara estenopeica no tiene en cuenta se pueden compensar, por ejemplo, aplicando transformaciones de coordenadas adecuadas en las coordenadas de la imagen; otros efectos son lo suficientemente pequeños como para descuidarlos si se utiliza una cámara de alta calidad. Esto significa que el modelo de cámara estenopeica a menudo se puede utilizar como una descripción razonable de cómo una cámara representa una escena en 3D, por ejemplo, en visión por computadora y gráficos por computadora .

Geometría

La geometría de una cámara estenopeica

NOTA: El sistema de coordenadas x ₁ x ₂ x ₃ en la figura es a la izquierda, es decir, la dirección del eje OZ es inversa al sistema al que el lector puede estar acostumbrado.

La geometría relacionada con el mapeo de una cámara estenopeica se ilustra en la figura. La figura contiene los siguientes objetos básicos:

Un 3D ortogonales sistema de coordenadas con origen en O . Aquí también es donde se encuentra la apertura de la cámara . Los tres ejes del sistema de coordenadas se denominan X1, X2, X3. El eje X3 apunta en la dirección de visualización de la cámara y se denomina eje óptico , eje principal o rayo principal . El plano que está atravesado por los ejes X1 y X2 es el lado frontal de la cámara, o plano principal .
Un plano de imagen, donde el mundo 3D se proyecta a través de la apertura de la cámara. El plano de la imagen es paralelo a los ejes X1 y X2 y se encuentra a una distancia ${\ Displaystyle f}$ desde el origen O en la dirección negativa del eje X3, donde f es la distancia focal de la cámara estenopeica. Una implementación práctica de una cámara estenopeica implica que el plano de la imagen está ubicado de manera que interseca el eje X3 en la coordenada -f donde f> 0 .
Un punto R en la intersección del eje óptico y el plano de la imagen. Este punto se denomina punto principal ^[1] o centro de la imagen .
Un punto P en algún lugar del mundo en las coordenadas ${\ Displaystyle (x_ {1}, x_ {2}, x_ {3})}$ relativo a los ejes X1, X2 y X3.
La línea de proyección del punto P en la cámara. Esta es la línea verde que pasa por el punto P y el punto O .
La proyección del punto P sobre el plano de imagen, denota Q . Este punto viene dado por la intersección de la línea de proyección (verde) y el plano de la imagen. En cualquier situación práctica podemos asumir que ${\ Displaystyle x_ {3}}$ > 0 lo que significa que el punto de intersección está bien definido.
También existe un sistema de coordenadas 2D en el plano de la imagen, con origen en R y con ejes Y1 e Y2 que son paralelos a X1 y X2, respectivamente. Las coordenadas del punto Q relativas a este sistema de coordenadas son ${\ Displaystyle (y_ {1}, y_ {2})}$ .

Se supone que la apertura estenopeica de la cámara, a través de la cual deben pasar todas las líneas de proyección, es infinitamente pequeña, un punto. En la literatura, este punto en el espacio 3D se conoce como el centro óptico (o lente o cámara) . ^[2]

Formulación

A continuación, queremos entender cómo las coordenadas ${\ Displaystyle (y_ {1}, y_ {2})}$ del punto Q dependen de las coordenadas ${\ Displaystyle (x_ {1}, x_ {2}, x_ {3})}$ de punto P . Esto se puede hacer con la ayuda de la siguiente figura que muestra la misma escena que la figura anterior pero ahora desde arriba, mirando hacia abajo en la dirección negativa del eje X2.

La geometría de una cámara estenopeica vista desde el eje X2

En esta figura vemos dos triángulos similares , ambos con partes de la línea de proyección (verde) como sus hipotenusas . Los catetos del triángulo izquierdo son ${\ Displaystyle -y_ {1}}$ y f y los catetos del triángulo rectángulo son ${\ Displaystyle x_ {1}}$ y ${\ Displaystyle x_ {3}}$ . Dado que los dos triángulos son similares, se deduce que

{\ Displaystyle {\ frac {-y_ {1}} {f}} = {\ frac {x_ {1}} {x_ {3}}}}

o

{\ Displaystyle y_ {1} = - {\ frac {f \, x_ {1}} {x_ {3}}}}

Una investigación similar, mirando en la dirección negativa del eje X1 da

{\ Displaystyle {\ frac {-y_ {2}} {f}} = {\ frac {x_ {2}} {x_ {3}}}}

o

{\ Displaystyle y_ {2} = - {\ frac {f \, x_ {2}} {x_ {3}}}}

Esto se puede resumir como

{\ displaystyle {\ begin {pmatrix} y_ {1} \\ y_ {2} \ end {pmatrix}} = - {\ frac {f} {x_ {3}}} {\ begin {pmatrix} x_ {1} \\ x_ {2} \ end {pmatrix}}}

que es una expresión que describe la relación entre las coordenadas 3D ${\ Displaystyle (x_ {1}, x_ {2}, x_ {3})}$ del punto P y sus coordenadas de imagen ${\ Displaystyle (y_ {1}, y_ {2})}$ dado por el punto Q en el plano de la imagen.

Imagen rotada y plano de imagen virtual

El mapeo de coordenadas 3D a 2D descrito por una cámara estenopeica es una proyección en perspectiva seguida de una rotación de 180 ° en el plano de la imagen. Esto corresponde al funcionamiento de una cámara estenopeica real; la imagen resultante se gira 180 ° y el tamaño relativo de los objetos proyectados depende de su distancia al punto focal y el tamaño total de la imagen depende de la distancia f entre el plano de la imagen y el punto focal. Para producir una imagen sin rotar, que es lo que esperamos de una cámara, existen dos posibilidades:

Gire el sistema de coordenadas en el plano de la imagen 180 ° (en cualquier dirección). Esta es la forma en que cualquier implementación práctica de una cámara estenopeica resolvería el problema; para una cámara fotográfica, giramos la imagen antes de mirarla, y para una cámara digital leemos los píxeles en un orden tal que se gira.
Coloque el plano de la imagen de modo que cruce el eje X3 en f en lugar de en -f y vuelva a realizar los cálculos anteriores. Esto generaría un plano de imagen virtual (o frontal) que no se puede implementar en la práctica, pero proporciona una cámara teórica que puede ser más sencilla de analizar que la real.

En ambos casos, el mapeo resultante de coordenadas 3D a coordenadas de imagen 2D viene dado por la expresión anterior, pero sin la negación, por lo tanto

{\ Displaystyle {\ begin {pmatrix} y_ {1} \\ y_ {2} \ end {pmatrix}} = {\ frac {f} {x_ {3}}} {\ begin {pmatrix} x_ {1} \ \ x_ {2} \ end {pmatrix}}}

En coordenadas homogéneas

El mapeo de coordenadas 3D de puntos en el espacio a coordenadas de imagen 2D también se puede representar en coordenadas homogéneas . Dejar ${\ Displaystyle \ mathbf {x}}$ ser una representación de un punto 3D en coordenadas homogéneas (un vector de 4 dimensiones), y sea ${\ Displaystyle \ mathbf {y}}$ ser una representación de la imagen de este punto en la cámara estenopeica (un vector tridimensional). Entonces se cumple la siguiente relación

{\ Displaystyle \ mathbf {y} \ sim \ mathbf {C} \, \ mathbf {x}}

dónde ${\ Displaystyle \ mathbf {C}}$ es el ${\ Displaystyle 3 \ times 4}$ matriz de la cámara y el ${\ Displaystyle \, \ sim}$ significa igualdad entre elementos de espacios proyectivos . Esto implica que los lados izquierdo y derecho son iguales hasta una multiplicación escalar distinta de cero. Una consecuencia de esta relación es que también ${\ Displaystyle \ mathbf {C}}$ puede verse como un elemento de un espacio proyectivo ; dos matrices de cámara son equivalentes si son iguales hasta una multiplicación escalar. Esta descripción del mapeo de la cámara estenopeica, como una transformación lineal ${\ Displaystyle \ mathbf {C}}$ en lugar de como una fracción de dos expresiones lineales, permite simplificar muchas derivaciones de relaciones entre coordenadas 3D y 2D. ^{[ cita requerida ]}

Ver también

Pupila de entrada , la ubicación equivalente del agujero de alfiler en relación con el espacio del objeto en una cámara real.
Pupila de salida , la ubicación equivalente del orificio en relación con el plano de la imagen en una cámara real.
Ecuación de colinealidad
Cámara estenopeica , la implementación práctica del modelo matemático descrito en este artículo.
Lente rectilínea
Ibn al-Haytham

Referencias

↑ Carlo Tomasi (9 de agosto de 2016). "Un modelo de cámara simple" (PDF) . cs.duke.edu . Consultado el 18 de febrero de 2021 .
^ Andrea Fusiello (27 de diciembre de 2005). "Elementos de la visión geométrica por computadora" . Homepages.inf.ed.ac.uk . Consultado el 18 de diciembre de 2013 .

Bibliografía

David A. Forsyth y Jean Ponce (2003). Visión por computadora, un enfoque moderno . Prentice Hall. ISBN 0-12-379777-2.
Richard Hartley y Andrew Zisserman (2003). Geometría de vista múltiple en visión artificial . Prensa de la Universidad de Cambridge. ISBN 0-521-54051-8.
Bernd Jähne (1997). Manual práctico sobre procesamiento de imágenes para aplicaciones científicas . Prensa CRC. ISBN 0-8493-8906-2.
Linda G. Shapiro y George C. Stockman (2001). Visión por computadora . Prentice Hall. ISBN 0-13-030796-3.
Gang Xu y Zhengyou Zhang (1996). Geometría epipolar en estéreo, movimiento y reconocimiento de objetos . Editores académicos de Kluwer. ISBN 0-7923-4199-6.

[1] Carlo Tomasi (9 de agosto de 2016). "Un modelo de cámara simple" (PDF) . cs.duke.edu . Consultado el 18 de febrero de 2021 .

[2] Andrea Fusiello (27 de diciembre de 2005). "Elementos de la visión geométrica por computadora" . Homepages.inf.ed.ac.uk . Consultado el 18 de diciembre de 2013 .

[1]