Campo de movimiento

En la visión por computadora, el campo de movimiento es una representación ideal del movimiento 3D cuando se proyecta en una imagen de cámara. Dado un modelo de cámara simplificado, cada punto ${\ Displaystyle (y_ {1}, y_ {2})}$ en la imagen es la proyección de algún punto en la escena 3D pero la posición de la proyección de un punto fijo en el espacio puede variar con el tiempo. El campo de movimiento puede definirse formalmente como la derivada en el tiempo de la posición de la imagen de todos los puntos de la imagen, dado que corresponden a puntos 3D fijos. Esto significa que el campo de movimiento se puede representar como una función que asigna las coordenadas de la imagen a un vector bidimensional. El campo de movimiento es una descripción ideal del movimiento 3D proyectado en el sentido de que puede definirse formalmente, pero en la práctica normalmente solo es posible determinar una aproximación del campo de movimiento a partir de los datos de la imagen.

Introducción

Una ilustración de algunos puntos 3D y sus puntos de imagen correspondientes como se describe en el modelo de cámara estenopeica . A medida que los puntos 3D se mueven en el espacio, los puntos de imagen correspondientes también se mueven. El campo de movimiento consta de los vectores de movimiento de la imagen para todos los puntos de la imagen.

Un modelo de cámara mapea cada punto ${\ Displaystyle (x_ {1}, x_ {2}, x_ {3})}$ en el espacio 3D a un punto de imagen 2D ${\ Displaystyle (y_ {1}, y_ {2})}$ según algunas funciones de mapeo ${\ Displaystyle m_ {1}, m_ {2}}$ :

{\ displaystyle {\ begin {pmatrix} y_ {1} \\ y_ {2} \ end {pmatrix}} = {\ begin {pmatrix} m_ {1} (x_ {1}, x_ {2}, x_ {3 }) \\ m_ {2} (x_ {1}, x_ {2}, x_ {3}) \ end {pmatrix}}}

Suponiendo que la escena representada por la cámara sea dinámica; Consiste en objetos que se mueven entre sí, objetos que se deforman y, posiblemente, también la cámara se mueve en relación con la escena, un punto fijo en el espacio 3D se asigna a diferentes puntos de la imagen. Diferenciar la expresión anterior con respecto al tiempo da

{\ Displaystyle {\ begin {pmatrix} {\ frac {dy_ {1}} {dt}} \\ [2mm] {\ frac {dy_ {2}} {dt}} \ end {pmatrix}} = {\ begin {pmatrix} {\ frac {dm_ {1} (x_ {1}, x_ {2}, x_ {3})} {dt}} \\ [2 mm] {\ frac {dm_ {2} (x_ {1} , x_ {2}, x_ {3})} {dt}} \ end {pmatrix}} = {\ begin {pmatrix} {\ frac {dm_ {1}} {dx_ {1}}} & {\ frac { dm_ {1}} {dx_ {2}}} y {\ frac {dm_ {1}} {dx_ {3}}} \\ [2 mm] {\ frac {dm_ {2}} {dx_ {1}}} & {\ frac {dm_ {2}} {dx_ {2}}} & {\ frac {dm_ {2}} {dx_ {3}}} \ end {pmatrix}} \, {\ begin {pmatrix} {\ frac {dx_ {1}} {dt}} \\ [2 mm] {\ frac {dx_ {2}} {dt}} \\ [2 mm] {\ frac {dx_ {3}} {dt}} \ end { pmatrix}}}

Aquí

{\ Displaystyle \ mathbf {u} = {\ begin {pmatrix} {\ frac {dy_ {1}} {dt}} \\ [2 mm] {\ frac {dy_ {2}} {dt}} \ end {pmatrix }}}

es el campo de movimiento y el vector u depende tanto de la posición de la imagen ${\ Displaystyle (y_ {1}, y_ {2})}$ así como en el tiempo t . Similar,

{\ Displaystyle \ mathbf {x '} = {\ begin {pmatrix} {\ frac {dx_ {1}} {dt}} \\ [2 mm] {\ frac {dx_ {2}} {dt}} \\ [ 2 mm] {\ frac {dx_ {3}} {dt}} \ end {pmatrix}}}

es el movimiento del punto 3D correspondiente y su relación con el campo de movimiento está dada por

{\ Displaystyle \ mathbf {u} = \ mathbf {M} \, \ mathbf {x} '}

dónde ${\ Displaystyle \ mathbf {M}}$ ¿Depende la posición de la imagen? ${\ Displaystyle 2 \ times 3}$ matriz

{\ Displaystyle \ mathbf {M} = {\ begin {pmatrix} {\ frac {dm_ {1}} {dx_ {1}}} & {\ frac {dm_ {1}} {dx_ {2}}} & { \ frac {dm_ {1}} {dx_ {3}}} \\ [2 mm] {\ frac {dm_ {2}} {dx_ {1}}} y {\ frac {dm_ {2}} {dx_ {2 }}} y {\ frac {dm_ {2}} {dx_ {3}}} \ end {pmatrix}}}

Esta relación implica que el campo de movimiento, en un punto específico de la imagen, es invariante a los movimientos 3D que se encuentran en el espacio nulo de ${\ Displaystyle \ mathbf {M}}$ . Por ejemplo, en el caso de una cámara estenopeica, todos los componentes de movimiento 3D que se dirigen hacia o desde el punto focal de la cámara no pueden detectarse en el campo de movimiento.

Casos especiales

El campo de movimiento ${\ Displaystyle \ mathbf {v}}$ Se define como:

{\ Displaystyle \ mathbf {v} = f {\ frac {Z \ mathbf {V} -V_ {z} \ mathbf {P}} {Z ^ {2}}}}

dónde

{\ Displaystyle \ mathbf {V} = - \ mathbf {T} - \ mathbf {\ omega} \ times \ mathbf {P}}

.

dónde

${\ Displaystyle \ mathbf {P}}$ es un punto de la escena donde Z es la distancia a ese punto de la escena.
${\ Displaystyle \ mathbf {V}}$ es el movimiento relativo entre la cámara y la escena,
${\ Displaystyle \ mathbf {T}}$ es el componente de traslación del movimiento, y
${\ Displaystyle \ mathbf {\ omega}}$ es la velocidad angular del movimiento.

Relación con el flujo óptico

El campo de movimiento es una construcción ideal, basada en la idea de que es posible determinar el movimiento de cada punto de la imagen, y arriba se describe cómo este movimiento 2D se relaciona con el movimiento 3D. En la práctica, sin embargo, el campo de movimiento real solo se puede aproximar en función de las mediciones de los datos de la imagen. El problema es que, en la mayoría de los casos, cada punto de imagen tiene un movimiento individual que, por lo tanto, debe medirse localmente mediante una operación de vecindad en los datos de imagen. Como consecuencia, no se puede determinar el campo de movimiento correcto para ciertos tipos de vecindad y, en su lugar , se debe utilizar una aproximación, a menudo denominada flujo óptico . Por ejemplo, una vecindad que tiene una intensidad constante puede corresponder a un campo de movimiento distinto de cero, pero el flujo óptico es cero ya que no se puede medir el movimiento de la imagen local. De manera similar, una vecindad intrínseca unidimensional (por ejemplo, un borde o una línea) puede corresponder a un campo de movimiento arbitrario, pero el flujo óptico solo puede capturar el componente normal del campo de movimiento. También hay otros efectos, como ruido de imagen, oclusión 3D, aliasing temporal, que son inherentes a cualquier método para medir el flujo óptico y hacen que el flujo óptico resultante se desvíe del campo de movimiento real.

En resumen, el campo de movimiento no se puede medir correctamente para todos los puntos de la imagen y el flujo óptico es una aproximación del campo de movimiento. Hay varias formas diferentes de calcular el flujo óptico en función de diferentes criterios de cómo se debe realizar una estimación óptica.

Referencias

Bernd Jähne y Horst Haußecker (2000). Visión por computadora y aplicaciones, una guía para estudiantes y profesionales . Prensa académica. ISBN 0-13-085198-1.

Linda G. Shapiro y George C. Stockman (2001). Visión por computadora . Prentice Hall. ISBN 0-13-030796-3.

Milan Sonka, Vaclav Hlavac y Roger Boyle (1999). Procesamiento, análisis y visión artificial de imágenes . Publicación de PWS. ISBN 0-534-95393-X.