La estimación de movimiento es el proceso de determinar los vectores de movimiento que describen la transformación de una imagen 2D a otra; generalmente de fotogramas adyacentes en una secuencia de video. Es un problema mal planteado ya que el movimiento es en tres dimensiones, pero las imágenes son una proyección de la escena 3D en un plano 2D. Los vectores de movimiento pueden relacionarse con la imagen completa (estimación de movimiento global) o partes específicas, como bloques rectangulares, parches de formas arbitrarias o incluso por píxel . Los vectores de movimiento pueden representarse mediante un modelo de traslación o muchos otros modelos que pueden aproximarse al movimiento de una cámara de vídeo real, como la rotación y traslación en las tres dimensiones y el zoom.
Términos relacionados
La mayoría de las veces, el término estimación de movimiento y el término flujo óptico se utilizan indistintamente. [ cita requerida ] También está relacionado en concepto con el registro de imágenes y la correspondencia estéreo. [1] De hecho, todos estos términos se refieren al proceso de encontrar puntos correspondientes entre dos imágenes o fotogramas de vídeo. Los puntos que se corresponden entre sí en dos vistas (imágenes o fotogramas) de una escena u objeto real son "normalmente" el mismo punto en esa escena o en ese objeto. Antes de realizar la estimación de movimiento, debemos definir nuestra medida de correspondencia, es decir, la métrica de coincidencia, que es una medida de cuán similares son dos puntos de imagen. Aquí no hay bien ni mal; la elección de la métrica coincidente suele estar relacionada con el uso del movimiento estimado final, así como con la estrategia de optimización en el proceso de estimación.
Algoritmos
Los métodos para encontrar vectores de movimiento se pueden clasificar en métodos basados en píxeles ("directos") y métodos basados en características ("indirectos"). Un famoso debate resultó en la producción de dos artículos de las facciones opuestas para tratar de establecer una conclusión. [2] [3]
Métodos directos
- Algoritmo de coincidencia de bloques
- Métodos de correlación de fase y dominio de frecuencia
- Algoritmos recursivos de píxeles
- Flujo óptico
Métodos indirectos
Los métodos indirectos utilizan características, como la detección de esquinas , y hacen coincidir las características correspondientes entre marcos, generalmente con una función estadística aplicada sobre un área local o global. El propósito de la función estadística es eliminar coincidencias que no corresponden al movimiento real.
Las funciones estadísticas que se han utilizado con éxito incluyen RANSAC .
Nota adicional sobre la categorización
Se puede argumentar que casi todos los métodos requieren algún tipo de definición de los criterios de coincidencia. La diferencia es solo si primero resume sobre una región de imagen local y luego compara el resumen (como los métodos basados en características), o si compara cada píxel primero (como cuadrar la diferencia) y luego resume sobre una región de imagen local (base de bloque movimiento y movimiento basado en filtros). Un tipo emergente de criterios de coincidencia resume una región de imagen local primero para cada ubicación de píxel (a través de alguna transformación de características como la transformación de Laplacia), compara cada píxel resumido y resume nuevamente sobre una región de imagen local. [4] Algunos criterios de coincidencia tienen la capacidad de excluir puntos que en realidad no se corresponden entre sí, aunque producen una buena puntuación de coincidencia, otros no tienen esta capacidad, pero siguen siendo criterios de coincidencia.
Aplicaciones
Codificación de video
Aplicar los vectores de movimiento a una imagen para sintetizar la transformación a la siguiente imagen se llama compensación de movimiento . [5] Se aplica más fácilmente a los estándares de codificación de video basados en la transformada de coseno discreta (DCT) , porque la codificación se realiza en bloques. [6]
Como una forma de aprovechar la redundancia temporal, la estimación y compensación de movimiento son partes clave de la compresión de video . Casi todos los estándares de codificación de video utilizan estimación y compensación de movimiento basada en bloques, como la serie MPEG , incluido el HEVC más reciente .
Reconstrucción 3D
En la localización y el mapeo simultáneos , se reconstruye un modelo 3D de una escena utilizando imágenes de una cámara en movimiento. [7]
Ver también
Referencias
- ^ John X. Liu (2006). Visión por Computador y Robótica . Editores Nova. ISBN 978-1-59454-357-9.
- ^ Philip HS Torr y Andrew Zisserman: Métodos basados en características para la estimación de estructura y movimiento , Taller de ICCV sobre algoritmos de visión, páginas 278-294, 1999
- ^ Michal Irani y P. Anandan: Acerca de los métodos directos , Taller de ICCV sobre algoritmos de visión, páginas 267-277, 1999.
- ^ Rui Xu, David Taubman & Aous Thabit Naman, ' Estimación de movimiento basada en información mutua y umbrales adaptables de múltiples escalas ', en Procesamiento de imágenes, Transacciones IEEE, vol.25, no.3, pp. 1095-1108, marzo de 2016 .
- ^ Borko Furht; Joshua Greenberg; Raymond Westwater (6 de diciembre de 2012). Algoritmos de estimación de movimiento para compresión de video . Springer Science & Business Media. ISBN 978-1-4615-6241-2.
- ^ Swartz, Charles S. (2005). Comprensión del cine digital: un manual profesional . Taylor y Francis . pag. 143. ISBN 9780240806174.
- ^ Kerl, Christian, Jürgen Sturm y Daniel Cremers . " SLAM visual denso para cámaras RGB-D ". 2013 Conferencia Internacional IEEE / RSJ sobre Robots y Sistemas Inteligentes. IEEE, 2013.