Segmentación de movimiento rígido

En visión por computadora , la segmentación de movimiento rígido es el proceso de separar regiones , características o trayectorias de una secuencia de video en subconjuntos coherentes de espacio y tiempo. Estos subconjuntos corresponden a objetos independientes que se mueven rígidamente en la escena. El objetivo de esta segmentación es diferenciar y extraer el movimiento rígido significativo del fondo y analizarlo. Las técnicas de segmentación de imágenes etiquetan los píxeles para que formen parte de píxeles con ciertas características en un momento determinado. Aquí, los píxeles se segmentan en función de su movimiento relativo durante un período de tiempo, es decir, el tiempo de la secuencia de vídeo.

Hay una serie de métodos que se han propuesto para hacerlo. ^[1] No existe una forma consistente de clasificar la segmentación por movimiento debido a su gran variación en la literatura. Según el criterio de segmentación utilizado en el algoritmo, se puede clasificar en términos generales en las siguientes categorías: diferencia de imagen, métodos estadísticos, wavelets, estratificación, flujo óptico y factorización. Además, dependiendo del número de vistas requeridas, los algoritmos pueden basarse en dos o en varias vistas. La segmentación de movimiento rígido ha encontrado un aumento en su aplicación en el pasado reciente con el aumento de la vigilancia y la edición de video . Estos algoritmos se discuten más adelante.

En general, el movimiento puede considerarse como una transformación de un objeto en el espacio y el tiempo. Si esta transformación conserva el tamaño y la forma del objeto, se conoce como transformación rígida. La transformada rígida puede ser rotacional, traslacional o reflexiva. Definimos transformación rígida matemáticamente como:

En el sentido de movimiento, la transformación rígida es el movimiento de un objeto rígido en el espacio. Como se muestra en la Figura 1: este movimiento tridimensional es la transformación de las coordenadas originales (X,Y,Z) a las coordenadas transformadas (X',Y',Z') que es el resultado de la rotación y la traslación capturadas por la matriz rotacional R y el vector traslacional T respectivamente. Por lo tanto la transformada será:

${\ estilo de visualización R}$ tiene 9 incógnitas que corresponden al ángulo de rotación con cada eje y tiene 3 incógnitas ( ) que explican la traslación en las direcciones X, Y y Z respectivamente. Este movimiento (3-D) en el tiempo cuando es capturado por una cámara (2-D) corresponde al cambio de píxeles en los cuadros subsiguientes de la secuencia de video. Esta transformación también se conoce como movimiento de cuerpo rígido 2-D o transformación euclidiana 2-D . Se puede escribir como: ${\ estilo de visualización T}$ $Tx,Ty,Tz$

Para visualizar esto, considere un ejemplo de una secuencia de video de una cámara de vigilancia de tráfico. Tendrá carros en movimiento y este movimiento no cambia su forma y tamaño. Además, el movimiento es una combinación de rotación y transformación del automóvil en 3D que se refleja en sus cuadros de video posteriores. Por lo tanto, se dice que el automóvil tiene un movimiento rígido.

Figura 1: Movimiento rígido en 3-D

Figura 2: Algoritmo de segmentación de movimiento