Estimación de la postura del cuerpo articulado

La estimación de la postura del cuerpo articulado en visión computarizada es el estudio de algoritmos y sistemas que recuperan la postura de un cuerpo articulado, que consta de articulaciones y partes rígidas mediante observaciones basadas en imágenes. Es uno de los problemas más duraderos de la visión por computador por la complejidad de los modelos que relacionan la observación con la pose, y por la variedad de situaciones en las que sería útil. ^[1]^[2]

La percepción de los seres humanos en su entorno vecino es una capacidad importante que deben poseer los robots. Si una persona usa gestos para señalar un objeto en particular, entonces la máquina que interactúa debería poder comprender la situación en el contexto del mundo real. Por lo tanto, la estimación de pose es un problema importante y desafiante en la visión por computadora, y se han implementado muchos algoritmos para resolver este problema durante las últimas dos décadas. Muchas soluciones implican entrenar modelos complejos con grandes conjuntos de datos.

Estimación de posees un problema difícil y un tema activo de investigación porque el cuerpo humano tiene 244 grados de libertad con 230 articulaciones. Aunque no todos los movimientos entre las articulaciones son evidentes, el cuerpo humano está compuesto por 10 partes grandes con 20 grados de libertad. Los algoritmos deben tener en cuenta la gran variabilidad introducida por las diferencias en la apariencia debido a la ropa, la forma del cuerpo, el tamaño y los peinados. Además, los resultados pueden ser ambiguos debido a oclusiones parciales de la autoarticulación, como la mano de una persona que cubre su rostro u oclusiones de objetos externos. Finalmente, la mayoría de los algoritmos estiman la pose a partir de imágenes monoculares (bidimensionales), tomadas de una cámara normal. Otros problemas incluyen diferentes configuraciones de iluminación y cámara. Las dificultades se agravan si existen requisitos de rendimiento adicionales.Estas imágenes carecen de la información tridimensional de una pose corporal real, lo que genera más ambigüedades. Hay un trabajo reciente en esta área en el que las imágenes de las cámaras RGBD proporcionan información sobre el color y la profundidad.^[3]

El sistema típico de estimación de pose de cuerpo articulado implica un enfoque basado en modelos, en el que la estimación de pose se logra maximizando / minimizando una similitud / disimilitud entre una observación (entrada) y un modelo de plantilla. Se han explorado diferentes tipos de sensores para su uso en la observación, incluidos los siguientes:

Estos sensores producen representaciones intermedias que son utilizadas directamente por el modelo. Las representaciones incluyen lo siguiente:

La idea básica del modelo basado en piezas se puede atribuir al esqueleto humano. Cualquier objeto que tenga la propiedad de articulación se puede descomponer en partes más pequeñas en las que cada parte puede tomar diferentes orientaciones, lo que da como resultado diferentes articulaciones del mismo objeto. Se pueden articular diferentes escalas y orientaciones del objeto principal a escalas y orientaciones de las partes correspondientes. Para formular el modelo de modo que se pueda representar en términos matemáticos, las partes se conectan entre sí mediante resortes. Como tal, el modelo también se conoce como modelo de resorte. El grado de cercanía entre cada parte se explica por la compresión y expansión de los resortes. Existe una restricción geométrica en la orientación de los resortes. Por ejemplo, las extremidades de las piernas no pueden moverse 360 grados. Por tanto, las partes no pueden tener esa orientación extrema.Esto reduce las posibles permutaciones.^[6]