Pose (visión por computadora)


En visión artificial y robótica , una tarea típica es identificar objetos específicos en una imagen y determinar la posición y orientación de cada objeto en relación con algún sistema de coordenadas. Esta información se puede utilizar, por ejemplo, para permitir que un robot manipule un objeto o para evitar que se mueva hacia el objeto. La combinación de posición y orientación se conoce como pose de un objeto, aunque este concepto a veces se usa solo para describir la orientación. La orientación exterior y la traducción también se utilizan como sinónimos de pose.

Los datos de imagen a partir de los cuales se determina la pose de un objeto pueden ser una sola imagen, un par de imágenes estéreo o una secuencia de imágenes donde, típicamente, la cámara se mueve con una velocidad conocida. Los objetos que se consideran pueden ser bastante generales, incluido un ser vivo o partes del cuerpo, por ejemplo, una cabeza o manos. Sin embargo, los métodos que se utilizan para determinar la pose de un objeto suelen ser específicos para una clase de objetos y, por lo general, no se puede esperar que funcionen bien para otros tipos de objetos.

La pose se puede describir mediante una transformación de rotación y traslación que lleva al objeto de una pose de referencia a la pose observada [ aclaración necesaria ] . Esta transformación de rotación se puede representar de diferentes formas, por ejemplo, como una matriz de rotación o un cuaternión .

La tarea específica de determinar la pose de un objeto en una imagen (o imágenes estéreo, secuencia de imágenes) se denomina estimación de pose . El problema de estimación de pose se puede resolver de diferentes formas dependiendo de la configuración del sensor de imagen y la elección de la metodología. Se pueden distinguir tres clases de metodologías: