En la visión por computadora , el reconocimiento de objetos en 3D implica reconocer y determinar información en 3D, como la pose , el volumen o la forma, de los objetos en 3D elegidos por el usuario en una fotografía o escaneo de rango . Normalmente, se presenta un ejemplo del objeto que se va a reconocer a un sistema de visión en un entorno controlado, y luego, para una entrada arbitraria, como un flujo de vídeo , el sistema localiza el objeto presentado anteriormente. Esto se puede hacer fuera de línea o en tiempo real . Los algoritmospara solucionar este problema están especializados en localizar un único objeto preidentificado, y pueden contrastarse con algoritmos que operan sobre clases generales de objetos, como los sistemas de reconocimiento facial o el reconocimiento de objetos genéricos 3D. Debido al bajo costo y la facilidad de adquirir fotografías, se ha dedicado una cantidad significativa de investigación al reconocimiento de objetos 3D en fotografías.
Reconocimiento 3D de un solo objeto en fotografías
El método para reconocer un objeto 3D depende de las propiedades de un objeto. Por simplicidad, muchos algoritmos existentes se han centrado en reconocer objetos rígidos que constan de una sola parte, es decir, objetos cuya transformación espacial es un movimiento euclidiano . Se han adoptado dos enfoques generales al problema: los enfoques de reconocimiento de patrones utilizan información de apariencia de imagen de bajo nivel para ubicar un objeto, mientras que los enfoques geométricos basados en características construyen un modelo para que el objeto sea reconocido y comparan el modelo con la fotografía.
Enfoques de reconocimiento de patrones
Estos métodos utilizan información de apariencia recopilada de proyecciones precapturadas o precalculadas de un objeto para que coincida con el objeto en la escena potencialmente desordenada. Sin embargo, no tienen en cuenta las restricciones geométricas 3D del objeto durante la comparación y, por lo general, tampoco manejan la oclusión tan bien como los enfoques basados en características. Ver [Murase y Nayar 1995] y [Selinger y Nelson 1999].
Enfoques geométricos basados en características
Los enfoques basados en características funcionan bien para objetos que tienen características distintivas . Hasta ahora, los objetos que tienen buenas características de borde o características de blob se han reconocido con éxito; por ejemplo, algoritmos de detección, consulte Detector de región afín de Harris y SIFT , respectivamente. Debido a la falta de los detectores de características adecuados, los objetos sin superficies texturizadas y lisas no pueden manejarse actualmente con este enfoque.
Los reconocedores de objetos basados en características generalmente funcionan mediante la captura previa de una serie de vistas fijas del objeto que se va a reconocer, extrayendo características de estas vistas y luego en el proceso de reconocimiento, haciendo coincidir estas características con la escena y aplicando restricciones geométricas.
Como ejemplo de un sistema prototípico que adopta este enfoque, presentaremos un esquema del método utilizado por [Rothganger et al. 2004], con algunos detalles omitidos. El método comienza asumiendo que los objetos experimentan transformaciones rígidas globalmente. Debido a que las superficies lisas son localmente planas, las características invariantes afines son apropiadas para hacer coincidir: el papel detecta regiones de interés en forma de elipse utilizando características similares a bordes y manchas, y según [Lowe 2004], encuentra la dirección de gradiente dominante elipse, convierte la elipse en un paralelogramo y toma un descriptor SIFT en el paralelogramo resultante. La información de color también se utiliza para mejorar la discriminación solo sobre las funciones de SIFT.
A continuación, dada una serie de vistas de cámara del objeto (24 en el documento), el método construye un modelo 3D para el objeto, que contiene la posición espacial 3D y la orientación de cada característica. Debido a que el número de vistas del objeto es grande, normalmente cada característica está presente en varias vistas adyacentes. Los puntos centrales de tales características coincidentes se corresponden, y las características detectadas se alinean a lo largo de la dirección del gradiente dominante, por lo que los puntos en (1, 0) en el sistema de coordenadas local del paralelogramo de características también se corresponden, al igual que los puntos (0, 1) en las coordenadas locales del paralelogramo. Por lo tanto, para cada par de características coincidentes en vistas cercanas, se conocen correspondencias de tres pares de puntos. Dadas al menos dos características coincidentes, se puede usar una estructura afín de múltiples vistas del algoritmo de movimiento (ver [Tomasi y Kanade 1992]) para construir una estimación de las posiciones de los puntos (hasta una transformación afín arbitraria). El artículo de Rothganger et al. por lo tanto, selecciona dos vistas adyacentes, usa un método similar a RANSAC para seleccionar dos pares de características correspondientes y agrega nuevas características al modelo parcial construido por RANSAC siempre que estén bajo un término de error. Por lo tanto, para cualquier par de vistas adyacentes, el algoritmo crea un modelo parcial de todas las características visibles en ambas vistas.
Para producir un modelo unificado, el artículo toma el modelo parcial más grande y lo alinea de forma incremental con todos los modelos parciales más pequeños. La minimización global se usa para reducir el error, luego se usa una actualización euclidiana para cambiar las posiciones de las características del modelo desde coordenadas 3D únicas hasta una transformación afín a coordenadas 3D que son únicas hasta el movimiento euclidiano . Al final de este paso, se tiene un modelo del objeto de destino, que consta de características proyectadas en un espacio 3D común.
Para reconocer un objeto en una imagen de entrada arbitraria, el documento detecta características y luego usa RANSAC para encontrar la matriz de proyección afín que mejor se ajusta al modelo de objeto unificado a la escena 2D. Si este enfoque RANSAC tiene un error suficientemente bajo, entonces, en caso de éxito, el algoritmo reconoce el objeto y da la pose del objeto en términos de una proyección afín. En las condiciones asumidas, el método suele alcanzar tasas de reconocimiento de alrededor del 95%.
Referencias
- Murase, H. y SK Nayar: 1995, Aprendizaje visual y reconocimiento de objetos tridimensionales a partir de la apariencia . Revista Internacional de Visión por Computador 14, 5–24. [1]
- Selinger, A. y R. Nelson: 1999, Una jerarquía de agrupación perceptual para el reconocimiento de objetos 3D basado en la apariencia. Visión por computadora y comprensión de la imagen 76 (1), 83–92. [2]
- Rothganger, F; S. Lazebnik, C. Schmid y J. Ponce: 2004. Reconocimiento y modelado de objetos 3D utilizando descriptores de imágenes invariantes afines locales y restricciones espaciales de múltiples vistas , ICCV. [3]
- Lowe, D .: 2004, Características de imagen distintivas de puntos clave invariantes de escala. Revista Internacional de Visión por Computador. En prensa. [4]
- Tomasi, C. y T. Kanade: 1992, Forma y movimiento a partir de flujos de imágenes: un método de factorización. Revista Internacional de Visión por Computadora 9 (2), 137-154. [5]