Un área de la visión por computadora es la visión activa , a veces también llamada visión por computadora activa . Un sistema de visión activa es aquel que puede manipular el punto de vista de la (s) cámara (s) para investigar el entorno y obtener mejor información de él. [1] [2] [3] [4]
Fondo
El interés en el sistema de cámara activa comenzó hace dos décadas. A partir de finales de la década de 1980, Aloimonos et al. introdujo el primer marco general para la visión activa con el fin de mejorar la calidad de percepción del seguimiento de los resultados. [3] La visión activa es particularmente importante para hacer frente a problemas como oclusiones, campo de visión limitado y resolución limitada de la cámara. [5] Otras ventajas pueden ser reducir el desenfoque de movimiento de un objeto en movimiento [6] y mejorar la percepción de profundidad de un objeto enfocando dos cámaras en el mismo objeto o moviendo las cámaras. [3] El control activo del punto de vista de la cámara también ayuda a enfocar los recursos computacionales en el elemento relevante de la escena. [7] En este aspecto selectivo, la visión activa puede verse como estrictamente relacionada con la atención visual (abierta y encubierta) en organismos biológicos, que se ha demostrado que mejora la percepción de una parte seleccionada del campo visual. Este aspecto selectivo de la visión humana (activa) puede relacionarse fácilmente con la estructura foveal del ojo humano, [8] [9] donde en aproximadamente el 5% de la retina se encuentran más del 50% de los receptores de color.
También se ha sugerido que la atención visual y el aspecto selectivo del control activo de la cámara pueden ayudar en otras tareas como aprender modelos más robustos de objetos y entornos con muestras menos etiquetadas o de forma autónoma. [4] [10]
Enfoques
El enfoque de la cámara autónoma
Las cámaras autónomas son cámaras que pueden orientarse por sí mismas en su entorno. Ha habido algunos trabajos recientes que utilizan este enfoque. En el trabajo de Denzler et al., El movimiento de un objeto rastreado se modela usando un filtro de Kalman mientras que la distancia focal que minimiza la incertidumbre en las estimaciones de estado es la que se usa. Se utilizó una configuración estéreo con dos cámaras con zoom. Se han escrito un puñado de artículos para el control del zoom y no se ocupan de la estimación de la posición total del objeto y la cámara. Un intento de unir estimación y control en el mismo marco se puede encontrar en el trabajo de Bagdanov et al., Donde se usa una cámara Pan-Tilt-Zoom para rastrear rostros. [12] Tanto los modelos de estimación como de control utilizados son ad hoc, y el enfoque de estimación se basa en características de imagen en lugar de propiedades 3D del objetivo que se está rastreando. [13]
El enfoque maestro / esclavo
En una configuración maestro / esclavo, se usa una cámara estática de supervisión para monitorear un amplio campo de visión y para rastrear cada objetivo en movimiento de interés. La posición de cada uno de estos objetivos a lo largo del tiempo se proporciona a una cámara foveal, que intenta observar los objetivos con una resolución más alta. Tanto la cámara estática como la activa están calibradas a una referencia común, de modo que los datos provenientes de una de ellas se puedan proyectar fácilmente sobre la otra, con el fin de coordinar el control de los sensores activos. Otro posible uso del enfoque maestro / esclavo consiste en una cámara estática (maestra) que extrae características visuales de un objeto de interés, mientras que el sensor activo (esclavo) usa estas características para detectar el objeto deseado sin la necesidad de ningún dato de entrenamiento. [13] [14]
El enfoque de red de cámaras activas
En los últimos años ha habido un interés creciente en la construcción de redes de cámaras activas y cámaras estáticas opcionales para que pueda cubrir un área grande mientras mantiene una alta resolución de múltiples objetivos. Esta es, en última instancia, una versión ampliada del enfoque maestro / esclavo o del enfoque de cámara autónoma. Este enfoque puede ser muy eficaz, pero también increíblemente costoso. No solo hay varias cámaras involucradas, sino que también debe hacer que se comuniquen entre sí, lo que puede ser computacionalmente costoso. [13] [14]
Marco de visión activa controlada
La visión activa controlada se puede definir como un movimiento controlado de un sensor de visión que puede maximizar el rendimiento de cualquier algoritmo robótico que involucre un sensor de visión en movimiento. Es un híbrido de teoría de control y visión convencional. Una aplicación de este marco es el servomotor robótico en tiempo real alrededor de objetos 3D estáticos o en movimiento arbitrarios. Consulte Visual Servoing. Los algoritmos que incorporan el uso de múltiples ventanas y medidas de confianza numéricamente estables se combinan con controladores estocásticos para brindar una solución satisfactoria al problema de rastreo introducido mediante la combinación de visión y control por computadora. En el caso de que exista un modelo inexacto del entorno, se pueden introducir técnicas de control adaptativo. La información anterior y otras representaciones matemáticas de la visión activa controlada se pueden ver en la tesis de Nikolaos Papanikolopoulos. [15]
Ejemplos de
Los ejemplos de sistemas de visión activa generalmente involucran una cámara montada en un robot, [16] pero otros sistemas han empleado cámaras montadas por un operador humano (también conocidas como "wearables"). [17] Las aplicaciones incluyen vigilancia automática, interacción de robots humanos (video) , [18] [19] SLAM , planificación de rutas, [20] etc. En el DARPA Grand Challenge, la mayoría de los equipos utilizaron LIDAR combinado con sistemas de visión activa para guiar a los conductores sin conductor. vehículos a través de un circuito todoterreno.
Un buen ejemplo de visión activa se puede ver en este video de YouTube. Muestra el seguimiento facial mediante visión activa con un sistema de cámara de giro e inclinación. https://www.youtube.com/watch?v=N0FjDOTnmm0
La visión activa también es importante para comprender cómo funcionan los humanos. [8] [21] y el organismo dotado de sensores visuales, en realidad ven el mundo considerando los límites de sus sensores, la riqueza y variabilidad continua de la señal visual y los efectos de sus acciones y objetivos en su percepción. [7] [22] [23]
El marco de visión activa controlable se puede utilizar de varias formas diferentes. Algunos ejemplos pueden ser el seguimiento de vehículos , las aplicaciones de robótica [24] y la segmentación de IRM interactiva. [25]
La segmentación de la resonancia magnética interactiva utiliza una visión activa controlable mediante el uso de un diseño de control de Lyapanov para establecer un equilibrio entre la influencia de un flujo de gradiente impulsado por datos y la entrada del ser humano a lo largo del tiempo. Esto combina sin problemas la segmentación automática con la interactividad. Se puede encontrar más información sobre este método en. [25] La segmentación en las resonancias magnéticas es un tema difícil y se necesita un experto para rastrear los segmentos deseados debido a que la resonancia magnética capta todo el líquido y tejido. Esto podría resultar poco práctico porque sería un proceso muy largo. Los métodos de visión activa controlable descritos en el documento citado podrían ayudar a mejorar el proceso sin depender menos del ser humano.
Se pueden encontrar varias descargas de diferentes implementaciones de visión activa en este enlace al laboratorio de visión activa de la Universidad de Oxford. http://www.robots.ox.ac.uk/ActiveVision/Downloads/index.html
enlaces externos
- Active Vision Group de la Universidad de Oxford.
- Laboratorio de visión activa de la Universidad de Edimburgo.
- Sistema de seguimiento de visión activa para MAV desarrollado por la Universidad de Nueva Gales del Sur.
Referencias
- ^ http://axiom.anu.edu.au/~rsl/rsl_active.html
- ^ Ballard, Dana H. (1991). "Visión animada". Inteligencia artificial . 48 : 57–86. doi : 10.1016 / 0004-3702 (91) 90080-4 .
- ^ a b c Aloimonos, John; Weiss, Isaac; Bandyopadhyay, Amit (1988). "Visión activa". Revista Internacional de Visión por Computador . 1 (4): 333–356. doi : 10.1007 / BF00133571 .
- ^ a b Ognibene, Dimitri; Baldassare, Gianluca (2015). "Visión activa ecológica: cuatro principios bioinspirados para integrar la atención de abajo hacia arriba y la atención adaptativa de arriba hacia abajo probado con un simple robot con brazo de cámara" . Transacciones IEEE sobre desarrollo mental autónomo . 7 : 3–25. doi : 10.1109 / TAMD.2014.2341351 .
- ^ Denzler; Zobel; Niemann (2003). "Selección de la distancia focal teórica de la información para el seguimiento de objetos 3D activo en tiempo real". Actas Novena Conferencia Internacional IEEE sobre Visión por Computador . págs. 400–407 vol.1. CiteSeerX 10.1.1.122.1594 . doi : 10.1109 / ICCV.2003.1238372 . ISBN 978-0-7695-1950-0. S2CID 17622133 .
- ^ Rivlin, Ehud; Rotstein, Héctor (2000). "Control de una cámara para visión activa: visión foveal, seguimiento suave y sacádica" . Revista Internacional de Visión por Computador . 39 (2): 81–96. doi : 10.1023 / A: 1008166825510 .
- ^ a b Tatler, BW; Hayhoe, MM; Tierra, MF; Ballard, DH (2011). "La guía ocular en la visión natural: reinterpretar la prominencia" . Revista de visión . 11 (5): 5. doi : 10.1167 / 11.5.5 . PMC 3134223 . PMID 21622729 .
- ^ a b Findlay, JM & Gilchrist, ID Active Vision, La psicología de mirar y ver Oxford University Press, 2003
- ^ Tistarelli, M .; Sandini, G. (1993). "Sobre las ventajas del mapeo polar y logarítmico-polar para la estimación directa del tiempo de impacto del flujo óptico" . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 15 (4): 401–410. CiteSeerX 10.1.1.49.9595 . doi : 10.1109 / 34.206959 .
- ^ Walther, Dirk; Rutishauser, Ueli; Koch, Christof; Perona, Pietro (2005). "La atención visual selectiva permite el aprendizaje y el reconocimiento de múltiples objetos en escenas desordenadas" (PDF) . Visión por Computador y Interpretación de Imágenes . 100 (1–2): 41–63. CiteSeerX 10.1.1.110.976 . doi : 10.1016 / j.cviu.2004.09.004 .
- ^ Larochelle, H .; Hinton, G. (6 de diciembre de 2010). "Aprendiendo a combinar destellos foveales con una máquina de Boltzmann de tercer orden" (PDF) . Actas de la 23ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . 1 . págs. 1243-1251.
- ^ Bagdanov, AD; Del Bimbo, A .; Nunziati, W. (2006). "Mejora de la calidad probatoria de las imágenes de vigilancia mediante el seguimiento activo de rostros" . 18ª Conferencia Internacional sobre Reconocimiento de Patrones (ICPR'06) . págs. 1200–1203. doi : 10.1109 / ICPR.2006.700 . ISBN 978-0-7695-2521-1.
- ^ a b c Al Haj, Murad; Fernández, Carles; Xiong, Zhanwu; Huerta, Iván; Gonzàlez, Jordi; Roca, Xavier (2011). "Más allá de la cámara estática: problemas y tendencias en la visión activa". Análisis visual de humanos . págs. 11-30. doi : 10.1007 / 978-0-85729-997-0_2 . ISBN 978-0-85729-996-3.
- ^ a b Bellotto, Nicola; Benfold, Ben; Harland, Hanno; Nagel, Hans-Hellmut; Pirlo, Nicola; Reid, Ian; Sommerlade, Eric; Zhao, Chuan (2012). "Seguimiento visual cognitivo y control de cámara" (PDF) . Visión por Computador y Interpretación de Imágenes . 116 (3): 457–471. doi : 10.1016 / j.cviu.2011.09.011 .
- ^ Papanikolopoulos, Nikolaos Panagiotis (1992). Visión Activa Controlada (Tesis Doctoral). Universidad de Carnegie mellon.
- ^ Mak, Lin Chi; Furukawa, Tomonari; Whitty, Mark (2008). "Un sistema de localización para un MAV de alas rotativas de interior utilizando LED montados en la pala" . Revisión del sensor . 28 (2): 125-131. doi : 10.1108 / 02602280810856688 .
- ^ Mapeo de bucles grandes con una sola cámara de mano . LA Clemente, AJ Davison, ID Reid, J Neira, JD Tardós - Robótica: ciencia y sistemas, 2007
- ^ Demiris, Yiannis; Khadhouri, Bassam (2006). “Múltiples modelos jerárquicos atentos para la ejecución y reconocimiento de acciones”. Robótica y sistemas autónomos . 54 (5): 361–369. CiteSeerX 10.1.1.226.5282 . doi : 10.1016 / j.robot.2006.02.003 .
- ^ Hacia el reconocimiento activo de eventos D Ognibene, Y Demiris The 23rd International Joint Conference of Artificial Intelligence (IJCAI13)
- ^ http://www.surrey.ac.uk/eng/research/mechatronics/robots/Activities/ActiveVision/activevis.html Archivado el 17 de agosto de 2007 en Wayback Machine
- ^ Tierra, Michael F. (2006). "Los movimientos oculares y el control de las acciones en la vida cotidiana" (PDF) . Progreso en la investigación de la retina y los ojos . 25 (3): 296–324. doi : 10.1016 / j.preteyeres.2006.01.002 . PMID 16516530 .
- ^ Lungarella, Max; Sporns, Olaf (2006). "Mapeo del flujo de información en redes sensoriomotoras" . PLOS Biología Computacional . 2 (10): e144. Código bibliográfico : 2006PLSCB ... 2..144L . doi : 10.1371 / journal.pcbi.0020144 . PMC 1626158 . PMID 17069456 .
- ^ Verschure, Paul FMJ; Voegtlin, Thomas; Douglas, Rodney J. (2003). "Sinergia mediada ambientalmente entre percepción y comportamiento en robots móviles". Naturaleza . 425 (6958): 620–624. Código Bibliográfico : 2003Natur.425..620V . doi : 10.1038 / nature02024 . PMID 14534588 .
- ^ Smith, CE; Papanikolopoulos, NP; Brandt, SA (1994). "Aplicación del marco de visión activa controlada a problemas de robótica y transporte". Actas del IEEE Workshop de 1994 sobre aplicaciones de la visión por computadora . págs. 213–220. CiteSeerX 10.1.1.40.3470 . doi : 10.1109 / ACV.1994.341311 . ISBN 978-0-8186-6410-6.
- ^ a b Karasev, Peter; Kolesov, Ivan; Chudy, Karol; Tannenbaum, Allen; Muller, Grant; Xerogeanos, John (2011). "Segmentación de resonancia magnética interactiva con visión activa controlada". 2011 50th IEEE Conference on Decision and Control and European Control Conference . págs. 2293–2298. doi : 10.1109 / CDC.2011.6161453 . ISBN 978-1-61284-801-3. PMC 3935399 . PMID 24584213 .