Visión egocéntrica

La visión egocéntrica o visión en primera persona es un subcampo de la visión por computadora que implica el análisis de imágenes y videos capturados por una cámara portátil , que normalmente se lleva en la cabeza o en el pecho y se aproxima naturalmente al campo visual del usuario de la cámara. En consecuencia, los datos visuales capturan la parte de la escena en la que el usuario se centra para realizar la tarea en cuestión y ofrecen una perspectiva valiosa para comprender las actividades del usuario y su contexto en un entorno naturalista. ^[1]

La cámara portátil que mira hacia adelante a menudo se complementa con una cámara que mira hacia adentro al ojo del usuario y es capaz de medir la mirada del usuario, lo cual es útil para revelar la atención y comprender mejor la actividad y las intenciones del usuario.

Historia

La idea de usar una cámara portátil para recopilar datos visuales desde una perspectiva en primera persona se remonta a los años 70, cuando Steve Mann inventó el "Digital Eye Glass", un dispositivo que, cuando se usa, hace que el ojo humano se convierta efectivamente en un cámara electrónica y pantalla de televisión. ^[2]

Posteriormente, se utilizaron cámaras portátiles para aplicaciones relacionadas con la salud en el contexto de la inteligencia humanística ^[3] y la inteligencia artificial portátil. ^{[4] La} visión egocéntrica se realiza mejor desde el punto del ojo, pero también se puede realizar con una cámara colocada en el cuello cuando hay anteojos en el camino. ^[5] Esta variante para llevar al cuello se popularizó a través de Microsoft SenseCam en 2006 para trabajos de investigación de salud experimental. ^[6] El interés de la comunidad de visión por computadora en el paradigma egocéntrico ha surgido lentamente a partir de la década de 2010 y está creciendo rápidamente en los últimos años, ^[7] impulsado tanto por el impresionante avance en el campo de la tecnología portátil como por el número creciente de posibles aplicaciones.

El prototipo del sistema de visión en primera persona descrito por Kanade y Hebert, ^[8] en 2012 está compuesto por tres componentes básicos: un componente de localización capaz de estimar el entorno, un componente de reconocimiento capaz de identificar objetos y personas, y un componente de reconocimiento de actividades . capaz de proporcionar información sobre la actividad actual del usuario. Juntos, estos tres componentes proporcionan una conciencia situacional completa del usuario, que a su vez se puede utilizar para proporcionar asistencia a sí mismo o al cuidador. Siguiendo esta idea, las primeras técnicas computacionales para el análisis egocéntrico se centraron en el reconocimiento de la actividad relacionada con las manos ^[9] y el análisis de la interacción social. ^[10] Además, dada la naturaleza ilimitada del video y la enorme cantidad de datos generados, la segmentación temporal ^[11] y el resumen ^{[12] fueron} algunos de los primeros problemas abordados. Después de casi diez años de visión egocéntrica (2007 - 2017), el campo aún se está diversificando. Los temas de investigación emergentes incluyen:

Estimación de la prominencia social ^[13]
Sistemas de visión egocéntrica de agentes múltiples
Técnicas y aplicaciones de preservación de la privacidad
Análisis de actividad basado en la atención ^[14]
Análisis de interacción social ^[15]
Análisis de la postura de la mano ^[16]
Interfaces gráficas de usuario (EUI) Ego ^[17]
Comprender la dinámica social y la atención ^[18]
Revisando la visión robótica y la visión artificial como percepción egocéntrica ^[19]
Previsión de actividad ^[20]

Desafíos técnicos

Las cámaras portátiles de hoy son dispositivos de grabación digital pequeños y livianos que pueden adquirir imágenes y videos automáticamente, sin la intervención del usuario, con diferentes resoluciones y velocidades de cuadro, y desde un punto de vista en primera persona. Por lo tanto, las cámaras portátiles están preparadas naturalmente para recopilar información visual de nuestras interacciones diarias, ya que ofrecen una perspectiva íntima del campo visual del usuario de la cámara.

Dependiendo de la velocidad de fotogramas, es común distinguir entre cámaras fotográficas (también llamadas cámaras de registro de vida) y cámaras de video.

Los primeros (por ejemplo, Narrative Clip y Microsoft SenseCam ), se usan comúnmente en el pecho y se caracterizan por una velocidad de cuadros muy baja (hasta 2 fpm) que permite capturar imágenes durante un largo período de tiempo sin la necesidad de recargar el batería. En consecuencia, ofrecen un potencial considerable para inferir conocimientos sobre, por ejemplo, patrones de comportamiento, hábitos o estilo de vida del usuario. Sin embargo, debido a la baja velocidad de fotogramas y al movimiento libre de la cámara, las imágenes temporalmente adyacentes suelen presentar cambios de apariencia abruptos, por lo que las características de movimiento no se pueden estimar de forma fiable.
Estos últimos (por ejemplo, Google Glass , GoPro ), se montan comúnmente en la cabeza y capturan video convencional (alrededor de 35 fps) que permite capturar finos detalles temporales de interacciones. En consecuencia, ofrecen potencial para un análisis en profundidad de actividades diarias o especiales. Sin embargo, dado que la cámara se mueve con la cabeza del usuario, resulta más difícil estimar el movimiento global del usuario y, en el caso de movimientos bruscos, las imágenes pueden resultar borrosas.

En ambos casos, dado que la cámara se usa en un entorno naturalista, los datos visuales presentan una gran variabilidad en términos de condiciones de iluminación y apariencia del objeto. Además, el usuario de la cámara no es visible en la imagen y lo que está haciendo debe inferirse de la información en el campo visual de la cámara, lo que implica que información importante sobre el usuario, como por ejemplo, la pose o la estimación de la expresión facial. , no está disponible.

Aplicaciones

Una colección de estudios publicados en un número especial del American Journal of Preventive Medicine ^[21] ha demostrado el potencial de los registros de vida capturados a través de cámaras portátiles desde varios puntos de vista. En particular, se ha demostrado que utilizados como herramienta para la comprensión y seguimiento de los hábitos de vida, los registros de vida permitirían la prevención de enfermedades no transmisibles asociadas a tendencias poco saludables y perfiles de riesgo (como obesidad, depresión, etc.). Además, utilizado como una herramienta de entrenamiento cognitivo de re-memoria, los registros de vida permitirían la prevención del deterioro cognitivo y funcional en las personas mayores.

Más recientemente, las cámaras egocéntricas se han utilizado para estudiar la cognición humana y animal, la interacción social humano-humano, la interacción humano-robot, la experiencia humana en tareas complejas. Otras aplicaciones incluyen navegación / tecnologías de asistencia para ciegos, ^[22] monitoreo y asistencia de flujos de trabajo industriales, ^[23]^[24] e interfaces de realidad aumentada . ^[5]

Ver también

Referencias

^ Una introducción al tercer taller sobre visión egocéntrica (en primera persona), Steve Mann, Kris M. Kitani, Yong Jae Lee, MS Ryoo y Alireza Fathi, IEEE Conference on Computer Vision and Pattern Recognition Workshops 2160-7508 / 14, 2014, IEEE DOI 10.1109 / CVPRW.2014.1338272014
^ Mann, S. (1998). Computación humanística: "WearComp" como nuevo marco y aplicación para el procesamiento inteligente de señales. Actas del IEEE, 86 (11), 2123-2151.
^ Haykin, Simon S. y Bart Kosko. Procesamiento de señal inteligente. Prensa de Wiley-IEEE, 2001.
^ "IA portátil", Steve Mann, Li-Te Cheng, John Robinson, Kaoru Sumi, Toyoaki Nishida, Soichiro Matsushita, Ömer Faruk Özer, Oguz Özun, C. Öncel Tüzel, Volkan Atalay, A. Enis Cetin, Joshua Anhalt, Asim Smailagic, Daniel P. Siewiorek, Francine Gemperle, Daniel Salber, Weber, Jim Beck, Jim Jennings y David A. Ross, IEEE Intelligent Systems 16 (3), 2001, páginas 0 (portada) a 53.
↑ ^a ^b Mann, S. (2000, octubre). Telepointer: realidad aumentada visual portátil completamente autónoma, manos libres, sin sombreros y sin ninguna dependencia de infraestructura. En Digest of Papers. Cuarto Simposio Internacional sobre Computadoras Portátiles (págs. 177-178). IEEE.
^ Doherty, AR, Hodges, SE, King, AC, Smeaton, AF, Berry, E., Moulin, CJ, ... y Foster, C. (2013). Cámaras portátiles en salud. Revista estadounidense de medicina preventiva, 44 (3), 320-323.
^ Bolaños, M., Dimiccoli, M. y Radeva, P. (2017). Hacia la narración desde el registro visual de la vida: una visión general. Transacciones IEEE en sistemas hombre-máquina, 47 (1), 77-90.
^ Kanade, T. y Hebert, M. (2012). Visión en primera persona. Actas del IEEE, 100 (8), 2442-2453.
^ Fathi, A., Farhadi, A. y Rehg, JM (2011, noviembre). Comprender las actividades egocéntricas. En Computer Vision (ICCV), 2011 IEEE International Conference on (págs. 407-414). IEEE.
^ Fathi, A., Hodgins, JK y Rehg, JM (2012, junio). Interacciones sociales: una perspectiva en primera persona. En Visión por Computadora y Reconocimiento de Patrones (CVPR), Conferencia IEEE 2012 en (págs. 1226-1233). IEEE.
^ Poleg, Y., Arora, C. y Peleg, S. (2014). Segmentación temporal de videos egocéntricos. En Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones (págs. 2537-2544).
^ Lee, YJ, Ghosh, J. y Grauman, K. (2012, junio). Descubrir personas y objetos importantes para resúmenes de videos egocéntricos. En Visión por Computadora y Reconocimiento de Patrones (CVPR), Conferencia IEEE 2012 en (págs. 1346-1353). IEEE.
^ Park, HS, Jain, E. y Sheikh, Y. (2012). Relevancia social 3D de cámaras montadas en la cabeza. En Avances en sistemas de procesamiento de información neuronal (págs. 422-430).
^ Su, YC y Grauman, K. (octubre de 2016). Detectando participación en video egocéntrico. En European Conference on Computer Vision (págs. 454-471). Springer International Publishing.
^ Fathi, A., Hodgins, JK y Rehg, JM (2012, junio). Interacciones sociales: una perspectiva en primera persona. En Visión por Computadora y Reconocimiento de Patrones (CVPR), Conferencia IEEE 2012 en (págs. 1226-1233). IEEE.
^ Rogez, G., Supancic, JS y Ramanan, D. (2015). Reconocimiento de pose en primera persona utilizando espacios de trabajo egocéntricos. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones (págs. 4325-4333).
^ Mann, S., Janzen, R., Ai, T., Yasrebi, SN, Kawwa, J. y Ali, MA (mayo de 2014). Toposculpting: Lightpainting computacional y fotografía computacional portátil para interfaces de usuario abacográficas. En Ingeniería Eléctrica e Informática (CCECE), 2014 IEEE 27th Canadian Conference on (págs. 1-10). IEEE.
^ Bettadapura, V., Essa, I. y Pantofaru, C. (enero de 2015). Localización egocéntrica del campo de visión utilizando dispositivos de punto de vista en primera persona. En Aplicaciones de la visión por computadora (WACV), Conferencia de invierno de IEEE 2015 en (págs. 626-633). IEEE
^ Ji, P., Song, A., Xiong, P., Yi, P., Xu, X. y Li, H. (2017). Sistema de control de la postura de la mano basado en visión egocéntrica para robots de reconocimiento. Revista de sistemas inteligentes y robóticos, 87 (3-4), 583-599.
^ Bokhari, SZ y Kitani, KM (noviembre de 2016). Previsión de actividades a largo plazo mediante visión en primera persona. En Asian Conference on Computer Vision (págs. 346-360). Springer, Cham
^ Doherty, AR, Hodges, SE, King, AC, Smeaton, AF, Berry, E., Moulin, CJ, ... y Foster, C. (2013). Cámaras portátiles en salud. Revista estadounidense de medicina preventiva, 44 (3), 320-323.
^ Yagi, T., Mangalam, K., Yonetani, R. y Sato, Y. (2017). Localización de personas futuras en videos en primera persona. preimpresión de arXiv arXiv : 1711.11217 .
^ Leelasawassuk, T., Damen, D. y Mayol-Cuevas, W. (2017, marzo). Captura y entrega automatizadas de la guía de tareas de asistencia con una computadora para anteojos: el sistema GlaciAR
^ Edmunds, SR, Rozga, A., Li, Y., Karp, EA, Ibanez, LV, Rehg, JM y Stone, WL (2017). Breve informe: Uso de una cámara de punto de vista para medir la mirada en niños pequeños con trastorno del espectro autista durante interacciones sociales naturalistas: un estudio piloto. Revista de autismo y trastornos del desarrollo, 47 (3), 898-904.

[1] Una introducción al tercer taller sobre visión egocéntrica (en primera persona), Steve Mann, Kris M. Kitani, Yong Jae Lee, MS Ryoo y Alireza Fathi, IEEE Conference on Computer Vision and Pattern Recognition Workshops 2160-7508 / 14, 2014, IEEE DOI 10.1109 / CVPRW.2014.1338272014

[2] Mann, S. (1998). Computación humanística: "WearComp" como nuevo marco y aplicación para el procesamiento inteligente de señales. Actas del IEEE, 86 (11), 2123-2151.

[3] Haykin, Simon S. y Bart Kosko. Procesamiento de señal inteligente. Prensa de Wiley-IEEE, 2001.

[4] "IA portátil", Steve Mann, Li-Te Cheng, John Robinson, Kaoru Sumi, Toyoaki Nishida, Soichiro Matsushita, Ömer Faruk Özer, Oguz Özun, C. Öncel Tüzel, Volkan Atalay, A. Enis Cetin, Joshua Anhalt, Asim Smailagic, Daniel P. Siewiorek, Francine Gemperle, Daniel Salber, Weber, Jim Beck, Jim Jennings y David A. Ross, IEEE Intelligent Systems 16 (3), 2001, páginas 0 (portada) a 53.

[Mann-5] Mann, S. (2000, octubre). Telepointer: realidad aumentada visual portátil completamente autónoma, manos libres, sin sombreros y sin ninguna dependencia de infraestructura. En Digest of Papers. Cuarto Simposio Internacional sobre Computadoras Portátiles (págs. 177-178). IEEE.

[6] Doherty, AR, Hodges, SE, King, AC, Smeaton, AF, Berry, E., Moulin, CJ, ... y Foster, C. (2013). Cámaras portátiles en salud. Revista estadounidense de medicina preventiva, 44 (3), 320-323.

[7] Bolaños, M., Dimiccoli, M. y Radeva, P. (2017). Hacia la narración desde el registro visual de la vida: una visión general. Transacciones IEEE en sistemas hombre-máquina, 47 (1), 77-90.

[8] Kanade, T. y Hebert, M. (2012). Visión en primera persona. Actas del IEEE, 100 (8), 2442-2453.

[9] Fathi, A., Farhadi, A. y Rehg, JM (2011, noviembre). Comprender las actividades egocéntricas. En Computer Vision (ICCV), 2011 IEEE International Conference on (págs. 407-414). IEEE.

[10] Fathi, A., Hodgins, JK y Rehg, JM (2012, junio). Interacciones sociales: una perspectiva en primera persona. En Visión por Computadora y Reconocimiento de Patrones (CVPR), Conferencia IEEE 2012 en (págs. 1226-1233). IEEE.

[11] Poleg, Y., Arora, C. y Peleg, S. (2014). Segmentación temporal de videos egocéntricos. En Actas de la Conferencia IEEE sobre Visión por Computador y Reconocimiento de Patrones (págs. 2537-2544).

[12] Lee, YJ, Ghosh, J. y Grauman, K. (2012, junio). Descubrir personas y objetos importantes para resúmenes de videos egocéntricos. En Visión por Computadora y Reconocimiento de Patrones (CVPR), Conferencia IEEE 2012 en (págs. 1346-1353). IEEE.

[13] Park, HS, Jain, E. y Sheikh, Y. (2012). Relevancia social 3D de cámaras montadas en la cabeza. En Avances en sistemas de procesamiento de información neuronal (págs. 422-430).

[14] Su, YC y Grauman, K. (octubre de 2016). Detectando participación en video egocéntrico. En European Conference on Computer Vision (págs. 454-471). Springer International Publishing.

[15] Fathi, A., Hodgins, JK y Rehg, JM (2012, junio). Interacciones sociales: una perspectiva en primera persona. En Visión por Computadora y Reconocimiento de Patrones (CVPR), Conferencia IEEE 2012 en (págs. 1226-1233). IEEE.

[16] Rogez, G., Supancic, JS y Ramanan, D. (2015). Reconocimiento de pose en primera persona utilizando espacios de trabajo egocéntricos. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones (págs. 4325-4333).

[17] Mann, S., Janzen, R., Ai, T., Yasrebi, SN, Kawwa, J. y Ali, MA (mayo de 2014). Toposculpting: Lightpainting computacional y fotografía computacional portátil para interfaces de usuario abacográficas. En Ingeniería Eléctrica e Informática (CCECE), 2014 IEEE 27th Canadian Conference on (págs. 1-10). IEEE.

[18] Bettadapura, V., Essa, I. y Pantofaru, C. (enero de 2015). Localización egocéntrica del campo de visión utilizando dispositivos de punto de vista en primera persona. En Aplicaciones de la visión por computadora (WACV), Conferencia de invierno de IEEE 2015 en (págs. 626-633). IEEE

[19] Ji, P., Song, A., Xiong, P., Yi, P., Xu, X. y Li, H. (2017). Sistema de control de la postura de la mano basado en visión egocéntrica para robots de reconocimiento. Revista de sistemas inteligentes y robóticos, 87 (3-4), 583-599.

[20] Bokhari, SZ y Kitani, KM (noviembre de 2016). Previsión de actividades a largo plazo mediante visión en primera persona. En Asian Conference on Computer Vision (págs. 346-360). Springer, Cham

[21] Doherty, AR, Hodges, SE, King, AC, Smeaton, AF, Berry, E., Moulin, CJ, ... y Foster, C. (2013). Cámaras portátiles en salud. Revista estadounidense de medicina preventiva, 44 (3), 320-323.

[22] Yagi, T., Mangalam, K., Yonetani, R. y Sato, Y. (2017). Localización de personas futuras en videos en primera persona. preimpresión de arXiv arXiv : 1711.11217 .

[23] Leelasawassuk, T., Damen, D. y Mayol-Cuevas, W. (2017, marzo). Captura y entrega automatizadas de la guía de tareas de asistencia con una computadora para anteojos: el sistema GlaciAR

[24] Edmunds, SR, Rozga, A., Li, Y., Karp, EA, Ibanez, LV, Rehg, JM y Stone, WL (2017). Breve informe: Uso de una cámara de punto de vista para medir la mirada en niños pequeños con trastorno del espectro autista durante interacciones sociales naturalistas: un estudio piloto. Revista de autismo y trastornos del desarrollo, 47 (3), 898-904.

[1]