Interacción multimodal

La interacción multimodal proporciona al usuario múltiples modos de interactuar con un sistema. Una interfaz multimodal proporciona varias herramientas distintas para la entrada y salida de datos.

Introducción

La interacción multimodal humano-computadora se refiere a la "interacción con el entorno virtual y físico a través de modos naturales de comunicación", ^[1] Esto implica que la interacción multimodal permite una comunicación más libre y natural, interconectando a los usuarios con sistemas automatizados tanto en entrada como en salida. ^[2] Específicamente, los sistemas multimodales pueden ofrecer un entorno flexible, eficiente y utilizable que permite a los usuarios interactuar a través de modalidades de entrada, como habla , escritura a mano , gestos con la mano y mirada , y recibir información del sistema a través de modalidades de salida, como la síntesis de voz. , gráficos inteligentes y otras modalidades, oportunamente combinadas. Entonces, un sistema multimodal tiene que reconocer las entradas de las diferentes modalidades combinándolas de acuerdo con las limitaciones temporales y contextuales ^[3] para permitir su interpretación. Este proceso se conoce como fusión multimodal y es objeto de varios trabajos de investigación desde los años noventa hasta la actualidad. ^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[11] Las entradas con fusibles son interpretadas por el sistema. La naturalidad y la flexibilidad pueden producir más de una interpretación para cada modalidad (canal) diferente y para su uso simultáneo, y en consecuencia pueden producir ambigüedad multimodal ^[12] generalmente por imprecisiones, ruidos u otros factores similares. Para resolver ambigüedades, se han propuesto varios métodos. ^[13]^[14]^[15]^[16]^[17]^[18] Finalmente, el sistema regresa a las salidas del usuario a través de varios canales modales (desagregados) dispuestos de acuerdo con una retroalimentación consistente (fisión). ^[19] El uso generalizado de dispositivos móviles, sensores y tecnologías web puede ofrecer recursos computacionales adecuados para gestionar la complejidad que implica la interacción multimodal. "El uso de la nube para involucrar recursos computacionales compartidos en la gestión de la complejidad de la interacción multimodal representa una oportunidad. De hecho, la computación en la nube permite ofrecer recursos informáticos compartidos, escalables y configurables que se pueden aprovisionar y liberar de forma dinámica y automática". ^[20]

Entrada multimodal

Se han fusionado dos grupos principales de interfaces multimodales, uno relacionado con los métodos de entrada alternativos y el otro con la entrada / salida combinada. El primer grupo de interfaces combinó varios modos de entrada del usuario más allá de la entrada / salida tradicional del teclado y el mouse , como el habla, el lápiz, el tacto, los gestos manuales, ^{[21] la} mirada y los movimientos de la cabeza y el cuerpo. ^[22] La interfaz más común combina una modalidad visual (por ejemplo, una pantalla, teclado y mouse) con una modalidad de voz ( reconocimiento de voz para entrada, síntesis de voz y audio grabado para salida). Sin embargo, se pueden utilizar otras modalidades, como la entrada basada en lápiz o la entrada / salida háptica . Las interfaces de usuario multimodales son un área de investigación en la interacción humano-computadora (HCI).

La ventaja de las modalidades de entrada múltiple es una mayor usabilidad : las debilidades de una modalidad se compensan con las fortalezas de otra. En un dispositivo móvil con una pequeña interfaz visual y un teclado, una palabra puede ser bastante difícil de escribir pero muy fácil de decir (por ejemplo, Poughkeepsie ). Considere cómo accedería y buscaría a través de catálogos de medios digitales desde estos mismos dispositivos o decodificadores. Y en un ejemplo del mundo real, los miembros del equipo quirúrgico acceden verbalmente a la información del paciente en un entorno de quirófano para mantener un entorno antiséptico, y se presenta casi en tiempo real de forma auditiva y visual para maximizar la comprensión.

Las interfaces de usuario de entrada multimodal tienen implicaciones para la accesibilidad . ^[23] Una aplicación multimodal bien diseñada puede ser utilizada por personas con una amplia variedad de discapacidades. Los usuarios con discapacidad visual confían en la modalidad de voz con alguna entrada de teclado. Los usuarios con discapacidad auditiva confían en la modalidad visual con alguna entrada de voz. Otros usuarios tendrán "problemas de situación" (por ejemplo, usar guantes en un entorno muy ruidoso, conducir o necesitar ingresar un número de tarjeta de crédito en un lugar público) y simplemente usarán las modalidades apropiadas según se desee. Por otro lado, una aplicación multimodal que requiere que los usuarios puedan operar todas las modalidades está muy mal diseñada.

La forma más común de multimodalidad de entrada en el mercado hace uso del lenguaje de marcado web XHTML + Voice (también conocido como X + V), una especificación abierta desarrollada por IBM , Motorola y Opera Software . El W3C está considerando actualmente X + V y combina varias recomendaciones del W3C, incluido XHTML para el marcado visual, VoiceXML para el marcado de voz y XML Events , un estándar para la integración de lenguajes XML . Navegadores multimodales de apoyo X + V incluyen IBM WebSphere Everyplace Multimodal Medio Ambiente, Opera de Embedded Linux y de Windows , y el acceso a los sistemas NetFront para Windows Mobile . Para desarrollar aplicaciones multimodales, los desarrolladores de software pueden utilizar un kit de desarrollo de software , tales como IBM WebSphere Multimodal Toolkit, basado en el código abierto Eclipse marco , que incluye una X + V depurador , editor y simulador . ^{[ cita requerida ]}

Análisis de sentimiento multimodal

El análisis de sentimiento multimodal es una nueva dimensión ^{[ término de pavo real ]} del análisis de sentimiento tradicional basado en texto , que va más allá del análisis de textos e incluye otras modalidades como datos de audio y visuales. ^[24] Puede ser bimodal, que incluye diferentes combinaciones de dos modalidades, o trimodal, que incorpora tres modalidades. ^[25] Con la gran cantidad de datos de redes sociales disponibles en línea en diferentes formas, como videos e imágenes, el análisis de sentimiento convencional basado en texto se ha convertido en modelos más complejos de análisis de sentimiento multimodal, ^[26] que se puede aplicar en el desarrollo de asistentes virtuales , ^[27] análisis de reseñas de películas de YouTube, ^[28] análisis de videos de noticias, ^[29] y reconocimiento de emociones (a veces conocido como detección de emociones ) como monitoreo de depresión , ^[30] entre otros.

Similar al análisis de sentimiento tradicional , una de las tareas más básicas en el análisis de sentimiento multimodal es la clasificación de sentimiento , que clasifica diferentes sentimientos en categorías como positivo, negativo o neutral. ^[31] La complejidad de analizar texto, audio y características visuales para realizar tal tarea requiere la aplicación de diferentes técnicas de fusión, como la fusión a nivel de característica, nivel de decisión y fusión híbrida. ^[26] El rendimiento de estas técnicas de fusión y los algoritmos de clasificación aplicados están influenciados por el tipo de características textuales, de audio y visuales empleadas en el análisis. ^[32]

Salida multimodal

El segundo grupo de sistemas multimodales presenta a los usuarios pantallas multimedia y salida multimodal, principalmente en forma de señales visuales y auditivas. Los diseñadores de interfaces también han comenzado a hacer uso de otras modalidades, como el tacto y el olfato. Los beneficios propuestos del sistema de salida multimodal incluyen sinergia y redundancia. La información que se presenta a través de varias modalidades se fusiona y se refiere a varios aspectos del mismo proceso. El uso de varias modalidades para procesar exactamente la misma información proporciona un mayor ancho de banda de transferencia de información. ^[33]^[34]^[35] Actualmente, la salida multimodal se utiliza principalmente para mejorar el mapeo entre el medio de comunicación y el contenido y para apoyar la gestión de la atención en un entorno rico en datos donde los operadores enfrentan demandas de atención visual considerables. ^[36]

Un paso importante en el diseño de interfaces multimodales es la creación de mapeos naturales entre las modalidades y la información y las tareas. El canal auditivo se diferencia de la visión en varios aspectos. Es omnidireccional, transitorio y siempre reservado. ^[36] La salida del habla, una forma de información auditiva, recibió una atención considerable. Se han desarrollado varias pautas para el uso del habla. Michaelis y Wiggins (1982) sugirieron que la salida de voz debería usarse para mensajes cortos simples a los que no se hará referencia más adelante. También se recomendó que el habla se genere a tiempo y requiera una respuesta inmediata.

El sentido del tacto se utilizó por primera vez como medio de comunicación a fines de la década de 1950. ^[37] No solo es un canal de comunicación prometedor, sino también único. A diferencia de la visión y el oído, los dos sentidos tradicionales empleados en HCI, el sentido del tacto es proximal: detecta objetos que están en contacto con el cuerpo y es bidireccional porque apoya tanto la percepción como la actuación sobre el entorno.

Los ejemplos de retroalimentación auditiva incluyen íconos auditivos en sistemas operativos de computadora que indican las acciones de los usuarios (por ejemplo, eliminar un archivo, abrir una carpeta, error), salida de voz para presentar guía de navegación en vehículos y salida de voz para pilotos de advertencia en cabinas de aviones modernos. Entre los ejemplos de señales táctiles se incluyen las vibraciones de la palanca de los intermitentes para advertir a los conductores de un automóvil en su punto ciego, la vibración del asiento del automóvil como advertencia para los conductores y el vibrador de palanca en los aviones modernos que alerta a los pilotos sobre una pérdida inminente. ^[36]

Los espacios de interfaz invisibles se hicieron disponibles gracias a la tecnología de sensores. Los infrarrojos, los ultrasonidos y las cámaras son ahora de uso común. ^{[38] La} transparencia de la interfaz con el contenido se mejora al proporcionar un enlace inmediato y directo a través de un mapeo significativo, por lo que el usuario tiene retroalimentación directa e inmediata a la entrada y la respuesta del contenido se convierte en una interfaz accesible (Gibson 1979).

Fusión multimodal

El proceso de integrar información de varias modalidades de entrada y combinarlas en un comando completo se conoce como fusión multimodal. ^[5] En la literatura, se han propuesto tres enfoques principales del proceso de fusión, de acuerdo con los principales niveles arquitectónicos (reconocimiento y decisión) en los que se puede realizar la fusión de las señales de entrada: basado en el reconocimiento, ^[9]^[10]^[39] basado en decisiones, ^[7]^[8]^[11]^[40]^[41]^[42]^[43] y fusión híbrida multinivel. ^[4]^[6]^[44]^[45]^[46]^[47]^[48]^[49]

La fusión basada en reconocimiento (también conocida como fusión temprana) consiste en fusionar los resultados de cada reconocedor modal mediante el uso de mecanismos de integración, como, por ejemplo, técnicas de integración estadística, teoría de agentes, modelos ocultos de Markov, redes neuronales artificiales, etc. Ejemplos de las estrategias de fusión basadas en el reconocimiento son el marco de acción, ^[39] los vectores de entrada ^[9] y las ranuras. ^[10]

La fusión basada en decisiones (también conocida como fusión tardía) fusiona la información semántica que se extrae mediante el uso de procedimientos de fusión específicos impulsados por el diálogo para producir la interpretación completa. Ejemplos de estrategias de fusión basadas en decisiones son estructuras de características tipificadas, ^[40]^[45] ollas de fusión, ^[42]^[43] marcos semánticos, ^[7]^[11] y celosías con sello de tiempo. ^[8]

Las aplicaciones potenciales para la fusión multimodal incluyen entornos de aprendizaje, relaciones con el consumidor, seguridad / vigilancia, animación por computadora, etc. Individualmente, los modos se definen fácilmente, pero surge la dificultad de que la tecnología los considere una fusión combinada. ^[50] Es difícil para los algoritmos factorizar la dimensionalidad; existen variables fuera de las capacidades de cálculo actuales. Por ejemplo, significado semántico: dos oraciones pueden tener el mismo significado léxico pero diferente información emocional. ^[50]

En la fusión híbrida multinivel, la integración de modalidades de entrada se distribuye entre los niveles de reconocimiento y decisión. La fusión híbrida multinivel incluye las siguientes tres metodologías: transductores de estado finito, ^[45] gramáticas multimodales ^[6]^[44]^[46]^[47]^[48]^[49]^[51] y movimientos de diálogo. ^[52]

Ambigüedad

Las acciones o comandos del usuario producen entradas multimodales (mensaje multimodal ^[3] ), que deben ser interpretadas por el sistema. El mensaje multimodal es el medio que permite la comunicación entre los usuarios y los sistemas multimodales. Se obtiene fusionando información que se transmite a través de varias modalidades considerando los diferentes tipos de cooperación entre varias modalidades, ^[53] las relaciones de tiempo ^[54] entre las modalidades involucradas y las relaciones entre fragmentos de información conectados con estas modalidades. ^[55]

El mapeo natural entre el input multimodal, que es proporcionado por varias modalidades de interacción (canal visual y auditivo y sentido del tacto), e información y tareas implican manejar los problemas típicos de la comunicación humano-humano, como la ambigüedad. Surge una ambigüedad cuando es posible más de una interpretación de la entrada. Una ambigüedad multimodal ^[12] surge tanto si un elemento, que es proporcionado por una modalidad, tiene más de una interpretación (es decir, las ambigüedades se propagan a nivel multimodal), como si los elementos, conectados con cada modalidad, se interpretan unívocamente , pero la información referida a diferentes modalidades es incoherente a nivel sintáctico o semántico (es decir, una oración multimodal que tiene diferentes significados o diferente estructura sintáctica).

En "La gestión de ambigüedades", ^[14] los métodos para resolver ambigüedades y para proporcionar la interpretación correcta de la entrada del usuario se organizan en tres clases principales: prevención, resolución a posteriori y métodos de resolución de aproximación. ^[13]^[15]

Los métodos de prevención imponen a los usuarios seguir un comportamiento de interacción predefinido de acuerdo con un conjunto de transiciones entre diferentes estados permitidos del proceso de interacción. Ejemplos de métodos de prevención son: método procedimental, ^[56] reducción del poder expresivo de la gramática del lenguaje, ^[57] mejora del poder expresivo de la gramática del lenguaje. ^[58]

La resolución a posteriori de ambigüedades utiliza un enfoque de mediación. ^[16] Ejemplos de técnicas de mediación son: repetición, por ejemplo, repetición por modalidad, ^[16] granularidad de reparación ^[59] y deshacer, ^[17] y elección. ^[18]

Los métodos de resolución de aproximación no requieren la participación del usuario en el proceso de desambiguación. Todos pueden requerir el uso de algunas teorías, como la lógica difusa , el campo aleatorio de Markov , las redes bayesianas y los modelos de Markov ocultos . ^[13]^[15]

Ver también

Independencia del dispositivo
Sistema biométrico multimodal
Búsqueda multimodal
Reconocimiento de voz
Actividad de interacción multimodal del W3C : una iniciativa del W3C que tiene como objetivo proporcionar medios (principalmente XML ) para respaldar los escenarios de interacción multimodal en la Web.
Accesibilidad web
Guante con cable
XHTML + Voice

Referencias

^ Bourguet, ML (2003). " Diseño y Prototipado de Comandos Multimodales ". Proceedings of Human-Computer Interaction (INTERACT'03), págs. 717-720.
^ Stivers, T., Sidnell, J. Introducción: Interacción multimodal. Semiotica, 156 (1/4), págs. 1-20. 2005.
↑ a b Caschera MC, Ferri F., Grifoni P. (2007). " Sistemas de interacción multimodal: características de información y tiempo ". Revista Internacional de Servicios Web y Grid (IJWGS), vol. 3 - Número 1, págs. 82-99.
↑ a b D'Ulizia, A., Ferri, F. y Grifoni, P. (2010). "Generación de gramáticas multimodales para el procesamiento del diálogo multimodal". IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, Vol 40, no 6, pp. 1130-1145.
↑ a b D'Ulizia, A. (2009). " Explorando estrategias de fusión de entrada multimodal ". En: Grifoni P (ed) Manual de investigación sobre interacción humano-computadora multimodal y servicios generalizados: técnicas evolutivas para mejorar la accesibilidad. Publicaciones IGI, págs. 34-57.
^ a b c Sun, Y., Shi, Y., Chen, F. y Chung, V. (2007). "Un procesador de lenguaje multimodal eficiente para cadenas de entrada paralelas en fusión de entrada multimodal", en Proc. de la Conferencia Internacional sobre Computación Semántica, págs. 389-396.
↑ a b c Russ, G., Sallans, B., Hareter, H. (2005). " Fusión de información basada en semántica en una interfaz multimodal ". Conferencia internacional sobre la interacción persona-computadora (HCI'05), Las Vegas, Nevada, EE. UU., 20-23 de junio, págs. 94-100.
^ a b c Corradini, A., Mehta M., Bernsen, NO, Martin, J.-C. (2003). "Fusión de entrada multimodal en la interacción humano-computadora en el ejemplo del proyecto NICE en curso". En Actas de la conferencia OTAN-ASI sobre fusión de datos para el monitoreo de situaciones, detección de incidentes, gestión de alertas y respuestas, Ereván, Armenia.
↑ a b c Pavlovic, VI, Berry, GA, Huang, TS (1997). " Integración de información audio / visual para su uso en la interacción inteligente humano-computadora ". Actas de la Conferencia Internacional sobre Procesamiento de Imágenes de 1997 (ICIP '97), Volumen 1, págs. 121-124.
↑ a b c Andre, M., Popescu, VG, Shaikh, A., Medl, A., Marsic, I., Kulikowski, C., Flanagan JL (1998). " Integración del habla y el gesto para la interacción humano-computadora multimodal ". En Segunda Conferencia Internacional sobre Comunicación Cooperativa Multimodal. 28-30 de enero, Tilburg, Países Bajos.
↑ a b c Vo, MT, Wood, C. (1996). " Construcción de un marco de aplicación para la integración de entrada de voz y lápiz en interfaces de aprendizaje multimodal ". En Proceedings of the Acoustics, Speech, and Signal Processing (ICASSP'96), del 7 al 10 de mayo, IEEE Computer Society, Volumen 06, págs. 3545-3548.
↑ a b Caschera, MC, Ferri, F., Grifoni, P. (2013). " De las ambigüedades modales a las multimodales: un enfoque de clasificación ", Journal of Next Generation Information Technology (JNIT), vol. 4, núm. 5, págs. 87-109.
↑ a b c Caschera, MC, Ferri, F., Grifoni, P. (2013). InteSe: An Integrated Model for Resolving Ambiguities in Multimodal Sentences ". IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volume: 43, Issue: 4, pp. 911 - 931.18. Spilker, J., Klarner, M., Görz , G. (2000). "Processing Self Corrections in a speech to speech system", COLING 2000. pp. 1116-1120.
↑ a b Caschera MC, Ferri F., Grifoni P., (2007). "La Gestión de las ambigüedades". En Lenguajes Visuales para Computación Interactiva: Definiciones y Formalizaciones. Publicaciones IGI. pp.129-140.
^ a b c J. Chai, P. Hong y MX Zhou, (2004). "Un enfoque probabilístico para la resolución de referencia en la interfaz de usuario multimodal" en Proc. 9º Int. Conf. Intell. User Interf., Madeira, Portugal, enero de 2004, págs. 70–77.
↑ a b c Dey, AK Mankoff, J., (2005). " Diseño de mediación para aplicaciones contextuales ". ACM Trans. Computación-Hum. Interactuar. 12 (1), págs. 53-80.
↑ a b Spilker, J., Klarner, M., Görz, G. (2000). "Procesamiento de autocorrecciones en un sistema de voz a voz". COLING 2000. págs. 1116-1120.
↑ a b Mankoff, J., Hudson, SE, Abowd, GD (2000). " Proporcionar soporte integrado a nivel de juego de herramientas para la ambigüedad en interfaces basadas en reconocimiento ". Actas de la Conferencia ACM CHI'00 sobre factores humanos en sistemas informáticos. págs. 368 - 375.
^ Grifoni P (2009) Fisión multimodal. En: Interacción hombre-computadora multimodal y servicios omnipresentes. IGI Global, págs. 103–120
^ Patrizia Grifoni, Fernando Ferri, Maria Chiara Caschera, Arianna D'Ulizia, Mauro Mazzei, "MIS: Servicios de interacción multimodal en una perspectiva de nube", JNIT: Revista de tecnología de la información de próxima generación, vol. 5, núm. 4, págs. 01 ~ 10, 2014
^ Kettebekov, Sanshzar y Rajeev Sharma (2001). " Hacia el control natural de los gestos y el habla en una pantalla grande ". Actas EHCI '01 Actas de la 8a Conferencia Internacional IFIP sobre Ingeniería para la Interacción Hombre-Computadora Páginas 221-234
^ Marius Vassiliou, V. Sundareswaran, S. Chen, R. Behringer, C. Tam, M. Chan, P. Bangayan y J. McGee (2000), "Interfaz humana-computadora multimodal integrada y realidad aumentada para aplicaciones de pantalla interactiva , "en Darrel G. Hopper (ed.) Cockpit Displays VII: Displays para aplicaciones de defensa (Proc. SPIE. 4022), 106-115. ISBN 0-8194-3648-8
^ Vitense, HS; Jacko, JA; Emery, VK (2002). "Retroalimentación multimodal: establecimiento de una línea de base de rendimiento para un mejor acceso de las personas con discapacidad visual". Conf. ACM sobre tecnologías de asistencia .
^ Soleymani, Mohammad; García, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (septiembre de 2017). "Una encuesta de análisis de sentimiento multimodal" . Computación de imagen y visión . 65 : 3-14. doi : 10.1016 / j.imavis.2017.08.003 .
^ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, árabe (2008). "Interacción persona-computadora: descripción general sobre el estado del arte" (PDF) . Revista internacional sobre detección inteligente y sistemas inteligentes . 1 : 137-159. doi : 10.21307 / ijssis-2017-283 .
^ a b Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (septiembre de 2017). "Una revisión de la computación afectiva: del análisis unimodal a la fusión multimodal" . Fusión de información . 37 : 98-125. doi : 10.1016 / j.inffus.2017.02.003 . hdl : 1893/25490 .
^ "Google AI para hacer llamadas telefónicas por usted" . BBC News . 8 de mayo de 2018 . Consultado el 12 de junio de 2018 .
^ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (mayo de 2013). "Reseñas de películas de YouTube: análisis de sentimientos en un contexto audiovisual". Sistemas inteligentes IEEE . 28 (3): 46–53. doi : 10.1109 / MIS.2013.34 . S2CID 12789201 .
^ Pereira, Moisés HR; Pádua, Flávio LC; Pereira, Adriano CM; Benevenuto, Fabrício; Dalip, Daniel H. (9 de abril de 2016). "Fusionar características de audio, textuales y visuales para el análisis de sentimientos de videos de noticias". arXiv : 1604.02612 [ cs.CL ].
^ Zucco, Chiara; Calabrese, Barbara; Cannataro, Mario (noviembre de 2017). Análisis de sentimientos y computación afectiva para el seguimiento de la depresión . 2017 Conferencia Internacional IEEE sobre Bioinformática y Biomedicina (BIBM) . IEEE. págs. 1988–1995. doi : 10.1109 / bibm.2017.8217966 . ISBN 978-1-5090-3050-7. S2CID 24408937 .
^ Pang, Bo; Lee, Lillian (2008). Minería de opinión y análisis de sentimiento . Hanover, MA: Now Publishers. ISBN 978-1601981509.
^ Sun, Shiliang; Luo, Chen; Chen, Junyu (julio de 2017). "Una revisión de las técnicas de procesamiento del lenguaje natural para los sistemas de minería de opiniones". Fusión de información . 36 : 10-25. doi : 10.1016 / j.inffus.2016.10.004 .
^ Oviatt, S. (2002), "Multimodal interfaces", en Jacko, J .; Sears, A (eds.), The Human-Computer Interaction Handbook (PDF) , Lawrence Erlbaum
^ Bauckhage, C .; Fritsch, J .; Rohlfing, KJ; Wachsmuth, S .; Sagerer, G. (2002). "Evaluación de la comprensión integrada del habla y la imagen". En t. Conf. sobre interfaces multimodales . doi : 10.1109 / ICMI.2002.1166961 .
^ Ismail, NA; O'Brien, EA (2008). "Habilitación de la interacción multimodal en la exploración de fotografías digitales personales basadas en la web" (PDF) . En t. Conf. en Ingeniería Informática y de las Comunicaciones . Archivado desde el original (PDF) el 18 de julio de 2011 . Consultado el 3 de marzo de 2010 .
^ a b c Sarter, NB (2006). "Presentación de información multimodal: Orientación al diseño y desafíos de la investigación". Revista Internacional de Ergonomía Industrial . 36 (5): 439–445. doi : 10.1016 / j.ergon.2006.01.007 .
^ Geldar, FA (1957). "Aventuras en la alfabetización táctil". Psicólogo estadounidense . 12 (3): 115-124. doi : 10.1037 / h0040416 .
^ Brooks, A .; Petersson, E. (2007). "Paisajes sonoros: potenciales de aprendizaje no formal de VEs interactivos" . SIGGRAPH . doi : 10.1145 / 1282040.1282059 .
↑ a b Vo, MT (1998). " Un marco y un conjunto de herramientas para la construcción de interfaces de aprendizaje multimodal ", PhD. Tesis, Carnegie Mellon University, Pittsburgh, Estados Unidos.
^ a b Cohen, PR; Johnston, M .; McGee, D .; Oviatt, SL; Pittman, J .; Smith, IA; Chen, L .; Clow, J. (1997). "Quickset: Interacción multimodal para aplicaciones distribuidas", ACM Multimedia, págs. 31-40.
^ Johnston, M. (1998). " Análisis multimodal basado en unificación ". Actas de la 36ª Reunión Anual de la Asociación de Lingüística Computacional y la 17ª Conferencia Internacional sobre Lingüística Computacional (COLING-ACL '98), del 10 al 14 de agosto, Université de Montréal, Montreal, Quebec, Canadá. págs. 624-630.
^ a b Nigay, L .; Coutaz, J. (1995). " Una plataforma genérica para abordar el desafío multimodal ". Actas de la Conferencia sobre factores humanos en sistemas informáticos, ACM Press.
↑ a b Bouchet, J .; Nigay, L .; Ganille, T. (2004). " Componentes de software Icare para el rápido desarrollo de interfaces multimodales ". ICMI '04: Actas de la 6ª conferencia internacional sobre interfaces multimodales (Nueva York, NY, EE. UU.), ACM, págs. 251-258.
↑ a b D'Ulizia, A .; Ferri, F .; Grifoni P. (2007). " A Hybrid Grammar-Based Approach to Multimodal Languages Specification ", OTM 2007 Workshop Proceedings, 25-30 de noviembre de 2007, Vilamoura, Portugal, Springer-Verlag, Lecture Notes in Computer Science 4805, pp. 367-376.
↑ a b c Johnston, M .; Bangalore, S. (2000). " Análisis y comprensión multimodal de estados finitos ", en las actas de la Conferencia Internacional sobre Lingüística Computacional, Saarbruecken, Alemania.
^ a b Sol, Y .; Chen, F .; Shi, YD; Chung, V. (2006). " Un método novedoso para la fusión de datos multisensoriales en la interacción multimodal humano-computadora ". En Actas de la 20a conferencia del grupo de interés especial de interacción computadora-humano (CHISIG) de Australia sobre Interacción computadora-humano: diseño: actividades, artefactos y entornos, Sydney, Australia, págs. 401-404
↑ a b Shimazu, H .; Takashima, Y. (1995). "Gramática multimodal de cláusulas definidas", Systems and Computers in Japan, vol. 26, no 3, págs. 93-102.
↑ a b Johnston, M .; Bangalore, S. (2005). " Integración y comprensión multimodal de estados finitos " , Nat. Lang. Eng, vol. 11, no. 2, págs. 159-187.
^ a b Reitter, D .; Panttaja, EM; Cummins, F. (2004). "UI sobre la marcha: Generación de una interfaz de usuario multimodal", en Proc. de HLT-NAACL-2004, Boston, Massachusetts, EE. UU.
^ a b Guan, Ling. "Métodos y técnicas para la fusión de información multimodal" (PDF) . Sociedad de Circuitos y Sistemas .
↑ D'Ulizia, A .; Ferri, F .; Grifoni P. (2011). "Un algoritmo de aprendizaje para la inferencia gramatical multimodal", IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 41 (6), págs. 1495-1510.
^ Pérez, G .; Amores, G .; Manchón, P. (2005). "Dos estrategias para la fusión multimodal". En Proceedings of Multimodal Interaction for the Visualization and Exploration of Scientific Data, Trento, Italia, 26–32.
^ Martin, JC (1997). "Hacia la cooperación inteligente entre modalidades: el ejemplo de un sistema que permite la interacción multimodal con un mapa", Actas del Taller de la Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI'97) sobre 'Sistemas multimodales inteligentes', Nagoya, Japón
^ Allen, JF; Ferguson, G. (1994). "Acciones y eventos en la lógica del intervalo temporal", Journal of Logic and Computation, vol. 4, núm. 5, págs. 531–579
^ Bellik, Y. (2001). " Requisitos técnicos para una interacción multimodal exitosa ", Taller internacional sobre presentación de información y diálogo natural multimodal, Verona, Italia, 14 a 15 de diciembre
^ Lee, YC; Chin, F. (1995). "Un lenguaje de consulta icónico para la relación topológica en SIG". Revista internacional de sistemas de información geográfica 9 (1). págs. 25-46
↑ Calcinelli, D .; Mainguenaud, M. (1994). "Cigales, un lenguaje visual para sistema de información geográfica: la interfaz de usuario". Revista de Lenguajes Visuales y Computación 5 (2). págs. 113-132
^ Ferri, F .; Rafanelli, M. (2005). " GeoPQL: un lenguaje de consulta pictórica geográfica que resuelve ambigüedades en la interpretación de consultas ". J. Semántica de datos III. págs. 50-80
^ Suhm, B., Myers, B. y Waibel, A. (1999). " Evaluación empírica y basada en modelos de corrección de errores interactiva multimodal ". En Proc. Of CHI'99, mayo de 1999, págs. 584-591

enlaces externos

Actividad de interacción multimodal del W3C
XHTML + Voice Profile 1.0 , W3C Note 21 de diciembre de 2001
Hoste, Lode, Dumas, Bruno y Signer, Beat: Mudra: A Unified Multimodal Interaction Framework , In Proceedings of the 13th International Conference on Multimodal Interaction (ICMI 2011), Alicante, España, noviembre de 2011.
Toselli, Alejandro Héctor, Vidal, Enrique, Casacuberta, Francisco: Reconocimiento y aplicaciones interactivas de patrones multimodales , Springer, 2011.

[1] Bourguet, ML (2003). " Diseño y Prototipado de Comandos Multimodales ". Proceedings of Human-Computer Interaction (INTERACT'03), págs. 717-720.

[2] Stivers, T., Sidnell, J. Introducción: Interacción multimodal. Semiotica, 156 (1/4), págs. 1-20. 2005.

[Caschera1-3] Caschera MC, Ferri F., Grifoni P. (2007). " Sistemas de interacción multimodal: características de información y tiempo ". Revista Internacional de Servicios Web y Grid (IJWGS), vol. 3 - Número 1, págs. 82-99.

[Dulizia2-4] D'Ulizia, A., Ferri, F. y Grifoni, P. (2010). "Generación de gramáticas multimodales para el procesamiento del diálogo multimodal". IEEE Transactions on Systems, Man and Cybernetics, Part A: Systems and Humans, Vol 40, no 6, pp. 1130-1145.

[Dulizia1-5] D'Ulizia, A. (2009). " Explorando estrategias de fusión de entrada multimodal ". En: Grifoni P (ed) Manual de investigación sobre interacción humano-computadora multimodal y servicios generalizados: técnicas evolutivas para mejorar la accesibilidad. Publicaciones IGI, págs. 34-57.

[Sun-6] Sun, Y., Shi, Y., Chen, F. y Chung, V. (2007). "Un procesador de lenguaje multimodal eficiente para cadenas de entrada paralelas en fusión de entrada multimodal", en Proc. de la Conferencia Internacional sobre Computación Semántica, págs. 389-396.

[Russ-7] Russ, G., Sallans, B., Hareter, H. (2005). " Fusión de información basada en semántica en una interfaz multimodal ". Conferencia internacional sobre la interacción persona-computadora (HCI'05), Las Vegas, Nevada, EE. UU., 20-23 de junio, págs. 94-100.

[Corradini-8] Corradini, A., Mehta M., Bernsen, NO, Martin, J.-C. (2003). "Fusión de entrada multimodal en la interacción humano-computadora en el ejemplo del proyecto NICE en curso". En Actas de la conferencia OTAN-ASI sobre fusión de datos para el monitoreo de situaciones, detección de incidentes, gestión de alertas y respuestas, Ereván, Armenia.

[Pavlovic-9] Pavlovic, VI, Berry, GA, Huang, TS (1997). " Integración de información audio / visual para su uso en la interacción inteligente humano-computadora ". Actas de la Conferencia Internacional sobre Procesamiento de Imágenes de 1997 (ICIP '97), Volumen 1, págs. 121-124.

[Andre-10] Andre, M., Popescu, VG, Shaikh, A., Medl, A., Marsic, I., Kulikowski, C., Flanagan JL (1998). " Integración del habla y el gesto para la interacción humano-computadora multimodal ". En Segunda Conferencia Internacional sobre Comunicación Cooperativa Multimodal. 28-30 de enero, Tilburg, Países Bajos.

[Vo-11] Vo, MT, Wood, C. (1996). " Construcción de un marco de aplicación para la integración de entrada de voz y lápiz en interfaces de aprendizaje multimodal ". En Proceedings of the Acoustics, Speech, and Signal Processing (ICASSP'96), del 7 al 10 de mayo, IEEE Computer Society, Volumen 06, págs. 3545-3548.

[Caschera5-12] Caschera, MC, Ferri, F., Grifoni, P. (2013). " De las ambigüedades modales a las multimodales: un enfoque de clasificación ", Journal of Next Generation Information Technology (JNIT), vol. 4, núm. 5, págs. 87-109.

[Caschera2-13] Caschera, MC, Ferri, F., Grifoni, P. (2013). InteSe: An Integrated Model for Resolving Ambiguities in Multimodal Sentences ". IEEE Transactions on Systems, Man, and Cybernetics: Systems, Volume: 43, Issue: 4, pp. 911 - 931.18. Spilker, J., Klarner, M., Görz , G. (2000). "Processing Self Corrections in a speech to speech system", COLING 2000. pp. 1116-1120.

[Caschera3-14] Caschera MC, Ferri F., Grifoni P., (2007). "La Gestión de las ambigüedades". En Lenguajes Visuales para Computación Interactiva: Definiciones y Formalizaciones. Publicaciones IGI. pp.129-140.

[Chai-15] J. Chai, P. Hong y MX Zhou, (2004). "Un enfoque probabilístico para la resolución de referencia en la interfaz de usuario multimodal" en Proc. 9º Int. Conf. Intell. User Interf., Madeira, Portugal, enero de 2004, págs. 70–77.

[Dey-16] Dey, AK Mankoff, J., (2005). " Diseño de mediación para aplicaciones contextuales ". ACM Trans. Computación-Hum. Interactuar. 12 (1), págs. 53-80.

[Spilker-17] Spilker, J., Klarner, M., Görz, G. (2000). "Procesamiento de autocorrecciones en un sistema de voz a voz". COLING 2000. págs. 1116-1120.

[Mank-18] Mankoff, J., Hudson, SE, Abowd, GD (2000). " Proporcionar soporte integrado a nivel de juego de herramientas para la ambigüedad en interfaces basadas en reconocimiento ". Actas de la Conferencia ACM CHI'00 sobre factores humanos en sistemas informáticos. págs. 368 - 375.

[19] Grifoni P (2009) Fisión multimodal. En: Interacción hombre-computadora multimodal y servicios omnipresentes. IGI Global, págs. 103–120

[20] Patrizia Grifoni, Fernando Ferri, Maria Chiara Caschera, Arianna D'Ulizia, Mauro Mazzei, "MIS: Servicios de interacción multimodal en una perspectiva de nube", JNIT: Revista de tecnología de la información de próxima generación, vol. 5, núm. 4, págs. 01 ~ 10, 2014

[21] Kettebekov, Sanshzar y Rajeev Sharma (2001). " Hacia el control natural de los gestos y el habla en una pantalla grande ". Actas EHCI '01 Actas de la 8a Conferencia Internacional IFIP sobre Ingeniería para la Interacción Hombre-Computadora Páginas 221-234

[22] Marius Vassiliou, V. Sundareswaran, S. Chen, R. Behringer, C. Tam, M. Chan, P. Bangayan y J. McGee (2000), "Interfaz humana-computadora multimodal integrada y realidad aumentada para aplicaciones de pantalla interactiva , "en Darrel G. Hopper (ed.) Cockpit Displays VII: Displays para aplicaciones de defensa (Proc. SPIE. 4022), 106-115. ISBN 0-8194-3648-8

[23] Vitense, HS; Jacko, JA; Emery, VK (2002). "Retroalimentación multimodal: establecimiento de una línea de base de rendimiento para un mejor acceso de las personas con discapacidad visual". Conf. ACM sobre tecnologías de asistencia .

[24] Soleymani, Mohammad; García, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (septiembre de 2017). "Una encuesta de análisis de sentimiento multimodal" . Computación de imagen y visión . 65 : 3-14. doi : 10.1016 / j.imavis.2017.08.003 .

[25] Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, árabe (2008). "Interacción persona-computadora: descripción general sobre el estado del arte" (PDF) . Revista internacional sobre detección inteligente y sistemas inteligentes . 1 : 137-159. doi : 10.21307 / ijssis-2017-283 .

[Multimodal_sentiment_analysis_s1-26] Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (septiembre de 2017). "Una revisión de la computación afectiva: del análisis unimodal a la fusión multimodal" . Fusión de información . 37 : 98-125. doi : 10.1016 / j.inffus.2017.02.003 . hdl : 1893/25490 .

[Multimodal_sentiment_analysis_s5-27] "Google AI para hacer llamadas telefónicas por usted" . BBC News . 8 de mayo de 2018 . Consultado el 12 de junio de 2018 .

[Multimodal_sentiment_analysis_s4-28] Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (mayo de 2013). "Reseñas de películas de YouTube: análisis de sentimientos en un contexto audiovisual". Sistemas inteligentes IEEE . 28 (3): 46–53. doi : 10.1109 / MIS.2013.34 . S2CID 12789201 .

[29] Pereira, Moisés HR; Pádua, Flávio LC; Pereira, Adriano CM; Benevenuto, Fabrício; Dalip, Daniel H. (9 de abril de 2016). "Fusionar características de audio, textuales y visuales para el análisis de sentimientos de videos de noticias". arXiv : 1604.02612 [ cs.CL ].

[Multimodal_sentiment_analysis_s6-30] Zucco, Chiara; Calabrese, Barbara; Cannataro, Mario (noviembre de 2017). Análisis de sentimientos y computación afectiva para el seguimiento de la depresión . 2017 Conferencia Internacional IEEE sobre Bioinformática y Biomedicina (BIBM) . IEEE. págs. 1988–1995. doi : 10.1109 / bibm.2017.8217966 . ISBN 978-1-5090-3050-7. S2CID 24408937 .

[31] Pang, Bo; Lee, Lillian (2008). Minería de opinión y análisis de sentimiento . Hanover, MA: Now Publishers. ISBN 978-1601981509.

[Multimodal_sentiment_analysis_s7-32] Sun, Shiliang; Luo, Chen; Chen, Junyu (julio de 2017). "Una revisión de las técnicas de procesamiento del lenguaje natural para los sistemas de minería de opiniones". Fusión de información . 36 : 10-25. doi : 10.1016 / j.inffus.2016.10.004 .

[33] Oviatt, S. (2002), "Multimodal interfaces", en Jacko, J .; Sears, A (eds.), The Human-Computer Interaction Handbook (PDF) , Lawrence Erlbaum

[34] Bauckhage, C .; Fritsch, J .; Rohlfing, KJ; Wachsmuth, S .; Sagerer, G. (2002). "Evaluación de la comprensión integrada del habla y la imagen". En t. Conf. sobre interfaces multimodales . doi : 10.1109 / ICMI.2002.1166961 .

[35] Ismail, NA; O'Brien, EA (2008). "Habilitación de la interacción multimodal en la exploración de fotografías digitales personales basadas en la web" (PDF) . En t. Conf. en Ingeniería Informática y de las Comunicaciones . Archivado desde el original (PDF) el 18 de julio de 2011 . Consultado el 3 de marzo de 2010 .

[sarter-36] Sarter, NB (2006). "Presentación de información multimodal: Orientación al diseño y desafíos de la investigación". Revista Internacional de Ergonomía Industrial . 36 (5): 439–445. doi : 10.1016 / j.ergon.2006.01.007 .

[37] Geldar, FA (1957). "Aventuras en la alfabetización táctil". Psicólogo estadounidense . 12 (3): 115-124. doi : 10.1037 / h0040416 .

[38] Brooks, A .; Petersson, E. (2007). "Paisajes sonoros: potenciales de aprendizaje no formal de VEs interactivos" . SIGGRAPH . doi : 10.1145 / 1282040.1282059 .

[Vo2-39] Vo, MT (1998). " Un marco y un conjunto de herramientas para la construcción de interfaces de aprendizaje multimodal ", PhD. Tesis, Carnegie Mellon University, Pittsburgh, Estados Unidos.

[Cohen-40] Cohen, PR; Johnston, M .; McGee, D .; Oviatt, SL; Pittman, J .; Smith, IA; Chen, L .; Clow, J. (1997). "Quickset: Interacción multimodal para aplicaciones distribuidas", ACM Multimedia, págs. 31-40.

[Johnston1-41] Johnston, M. (1998). " Análisis multimodal basado en unificación ". Actas de la 36ª Reunión Anual de la Asociación de Lingüística Computacional y la 17ª Conferencia Internacional sobre Lingüística Computacional (COLING-ACL '98), del 10 al 14 de agosto, Université de Montréal, Montreal, Quebec, Canadá. págs. 624-630.

[Nigay1-42] Nigay, L .; Coutaz, J. (1995). " Una plataforma genérica para abordar el desafío multimodal ". Actas de la Conferencia sobre factores humanos en sistemas informáticos, ACM Press.

[Bouchet1-43] Bouchet, J .; Nigay, L .; Ganille, T. (2004). " Componentes de software Icare para el rápido desarrollo de interfaces multimodales ". ICMI '04: Actas de la 6ª conferencia internacional sobre interfaces multimodales (Nueva York, NY, EE. UU.), ACM, págs. 251-258.

[Dulizia3-44] D'Ulizia, A .; Ferri, F .; Grifoni P. (2007). " A Hybrid Grammar-Based Approach to Multimodal Languages Specification ", OTM 2007 Workshop Proceedings, 25-30 de noviembre de 2007, Vilamoura, Portugal, Springer-Verlag, Lecture Notes in Computer Science 4805, pp. 367-376.

[Johnston2-45] Johnston, M .; Bangalore, S. (2000). " Análisis y comprensión multimodal de estados finitos ", en las actas de la Conferencia Internacional sobre Lingüística Computacional, Saarbruecken, Alemania.

[Sun2-46] Sol, Y .; Chen, F .; Shi, YD; Chung, V. (2006). " Un método novedoso para la fusión de datos multisensoriales en la interacción multimodal humano-computadora ". En Actas de la 20a conferencia del grupo de interés especial de interacción computadora-humano (CHISIG) de Australia sobre Interacción computadora-humano: diseño: actividades, artefactos y entornos, Sydney, Australia, págs. 401-404

[Shimazu-47] Shimazu, H .; Takashima, Y. (1995). "Gramática multimodal de cláusulas definidas", Systems and Computers in Japan, vol. 26, no 3, págs. 93-102.

[Johnston3-48] Johnston, M .; Bangalore, S. (2005). " Integración y comprensión multimodal de estados finitos " , Nat. Lang. Eng, vol. 11, no. 2, págs. 159-187.

[Reitter-49] Reitter, D .; Panttaja, EM; Cummins, F. (2004). "UI sobre la marcha: Generación de una interfaz de usuario multimodal", en Proc. de HLT-NAACL-2004, Boston, Massachusetts, EE. UU.

[:0-50] Guan, Ling. "Métodos y técnicas para la fusión de información multimodal" (PDF) . Sociedad de Circuitos y Sistemas .

[51] D'Ulizia, A .; Ferri, F .; Grifoni P. (2011). "Un algoritmo de aprendizaje para la inferencia gramatical multimodal", IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, Vol. 41 (6), págs. 1495-1510.

[52] Pérez, G .; Amores, G .; Manchón, P. (2005). "Dos estrategias para la fusión multimodal". En Proceedings of Multimodal Interaction for the Visualization and Exploration of Scientific Data, Trento, Italia, 26–32.

[53] Martin, JC (1997). "Hacia la cooperación inteligente entre modalidades: el ejemplo de un sistema que permite la interacción multimodal con un mapa", Actas del Taller de la Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI'97) sobre 'Sistemas multimodales inteligentes', Nagoya, Japón

[54] Allen, JF; Ferguson, G. (1994). "Acciones y eventos en la lógica del intervalo temporal", Journal of Logic and Computation, vol. 4, núm. 5, págs. 531–579

[55] Bellik, Y. (2001). " Requisitos técnicos para una interacción multimodal exitosa ", Taller internacional sobre presentación de información y diálogo natural multimodal, Verona, Italia, 14 a 15 de diciembre

[56] Lee, YC; Chin, F. (1995). "Un lenguaje de consulta icónico para la relación topológica en SIG". Revista internacional de sistemas de información geográfica 9 (1). págs. 25-46

[57] Calcinelli, D .; Mainguenaud, M. (1994). "Cigales, un lenguaje visual para sistema de información geográfica: la interfaz de usuario". Revista de Lenguajes Visuales y Computación 5 (2). págs. 113-132

[58] Ferri, F .; Rafanelli, M. (2005). " GeoPQL: un lenguaje de consulta pictórica geográfica que resuelve ambigüedades en la interpretación de consultas ". J. Semántica de datos III. págs. 50-80

[59] Suhm, B., Myers, B. y Waibel, A. (1999). " Evaluación empírica y basada en modelos de corrección de errores interactiva multimodal ". En Proc. Of CHI'99, mayo de 1999, págs. 584-591

[1]