Interacción multimodal

La interacción multimodal proporciona al usuario múltiples modos de interactuar con un sistema. Una interfaz multimodal proporciona varias herramientas distintas para la entrada y salida de datos.

La interacción hombre-computadora multimodal se refiere a la "interacción con el entorno virtual y físico a través de modos naturales de comunicación", ^[1] Esto implica que la interacción multimodal permite una comunicación más libre y natural, conectando a los usuarios con sistemas automatizados tanto en la entrada como en la salida. ^[2] Específicamente, los sistemas multimodales pueden ofrecer un entorno flexible, eficiente y utilizable que permite a los usuarios interactuar a través de modalidades de entrada, como el habla , la escritura a mano , el gesto de la mano y la mirada ., y recibir información por el sistema a través de modalidades de salida, tales como síntesis de voz, gráficos inteligentes y otras modalidades, oportunamente combinadas. Luego, un sistema multimodal debe reconocer las entradas de las diferentes modalidades combinándolas de acuerdo con las restricciones temporales y contextuales ^[3] para permitir su interpretación. Este proceso se conoce como fusión multimodal, y es objeto de varios trabajos de investigación desde la década de los noventa hasta la actualidad. ^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[11]Las entradas fusionadas son interpretadas por el sistema. La naturalidad y la flexibilidad pueden producir más de una interpretación para cada modalidad (canal) diferente y para su uso simultáneo, y en consecuencia pueden producir ambigüedad multimodal ^[12] generalmente por imprecisión, ruidos u otros factores similares. Para resolver ambigüedades, se han propuesto varios métodos. ^[13]^[14]^[15]^[16]^[17]^[18] Finalmente el sistema devuelve al usuario las salidas a través de los distintos canales modales (desagregados) dispuestos según una retroalimentación consistente (fisión). ^[19]El uso generalizado de dispositivos móviles, sensores y tecnologías web puede ofrecer recursos computacionales adecuados para gestionar la complejidad que implica la interacción multimodal. "El uso de la nube para involucrar recursos computacionales compartidos en la gestión de la complejidad de la interacción multimodal representa una oportunidad. De hecho, la computación en la nube permite entregar recursos informáticos escalables y configurables compartidos que se pueden aprovisionar y liberar de forma dinámica y automática". ^[20]

Se han fusionado dos grandes grupos de interfaces multimodales, uno relacionado con métodos de entrada alternativos y el otro con entrada/salida combinada. El primer grupo de interfaces combinó varios modos de entrada de usuario más allá de la entrada/salida tradicional del teclado y el mouse , como voz, lápiz, tacto, gestos manuales, ^[21] mirada y movimientos de la cabeza y el cuerpo. ^[22] La interfaz de este tipo más común combina una modalidad visual (por ejemplo, una pantalla, teclado y mouse) con una modalidad de voz ( reconocimiento de voz para entrada, síntesis de voz y audio grabado para salida). Sin embargo, otras modalidades, como la entrada basada en lápiz o háptica se puede utilizar la entrada/salida. Las interfaces de usuario multimodales son un área de investigación en la interacción humano-computadora (HCI).

La ventaja de múltiples modalidades de entrada es una mayor facilidad de uso : las debilidades de una modalidad se compensan con las fortalezas de otra. En un dispositivo móvil con una pequeña interfaz visual y un teclado, una palabra puede ser bastante difícil de escribir pero muy fácil de decir (por ejemplo, Poughkeepsie ). Considere cómo accedería y buscaría a través de catálogos de medios digitales desde estos mismos dispositivos o decodificadores. Y en un ejemplo del mundo real, los miembros del equipo quirúrgico acceden verbalmente a la información del paciente en un entorno de quirófano para mantener un entorno antiséptico, y se presenta casi en tiempo real de forma auditiva y visual para maximizar la comprensión.