Sistemas de diálogo hablado

Un sistema de diálogo hablado es un sistema informático capaz de conversar con un humano con voz. Tiene dos componentes esenciales que no existen en un sistema de diálogo de texto escrito : un reconocedor de voz y un módulo de texto a voz (los sistemas de diálogo de texto escrito generalmente usan otros sistemas de entrada proporcionados por un sistema operativo). Se puede distinguir además de los sistemas de voz de comando y control que pueden responder a las solicitudes pero no intentan mantener la continuidad en el tiempo.

Componentes

Un reconocedor de voz automático (ASR) descodifica la voz en texto. Los reconocedores específicos de dominio se pueden configurar para el lenguaje diseñado para una aplicación determinada. Un reconocedor de "nube" será adecuado para dominios que no dependan de vocabularios muy específicos.
La comprensión del lenguaje natural transforma un reconocimiento en una estructura de concepto que puede impulsar el comportamiento del sistema. Algunos enfoques combinarán el procesamiento de reconocimiento y comprensión, pero se cree que son menos flexibles, ya que la interpretación debe codificarse en la gramática.
El administrador de diálogo controla el comportamiento paso a paso. Un sistema de diálogo simple puede hacer preguntas al usuario y luego actuar sobre la respuesta. Estos sistemas de diálogo dirigido utilizan una estructura en forma de árbol para el control; Los sistemas basados en marcos (o formularios) permiten cierta iniciativa del usuario y se adaptan a diferentes estilos de interacción. Los administradores de diálogo más sofisticados incorporan mecanismos para lidiar con malentendidos y aclaraciones.
El razonador de dominio, o más simplemente el back-end, hace uso de una base de conocimientos para recuperar información y ayuda a formular respuestas del sistema. En sistemas simples, esta puede ser una base de datos que se consulta utilizando información recopilada a través del diálogo. El razonador de dominio, junto con el administrador de diálogo, mantiene el contexto de interacción y permite que el sistema refleje algunas habilidades conversacionales humanas (por ejemplo, usando anáforas).
La generación de respuestas es similar a la generación de lenguaje natural basada en texto , pero tiene en cuenta las necesidades de la comunicación hablada. Esto podría incluir el uso de construcciones gramaticales más simples, administrar la cantidad de información en cualquier enunciado de salida e introducir marcadores prosódicos para ayudar al participante humano a absorber información más fácilmente. Un diseño de sistema completo también introducirá elementos de arrastre léxico , para alentar al usuario humano a favorecer ciertas formas de hablar, lo que a su vez puede mejorar el rendimiento del reconocimiento.
La síntesis de texto a voz (TTS) realiza una expresión intencionada como voz. Dependiendo de la aplicación, TTS puede basarse en la concatenación de material pregrabado producido por profesionales de la voz. En aplicaciones más complejas, TTS utilizará técnicas más flexibles que se adapten a vocabularios grandes y que permitan al desarrollador controlar el carácter ("personalidad") del sistema.

Variedades de sistemas

Los sistemas de diálogo hablado varían en su complejidad. Los sistemas de diálogo dirigido son muy simples y requieren que el desarrollador cree un gráfico (generalmente un árbol) que administra la tarea, pero que puede no corresponder a las necesidades del usuario. Los sistemas de acceso a la información, típicamente basados en formularios, permiten a los usuarios cierta flexibilidad (por ejemplo, en el orden en que se especifican las restricciones de recuperación o en el uso de restricciones opcionales), pero sus capacidades están limitadas. Los sistemas de diálogo de resolución de problemas pueden permitir a los usuarios humanos participar en una serie de actividades diferentes que pueden incluir el acceso a la información, la construcción del plan y la posible ejecución de este último.

Algunos ejemplos de sistemas incluyen:

Acceso a información: tiempo, horarios de trenes, cotizaciones de acciones, asistencia de directorio.
Transaccional: tarjeta de crédito y consultas bancarias; compra de boletos.
Mantenimiento: Soporte técnico que incluye acceso a la documentación y pruebas de diagnóstico.
Tutoría: para educación, como física o matemáticas, y aprendizaje de idiomas.
Entretenimiento y charla

Historia

Pioneros en sistemas de diálogo son empresas como AT&T (con su sistema de reconocimiento de voz en los años setenta) y los laboratorios CSELT , que lideraron algunos proyectos de investigación europeos durante los años ochenta (p. Ej. SUNDIAL) tras la finalización del proyecto DARPA en Estados Unidos.

Referencias

El campo de los sistemas de diálogo hablado es bastante amplio e incluye investigación (presentada en conferencias científicas como SIGdial e Interspeech ) y un gran sector industrial (con sus propias reuniones como SpeechTek y AVIOS ).

Lo siguiente puede proporcionar buenas introducciones técnicas:

Michael F. McTear, Tecnología de diálogo hablado
Gabriel Skantze, Manejo de errores en sistemas de diálogo hablado , 2007: capítulo 2, Sistemas de diálogo hablado .
Pirani, Giancarlo, ed. Arquitecturas y algoritmos avanzados para la comprensión del habla. Vol. 1. Springer Science & Business Media, 2013. ISBN 978-3-540-53402-0