Un sistema de diálogo , o agente conversacional ( CA ), es un sistema informático destinado a conversar con un humano. Los sistemas de diálogo empleaban uno o más de texto, voz, gráficos, hápticos, gestos y otros modos de comunicación tanto en el canal de entrada como en el de salida.
Los elementos de un sistema de diálogo no están definidos porque esta idea está bajo investigación [ cita requerida ] , sin embargo, son diferentes del chatbot . [1] El asistente de GUI típico se involucra en una especie de diálogo, pero incluye muy pocos de los componentes comunes del sistema de diálogo, y el estado del diálogo es trivial.
Fondo
Después de sistemas de diálogo basado únicamente en el procesamiento de texto escrito a partir de los primeros años sesenta, [2] el primero hablar sistema de diálogo fue emitida por el DARPA Proyecto en los EE.UU. en 1977. [3] Tras el final de este proyecto de 5 años, algunos países de Europa proyectos emitieron el primer sistema de diálogo capaz de hablar muchos idiomas (también francés, alemán e italiano). [4] Esos primeros sistemas se utilizaron en la industria de las telecomunicaciones para proporcionar varios servicios telefónicos en dominios específicos, por ejemplo, agenda automatizada y servicio de mesas de trenes.
Componentes
Qué conjuntos de componentes se incluyen en un sistema de diálogo y cómo esos componentes dividen las responsabilidades difiere de un sistema a otro. El principal de cualquier sistema de diálogo es el administrador de diálogo , que es un componente que gestiona el estado del diálogo y la estrategia de diálogo. Un ciclo de actividad típico en un sistema de diálogo contiene las siguientes fases: [5]
- El usuario habla y la entrada se convierte en texto sin formato mediante el reconocedor / decodificador de entrada del sistema , que puede incluir:
- El texto es analizado por una unidad de comprensión del lenguaje natural (NLU), que puede incluir:
- Identificación del nombre adecuado
- parte del etiquetado de voz
- Analizador sintáctico / semántico
- La información semántica es analizada por el administrador de diálogo , que mantiene el historial y el estado del diálogo y gestiona el flujo general de la conversación.
- Por lo general, el administrador de diálogo se pone en contacto con uno o más administradores de tareas que tienen conocimiento del dominio de tareas específico.
- El administrador de cuadros de diálogo genera resultados mediante un generador de resultados , que puede incluir:
- generador de lenguaje natural
- generador de gestos
- administrador de diseño
- Finalmente, la salida se renderiza usando un renderizador de salida , que puede incluir:
- motor de texto a voz (TTS)
- cabeza hablante
- robot o avatar
Los sistemas de diálogo que se basan en una interfaz de solo texto (por ejemplo, chat basado en texto) contienen solo las etapas 2-5.
Tipos de sistemas
Los sistemas de diálogo se clasifican en las siguientes categorías, que se enumeran aquí en algunas dimensiones. Muchas de las categorías se superponen y es posible que las distinciones no estén bien establecidas.
- por modalidad
- por dispositivo
- sistemas telefónicos
- Sistemas PDA
- sistemas en el coche
- sistemas de robot
- sistemas de escritorio / portátiles
- nativo
- en sistemas de navegador
- in- máquina virtual
- in- entorno virtual
- robots
- por estilo
- basado en comandos
- impulsado por menú
- lenguaje natural
- graffiti de habla
- por iniciativa
- iniciativa del sistema
- iniciativa del usuario
- iniciativa mixta
Sistemas de diálogo natural
"Un sistema de diálogo natural es una forma de sistema de diálogo que intenta mejorar la usabilidad y la satisfacción del usuario imitando el comportamiento humano" [6] (Berg, 2014). Aborda las características de un diálogo de persona a persona (por ejemplo, subdiálogos y cambios de tema) y tiene como objetivo integrarlos en los sistemas de diálogo para la interacción persona-máquina. A menudo, los sistemas de diálogo (hablado) requieren que el usuario se adapte al sistema porque el sistema solo puede comprender un vocabulario muy limitado, no puede reaccionar a los cambios de tema y no permite que el usuario influya en el flujo del diálogo. La iniciativa mixta es una forma de permitir que el usuario tenga una parte activa en el diálogo en lugar de solo responder preguntas . Sin embargo, la mera existencia de la iniciativa mixta no es suficiente para ser catalogado como un sistema de diálogo natural. Otros aspectos importantes incluyen: [6]
- Adaptabilidad del sistema
- Soporte de confirmación implícita
- Uso de preguntas de verificación
- Posibilidades de corregir la información que ya se ha dado.
- Sobreinformación (proporcione más información de la que se ha solicitado)
- Apoyar las negaciones
- Comprender las referencias analizando el discurso y la anáfora.
- Generación de lenguaje natural para evitar avisos monótonos y recurrentes
- Formulación adaptativa y consciente de la situación
- Comportamiento social (saludos, mismo nivel de formalidad que el usuario, cortesía)
- Calidad de reconocimiento y síntesis de voz
Aunque la mayoría de estos aspectos son temas de muchos proyectos de investigación diferentes, hay una falta de herramientas que apoyen el desarrollo de sistemas de diálogo que aborden estos temas. [7] Aparte de VoiceXML que se enfoca en sistemas de respuesta de voz interactivos y es la base de muchos sistemas de diálogo hablado en la industria (aplicaciones de soporte al cliente) y AIML que es famoso por el chatbot ALICE , ninguno de estos integra características lingüísticas como actos de diálogo o lenguaje. Generacion. Por lo tanto, NADIA (un prototipo de investigación) da una idea de cómo llenar ese vacío y combina algunos de los aspectos antes mencionados como la generación del lenguaje natural, la formulación adaptativa y los subdiálogos.
Actuación
Algunos autores miden el desempeño del sistema de diálogo en términos del porcentaje de oraciones completamente correctas, comparando el modelo de oraciones (esta medida se denomina Exactitud de la oración conceptual [8] o Comprensión de la oración [4] ).
Aplicaciones
Los sistemas de diálogo pueden admitir una amplia gama de aplicaciones en empresas comerciales, educación, gobierno, atención médica y entretenimiento. [9] Por ejemplo:
- Responder a las preguntas de los clientes sobre productos y servicios a través del sitio web o el portal de intranet de una empresa.
- Base de conocimientos del agente de servicio al cliente : permite a los agentes escribir la pregunta de un cliente y guiarlo con una respuesta
- Venta guiada : Facilitar las transacciones proporcionando respuestas y orientación en el proceso de ventas, en particular para productos complejos que se venden a clientes novatos.
- Mesa de ayuda : responder a las preguntas internas de los empleados, por ejemplo, responder a las preguntas de recursos humanos
- Navegación del sitio web: guía a los clientes a partes relevantes de sitios web complejos: un conserje del sitio web
- Soporte técnico: Responder a problemas técnicos, como diagnosticar un problema con un producto o dispositivo.
- Servicio personalizado: los agentes conversacionales pueden aprovechar las bases de datos internas y externas para personalizar las interacciones, como responder preguntas sobre saldos de cuentas, proporcionar información de cartera, entregar información de viajero frecuente o membresía, por ejemplo
- Capacitación o educación: pueden brindar consejos para la resolución de problemas mientras el usuario aprende
- Los sistemas de diálogo simples se utilizan ampliamente para disminuir la carga de trabajo humano en los centros de llamadas . En esta y otras aplicaciones de telefonía industrial, la funcionalidad proporcionada por los sistemas de diálogo se conoce como respuesta de voz interactiva o IVR.
En algunos casos, los agentes conversacionales pueden interactuar con los usuarios utilizando caracteres artificiales. Estos agentes se denominan entonces agentes incorporados .
Conjuntos de herramientas y arquitecturas
Un estudio de los marcos, lenguajes y tecnologías actuales para definir sistemas de diálogo.
Nombre y enlaces | Tipo de sistema | Descripción | Afiliación [s] | Medio ambiente [s] | Comentarios |
---|---|---|---|---|---|
AIML | Idioma de Chatterbot | Dialecto XML para crear agentes de software de lenguaje natural | Richard Wallace, Pandorabots, Inc. | ||
ChatScript | Idioma de Chatterbot | Language / Engine para la creación de agentes de software en lenguaje natural | Bruce Wilcox | ||
Kit de herramientas de CSLU | un entorno de creación de prototipos de interfaz de voz basado en estados | Escuela de Ciencias e Ingeniería OGI M. McTear Ron Cole | las publicaciones son de 1999. | ||
Servidor NLUI | Kit de herramientas independiente del dominio | marco multilingüe completo para la construcción de sistemas de interfaz de usuario en lenguaje natural | LinguaSys | Soporte listo para usar de diálogos de iniciativa mixta | |
Olimpo | marco completo para la implementación de sistemas de diálogo hablado | Universidad de Carnegie mellon | [1] | ||
Nextnova | Plataforma multimodal | Plataforma para el desarrollo de aplicaciones de software multimodal. Basado en XML de gráfico de estado (SCXML) | Ponvia Technology, Inc. | ||
XML de voz VXML | Diálogo hablado | lenguaje de marcado de diálogo multimodal | desarrollado inicialmente por AT&T luego administrado por un consorcio de la industria y finalmente una especificación W3C | Ejemplo | principalmente para telefonía. |
SAL | lenguaje de marcado | lenguaje de marcado de diálogo multimodal | Microsoft | "no ha alcanzado el nivel de madurez de VoiceXML en el proceso de estándares". | |
Quack.com - QXML | Entorno de desarrollo | empresa comprada por AOL | |||
OpenDial | Kit de herramientas independiente del dominio | Marco híbrido simbólico / estadístico para sistemas de diálogo hablado, implementado en Java | Universidad de oslo | ||
NADIA | motor de diálogo y modelado de diálogo | Creación de diálogos / sistemas de diálogo naturales. Apoya actos de diálogo, iniciativa mixta, NLG. Implementado en Java. | Markus M. Berg | crear archivos de diálogo basados en XML, no es necesario especificar gramáticas, las publicaciones son de 2014 |
Ver también
- Evitación de llamadas
Referencias
- ^ Klüwer, Tina. "Desde chatbots hasta sistemas de diálogo". Agentes conversacionales e interacción del lenguaje natural: técnicas y prácticas efectivas. IGI Global, 2011. 1-22.
- ^ McTear, Michael, Zoraida Callejas y David Griol, La interfaz conversacional: Hablando con dispositivos inteligentes , Springer, 2016.
- ^ Giancarlo Pirani (ed), Arquitecturas y algoritmos avanzados para la comprensión del habla , Vol. 1. Springer Science & Business Media, 2013.
- ^ a b Alberto Ciaramella, Un prototipo de informe de evaluación del desempeño , Paquete de trabajo Sundial 8000 (1993).
- ^ Jurafsky y Martin (2009), Procesamiento del habla y el lenguaje. Edición internacional de Pearson, ISBN 978-0-13-504196-3 , capítulo 24
- ^ a b Berg, Markus M. (2014), Modelado de diálogos naturales en el contexto de sistemas de control e información basados en el habla , Akademische Verlagsgesellschaft AKA, ISBN 978-3-89838-508-4
- ^ Berg, Markus M. (2015), "NADIA: A Simplified Approach Towards the Development of Natural Dialogue Systems", Procesamiento del lenguaje natural y sistemas de información , Lecture Notes in Computer Science, 9103 , pp. 144-150, doi : 10.1007 / 978 -3-319-19581-0_12 , ISBN 978-3-319-19580-3
- ^ Bangalore, Srinivas y Michael Johnston. "Comprensión sólida en interfaces multimodales". Lingüística computacional 35.3 (2009): 345-397.
- ^ Lester, J .; Branting, K .; Mott, B. (2004), "Agentes conversacionales" (PDF) , The Practical Handbook of Internet Computing , Chapman & Hall
Otras lecturas
- Will, Thomas (2007). Creación de un diálogo de voz dinámico . VDM Verlag Dr. Müller . ISBN 978-3-8364-4990-8.