SpeechWeb


Un SpeechWeb es una colección de aplicaciones de voz con hipervínculos, a las que se accede de forma remota mediante navegadores de voz que se ejecutan en dispositivos de usuario final. Los vínculos son activados mediante comandos de voz.

La idea de navegar por la web por voz se remonta al menos al trabajo de Hemphill y Thrift en 1995 [1], quienes desarrollaron un sistema en el que las páginas HTML se descargaban y procesaban en computadoras del lado del cliente que permitían el acceso por voz al contenido de la página web. y activación de hipervínculos mediante comandos hablados.

También a mediados de la década de 1990, los investigadores de AT&T estaban discutiendo el desarrollo de un nuevo lenguaje de marcado que permitiría acceder a la web a través de teléfonos normales. De 1995 a 1999, AT&T , Lucent , Motorola e IBM desarrollaron sus propias versiones de lenguajes de marcado de voz y teléfono. Estas empresas crearon el VoiceXML Forum y diseñaron conjuntamente el Voice Markup Language, VXML , que fue aceptado por el Comité W3C en 2000. VXML se utiliza normalmente para crear aplicaciones de voz con hipervínculos. [2]Las páginas VXML incluyen comandos para solicitar la entrada de voz del usuario, invocar gramáticas de reconocimiento, generar voz sintetizada, iterar a través de bloques de código, llamar a JavaScript local y hacer hipervínculos a otras páginas VXML remotas descargadas de una manera similar a la vinculación de páginas HTML en la Web convencional. .

Casi al mismo tiempo que surgió VXML , un grupo de investigación de la Universidad de Windsor en Canadá estaba desarrollando un enfoque alternativo, en el que se puede acceder a las aplicaciones de voz implementadas en la web mediante navegadores de voz del lado del cliente que brindan la capacidad de reconocimiento de voz. , que se adapta a la aplicación descargando una gramática de reconocimiento específica de la aplicación desde el sitio web de la aplicación de voz remota. La entrada que es reconocida por el navegador del lado del cliente se envía al servidor remoto que la procesa y devuelve un resultado de texto a los navegadores para su salida como voz sintetizada. El término SpeechWeb se utilizó en 1999 [3]. para describir la colección de aplicaciones de voz hipervinculadas en esta arquitectura. El primer navegador SpeechWeb se demostró en la Decimosexta Conferencia Nacional de Inteligencia Artificial de la AAAI. [4]

El término "speechweb" también se ha utilizado , desde la década de 1990, en un contexto diferente para describir una red de información basada en la web sobre patología del habla, el lenguaje y el habla y el lenguaje. Además, también se esperaba proporcionar un lugar de encuentro para los profesionales y aquellos que se han visto afectados por trastornos de la comunicación. El término "speechWeb" ha sido registrado por la empresa PipeBeach, que ahora es propiedad de HP , y se refiere a un producto de software que une las redes telefónicas y los servidores web convencionales.

En 2005, se reconoció que muy pocas aplicaciones de voz estaban disponibles para el público a través de Internet , a pesar de la madurez de VXML en ese momento. También se observó que casi todas las aplicaciones VXML que estaban disponibles habían sido creadas por personas que trabajaban en el comercio y la industria. Esto contrastaba con el enorme crecimiento de la web convencional y la enorme participación del público en el desarrollo de páginas web habituales, solo unos años después del desarrollo de HTML . Esta observación llevó a la convocatoria de un SpeechWeb de dominio público [5]que es accesible al público a través de navegadores web existentes (con complementos de voz) y que contiene aplicaciones de voz hipervinculadas que son creadas e implementadas por el público de una manera análoga a la creación y despliegue de páginas HTML en la web convencional. Un navegador para el dominio público SpeechWeb se demostró en la 16ª Conferencia Internacional de la World Wide Web, celebrada en Banff, Canadá en 2007. [6] El navegador es una pequeña página X + V que es ejecutada por Opera disponible gratuitamente con el Complemento de reconocimiento de voz de IBM.