Lenguaje de marcado de síntesis de voz

Speech Synthesis Markup Language ( SSML ) es un lenguaje de marcado basado en XML para aplicaciones de síntesis de voz . Se trata de una recomendación de la W3C 's navegador de voz Grupo de Trabajo. A menudo, SSML está integrado en los scripts VoiceXML para impulsar los sistemas de telefonía interactivos. Sin embargo, también se puede utilizar solo, como para crear audiolibros. Para las aplicaciones de escritorio, otros lenguajes de marcado son populares, incluidos los comandos de voz integrados de Apple y SAPI Text to Speech de Microsoft. (TTS), también un lenguaje XML. También se utiliza para producir sonidos a través de la API Text to Speech de Azure Cognitive Services o al escribir habilidades de terceros para Google Assistant o Amazon Alexa .

SSML se basa en Java Speech Markup Language (JSML) desarrollado por Sun Microsystems , aunque la recomendación actual fue desarrollada principalmente por proveedores de síntesis de voz. Cubre prácticamente todos los aspectos de la síntesis, aunque algunas áreas se han dejado sin especificar, por lo que cada proveedor acepta una variante diferente del lenguaje. Además, en ausencia de marcado, se espera que el sintetizador haga su propia interpretación del texto. Entonces SSML no es un estándar estricto en el sentido de C , o incluso HTML .

Ejemplo

A continuación, se muestra un ejemplo de un documento SSML:

 xml version = "1.0"?>  xmlns = "http://www.w3.org/2001/10/synthesis"  xmlns: dc = "http://purl.org/dc/elements/1.1/ "  version = " 1.0 " >     xml: lang = " en " > Menú del teléfono: Nivel 1       xml: lang = "en-US" >   name = "David"  gender = "male"  age = "25" > Para inglés, presiona  uno  .      xml: lang = "es-MX" >   name = "Miguel"  gender = "male"  age = "25" > Para español, oprima el  dos  .

Características

SSML especifica una buena cantidad de marcado para prosodia , que no es evidente en el ejemplo anterior. Esto incluye el marcado para

terreno de juego
contorno
rango de tono
Velocidad
duración
volumen

Ver también

Especificación del léxico de pronunciación (PLS)
Especificación de gramática de reconocimiento de voz (SRGS)
Interpretación semántica para reconocimiento de voz (SISR)
Lenguaje de marcado de síntesis de voz SABLE , diseñado para combinar SSML, STML y JSML