La especificación del léxico de pronunciación (PLS) es una recomendación del W3C , que está diseñada para permitir la especificación interoperable de la información de pronunciación para los motores de reconocimiento de voz y síntesis de voz dentro de las aplicaciones de navegación por voz. El lenguaje está diseñado para que los desarrolladores lo utilicen fácilmente y, al mismo tiempo, admite la especificación precisa de la información de pronunciación para uso internacional.
El idioma permite especificar una o más pronunciaciones para una palabra o frase utilizando un alfabeto de pronunciación estándar o, si es necesario, utilizando alfabetos específicos del proveedor. Las pronunciaciones se agrupan en un documento PLS al que se puede hacer referencia desde otros lenguajes de marcado, como la Especificación de gramática de reconocimiento de voz SRGS y el Lenguaje de marcado de síntesis de voz SSML .
Uso
Aquí hay un documento PLS de ejemplo:
xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon" xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/ 2007 / CR-pronunciación-lexicon-20071212 / pls.xsd " alphabet = " ipa " xml: lang = " en-US " > juicio juicio dʒʌdʒ.mənt <- cadena de IPA es: "dʒʌdʒ.mənt" -> novia prometido fiˈɒns.eɪ phoneme > "fiˈɒns.eɪ" -> < phoneme > ˌfiː.ɑːnˈseɪ phoneme > "ˌfiː.ɑːnˈseɪ" -> < / lexema>
que podría usarse para mejorar TTS como se muestra en el siguiente documento SSML 1.0 :
xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2001/10/synthesis" xmlns: xsi = "http: //www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2001/10/synthesis http://www.w3.org/TR/speech-synthesis/ síntesis.xsd " xml: lang = " en-US " > uri = " http://www.example.org/lexicon_defined_above.xml " /> A juicio de mi prometido, Las Vegas es la mejor lugar para una luna de miel. Respondí que prefería Venecia y que no creía que el casino veneciano fuera un compromiso aceptable.
sino también para mejorar ASR en la siguiente gramática SRGS 1.0 :
xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2001/06/grammar" xmlns: xsi = "http: //www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2001/06/grammar http://www.w3.org/TR/speech-grammar/ grammar.xsd " xml: lang = " en-US " root = " movies " mode = " voice " > uri = " http://www.example.org/lexicon_defined_above.xml " /> id = " peliculas " scope = " public " > Terminator 2: El día del juicio Mi gran y gordo prometido El día del juicio final de Plutón
Casos de uso común
Varias pronunciaciones para la misma ortografía
Para los sistemas ASR , es común depender de múltiples pronunciaciones de la misma palabra o frase para hacer frente a las variaciones de pronunciación dentro de un idioma. En el lenguaje del léxico de pronunciación, varias pronunciaciones están representadas por más de un elemento
En el siguiente ejemplo, la palabra "Newton" tiene dos pronunciaciones posibles.
xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon" xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/ 2007 / CR-pronunciación-léxico-20071212 / pls.xsd" alfabeto = "IPA" xml: lang = "eS" > Newton njuːtən < phoneme > ˈnuːtən phoneme >
Varias ortografías
En algunas situaciones, existen representaciones textuales alternativas para la misma palabra o frase. Esto puede deberse a varias razones. Consulte la Sección 4.5 de PLS para obtener más detalles. Debido a que estas son representaciones que tienen el mismo significado (a diferencia de los homófonos), se recomienda que se representen usando un solo elemento
Aquí hay dos ejemplos simples de múltiples ortografías: ortografía alternativa de una palabra en inglés y múltiples escrituras de una palabra japonesa.
xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon" xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/ 2007 / CR-signing-lexicon-20071212 / pls.xsd " alphabet = " ipa " xml: lang = " en-US " > de color colores kʌlər <- cadena de IPA es: "kʌlər" -> xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon" xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/ 2007 / CR-signing-lexicon-20071212 / pls.xsd " alphabet = " ipa " xml: lang = " jp " > ortografías romaji, kanji e hiragana -> < lexema> nihongo 日本語 に ほ ん ご < teléfono > ɲihoŋɡo phoneme > < / lexema>
Homófonos
La mayoría de los idiomas tienen homófonos , palabras con la misma pronunciación pero diferentes significados (y posiblemente diferentes grafías), por ejemplo, "semilla" y "cede". Se recomienda que estos se representen como diferentes lexemas.
xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon" xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/ 2007 / CR-pronunciación-léxico-20071212 / pls.xsd" alfabeto = "IPA" xml: lang = "en-US" > ceder sid semilla sid <- cadena de IPA es: "SID" -> < / lexema>
Homógrafos
La mayoría de los idiomas tienen palabras con diferentes significados pero la misma ortografía (y a veces diferentes pronunciaciones), llamadas homógrafos . Por ejemplo, en inglés, la palabra bass (pescado) y la palabra bass (en música) tienen grafías idénticas pero significados y pronunciaciones diferentes. Aunque se recomienda que estas palabras se representen utilizando elementos
En este ejemplo se muestran las pronunciaciones del homógrafo "bajo".
xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon" xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/ 2007 / CR-pronunciación-léxico-20071212 / pls.xsd" alfabeto = "IPA" xml: lang = "en-US" > graves Baes < phoneme > beɪs phoneme >
Tenga en cuenta que el inglés contiene numerosos ejemplos de pares de sustantivo-verbo que pueden tratarse como homógrafos o como pronunciaciones alternativas, según la preferencia del autor. Dos ejemplos son el sustantivo / verbo "rechazar" y el sustantivo / verbo "direccionar".
xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon" xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/ 2007 / CR-signing-lexicon-20071212 / pls.xsd " xmlns: mypos = " http://www.example.org/my_pos_namespace " alphabet = " ipa " xml: lang = " en-US " > role = "mypos: verb" > rechazar grapheme > < phoneme > rɪˈfjuːz phoneme > < lexeme role = "mypos: sustantivo" > rechazar grapheme > < phoneme > ˈrɛfjuːs phoneme >
Pronunciación por ortografía
Para algunas palabras y frases, la pronunciación se puede expresar rápida y convenientemente como una secuencia de otras ortografías . No se requiere que el desarrollador tenga conocimientos lingüísticos, sino que hace uso de las pronunciaciones que ya se espera que estén disponibles. Para expresar pronunciaciones utilizando otras ortografías, se puede utilizar el elemento
Esta función puede resultar muy útil para hacer frente a la expansión de acrónimos.
xml version = "1.0" encoding = "UTF-8"?> version = "1.0" xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon" xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance " xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon http://www.w3.org/TR/ 2007 / CR-signing-lexicon-20071212 / pls.xsd " alphabet = " ipa " xml: lang = " en-US " > Expansión de acrónimos -> W3C < alias> World Wide Web Consortium representación numérica -> 101 ciento uno < ! - mecanismo de pronunciación burda -> Tailandia tie land mecanismo de pronunciación burda y expansión de acrónimos -> < grafema> BBC 1 sé el mar uno
Estado y futuro
- PLS 1.0 alcanzó el estatus de Recomendación del W3C el 14 de octubre de 2008.
Ver también
Referencias
enlaces externos
- Especificación PLS (recomendación W3C)
- Comunicado de prensa del W3C
- Especificación SRGS (recomendación W3C)
- Especificación SSML (recomendación W3C)
- Foro VoiceXML
- Implementación de France Telecom Orange Labs de PLS 1.0 bajo la Gnu General Public License versión 3
- Proyecto SourceForge para la implementación basada en Java de PLS 1.0