Especificación del léxico de pronunciación

La especificación del léxico de pronunciación (PLS) es una recomendación del W3C , que está diseñada para permitir la especificación interoperable de la información de pronunciación para los motores de reconocimiento de voz y síntesis de voz dentro de las aplicaciones de navegación por voz. El lenguaje está diseñado para que los desarrolladores lo utilicen fácilmente y, al mismo tiempo, admite la especificación precisa de la información de pronunciación para uso internacional.

El idioma permite especificar una o más pronunciaciones para una palabra o frase utilizando un alfabeto de pronunciación estándar o, si es necesario, utilizando alfabetos específicos del proveedor. Las pronunciaciones se agrupan en un documento PLS al que se puede hacer referencia desde otros lenguajes de marcado, como la Especificación de gramática de reconocimiento de voz SRGS y el Lenguaje de marcado de síntesis de voz SSML .

Uso

Aquí hay un documento PLS de ejemplo:

  xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon"  xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon  http://www.w3.org/TR/ 2007 / CR-pronunciación-lexicon-20071212 / pls.xsd "  alphabet = " ipa "  xml: lang = " en-US " >     juicio    juicio    dʒʌdʒ.mənt   <- cadena de IPA es:  "dʒʌdʒ.mənt" ->       novia    prometido    fiˈɒns.eɪ  phoneme >  "fiˈɒns.eɪ" ->  < phoneme > ˌfiː.ɑːnˈseɪ  phoneme >  "ˌfiː.ɑːnˈseɪ" ->  < / lexema>

que podría usarse para mejorar TTS como se muestra en el siguiente documento SSML 1.0 :

  xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2001/10/synthesis"  xmlns: xsi = "http: //www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2001/10/synthesis  http://www.w3.org/TR/speech-synthesis/ síntesis.xsd "  xml: lang = " en-US " >   uri = " http://www.example.org/lexicon_defined_above.xml " />   A juicio de mi prometido, Las Vegas es la mejor lugar para una luna de miel. Respondí que prefería Venecia y que no creía que el casino veneciano fuera un compromiso aceptable.

sino también para mejorar ASR en la siguiente gramática SRGS 1.0 :

  xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2001/06/grammar"  xmlns: xsi = "http: //www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2001/06/grammar  http://www.w3.org/TR/speech-grammar/ grammar.xsd "  xml: lang = " en-US "  root = " movies "  mode = " voice " >   uri = " http://www.example.org/lexicon_defined_above.xml " />   id = " peliculas "  scope = " public " >     Terminator 2: El día del juicio    Mi gran y gordo prometido    El día del juicio final de Plutón

Casos de uso común

Varias pronunciaciones para la misma ortografía

Para los sistemas ASR , es común depender de múltiples pronunciaciones de la misma palabra o frase para hacer frente a las variaciones de pronunciación dentro de un idioma. En el lenguaje del léxico de pronunciación, varias pronunciaciones están representadas por más de un elemento (o ) dentro del mismo elemento .

En el siguiente ejemplo, la palabra "Newton" tiene dos pronunciaciones posibles.

  xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon"  xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon  http://www.w3.org/TR/ 2007 / CR-pronunciación-léxico-20071212 / pls.xsd"  alfabeto = "IPA"  xml: lang = "eS" >     Newton    njuːtən     < phoneme > ˈnuːtən  phoneme >

Varias ortografías

En algunas situaciones, existen representaciones textuales alternativas para la misma palabra o frase. Esto puede deberse a varias razones. Consulte la Sección 4.5 de PLS para obtener más detalles. Debido a que estas son representaciones que tienen el mismo significado (a diferencia de los homófonos), se recomienda que se representen usando un solo elemento que contenga múltiples grafemas.

Aquí hay dos ejemplos simples de múltiples ortografías: ortografía alternativa de una palabra en inglés y múltiples escrituras de una palabra japonesa.

  xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon"  xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon  http://www.w3.org/TR/ 2007 / CR-signing-lexicon-20071212 / pls.xsd "  alphabet = " ipa "  xml: lang = " en-US " >       de color    colores    kʌlər   <- cadena de IPA es: "kʌlər" ->      xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon"  xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon  http://www.w3.org/TR/ 2007 / CR-signing-lexicon-20071212 / pls.xsd "  alphabet = " ipa "  xml: lang = " jp " >   ortografías romaji, kanji e hiragana ->  < lexema>   nihongo   日本語  に ほ ん ご  < teléfono > ɲihoŋɡo  phoneme >   < / lexema>

Homófonos

La mayoría de los idiomas tienen homófonos , palabras con la misma pronunciación pero diferentes significados (y posiblemente diferentes grafías), por ejemplo, "semilla" y "cede". Se recomienda que estos se representen como diferentes lexemas.

  xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon"  xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon  http://www.w3.org/TR/ 2007 / CR-pronunciación-léxico-20071212 / pls.xsd"  alfabeto = "IPA"  xml: lang = "en-US" >     ceder    sid          semilla    sid   <- cadena de IPA es: "SID" ->  < / lexema>

Homógrafos

La mayoría de los idiomas tienen palabras con diferentes significados pero la misma ortografía (y a veces diferentes pronunciaciones), llamadas homógrafos . Por ejemplo, en inglés, la palabra bass (pescado) y la palabra bass (en música) tienen grafías idénticas pero significados y pronunciaciones diferentes. Aunque se recomienda que estas palabras se representen utilizando elementos separados que se distingan por diferentes valores del atributo de rol (consulte la Sección 4.4 de PLS 1.0), si un autor de léxico de pronunciación no desea distinguir entre las dos palabras, podría simplemente se representará como pronunciaciones alternativas dentro del mismo elemento . En este último caso, el procesador TTS no podrá distinguir cuándo aplicar la primera o la segunda transcripción.

En este ejemplo se muestran las pronunciaciones del homógrafo "bajo".

  xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon"  xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon  http://www.w3.org/TR/ 2007 / CR-pronunciación-léxico-20071212 / pls.xsd"  alfabeto = "IPA"  xml: lang = "en-US" >     graves    Baes     < phoneme > beɪs  phoneme >

Tenga en cuenta que el inglés contiene numerosos ejemplos de pares de sustantivo-verbo que pueden tratarse como homógrafos o como pronunciaciones alternativas, según la preferencia del autor. Dos ejemplos son el sustantivo / verbo "rechazar" y el sustantivo / verbo "direccionar".

  xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon"  xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon  http://www.w3.org/TR/ 2007 / CR-signing-lexicon-20071212 / pls.xsd "  xmlns: mypos = " http://www.example.org/my_pos_namespace "  alphabet = " ipa "  xml: lang = " en-US " >   role = "mypos: verb" >   rechazar  grapheme > < phoneme > rɪˈfjuːz  phoneme >     <  lexeme role = "mypos: sustantivo" >   rechazar  grapheme > < phoneme > ˈrɛfjuːs  phoneme >

Pronunciación por ortografía

Para algunas palabras y frases, la pronunciación se puede expresar rápida y convenientemente como una secuencia de otras ortografías . No se requiere que el desarrollador tenga conocimientos lingüísticos, sino que hace uso de las pronunciaciones que ya se espera que estén disponibles. Para expresar pronunciaciones utilizando otras ortografías, se puede utilizar el elemento .

Esta función puede resultar muy útil para hacer frente a la expansión de acrónimos.

  xml version = "1.0" encoding = "UTF-8"?>   version = "1.0"  xmlns = "http://www.w3.org/2005/01/pronunciation-lexicon"  xmlns: xsi = " http://www.w3.org/2001/XMLSchema-instance "  xsi: schemaLocation = " http://www.w3.org/2005/01/pronunciation-lexicon  http://www.w3.org/TR/ 2007 / CR-signing-lexicon-20071212 / pls.xsd "  alphabet = " ipa "  xml: lang = " en-US " >   Expansión de acrónimos  ->     W3C   < alias> World Wide Web Consortium      representación numérica  ->     101    ciento uno     < ! -  mecanismo de pronunciación burda  ->     Tailandia    tie land      mecanismo de pronunciación burda y expansión de acrónimos  ->    < grafema> BBC 1    sé el mar uno

Estado y futuro

PLS 1.0 alcanzó el estatus de Recomendación del W3C el 14 de octubre de 2008.

Ver también

Referencias

Especificación PLS (recomendación W3C)

enlaces externos

Especificación PLS (recomendación W3C)
Comunicado de prensa del W3C
Especificación SRGS (recomendación W3C)
Especificación SSML (recomendación W3C)
Foro VoiceXML
Implementación de France Telecom Orange Labs de PLS 1.0 bajo la Gnu General Public License versión 3
Proyecto SourceForge para la implementación basada en Java de PLS 1.0