Diccionario de pronunciación CMU

El Diccionario de pronunciación de CMU (también conocido como CMUdict ) es un diccionario de pronunciación de código abierto creado originalmente por Speech Group en la Universidad Carnegie Mellon (CMU) para su uso en la investigación de reconocimiento de voz .

Diccionario de pronunciación CMU
Desarrollador (es)	Universidad de Carnegie mellon

Lanzamiento estable	0,7b / 19 de noviembre de 2014 ; Hace 6 años ( 19/11/2014 )

Disponible en	inglés
Licencia	BSD
Sitio web	www .speech .cs .cmu .edu / cgi-bin / cmudict

CMUdict proporciona un mapeo ortográfico / fonético para palabras en inglés en sus pronunciaciones norteamericanas. Se usa comúnmente para generar representaciones para reconocimiento de voz (ASR), por ejemplo, el sistema CMU Sphinx , y síntesis de voz (TTS), por ejemplo, el sistema Festival . CMUdict se puede utilizar como un corpus de entrenamiento para construir modelos estadísticos de grafema a fonema (g2p) ^[1] que generarán pronunciaciones para palabras que aún no están incluidas en el diccionario.

La versión más reciente es 0.7b; contiene más de 134.000 entradas. Está disponible una versión de búsqueda interactiva. ^[2]

Formato de base de datos

La base de datos se distribuye como un archivo de texto plano con una entrada a una línea en el formato " WORD " con un separador de dos espacios entre las partes. Si hay varias pronunciaciones disponibles para una palabra, las variantes se identifican utilizando versiones numeradas (p WORD(1). Ej .). La pronunciación se codifica utilizando una forma modificada del sistema ARPABET , con la adición de acentos en las vocales de los niveles 0, 1 y 2. Un ;;;símbolo inicial de línea indica un comentario. Un formato derivado, directamente adecuado para motores de reconocimiento de voz también está disponible como parte de la distribución; este formato colapsa las distinciones de estrés (normalmente no se usa en ASR).

Historia

Versión	Fecha de lanzamiento ^[3]	Licencia
0,1	16 de septiembre de 1993	Dominio publico
0,2	10 de marzo de 1994	Dominio publico
0,3	28 de septiembre de 1994	Dominio publico
0.4	8 de noviembre de 1995	Dominio publico
0,5	Sin divulgación pública	Dominio publico
0,6	11 de agosto de 1998	Dominio publico
0,7	Sin divulgación pública	Dominio publico
0,7a	18 de febrero de 2008	BSD de 2 cláusulas
0,7b	19 de noviembre de 2014 ^[4]	BSD de 2 cláusulas

Aplicaciones

El conversor de Unifon se basa en el Diccionario de pronunciación de CMU.
El kit de herramientas de lenguaje natural contiene una interfaz para el diccionario de pronunciación de CMU.
La herramienta Carnegie Mellon Logios ^[5] incorpora el Diccionario de pronunciación CMU.
PronunDict , un diccionario de pronunciación del inglés americano, utiliza el diccionario de pronunciación CMU como fuente de datos. La pronunciación se transcribe en símbolos IPA . Este diccionario también admite búsquedas por pronunciación .
Algunos softwares de sintetizador de voz para cantar como CeVIO Creative Studio y Synthesizer V utilizan una versión modificada del Diccionario de pronunciación CMU para sintetizar las voces para cantar en inglés.
Transcriber , una herramienta para la transcripción fonética de texto completo, utiliza el Diccionario de pronunciación CMU

Ver también

Moby Pronunciator , un proyecto similar

Referencias

^ http://www-i6.informatik.rwth-aachen.de/web/Software/g2p.html
^ "El diccionario de pronunciación de CMU" .
^ ftp://ftp.cs.cmu.edu/project/speech/dict/ ^{[ enlace muerto permanente ]}
^ http://svn.code.sf.net/p/cmusphinx/code/trunk/cmudict/00README_FIRST.txt
^ "Copia archivada" . Archivado desde el original el 20 de mayo de 2011 . Consultado el 19 de diciembre de 2009 .CS1 maint: copia archivada como título ( enlace )

enlaces externos

La versión actual del diccionario está en SourceForge , aunque también se mantiene una versión en GitHub .
Página de inicio : incluye búsqueda en la base de datos
RDF convertido a Resource Description Framework por el proyecto de código abierto Texai .

[1] ttp://www-i6.informatik.rwth-aachen.de/web/Software/g2p.html

[2] "El diccionario de pronunciación de CMU" .

[3] tp://ftp.cs.cmu.edu/project/speech/dict/ ^{[ enlace muerto permanente ]}

[4] ttp://svn.code.sf.net/p/cmusphinx/code/trunk/cmudict/00README_FIRST.txt

[5] "Copia archivada" . Archivado desde el original el 20 de mayo de 2011 . Consultado el 19 de diciembre de 2009 .CS1 maint: copia archivada como título ( enlace )

[1]