Diccionario de pronunciación CMU

El diccionario de pronunciación CMU (también conocido como CMUdict ) es un diccionario de pronunciación de código abierto creado originalmente por Speech Group en Carnegie Mellon University (CMU) para su uso en la investigación de reconocimiento de voz .

CMUdict proporciona un mapeo ortográfico/fonético para palabras en inglés en sus pronunciaciones norteamericanas. Se suele utilizar para generar representaciones para reconocimiento de voz (ASR), por ejemplo, el sistema CMU Sphinx , y síntesis de voz (TTS), por ejemplo, el sistema Festival . CMUdict se puede utilizar como corpus de entrenamiento para construir modelos estadísticos de grafema a fonema (g2p) ^[1] que generarán pronunciaciones para palabras que aún no están incluidas en el diccionario.

La versión más reciente es 0.7b; contiene más de 134.000 entradas. Una versión de búsqueda interactiva está disponible. ^[2]

La base de datos se distribuye como un archivo de texto sin formato con una entrada por línea en el formato " WORD <pronunciation>" con un separador de dos espacios entre las partes. Si hay varias pronunciaciones disponibles para una palabra, las variantes se identifican mediante versiones numeradas (p. ej WORD(1)., ). La pronunciación se codifica utilizando una forma modificada del sistema ARPABET , con la adición de marcas de estrés en las vocales de los niveles 0, 1 y 2. Un ;;;símbolo de inicial de línea indica un comentario. Un formato derivado, directamente adecuado para los motores de reconocimiento de voz, también está disponible como parte de la distribución; este formato colapsa las distinciones de énfasis (típicamente no se usa en ASR).