Corpus de habla árabe

El corpus de habla árabe es un corpus de habla árabe estándar moderno (MSA) para la síntesis de voz . El corpus contiene transcripciones fonéticas y ortográficas de más de 3,7 horas de habla MSA alineadas con habla grabada a nivel de fonemas. Las anotaciones incluyen marcas de acento de palabra en los fonemas individuales. ^[1]

El corpus de habla árabe se creó como parte de un proyecto de doctorado de Nawar Halabi en la Universidad de Southampton financiado por MicroLinkPC , que posee una licencia exclusiva para comercializar el corpus, pero el corpus está disponible para fines estrictamente no comerciales a través del corpus de habla árabe oficial . sitio web Se distribuye bajo la licencia internacional Creative Commons Attribution-NonCommercial-ShareAlike 4.0. ^[2]

El corpus se creó principalmente con fines de síntesis de voz, específicamente Speech Synthesis , pero se ha utilizado para crear voces basadas en HMM en árabe. También se usó para alinear automáticamente otros corpus de voz con su transcripción fonética y podría usarse como parte de un corpus más grande para entrenar sistemas de reconocimiento de voz. ^[1]

El corpus también se utilizó para demostrar que el uso de marcas de estrés basadas en la ortografía extraídas automáticamente ^[3] mejora la calidad de la síntesis de voz en MSA.