El programa IARPA Babel desarrolló tecnología de reconocimiento de voz para conversaciones telefónicas ruidosas. El objetivo principal del programa era mejorar el rendimiento de la búsqueda de palabras clave en idiomas con muy pocos datos transcritos, es decir, idiomas de bajos recursos. Se recopilaron datos de 26 idiomas y algunos idiomas se ofrecieron como idiomas "sorpresa" para probar la capacidad de los equipos de construir rápidamente un sistema para un nuevo idioma. [1]
A partir de 2012, participaron dos equipos liderados por la industria ( IBM y BBN ) y dos equipos liderados por universidades ( ICSI liderado por Nelson Morgan y CMU ). [2] El equipo de IBM incluyó a la Universidad de Cambridge y la Universidad RWTH Aachen , mientras que el equipo de BBN incluyó a la Universidad de Tecnología de Brno , la Universidad Johns Hopkins , MIT y LIMSI . Solo BBN [3] e IBM [4] [5] [6] llegó a la campaña de evaluación final en 2016, en la que BBN ganó al lograr la mayor precisión de búsqueda de palabras clave en el lenguaje de evaluación.
Parte de la financiación de Babel se utilizó para desarrollar aún más el proceso de Kaldi . [7] Los datos del habla se pusieron posteriormente a disposición a través del Consorcio de Datos Lingüísticos a un costo simbólico de $ 25 USD por paquete de idioma.
Referencias
- ^ Harper, María. "Recursos de datos para apoyar la actividad de proyectos de investigación avanzada de inteligencia del programa Babel" (PDF) . Consultado el 26 de julio de 2017 .
- ^ "Babel" . IARPA . Consultado el 26 de julio de 2017 .
- ^ T. Alumäe et al., "El sistema de detección de palabras clave de voz telefónica georgiana BBN 2016", Conferencia internacional IEEE de 2017 sobre acústica, habla y procesamiento de señales (ICASSP), Nueva Orleans, LA, 2017, págs. 5755-5759, doi: 10.1109 / ICASSP.2017.7953259.
- ^ J. Cui et al., "Destilación del conocimiento a través de conjuntos de modelos multilingües para idiomas de bajos recursos", Conferencia internacional de 2017 IEEE sobre acústica, habla y procesamiento de señales (ICASSP), Nueva Orleans, LA, 2017, págs. 4825-4829 , doi: 10.1109 / ICASSP.2017.7953073.
- ^ Gales MJF, Knill KM, Ragni A. (2017) Reconocimiento de voz de bajos recursos y detección de palabras clave. En: Karpov A., Potapova R., Mporas I. (eds) Speech and Computer. SPECOM 2017. Lecture Notes in Computer Science, vol 10458. Springer, Cham. https://doi.org/10.1007/978-3-319-66429-3_1
- ^ P. Golik, Z. Tüske, K. Irie, E. Beck, R. Schlüter y H. Ney. El sistema de búsqueda de palabras clave RWTH 2016 para idiomas de bajos recursos. En International Conference Speech and Computer (SPECOM), Lecture Notes in Computer Science, Subseries Lecture Notes in Artificial Intelligence, volumen 10458, páginas 719-730, Hatfield, Reino Unido, septiembre de 2017.
- ^ "Historia del proyecto Kaldi" . Consultado el 26 de julio de 2017 .