La traducción de voz es el proceso mediante el cual las frases habladas conversacionales se traducen instantáneamente y se pronuncian en voz alta en un segundo idioma. Esto difiere de la traducción de frases , que es donde el sistema solo traduce un conjunto fijo y finito de frases que se han ingresado manualmente en el sistema. La tecnología de traducción de voz permite que los hablantes de diferentes idiomas se comuniquen. Por lo tanto, es de gran valor para la humanidad en términos de ciencia, intercambio intercultural y negocios globales.
Cómo funciona
Un sistema de traducción de voz normalmente integraría las siguientes tres tecnologías de software: reconocimiento automático de voz (ASR), traducción automática (MT) y síntesis de voz (TTS).
El hablante de la lengua A habla por un micrófono y el módulo de reconocimiento de voz reconoce el enunciado. Compara la entrada con un modelo fonológico, que consta de un gran corpus de datos de voz de varios hablantes. Luego, la entrada se convierte en una cadena de palabras , utilizando el diccionario y la gramática del idioma A, basado en un corpus masivo de texto en el idioma A.
El módulo de traducción automática luego traduce esta cadena. Los primeros sistemas reemplazaban cada palabra con la palabra correspondiente en el idioma B. Los sistemas actuales no utilizan la traducción palabra por palabra, sino que tienen en cuenta todo el contexto de la entrada para generar la traducción adecuada. La expresión de traducción generada se envía al módulo de síntesis de voz , que estima la pronunciación y la entonación que coinciden con la cadena de palabras en función de un corpus de datos de voz en el idioma B. Las formas de onda que coinciden con el texto se seleccionan de esta base de datos y la síntesis de voz se conecta y genera ellos. [1]
Historia
En 1983, NEC Corporation hizo una demostración de traducción de voz como una exhibición de conceptos en ITU Telecom World (Telecom '83). [2]
En 1999, el consorcio C-Star-2 demostró la traducción de voz a voz de 5 idiomas, incluidos inglés, japonés, italiano, coreano y alemán. [3] [4]
Características
Aparte de los problemas involucrados en la traducción de texto, también tiene que lidiar con problemas especiales que ocurren en la traducción de voz a voz, incorporando incoherencia del lenguaje hablado, menos restricciones gramaticales del lenguaje hablado, límites de palabras poco claros del lenguaje hablado, la corrección de errores de reconocimiento de voz y múltiples entradas opcionales. Además, la traducción de voz a voz también tiene sus ventajas en comparación con la traducción de texto, incluida una estructura menos compleja del lenguaje hablado y menos vocabulario en el lenguaje hablado. [ cita requerida ]
Investigación y desarrollo
La investigación y el desarrollo han progresado gradualmente de una traducción relativamente simple a una más avanzada. Se establecieron talleres de evaluación internacionales para apoyar el desarrollo de la tecnología de traducción de voz. Permiten que los institutos de investigación cooperen y compitan entre sí al mismo tiempo. El concepto de esos talleres es una especie de concurso: los organizadores proporcionan un conjunto de datos común y los institutos de investigación participantes crean sistemas que se evalúan. De esta forma, se promueve la investigación eficiente.
El I nternacional Taller sobre la traducción del Habla ( IWSLT ), organizado por C-STAR, una organización internacional consorcio para la investigación sobre la traducción del habla, se ha celebrado desde 2004. "Cada año, el número de institutos aumenta la participación, y se ha convertido en una clave evento para la investigación de la traducción del habla ". [1]
Estándares
Cuando muchos países comiencen a investigar y desarrollar la traducción de voz, será necesario estandarizar las interfaces y los formatos de datos para garantizar que los sistemas sean compatibles entre sí. Los consorcios de traducción de voz están fomentando la investigación conjunta internacional (por ejemplo, el consorcio internacional C-STAR para la investigación conjunta de traducción de voz y A-STAR para la región de Asia y el Pacífico). Fueron fundadas como "organizaciones internacionales de investigación conjunta para diseñar formatos de corpus bilingües que son esenciales para avanzar en la investigación y el desarrollo de esta tecnología ... y para estandarizar interfaces y formatos de datos para conectar el módulo de traducción de voz a nivel internacional". [1]
Aplicaciones
Hoy en día, los sistemas de traducción de voz se utilizan en todo el mundo. Los ejemplos incluyen instalaciones médicas, escuelas, policía, hoteles, tiendas minoristas y fábricas. Estos sistemas son aplicables en cualquier lugar donde se utilice el lenguaje hablado para comunicarse. Una aplicación popular es Jibbigo que funciona sin conexión.
Desafíos y perspectivas de futuro
Actualmente, la tecnología de traducción de voz está disponible como un producto que traduce instantáneamente conversaciones multilingües de forma libre. Estos sistemas traducen instantáneamente el habla continua. Los desafíos para lograr esto incluyen superar las variaciones dependientes del hablante en el estilo de hablar o en la pronunciación, son cuestiones que deben abordarse para proporcionar una traducción de alta calidad para todos los usuarios. Además, los sistemas de reconocimiento de voz deben poder remediar factores externos como el ruido acústico o el habla de otros hablantes en el uso real de los sistemas de traducción de voz.
Debido a que el usuario no comprende el idioma de destino cuando se usa la traducción de voz, se debe proporcionar un método para que el usuario verifique si la traducción es correcta, por medios tales como volver a traducirla al idioma del usuario. [1] Para lograr el objetivo de eliminar la barrera del idioma en todo el mundo, se deben admitir varios idiomas. Esto requiere corpus de voz, corpus bilingües y corpus de texto para cada uno de los 6.000 idiomas que se estima existen en nuestro planeta hoy.
Dado que la recopilación de corpus es extremadamente cara, la recopilación de datos de la Web sería una alternativa a los métodos convencionales. "El uso secundario de noticias u otros medios publicados en varios idiomas sería una forma eficaz de mejorar el rendimiento de la traducción del habla". Sin embargo, " la ley de derechos de autor actual no tiene en cuenta usos secundarios como este tipo de corpus" y, por lo tanto, "será necesario revisarla para que sea más flexible". [1]
Ver también
Referencias
- ^ a b c d e "Superar la barrera del idioma con tecnología de traducción de voz" por Satoshi, Nakamura en Science & Technology Trends - Revisión trimestral n. ° 31 de abril de 2009
- ^ NEC / 021219-1. "NEC Global - Comunicado de prensa" . www.nec.co.jp . Consultado el 23 de septiembre de 2017 .
- ^ https://www.npr.org/templates/story/story.php?storyId=1054389 Radio pública nacional
- ^ "Un sistema de traducción de voz del japonés al inglés: ATR-MATRIX" por Takezawa, Morimoto, Sagisaka, Campbell, Iida, Sugaya, Yokoo, Yamamoto en Actas de la Conferencia internacional sobre procesamiento del lenguaje hablado 1998