Traducción de voz


La traducción de voz es el proceso mediante el cual las frases habladas conversacionales se traducen instantáneamente y se pronuncian en voz alta en un segundo idioma. Esto difiere de la traducción de frases , que es donde el sistema solo traduce un conjunto fijo y finito de frases que se han ingresado manualmente en el sistema. La tecnología de traducción de voz permite que los hablantes de diferentes idiomas se comuniquen. Por lo tanto, es de gran valor para la humanidad en términos de ciencia, intercambio intercultural y negocios globales.

Un sistema de traducción de voz normalmente integraría las siguientes tres tecnologías de software: reconocimiento automático de voz (ASR), traducción automática (MT) y síntesis de voz (TTS).

El hablante de la lengua A habla por un micrófono y el módulo de reconocimiento de voz reconoce el enunciado. Compara la entrada con un modelo fonológico, que consta de un gran corpus de datos de voz de varios hablantes. Luego, la entrada se convierte en una cadena de palabras , utilizando el diccionario y la gramática del idioma A, basado en un corpus masivo de texto en el idioma A.

El módulo de traducción automática luego traduce esta cadena. Los primeros sistemas reemplazaban cada palabra con la palabra correspondiente en el idioma B. Los sistemas actuales no utilizan la traducción palabra por palabra, sino que tienen en cuenta todo el contexto de la entrada para generar la traducción adecuada. La expresión de traducción generada se envía al módulo de síntesis de voz , que estima la pronunciación y la entonación que coinciden con la cadena de palabras en función de un corpus de datos de voz en el idioma B. Las formas de onda que coinciden con el texto se seleccionan de esta base de datos y la síntesis de voz se conecta y genera ellos. [1]

En 1983, NEC Corporation hizo una demostración de traducción de voz como una exhibición de conceptos en ITU Telecom World (Telecom '83). [2]

En 1999, el consorcio C-Star-2 demostró la traducción de voz a voz de 5 idiomas, incluidos inglés, japonés, italiano, coreano y alemán. [3] [4]