Traducción automática interlingüística

La traducción automática interlingüística es uno de los enfoques clásicos de la traducción automática . En este enfoque, el idioma de origen, es decir, el texto a traducir se transforma en un interlingua, es decir, una representación abstracta independiente del lenguaje. A continuación, se genera el idioma de destino a partir del interlingua. Dentro del paradigma de la traducción automática basada en reglas, el enfoque interlingüístico es una alternativa al enfoque directo y al enfoque de transferencia .

Figura 1. Demostración de los idiomas que se utilizan en el proceso de traducción mediante un lenguaje puente .

En el enfoque directo, las palabras se traducen directamente sin pasar por una representación adicional. En el enfoque de transferencia, el idioma de origen se transforma en una representación abstracta, menos específica del idioma. Las reglas lingüísticas que son específicas del par de idiomas transforman la representación del idioma de origen en una representación abstracta del idioma de destino y, a partir de esto, se genera la oración de destino.

El enfoque interlingüístico de la traducción automática tiene ventajas y desventajas. Las ventajas son que requiere menos componentes para relacionar cada idioma de origen con cada idioma de destino, se necesitan menos componentes para agregar un nuevo idioma, admite paráfrasis de la entrada en el idioma original, permite que tanto los analizadores como los generadores sean escrito por desarrolladores de sistemas monolingües, y maneja idiomas que son muy diferentes entre sí (por ejemplo, inglés y árabe ^[1] ). La desventaja obvia es que la definición de interlingua es difícil y tal vez incluso imposible para un dominio más amplio. Por tanto, el contexto ideal para la traducción automática interlingüística es la traducción automática multilingüe en un ámbito muy específico.

Historia

Las primeras ideas sobre la traducción automática interlingüística aparecieron en el siglo XVII con Descartes y Leibniz , quienes propusieron teorías sobre cómo crear diccionarios utilizando códigos numéricos universales. Otros, como Cave Beck , Athanasius Kircher y Johann Joachim Becher trabajaron en el desarrollo de un lenguaje universal inequívoco basado en los principios de la lógica y la iconografía. En 1668, John Wilkins describió su interlingua en su "Ensayo hacia un personaje real y un lenguaje filosófico". En los siglos XVIII y XIX se desarrollaron muchas propuestas de lenguas internacionales "universales", siendo la más conocida el esperanto .

Dicho esto, la aplicación de la idea de un lenguaje universal a la traducción automática no apareció en ninguno de los primeros enfoques significativos. En cambio, se empezó a trabajar en pares de idiomas. Sin embargo, durante las décadas de 1950 y 1960, investigadores en Cambridge encabezados por Margaret Masterman , en Leningrado encabezados por Nikolai Andreev y en Milán por Silvio Ceccato comenzaron a trabajar en esta área. La idea fue discutida extensamente por el filósofo israelí Yehoshua Bar-Hillel en 1969.

Durante la década de 1970, investigadores que intentaban traducir textos de física y matemática del ruso al francés realizaron una investigación notable en Grenoble , y en Texas se estaba llevando a cabo un proyecto similar (METAL) para el ruso al inglés . Los primeros sistemas interlingüísticos de MT también fueron construidos en Stanford en la década de 1970 por Roger Schank y Yorick Wilks ; el primero se convirtió en la base de un sistema comercial para la transferencia de fondos, y el código del segundo se conserva en The Computer Museum en Boston como el primer sistema de traducción automática interlingüístico.

En la década de 1980, se dio una relevancia renovada a los enfoques de traducción automática basados en el conocimiento y en el idioma interlingüístico en general, y se realizaron muchas investigaciones en el campo. El factor unificador en esta investigación fue que la traducción de alta calidad requería abandonar la idea de requerir una comprensión total del texto. En cambio, la traducción debería basarse en el conocimiento lingüístico y el dominio específico en el que se utilizaría el sistema. La investigación más importante de esta época se realizó en traducción de idiomas distribuidos (DLT) en Utrecht , que trabajó con una versión modificada del esperanto , y el sistema Fujitsu en Japón.

Esquema

Figura 2. a) Gráfico de traducción requerido para traducción automática directa o basada en transferencia (se requieren 12 diccionarios); b) Se requiere un gráfico de traducción cuando se usa un idioma puente (solo se requieren 8 módulos de traducción).

En este método de traducción, la interlingua puede pensarse como una forma de describir el análisis de un texto escrito en un idioma de origen de tal manera que es posible convertir sus características morfológicas, sintácticas, semánticas (e incluso pragmáticas), es decir " que significa "en un idioma de destino . Este interlingua es capaz de describir todas las características de todos los idiomas que se van a traducir, en lugar de simplemente traducir de un idioma a otro.

Figura 3: Gráfico de traducción utilizando dos interlingües.

A veces se utilizan dos interlingües en la traducción. Es posible que uno de los dos cubra más características del idioma de origen y el otro posea más características del idioma de destino. Luego, la traducción procede mediante la conversión de oraciones del primer idioma en oraciones más cercanas al idioma de destino a través de dos etapas. El sistema también puede configurarse de manera que el segundo interlingua utilice un vocabulario más específico, más cercano o más alineado con el idioma de destino, y esto podría mejorar la calidad de la traducción.

El sistema mencionado anteriormente se basa en la idea de utilizar la proximidad lingüística para mejorar la calidad de la traducción de un texto en un idioma original a muchos otros idiomas estructuralmente similares a partir de un solo análisis original. Este principio también se utiliza en la traducción automática dinámica , donde un lenguaje natural se utiliza como "puente" entre dos lenguajes más distantes. Por ejemplo, en el caso de traducir al inglés del ucraniano utilizando el ruso como idioma intermedio. ^[2]

Proceso de traducción

En los sistemas de traducción automática interlingüística, hay dos componentes monolingües: el análisis del idioma de origen y el interlingüístico, y la generación del interlingua y el idioma de destino. Sin embargo, es necesario distinguir entre sistemas interlingüísticos que utilizan solo métodos sintácticos (por ejemplo, los sistemas desarrollados en la década de 1970 en las universidades de Grenoble y Texas) y los basados en inteligencia artificial (de 1987 en Japón y la investigación en las universidades del sur de California). y Carnegie Mellon). El primer tipo de sistema corresponde al descrito en la Figura 1, mientras que los otros tipos serían aproximados por el diagrama de la Figura 4.

Los siguientes recursos son necesarios para un sistema de traducción automática interlingüístico:

Figura 4. Traducción automática en un sistema basado en el conocimiento.

Diccionarios (o léxicos) de análisis y generación (específicos del dominio y de los lenguajes implicados).
Un léxico conceptual (específico del dominio), que es la base de conocimiento sobre eventos y entidades conocidos en el dominio.
Un conjunto de reglas de proyección (específicas del dominio y los idiomas).
Gramáticas para el análisis y generación de los lenguajes implicados.

Uno de los problemas de los sistemas de traducción automática basados en el conocimiento es que resulta imposible crear bases de datos para dominios más grandes que áreas muy específicas. Otro es que procesar estas bases de datos es muy costoso desde el punto de vista computacional.

Eficacia

Una de las principales ventajas de esta estrategia es que proporciona una forma económica de hacer sistemas de traducción multilingües. Con un interlingua se vuelve innecesario hacer un par de traducción entre cada par de idiomas en el sistema. Entonces en lugar de crear ${\ Displaystyle n (n-1)}$ pares de idiomas, donde ${\ Displaystyle n}$ es el número de idiomas en el sistema, solo es necesario hacer ${\ Displaystyle 2n}$ pares entre los ${\ Displaystyle n}$ idiomas y el interlingua.

La principal desventaja de esta estrategia es la dificultad de crear un interlingua adecuado. Debe ser abstracto e independiente del idioma de origen y de destino. Cuantos más idiomas se agreguen al sistema de traducción, y cuanto más diferentes sean, más potente debe ser el interlingua para expresar todas las direcciones de traducción posibles. Otro problema es que es difícil extraer el significado de los textos en los idiomas originales para crear la representación intermedia.

Sistemas existentes de traducción automática interlingüística

Calliope-Aero
Máquina virtual lingüística Carabao
Marco gramatical
Traductor de números
El Traductor de Google utiliza el inglés internamente como idioma fundamental para algunos pares de idiomas, como el chino y el japonés, y más generalmente aquellos con traductores de redes neuronales de "mayor calidad" con inglés, pero no entre ellos.

Ver también

Representación intermedia
Lenguaje de pivote
Lenguaje de red universal
Representación y razonamiento del conocimiento

Notas

^ Abdel Monem, A., Shaalan, K., Rafea, A., Baraka, H., Generación de texto árabe en el marco de traducción automática multilingüe de voz a voz , traducción automática, Springer, Países Bajos, 20 (4): 205– 258, diciembre de 2008.
^ Bogdan Babych, Anthony Hartley y Serge Sharoff (2007) " Traducción de idiomas de escasos recursos: comparación de la transferencia directa con la traducción dinámica ". Actas de MT Summit XI, 10-14 de septiembre de 2007, Copenhague, Dinamarca . págs. 29—35

enlaces externos

Métodos interlingua
- Diapositivas
- Papel

[1] Abdel Monem, A., Shaalan, K., Rafea, A., Baraka, H., Generación de texto árabe en el marco de traducción automática multilingüe de voz a voz , traducción automática, Springer, Países Bajos, 20 (4): 205– 258, diciembre de 2008.

[2] Bogdan Babych, Anthony Hartley y Serge Sharoff (2007) " Traducción de idiomas de escasos recursos: comparación de la transferencia directa con la traducción dinámica ". Actas de MT Summit XI, 10-14 de septiembre de 2007, Copenhague, Dinamarca . págs. 29—35

[1]