Traducción automática basada en transferencia

La traducción automática basada en transferencia es un tipo de traducción automática (MT). Actualmente es uno de los métodos de traducción automática más utilizados. A diferencia del modelo directo más simple de MT, la transferencia MT divide la traducción en tres pasos: análisis del texto del idioma de origen para determinar su estructura gramatical, transferencia de la estructura resultante a una estructura adecuada para generar texto en el idioma de destino y, finalmente, generación de este texto. Por tanto, los sistemas de traducción automática basados en transferencia pueden utilizar el conocimiento de los idiomas de origen y de destino. ^[1]

La pirámide de Bernard Vauquois muestra profundidades comparativas de representación intermedia con traducción automática interlingüística en la cima, seguida de traducción basada en transferencia y luego traducción directa .

Diseño

Tanto la traducción automática basada en transferencia como la basada en interlingua tienen la misma idea: para hacer una traducción es necesario tener una representación intermedia que capture el "significado" de la oración original para generar la traducción correcta. En la MT basada en interlingua, esta representación intermedia debe ser independiente de los idiomas en cuestión, mientras que en la MT basada en transferencia, tiene cierta dependencia del par de idiomas involucrado.

La forma en que funcionan los sistemas de traducción automática basados en transferencias varía sustancialmente, pero en general siguen el mismo patrón: aplican conjuntos de reglas lingüísticas que se definen como correspondencias entre la estructura del idioma de origen y la del idioma de destino. La primera etapa implica analizar el texto de entrada en busca de morfología y sintaxis (y a veces semántica ) para crear una representación interna. La traducción se genera a partir de esta representación utilizando tanto diccionarios bilingües como reglas gramaticales.

Con esta estrategia de traducción es posible obtener traducciones de calidad bastante alta, con una precisión en la región del 90% ^{[ vaga ]} (aunque esto depende en gran medida del par de idiomas en cuestión, por ejemplo, la distancia entre los dos).

Operación

En un sistema de traducción automática basado en reglas, el texto original se analiza primero morfológica y sintácticamente para obtener una representación sintáctica. Esta representación puede luego refinarse a un nivel más abstracto poniendo énfasis en las partes relevantes para la traducción e ignorando otros tipos de información. El proceso de transferencia luego convierte esta representación final (todavía en el idioma original) en una representación del mismo nivel de abstracción en el idioma de destino. Estas dos representaciones se denominan representaciones "intermedias". A partir de la representación del idioma de destino, las etapas se aplican a la inversa.

Análisis y transformación

Se pueden utilizar varios métodos de análisis y transformación antes de obtener el resultado final. Junto con estos enfoques estadísticos se pueden aumentar generando sistemas híbridos. Los métodos que se eligen y el énfasis depende en gran medida del diseño del sistema, sin embargo, la mayoría de los sistemas incluyen al menos las siguientes etapas:

Análisis morfológico . Las formas superficiales del texto de entrada se clasifican en parte del discurso (por ejemplo, sustantivo, verbo, etc.) y subcategoría (número, género, tiempo, etc.). Todos los "análisis" posibles para cada forma de superficie se suelen generar en esta etapa, junto con el lema de la palabra.
Categorización léxica . En cualquier texto, algunas de las palabras pueden tener más de un significado , lo que genera ambigüedad en el análisis. La categorización léxica mira el contexto de una palabra para tratar de determinar el significado correcto en el contexto de la entrada. Esto puede implicar el etiquetado de parte del discurso y la desambiguación del sentido de las palabras .
Transferencia léxica . Esto es básicamente una traducción de diccionario; el lema del idioma de origen (quizás con información sensible) se busca en un diccionario bilingüe y se elige la traducción.
Transferencia estructural . Mientras que las etapas anteriores tratan con palabras, esta etapa trata con componentes más grandes, por ejemplo, frases y fragmentos . Las características típicas de esta etapa incluyen la concordancia de género y número, y el reordenamiento de palabras o frases.
Generación morfológica . A partir de la salida de la etapa de transferencia estructural, se generan las formas superficiales de la lengua de destino.

Tipos de transferencia

Una de las principales características de los sistemas de traducción automática basados en transferencia es una fase que "transfiere" una representación intermedia del texto en el idioma original a una representación intermedia del texto en el idioma de destino. Esto puede funcionar en uno de dos niveles de análisis lingüístico, o en algún punto intermedio. Los niveles son:

Transferencia superficial (o sintáctica) . Este nivel se caracteriza por transferir "estructuras sintácticas" entre el idioma de origen y el de destino. Es adecuado para lenguas de la misma familia o del mismo tipo, por ejemplo en las lenguas romances entre castellano, catalán, francés, italiano, etc.
Transferencia profunda (o semántica) . Este nivel construye una representación semántica que depende del idioma de origen. Esta representación puede constar de una serie de estructuras que representan el significado. En estos sistemas de transferencia se producen típicamente predicados. La traducción también suele requerir una transferencia estructural. Este nivel se utiliza para traducir entre idiomas más distantes (por ejemplo, español-inglés o español-vasco, etc.)

Referencias

^ Jurafsky, Daniel ; Martin, James H. (2009). Procesamiento del habla y el lenguaje . Pearson. págs. 906 –908.

Ver también

Traducción automática estadística

[slp-1] Jurafsky, Daniel ; Martin, James H. (2009). Procesamiento del habla y el lenguaje . Pearson. págs. 906 –908.

[1]