Lenguaje de pivote

Un lenguaje pivote , a veces también llamado lenguaje puente , es un lenguaje artificial o natural utilizado como lenguaje intermedio para la traducción entre muchos idiomas diferentes: para traducir entre cualquier par de idiomas A y B, se traduce A al lenguaje pivote P, luego de P a B. El uso de un lenguaje pivote evita la explosión combinatoria de tener traductores en cada combinación de los idiomas admitidos, ya que el número de combinaciones de idiomas es lineal ( ${\ Displaystyle n-1}$ ), en lugar de cuadrática ${\ Displaystyle \ left (\ textstyle {\ binom {n} {2}} = {\ frac {n ^ {2} -n} {2}} \ right)}$ - solo se necesita conocer el idioma A y el idioma pivote P (y alguien más el idioma B y el pivote P), en lugar de necesitar un traductor diferente para cada combinación posible de A y B.

La desventaja de un lenguaje pivote es que cada paso de la retraducción introduce posibles errores y ambigüedades; el uso de un lenguaje pivote implica dos pasos, en lugar de uno. Por ejemplo, cuando Hernán Cortés se comunicaba con los indios mesoamericanos , hablaba español con Gerónimo de Aguilar , quien hablaba maya con Malintzin , quien hablaba náhuatl con los lugareños.

Ejemplos de

El inglés , francés , ruso y árabe se utilizan a menudo como idiomas pivote. El interlingua se ha utilizado como lenguaje pivote en conferencias internacionales y se ha propuesto como lenguaje pivote para la Unión Europea . ^{[1] El} esperanto se propuso como un idioma pivote en el proyecto de traducción de idiomas distribuidos y se ha utilizado de esta manera en Majstro Tradukvortaro en el sitio web de esperanto Majstro.com . El Universal Networking Language es un lenguaje artificial diseñado específicamente para su uso como lengua pivote.

En informática

La codificación dinámica también es un método común de traducción de datos para sistemas informáticos. Por ejemplo, el protocolo de Internet , XML y los lenguajes de alto nivel son codificaciones dinámicas de datos informáticos que a menudo se procesan en formatos binarios internos para sistemas informáticos particulares.

Unicode fue diseñado para ser utilizado como codificación pivote entre varias codificaciones de caracteres importantes existentes, aunque su adopción generalizada como codificación por derecho propio ha hecho que este uso no sea importante.

En traducción automática

Los sistemas actuales de traducción automática estadística ( SMT ) utilizan corpus paralelos para los idiomas fuente (s) y destino (t) para lograr buenos resultados, pero los corpus paralelos buenos no están disponibles para todos los idiomas. Un lenguaje pivote (p) permite el puente entre dos lenguajes, a los que los corpus paralelos existentes aún no están total o parcialmente a mano.

La traducción dinámica puede ser problemática debido a la posible falta de fidelidad de la información enviada en el uso de diferentes corpus. Desde el uso de dos corpus bilingües (sp & pt) para establecer el st puente, los datos lingüísticos se pierden inevitablemente. La traducción automática basada en reglas ( RBMT ) ayuda al sistema a rescatar esta información, de modo que el sistema no se base completamente en estadísticas sino también en información lingüística estructural.

Se utilizan tres técnicas básicas para emplear el lenguaje pivote en la traducción automática: (1) triangulación , que se centra en el paralelismo de frases entre fuente y pivote (sp) y entre pivote y destino (pt); (2) transferencia , que traduce la oración completa del idioma de origen a un idioma pivote y luego al idioma de destino; y (3) síntesis , que construye un corpus propio para el entrenamiento del sistema.

El método de triangulación (también llamado multiplicación de tablas de frases ) calcula la probabilidad de las correspondencias de traducción y el peso léxico en sp y pt, para tratar de inducir una nueva tabla de frases st. El método de transferencia (también llamado estrategia de traducción de oraciones ) simplemente lleva una traducción directa de s en py luego otra traducción de p en t sin usar pruebas probabilísticas (como en la triangulación). El método sintético usa un corpus existente de sy trata de construir un corpus sintético propio a partir de él que es usado por el sistema para entrenarse a sí mismo. A continuación, se sintetiza un corpus sp bilingüe para permitir una traducción pt.

Una comparación directa entre los métodos de triangulación y transferencia para sistemas SMT ha demostrado que la triangulación logra resultados mucho mejores que la transferencia.

Las tres técnicas de lenguaje pivote mejoran el rendimiento de los sistemas SMT. Sin embargo, la técnica sintética no funciona bien con RBMT y el rendimiento de los sistemas es inferior al esperado. Los sistemas híbridos SMT / RBMT logran una mejor calidad de traducción que los sistemas SMT estrictos que dependen de corpora paralelos malos.

El papel clave de los sistemas RBMT es que ayudan a llenar el vacío dejado en el proceso de traducción de sp → pt, en el sentido de que estos paralelos se incluyen en el modelo SMT para st.

Referencias

^ Breinstrup, Thomas. "¿Linguaphobos? Non in le UE". [¿Linguaphobes? No en la UE]. Panorama en Interlingua , 2006, número 5.

Hua Wu y Haifeng Wang. 2009. Revisando el enfoque del lenguaje dinámico para la traducción automática . ACL-09.
Utiyama, M. & H. Isahara (2006) Una comparación de métodos pivote para la traducción automática estadística basada en frases . En Proceedings of NAACL / HLT, 484 {491.

[1] Breinstrup, Thomas. "¿Linguaphobos? Non in le UE". [¿Linguaphobes? No en la UE]. Panorama en Interlingua , 2006, número 5.

[1] El