Evaluación de la traducción automática

Se han empleado varios métodos para la evaluación de la traducción automática . Este artículo se centra en la evaluación del resultado de la traducción automática , más que en la evaluación del rendimiento o la usabilidad.

Traducción de ida y vuelta

Una forma típica para que los profanos evalúen la calidad de la traducción automática es traducir de un idioma de origen a un idioma de destino y volver al idioma de origen con el mismo motor. Aunque intuitivamente esto puede parecer un buen método de evaluación, se ha demostrado que la traducción de ida y vuelta es un "pobre predictor de la calidad". ^[1] La razón por la que es un predictor de calidad tan pobre es razonablemente intuitiva. Una traducción de ida y vuelta no consiste en probar un sistema, sino dos sistemas: el par de idiomas del motor para traducir al idioma de destino y el par de idiomas que traduce del idioma de destino.

Considere los siguientes ejemplos de traducción de ida y vuelta realizada del inglés al italiano y al portugués de Somers (2005):

Texto original	Seleccione este enlace para ver nuestra página de inicio.
Traducido	Selezioni questo collegamento per guardare il nostro Home Page.
Traducido hacia atrás	Selecciona esta conexión para ver nuestra página de inicio.

Texto original	Tal para cual
Traducido	Melharuco para o tat
Traducido hacia atrás	Tal para cual

En el primer ejemplo, donde el texto se traduce al italiano y luego se vuelve a traducir al inglés , el texto en inglés está muy distorsionado, pero el italiano es una traducción útil. En el segundo ejemplo, el texto traducido al inglés es perfecto, pero la traducción al portugués no tiene sentido; el programa pensó que "tit" era una referencia a un tit (pájaro) , que estaba destinado a un "tat", una palabra que no entendía.

Si bien la traducción de ida y vuelta puede ser útil para generar un "exceso de diversión", ^[2] la metodología es deficiente para un estudio serio de la calidad de la traducción automática.

Evaluación humana

Esta sección cubre dos de los estudios de evaluación a gran escala que han tenido un impacto significativo en el campo: el estudio ALPAC 1966 y el estudio ARPA. ^[3]

Comité Asesor de Procesamiento Automático de Idiomas (ALPAC)

Una de las partes constitutivas del informe de ALPAC fue un estudio que comparó diferentes niveles de traducción humana con resultados de traducción automática, utilizando sujetos humanos como jueces. Los jueces humanos fueron entrenados especialmente para este propósito. El estudio de evaluación comparó un sistema de traducción automática que traducía del ruso al inglés con traductores humanos, en dos variables.

Las variables estudiadas fueron "inteligibilidad" y "fidelidad". La inteligibilidad era una medida de cuán "comprensible" era la oración y se midió en una escala del 1 al 9. La fidelidad era una medida de cuánta información retenía la oración traducida en comparación con la original, y se midió en una escala de 0 a 9. Cada punto de la escala se asoció con una descripción textual. Por ejemplo, 3 en la escala de inteligibilidad se describió como "Generalmente ininteligible; tiende a leer como una tontería pero, con una cantidad considerable de reflexión y estudio, uno puede al menos hipotetizar la idea que pretende la oración". ^[4]

La inteligibilidad se midió sin referencia al original, mientras que la fidelidad se midió indirectamente. Se presentó la oración traducida, y luego de leerla y absorber el contenido, se presentó la oración original. Se pidió a los jueces que calificaran la sentencia original sobre la informatividad. Entonces, cuanto más informativa sea la oración original, menor será la calidad de la traducción.

El estudio mostró que las variables estaban altamente correlacionadas cuando se promedió el juicio humano por oración. La variación entre los evaluadores fue pequeña, pero los investigadores recomendaron que se utilizaran al menos tres o cuatro evaluadores. La metodología de evaluación logró separar las traducciones realizadas por humanos de las traducciones realizadas por máquinas con facilidad.

El estudio concluyó que "se pueden realizar evaluaciones altamente confiables de la calidad de las traducciones humanas y automáticas". ^[4]

Agencia de Proyectos de Investigación Avanzada (ARPA)

Como parte del Programa de Tecnologías del Lenguaje Humano, la Agencia de Proyectos de Investigación Avanzada (ARPA) creó una metodología para evaluar los sistemas de traducción automática y continúa realizando evaluaciones basadas en esta metodología. El programa de evaluación se inició en 1991 y continúa hasta el día de hoy. Los detalles del programa se pueden encontrar en White et al. (1994) y White (1995).

El programa de evaluación implicó probar varios sistemas basados en diferentes enfoques teóricos; estadístico, basado en reglas y asistido por humanos. En 1992 se probaron varios métodos para la evaluación de los resultados de estos sistemas y se seleccionaron los métodos adecuados más recientes para su inclusión en los programas de los años siguientes. Los métodos fueron; evaluación de comprensión, evaluación de panel de calidad y evaluación basada en suficiencia y fluidez.

La evaluación de la comprensión tuvo como objetivo comparar directamente los sistemas con base en los resultados de las pruebas de comprensión de opción múltiple, como en Church et al. (1993). Los textos elegidos fueron un conjunto de artículos en inglés sobre el tema de las noticias financieras. Estos artículos fueron traducidos por traductores profesionales a una serie de pares de idiomas y luego se volvieron a traducir al inglés utilizando los sistemas de traducción automática. Se decidió que esto no era adecuado para un método independiente de comparar sistemas y, como tal, se abandonó debido a problemas con la modificación del significado en el proceso de traducción del inglés.

La idea de la evaluación del panel de calidad era enviar las traducciones a un panel de hablantes nativos de inglés expertos que fueran traductores profesionales y lograr que las evaluaran. Las evaluaciones se realizaron sobre la base de una métrica, modelada en una métrica estándar del gobierno de EE. UU. Utilizada para calificar las traducciones humanas. Esto fue bueno desde el punto de vista de que la métrica estaba "motivada externamente", ^[3] ya que no se desarrolló específicamente para la traducción automática. Sin embargo, la evaluación del panel de calidad fue muy difícil de organizar desde el punto de vista logístico, ya que requería tener varios expertos juntos en un lugar durante una semana o más y, además, que llegaran a un consenso. Este método también fue abandonado.

Junto con una forma modificada de evaluación de la comprensión (rediseñada como evaluación de la informatividad), el método más popular fue obtener calificaciones de jueces monolingües para segmentos de un documento. A los jueces se les presentó un segmento y se les pidió que lo calificaran por dos variables, adecuación y fluidez. La adecuación es una calificación de cuánta información se transfiere entre el original y la traducción, y la fluidez es una calificación de qué tan bueno es el inglés. Se descubrió que esta técnica cubría las partes relevantes de la evaluación del panel de calidad, mientras que al mismo tiempo era más fácil de implementar, ya que no requería el juicio de expertos.

Los sistemas de medición basados en la adecuación y la fluidez, junto con la informatividad, es ahora la metodología estándar para el programa de evaluación ARPA. ^[5]

Evaluación automática

En el contexto de este artículo, una métrica es una medida. Una métrica que evalúa la salida de la traducción automática representa la calidad de la salida. La calidad de una traducción es intrínsecamente subjetiva, no existe un "bien" objetivo o cuantificable. Por lo tanto, cualquier métrica debe asignar puntajes de calidad para que se correlacionen con el juicio humano de calidad. Es decir, una métrica debe puntuar muy bien las traducciones que los humanos puntúan muy alto y dar puntuaciones bajas a las que los humanos dan puntuaciones bajas. El juicio humano es el punto de referencia para evaluar métricas automáticas, ya que los humanos son los usuarios finales de cualquier resultado de traducción.

La medida de evaluación de las métricas es la correlación con el juicio humano. Esto generalmente se hace en dos niveles, en el nivel de la oración, donde los puntajes se calculan mediante la métrica para un conjunto de oraciones traducidas y luego se correlacionan con el juicio humano para las mismas oraciones. Y en el nivel del corpus, donde las puntuaciones sobre las oraciones se agregan tanto para los juicios humanos como para los juicios métricos, y luego estas puntuaciones agregadas se correlacionan. Las cifras de correlación a nivel de la oración rara vez se informan, aunque Banerjee et al. (2005) dan cifras de correlación que muestran que, al menos para su métrica, la correlación a nivel de oración es sustancialmente peor que la correlación a nivel de corpus.

Si bien no se informa ampliamente, se ha observado que el género o dominio de un texto tiene un efecto sobre la correlación obtenida al usar métricas. Coughlin (2003) informa que comparar el texto candidato con una única traducción de referencia no afecta negativamente la correlación de métricas cuando se trabaja en un texto de dominio restringido.

Incluso si una métrica se correlaciona bien con el juicio humano en un estudio sobre un corpus, es posible que esta correlación exitosa no se transfiera a otro corpus. Un buen rendimiento de la métrica, en todos los tipos de texto o dominios, es importante para la reutilización de la métrica. Una métrica que solo funciona para texto en un dominio específico es útil, pero menos útil que una que funciona en muchos dominios, porque no es deseable crear una nueva métrica para cada nueva evaluación o dominio.

Otro factor importante en la utilidad de una métrica de evaluación es tener una buena correlación, incluso cuando se trabaja con pequeñas cantidades de datos, es decir, oraciones candidatas y traducciones de referencias. Turian y col. (2003) señalan que, "Cualquier medida de evaluación de MT es menos confiable en traducciones más cortas", y muestran que aumentar la cantidad de datos mejora la confiabilidad de una métrica. Sin embargo, agregan que "... la confiabilidad en textos más cortos, tan cortos como una oración o incluso una frase, es muy deseable porque una medida de evaluación de MT confiable puede acelerar enormemente el análisis de datos exploratorios". ^[6]

Banerjee y col. (2005) destacan cinco atributos que debe poseer una buena métrica automática; correlación, sensibilidad, consistencia, confiabilidad y generalidad. Cualquier buena métrica debe tener una alta correlación con el juicio humano, debe ser coherente y dar resultados similares al mismo sistema de traducción automática en un texto similar. Debe ser sensible a las diferencias entre los sistemas de MT y confiable en el sentido de que se espera que los sistemas de MT que puntúan de manera similar funcionen de manera similar. Finalmente, la métrica debe ser general, es decir, debe funcionar con diferentes dominios de texto , en una amplia gama de escenarios y tareas de MT.

El objetivo de esta subsección es ofrecer una descripción general del estado del arte en métricas automáticas para evaluar la traducción automática. ^[7]

BLEU

BLEU fue una de las primeras métricas en informar una alta correlación con los juicios humanos de calidad. La métrica es actualmente una de las más populares en el campo. La idea central detrás de la métrica es que "cuanto más cerca está una traducción automática a una traducción humana profesional, mejor es". ^[8] La métrica calcula los puntajes de segmentos individuales, generalmente oraciones, luego promedia estos puntajes en todo el corpus para obtener un puntaje final. Se ha demostrado que tiene una alta correlación con los juicios humanos de calidad a nivel de corpus. ^[9]

BLEU utiliza una forma modificada de precisión para comparar una traducción candidata con varias traducciones de referencia. La métrica modifica la precisión simple, ya que se sabe que los sistemas de traducción automática generan más palabras de las que aparecen en un texto de referencia. Ninguna otra métrica de traducción automática ha superado significativamente a BLEU con respecto a la correlación con el juicio humano entre pares de idiomas. ^[10]

NIST

La métrica NIST se basa en la métrica BLEU , pero con algunas modificaciones. Donde BLEU simplemente calcula n-gram precisión la adición de un peso igual a cada uno, NIST también calcula cómo informativo un particular, n-gram es. Es decir, cuando se encuentra un n-gramo correcto , cuanto más raro es el n-gramo, más peso se le da. ^[11] Por ejemplo, si el bigrama "en el" coincide correctamente, recibe un peso menor que el emparejamiento correcto de los "cálculos interesantes" del bigrama, ya que es menos probable que esto ocurra. NIST también se diferencia de BLEU en su cálculo de la penalización por brevedad, en la medida en que pequeñas variaciones en la longitud de la traducción no afectan tanto a la puntuación general.

Tasa de error de palabra

La tasa de error de palabra (WER) es una métrica basada en la distancia de Levenshtein , donde la distancia de Levenshtein funciona a nivel de carácter, WER funciona a nivel de palabra. Originalmente se utilizó para medir el rendimiento de los sistemas de reconocimiento de voz , pero también se utiliza en la evaluación de la traducción automática. La métrica se basa en el cálculo del número de palabras que difieren entre un texto traducido automáticamente y una traducción de referencia.

Una métrica relacionada es la tasa de error de palabra independiente de la posición (PER), que permite el reordenamiento de palabras y secuencias de palabras entre un texto traducido y una traducción de referencia.

METEORITO

La métrica METEOR está diseñada para abordar algunas de las deficiencias inherentes a la métrica BLEU. La métrica se basa en la media armónica ponderada de la precisión unigrama y la memoria unigrama. La métrica fue diseñada después de la investigación de Lavie (2004) sobre la importancia del recuerdo en las métricas de evaluación. Su investigación mostró que las métricas basadas en el recuerdo lograron consistentemente una correlación más alta que las basadas en la precisión solamente, cf. BLEU y NIST. ^[12]

METEOR también incluye algunas otras características que no se encuentran en otras métricas, como la coincidencia de sinonimia, donde en lugar de coincidir solo en la forma exacta de la palabra, la métrica también coincide con los sinónimos. Por ejemplo, la palabra "bueno" en la representación de referencia y "bueno" en la traducción cuenta como una coincidencia. La métrica también incluye un lematizador, que lematiza palabras y coincide con las formas lematizadas. La implementación de la métrica es modular en la medida en que los algoritmos que coinciden con palabras se implementan como módulos, y se pueden agregar fácilmente nuevos módulos que implementan diferentes estrategias de coincidencia.

LEPOR

Se propuso una nueva métrica de evaluación de MT, LEPOR, como la combinación de muchos factores de evaluación, incluidos los existentes (precisión, recuperación) y los modificados (penalización de longitud de oración y penalización de orden de palabras basada en n-gramas). Los experimentos se probaron en ocho pares de idiomas de ACL-WMT2011, incluido el inglés con otros (español, francés, alemán y checo) y el inverso, y mostraron que LEPOR arrojó una correlación a nivel de sistema más alta con juicios humanos que varias métricas existentes, como como BLEU, Meteor-1.3, TER, AMBER y MP4IBM1. ^[13] En el documento se presenta una versión mejorada de la métrica LEPOR, hLEPOR. ^[14] hLEPOR utiliza la media armónica para combinar los subfactores de la métrica diseñada. Además, diseñan un conjunto de parámetros para ajustar los pesos de los subfactores de acuerdo con diferentes pares de idiomas. Los resultados de la tarea compartida ACL-WMT13 Metrics ^[15] muestran que hLEPOR produce el puntaje de correlación de Pearson más alto con el juicio humano en el par de idiomas de inglés a ruso, además del puntaje promedio más alto en cinco pares de idiomas (inglés a ruso). Alemán, francés, español, checo, ruso). Los resultados detallados de WMT13 Metrics Task se presentan en el documento. ^[dieciséis]

Panorama general de las metodologías de evaluación automática y humana

Hay algunos trabajos de encuestas de evaluación de traducción automática, ^[17]^[18]^[19] donde las personas introdujeron más detalles sobre los tipos de métodos de evaluación humana que usaron y cómo funcionan, como la inteligibilidad, fidelidad, fluidez, adecuación, comprensión, e informatividad, etc. Para las evaluaciones automáticas, también hicieron algunas clasificaciones claras como los métodos de similitud léxica, la aplicación de rasgos lingüísticos y los subcampos de estos dos aspectos. Por ejemplo, para la similitud léxica, contiene la distancia de edición, la precisión, la recuperación y el orden de las palabras; para el rasgo lingüístico, se divide en rasgo sintáctico y rasgo semántico, respectivamente. Una descripción general del estado de la técnica sobre la evaluación de la traducción manual y automática ^[20] introdujo las metodologías de evaluación de la calidad de la traducción (TQA) desarrolladas recientemente , como la inteligencia de origen colectivo, la utilización de Amazon Mechanical Turk , las pruebas de significación estadística y la revisión criterios tradicionales con estrategias de nuevo diseño, así como la estimación de la calidad de MT (QE) tareas compartidas del taller anual sobre MT (WMT) ^[21] y los modelos correspondientes que no se basan en traducciones de referencia ofrecidas por humanos.

Ver también

Comparación de aplicaciones de traducción automática
Facilidad de uso del software de traducción automática

Notas

^ Somers (2005)
↑ Gaspari (2006)
^ a b White y col. (1994)
↑ a b ALPAC (1966)
^ Blanco (1995)
^ Turian y col. (2003)
^ Si bien las métricas se describen como para la evaluación de la traducción automática, en la práctica también pueden usarse para medir la calidad de la traducción humana. Incluso se han utilizado las mismas métricas para la detección de plagio; para obtener más detalles, consulte Somers et al. (2006).
^ Papineni y col. (2002)
^ Papineni y col. (2002), Coughlin (2003)
^ Graham y Baldwin (2014)
^ Doddington (2002)
^ Lavie (2004)
↑ Han (2012)
^ Han y col. (2013a)
^ ACL-WMT (2013)
^ Han y col. (2013b)
^ EuroMatrix. (2007).
^ Dorr y col. ()
↑ Han (2016)
^ Han y col. (2021)
^ https://dl.acm.org/conference/wmt

Referencias

Banerjee, S. y Lavie, A. (2005) "METEOR: Una métrica automática para la evaluación de MT con mejor correlación con los juicios humanos" en las actas del taller sobre medidas de evaluación intrínsecas y extrínsecas para MT y / o resumen en la 43ª reunión anual de la Asociación de Lingüística Computacional (ACL-2005), Ann Arbor, Michigan, junio de 2005
Church, K. y Hovy, E. (1993) "Buenas aplicaciones para la mala traducción automática". Traducción automática , 8 págs. 239–258
Coughlin, D. (2003) "Correlacionar las evaluaciones automatizadas y humanas de la calidad de la traducción automática" en MT Summit IX, Nueva Orleans, EE . UU . Págs. 23–27
Doddington, G. (2002) "Evaluación automática de la calidad de la traducción automática utilizando estadísticas de coincidencia de n-gramas". Actas de la Conferencia de Tecnología del Lenguaje Humano (HLT), San Diego, CA págs. 128-132
Gaspari, F. (2006) "Mira quién está traduciendo. Suplantación de identidad, susurros chinos y diversión con la traducción automática en Internet" en las actas de la XI Conferencia Anual de la Asociación Europea de Traducción Automática
Graham, Y. y T. Baldwin. (2014) "Prueba de la importancia de una mayor correlación con el juicio humano". Actas de EMNLP 2014, Doha, Qatar
Lavie, A., Sagae, K. y Jayaraman, S. (2004) "La importancia del recuerdo en métricas automáticas para la evaluación de MT" en Actas de AMTA 2004, Washington DC. Septiembre de 2004
Papineni, K., Roukos, S., Ward, T. y Zhu, WJ (2002). "BLEU: un método para la evaluación automática de la traducción automática" en ACL-2002: 40ª reunión anual de la Asociación de Lingüística Computacional págs. 311–318
Somers, H. (2005) " Traducción de ida y vuelta: ¿Para qué sirve? "
Somers, H., Gaspari, F. y Ana Niño (2006) "Detección del uso inadecuado de la traducción automática en línea gratuita por parte de estudiantes de idiomas: un caso especial de detección de plagio". Actas de la XI Conferencia Anual de la Asociación Europea de Traducción Automática, Universidad de Oslo (Noruega) págs. 41–48
ALPAC (1966) "Idiomas y máquinas: la informática en la traducción y la lingüística". Un informe del Comité Asesor de Procesamiento Automático del Lenguaje, División de Ciencias del Comportamiento, Academia Nacional de Ciencias, Consejo Nacional de Investigación. Washington, DC: Academia Nacional de Ciencias, Consejo Nacional de Investigación, 1966. (Publicación 1416.)
Turian, J., Shen, L. y Melamed, ID (2003) "Evaluación de la traducción automática y su evaluación". Actas de MT Summit IX, Nueva Orleans, EE . UU. , 2003 págs. 386–393
White, J., O'Connell, T. y O'Mara, F. (1994) "Las metodologías de evaluación ARPA MT: evolución, lecciones y enfoques futuros". Actas de la 1ª Conferencia de la Asociación de Traducción Automática de las Américas. Columbia, MD págs. 193–205
White, J. (1995) "Approaches to Black Box MT Evaluation". Actas de MT Summit V
Han, ALF, Wong, DF y Chao, LS (2012) "LEPOR: Una métrica de evaluación robusta para la traducción automática con factores aumentados" en Actas de la 24ª Conferencia Internacional sobre Lingüística Computacional (COLING 2012): Posters, Mumbai, India. Herramienta de código abierto págs. 441–450
Han, ALF, Wong, DF, Chao, LS, He, L., Lu, Y., Xing, J. y Zeng, X. (2013a) "Modelo independiente del lenguaje para la evaluación de la traducción automática con factores reforzados" en Proceedings de la XIV Cumbre de Traducción Automática, Niza, Francia. Asociación Internacional de Traducción Automática. Herramienta de código abierto
ACL-WMT. (2013) " TAREA DE MÉTRICAS ACL-WMT13 "
Han, ALF, Wong, DF, Chao, LS, Lu, Y., He, L., Wang, Y. y Zhou, J. (2013b) "Una descripción de los sistemas de evaluación de traducción automática ajustables en la tarea de métricas WMT13" en Actas del octavo taller sobre traducción automática estadística, ACL-WMT13, Sofía, Bulgaria. Asociación de Lingüística Computacional. Documento en línea págs. 414–421
Han, Lifeng (2016) "Recursos y métodos de evaluación de la traducción automática: una encuesta" en arXiv: 1605.04515 [cs.CL] , [1] págs. 1-14, mayo de 2016.
EuroMatrix. 2007. 1.3: Encuesta de evaluación de la traducción automática. Distribución pública. Proyecto financiado por la Comunidad Europea en el marco del Sexto Programa Marco de Investigación y Desarrollo Tecnológico.
Bonnie Dorr , Matt Snover, Nitin Madnani. Parte 5: Evaluación de la traducción automática. Editor: Bonnie Dorr. Capítulo del libro.
Han, Lifeng, Jones, Gareth y Smeaton, Alan (2021) Evaluación de la calidad de la traducción: una breve encuesta sobre métodos manuales y automáticos. [2] En: MoTra21: Taller sobre modelización de la traducción: traducción en la era digital, @NoDaLiDa 2021. 19 páginas. Editorial: Asociación de Lingüística Computacional.

Otras lecturas

Archivo de traducción automática: Índice temático: Publicaciones posteriores a 2000 (consulte el subtítulo Evaluación )
Archivo de traducción automática: Índice temático: Publicaciones anteriores a 2000 (consulte el subtítulo Evaluación )
Evaluación de la traducción automática: una encuesta: publicaciones hasta 2015

Software para evaluación automatizada

Asia Online Language Studio: compatible con BLEU, TER, F-Measure, METEOR
BLEU
Medida F
NIST
METEORITO
TER
TERP
LEPOR
hLEPOR
KantanAnalytics: estimación de la calidad de MT a nivel de segmento

[1] Somers (2005)

[2] Gaspari (2006)

[White_et_al._1994-3] White y col. (1994)

[ALPAC_1966-4] ALPAC (1966)

[5] Blanco (1995)

[6] Turian y col. (2003)

[7] Si bien las métricas se describen como para la evaluación de la traducción automática, en la práctica también pueden usarse para medir la calidad de la traducción humana. Incluso se han utilizado las mismas métricas para la detección de plagio; para obtener más detalles, consulte Somers et al. (2006).

[8] Papineni y col. (2002)

[9] Papineni y col. (2002), Coughlin (2003)

[10] Graham y Baldwin (2014)

[11] Doddington (2002)

[12] Lavie (2004)

[13] Han (2012)

[14] Han y col. (2013a)

[15] ACL-WMT (2013)

[16] Han y col. (2013b)

[17] EuroMatrix. (2007).

[18] Dorr y col. ()

[19] Han (2016)

[20] Han y col. (2021)

[21] ttps://dl.acm.org/conference/wmt

[1]