BLEU

BLEU ( suplente de evaluación bilingüe ) es un algoritmo para evaluar la calidad del texto que ha sido traducido automáticamente de un lenguaje natural a otro. Se considera que la calidad es la correspondencia entre la producción de una máquina y la de un ser humano: "cuanto más cercana está una traducción automática a una traducción humana profesional, mejor es" - esta es la idea central detrás de BLEU. ^[1] BLEU fue una de las primeras métricas en afirmar una alta correlación con los juicios humanos de calidad, ^[2]^[3] y sigue siendo una de las métricas automatizadas y económicas más populares.

Las puntuaciones se calculan para segmentos traducidos individuales, generalmente oraciones, comparándolos con un conjunto de traducciones de referencia de buena calidad. Luego, esos puntajes se promedian en todo el corpus para llegar a una estimación de la calidad general de la traducción. La inteligibilidad o la corrección gramatical no se tienen en cuenta ^{[ cita requerida ]} .

La salida de BLEU es siempre un número entre 0 y 1. Este valor indica qué tan similar es el texto candidato a los textos de referencia, con valores más cercanos a 1 que representan textos más similares. Pocas traducciones humanas obtendrán una puntuación de 1, ya que esto indicaría que el candidato es idéntico a una de las traducciones de referencia. Por esta razón, no es necesario obtener una puntuación de 1. Debido a que hay más oportunidades de igualar, agregar traducciones de referencia adicionales aumentará la puntuación BLEU. ^[4]

Algoritmo

BLEU utiliza una forma modificada de precisión para comparar una traducción candidata con varias traducciones de referencia. La métrica modifica la precisión simple, ya que se sabe que los sistemas de traducción automática generan más palabras que en un texto de referencia. Esto se ilustra en el siguiente ejemplo de Papineni et al. (2002),

Ejemplo de salida de traducción automática deficiente con alta precisión
Candidato	la	la	la	la	la	la	la
Referencia 1	la	gato	es	en	la	estera
Referencia 2	allí	es	a	gato	en	la	estera

De las siete palabras de la traducción candidata, todas aparecen en las traducciones de referencia. Por lo tanto, al texto candidato se le da una precisión de unigramo de,

{\ Displaystyle P = {\ frac {m} {w_ {t}}} = {\ frac {7} {7}} = 1}

dónde ${\ Displaystyle ~ m}$ es el número de palabras del candidato que se encuentran en la referencia, y ${\ Displaystyle ~ w_ {t}}$ es el número total de palabras del candidato. Esta es una puntuación perfecta, a pesar de que la traducción candidata anterior conserva poco del contenido de cualquiera de las referencias.

La modificación que realiza BLEU es bastante sencilla. Para cada palabra en la traducción candidata, el algoritmo toma su conteo total máximo, ${\ Displaystyle ~ m_ {max}}$ , en cualquiera de las traducciones de referencia. En el ejemplo anterior, la palabra "el" aparece dos veces en la referencia 1 y una vez en la referencia 2. Por lo tanto ${\ Displaystyle ~ m_ {max} = 2}$ .

Para la traducción candidata, el recuento ${\ Displaystyle m_ {w}}$ de cada palabra se recorta a un máximo de ${\ Displaystyle m_ {max}}$ por esa palabra. En este caso, "el" tiene ${\ Displaystyle ~ m_ {w} = 7}$ y ${\ Displaystyle ~ m_ {max} = 2}$ , por lo tanto ${\ Displaystyle ~ m_ {w}}$ se recorta a 2. Estos recuentos recortados ${\ Displaystyle ~ m_ {w}}$ luego se suman sobre todas las palabras distintas en el candidato. Luego, esta suma se divide por el número total de unigramos en la traducción candidata. En el ejemplo anterior, la puntuación de precisión unigrama modificada sería:

{\ Displaystyle P = {\ frac {2} {7}}}

En la práctica, sin embargo, el uso de palabras individuales como unidad de comparación no es óptimo. En cambio, BLEU calcula la misma métrica de precisión modificada utilizando n-gramos . Se encontró que la longitud que tiene la "mayor correlación con los juicios humanos monolingües" ^[5] es de cuatro. Se encuentra que las puntuaciones de unigramo dan cuenta de la idoneidad de la traducción, cuánta información se retiene. Las puntuaciones de $n$ -gram más largas dan cuenta de la fluidez de la traducción, o hasta qué punto se lee como "buen inglés".

Comparación de métricas para el candidato "el gato"
Modelo	Conjunto de gramos	Puntaje
Unigrama	"el", "el", "gato"	${\ Displaystyle {\ frac {1 + 1 + 1} {3}} = 1}$
Unigram agrupado	"el" * 2, "gato" * 1	${\ displaystyle {\ frac {1 + 1} {2 + 1}} = {\ frac {2} {3}}}$
Bigram	"el el", "el gato"	${\ displaystyle {\ frac {0 + 1} {2}} = {\ frac {1} {2}}}$

Un problema con los puntajes BLEU es que tienden a favorecer las traducciones cortas, que pueden producir puntajes de muy alta precisión, incluso usando precisión modificada. Un ejemplo de traducción candidata para las mismas referencias anteriores podría ser:

el gato

En este ejemplo, la precisión unigrama modificada sería,

{\ Displaystyle P = {\ frac {1} {2}} + {\ frac {1} {2}} = {\ frac {2} {2}}}

ya que la palabra 'el' y la palabra 'gato' aparecen una vez cada una en el candidato, y el número total de palabras es dos. La precisión del bigrama modificada sería ${\ Displaystyle 1/1}$ como bigrama, "el gato" aparece una vez en el candidato. Se ha señalado que la precisión suele combinarse con el recuerdo para superar este problema ^[6] , ya que el recuerdo unigramo de este ejemplo sería ${\ displaystyle 3/6}$ o ${\ Displaystyle 2/7}$ . El problema es que, dado que existen múltiples traducciones de referencias, una mala traducción fácilmente podría tener un recuerdo inflado, como una traducción que consta de todas las palabras en cada una de las referencias. ^[7]

Para producir una puntuación para todo el corpus, las puntuaciones de precisión modificadas para los segmentos se combinan utilizando la media geométrica multiplicada por una penalización por brevedad para evitar que los candidatos muy cortos reciban una puntuación demasiado alta. Sea $r$ la longitud total del corpus de referencia $yc$ la longitud total del corpus de traducción. Si ${\ Displaystyle c \ leq r}$ , se aplica la penalización por brevedad, definida como ${\ Displaystyle e ^ {(1-r / c)}}$ . (En el caso de múltiples oraciones de referencia, $r$ se toma como la suma de las longitudes de las oraciones cuya longitud es más cercana a la longitud de las oraciones candidatas. Sin embargo, en la versión de la métrica utilizada por las evaluaciones del NIST antes de 2009, en su lugar, se había utilizado la oración de referencia más corta).

iBLEU es una versión interactiva de BLEU que permite al usuario examinar visualmente las puntuaciones BLEU obtenidas por las traducciones candidatas. También permite comparar dos sistemas diferentes de forma visual e interactiva, lo que es útil para el desarrollo del sistema. ^[8]

Actuación

Se ha informado con frecuencia que BLEU se correlaciona bien con el juicio humano, ^[9]^[10]^[11] y sigue siendo un punto de referencia para la evaluación de cualquier nueva métrica de evaluación. Sin embargo, se han expresado varias críticas. Se ha observado que, aunque en principio es capaz de evaluar traducciones de cualquier idioma, BLEU no puede, en su forma actual, tratar con idiomas que carecen de límites entre palabras. ^[12]

Se ha argumentado que aunque BLEU tiene ventajas significativas, no hay garantía de que un aumento en la puntuación BLEU sea un indicador de una mejor calidad de traducción. ^[13]

Ver también

Notas

^ Papineni, K., et al. (2002)
^ Papineni, K., et al. (2002)
^ Coughlin, D. (2003)
^ Papineni, K., et al. (2002)
^ Papineni, K., et al. (2002)
^ Papineni, K., et al. (2002)
^ Coughlin, D. (2003)
^ Doddington, G. (2002)
^ Denoual, E. y Lepage, Y. (2005)
^ Callison-Burch, C., Osborne, M. y Koehn, P. (2006)
^ Lee, A. y Przybocki, M. (2005)
^ Callison-Burch, C., Osborne, M. y Koehn, P. (2006)
^ Lin, C. y Och, F. (2004)
^ Callison-Burch, C., Osborne, M. y Koehn, P. (2006)
↑ Madnani, N. (2011)

Referencias

Bibliografía

Papineni, K .; Roukos, S .; Ward, T .; Zhu, WJ (2002). BLEU: un método para la evaluación automática de la traducción automática (PDF) . ACL-2002: 40ª reunión anual de la Asociación de Lingüística Computacional. págs. 311–318. CiteSeerX 10.1.1.19.9416 .
Papineni, K., Roukos, S., Ward, T., Henderson, J y Reeder, F. (2002). “ Evaluación MT diagnóstica y completa basada en corpus: resultados iniciales en árabe, chino, francés y español ” en Proceedings of Human Language Technology 2002, San Diego, págs. 132-137
Callison-Burch, C., Osborne, M. y Koehn, P. (2006) " Reevaluación del papel de BLEU en la investigación de traducción automática " en la 11ª Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional: EACL 2006 pp. 249-256
Doddington, G. (2002) " Evaluación automática de la calidad de la traducción automática utilizando estadísticas de coincidencia de n-gramas " en Proceedings of the Human Language Technology Conference (HLT), San Diego, CA págs. 128-132
Coughlin, D. (2003) " Correlacionar las evaluaciones automatizadas y humanas de la calidad de la traducción automática " en MT Summit IX, Nueva Orleans, EE . UU . Págs. 23–27
Denoual, E. y Lepage, Y. (2005) " BLEU en caracteres: hacia la evaluación automática de MT en idiomas sin delimitadores de palabras " en el volumen complementario de las actas de la Segunda Conferencia Internacional Conjunta sobre Procesamiento del Lenguaje Natural, págs. 81–86
Lee, A. y Przybocki, M. (2005) Resultados oficiales de la evaluación de traducción automática de NIST 2005
Lin, C. y Och, F. (2004) " Evaluación automática de la calidad de la traducción automática utilizando la subsecuencia común más larga y las estadísticas Skip-Bigram " en Actas de la 42ª Reunión Anual de la Asociación de Lingüística Computacional .
Madnani, N. (2011). " iBLEU: puntuación interactiva y depuración de sistemas estadísticos de traducción automática " en "Actas de la Quinta Conferencia Internacional IEEE sobre Computación Semántica (Demos), Palo Alto, CA" págs. 213-214

enlaces externos

BLEU - Clase de estudiante de evaluación bilingüe del curso de traducción automática impartida por el Instituto de Tecnología de Karlsruhe , Coursera