LEPOR es una métrica de evaluación automática de traducción automática independiente del idioma con parámetros ajustables y factores reforzados.
Fondo
Desde que IBM propuso y realizó el sistema de BLEU [1] como la métrica automática para la evaluación de la traducción automática (MT), [2] se han propuesto muchos otros métodos para revisarlo o mejorarlo, como TER, METEOR , [3] etc. Sin embargo, existen algunos problemas en las métricas tradicionales de evaluación automática . Algunas métricas funcionan bien en ciertos idiomas pero débiles en otros idiomas, lo que generalmente se denomina problema de sesgo de idioma. Algunas métricas se basan en muchas características del lenguaje o información lingüística, lo que dificulta que otros investigadores repitan los experimentos. LEPOR es una métrica de evaluación automática que intenta abordar algunos de los problemas existentes. [4] LEPOR está diseñado con factores aumentados y los parámetros ajustables correspondientes para abordar el problema del sesgo del idioma. Además, en la versión mejorada de LEPOR, es decir, hLEPOR, [5] intenta utilizar las características lingüísticas optimizadas que se extraen de los árboles . Otra versión avanzada de LEPOR es la métrica nLEPOR, [6] que agrega las características n-gram a los factores anteriores. Hasta ahora, la métrica LEPOR se ha desarrollado en la serie LEPOR. [7] [8]
Las métricas LEPOR han sido estudiadas y analizadas por muchos investigadores de diferentes campos, como la traducción automática, [9] la generación de lenguaje natural , [10] y la búsqueda, [11] y más. Las métricas LEPOR están recibiendo más atención de los investigadores científicos en el procesamiento del lenguaje natural .
Diseño
LEPOR [12] está diseñado con los factores de penalización de longitud mejorada, precisión , penalización de orden de palabras de n-gramas y recuperación . La penalización de longitud mejorada asegura que la traducción de hipótesis, que generalmente es traducida por sistemas de traducción automática, sea castigada si es más larga o más corta que la traducción de referencia. La puntuación de precisión refleja la exactitud de la traducción de hipótesis. La puntuación de recuerdo refleja la lealtad de la traducción de la hipótesis a la traducción de referencia o al idioma de origen. El factor de penalización por orden de palabras basado en n-gramas está diseñado para los diferentes órdenes de posición entre la traducción de hipótesis y la traducción de referencia. Muchos investigadores han demostrado que el factor de penalización por orden de palabras es útil, como el trabajo de Wong y Kit (2008). [13]
A la luz de que las métricas de coincidencia de cadenas de la superficie de palabras fueron criticadas por la falta de sintaxis y conciencia semántica, la métrica LEPOR más desarrollada (hLEPOR) investiga la integración de características lingüísticas, como la parte del habla (POS). [14] [15] POS se introduce como una cierta funcionalidad tanto del punto de vista sintáctico como semántico, por ejemplo, si un símbolo de la oración de salida es un verbo mientras se espera que sea un sustantivo, entonces habrá una penalización; Además, si el POS es el mismo pero la palabra exacta no es la misma, por ejemplo, bueno vs agradable, entonces este candidato obtendrá cierto crédito. El puntaje general de hLEPOR luego se calcula como la combinación de puntaje de nivel de palabra y puntaje de nivel POS con un conjunto de ponderaciones. El conocimiento de n-gramas inspirado en el modelado del lenguaje también se explora ampliamente en nLEPOR. [16] [17] Además del conocimiento de n-gramas para el cálculo de penalización por diferencia de posición de n-gramas, n-gramas también se aplica a la precisión de n-gramas y la recuperación de n-gramas en nLEPOR, y el parámetro n es un factor ajustable . Además del conocimiento de POS en hLEPOR, la estructura de frases de la información de análisis se incluye en una nueva variante de HPPR. [18] En el modelado de evaluación HPPR, el conjunto de estructuras de frases, como sintagma nominal, sintagma verbal, sintagma preposicional, sintagma adverbial se considera durante la comparación del texto candidato con el texto de referencia.
Implementación de software
Las métricas LEPOR se implementaron originalmente en el lenguaje de programación Perl, [19] y recientemente la versión Python [20] está disponible por otros investigadores e ingenieros, [21] con un anuncio de Press [22] de la compañía Logrus Global Language Service.
Actuación
Serie LEPOR han demostrado sus buenas actuaciones en la ACL taller internacional anual 's de la traducción automática estadística ( ACL-WMT ). ACL-WMT pertenece al grupo de interés especial de traducción automática (SIGMT) de la asociación internacional de lingüística computacional (ACL). En ACL-WMT 2013, [23] hay dos vías de traducción y evaluación, de inglés a otro y de otro a inglés. Los "otros" idiomas incluyen español , francés , alemán , checo y ruso . En la dirección de inglés a otro, la métrica nLEPOR logra la puntuación de correlación a nivel de sistema más alta con juicios humanos utilizando el coeficiente de correlación de Pearson, la segunda puntuación de correlación a nivel de sistema más alta con juicios humanos utilizando el coeficiente de correlación de rango de Spearman . En la dirección de otro idioma al inglés, nLEPOR tiene un desempeño moderado y METEOR produce la puntuación de correlación más alta con los juicios humanos, lo cual se debe al hecho de que nLEPOR solo usa la característica lingüística concisa, información de parte del discurso, a excepción de los ofrecidos oficialmente. datos de entrenamiento; sin embargo, METEOR ha utilizado muchos otros recursos externos, como los diccionarios de sinónimos , la paráfrasis y la derivación , etc.
En una tesis de la Universidad de Macao se describe un trabajo extenso y una introducción sobre el desempeño de LEPOR con diferentes condiciones, incluida la forma pura de la superficie de la palabra, características POS , características de etiquetas de frase . [24]
Existe un análisis estadístico profundo sobre el rendimiento de hLEPOR y nLEPOR en WMT13, que muestra que se desempeñó como una de las mejores métricas "tanto en la evaluación de pares de idiomas individuales para español a inglés como en el conjunto agregado de 9 pares de idiomas". el documento (Evaluación precisa de métricas de traducción automática a nivel de segmento) " https://www.aclweb.org/anthology/N15-1124 " Graham et al. 2015 NAACL ( https://github.com/ygraham/segment-mteval )
Aplicaciones
Las series métricas automáticas LEPOR han sido aplicadas y utilizadas por muchos investigadores de diferentes campos en el procesamiento del lenguaje natural . Por ejemplo, en MT estándar y MT neuronal. [25] También fuera de la comunidad de MT, por ejemplo, [26] aplicó LEPOR en la evaluación de búsqueda; [27] mencionó la aplicación de LEPOR para la evaluación de generación de código (lenguaje de programación); [28] investigó la evaluación automática de la generación de lenguaje natural [29] con métricas que incluyen LEPOR, y argumentó que las métricas automáticas pueden ayudar a las evaluaciones a nivel del sistema; también se aplica LEPOR en la evaluación de subtítulos de imágenes. [30]
Ver también
- Evaluación de la traducción automática
- Máquina traductora
- Estudios de traducción
- Tecnología del lenguaje
- Procesamiento natural del lenguaje
- Ligüística computacional
- Generación de lenguaje natural
- Comprensión del lenguaje natural
- Inteligencia artificial
Notas
- ^ Papineni y col., (2002)
- ↑ Han, (2016)
- ^ Banerjee y Lavie, (2005)
- ^ Han y col., (2012)
- ^ Han y col., (2013a)
- ^ Han y col., (2013b)
- ^ Han y col., (2014)
- ↑ Han, (2014)
- ^ Graham y col., (2015)
- ^ Novikova y col., (2017)
- ^ Liu y col., (2021)
- ^ Han y col. (2012)
- ^ Wong y Kit, (2008)
- ^ Han y col. (2013a)
- ↑ Han (2014)
- ^ Han y col. (2013b)
- ↑ Han (2014)
- ^ Han y col. (2013c)
- ^ https://github.com/aaronlifenghan/aaron-project-lepor
- ^ https://pypi.org/project/hLepor/
- ^ https://github.com/lHan87/LEPOR
- ^ https://slator.com/press-releases/logrus-global-adds-hlepor-translation-quality-evaluation-metric-python-implementation-on-pypi-org/
- ^ ACL-WMT (2013)
- ↑ Han (2014)
- ↑ Marzouk y Hansen-Schirra (2019)
- ^ Liu y col. (2021)
- ^ Liguori y col. (2021)
- ^ Novikova y col. (2017)
- ^ Celikyilmaz y col. (2020)
- ^ Qiu y col. (2020)
Referencias
- Papineni, K., Roukos, S., Ward, T. y Zhu, WJ (2002). "BLEU: un método para la evaluación automática de la traducción automática" en ACL-2002: 40ª reunión anual de la Asociación de Lingüística Computacional págs. 311–318
- Han, ALF, Wong, DF y Chao, LS (2012) "LEPOR: Una métrica de evaluación robusta para la traducción automática con factores aumentados" en Actas de la 24ª Conferencia Internacional de Lingüística Computacional (COLING 2012): Carteles, págs. 441– 450. Mumbai, India. Papel en línea Herramienta de código abierto
- Han, ALF, Wong, DF, Chao, LS, He, L., Lu, Y., Xing, J. y Zeng, X. (2013a) "Modelo independiente del lenguaje para la evaluación de la traducción automática con factores reforzados" en Proceedings de la Cumbre de Traducción Automática XIV (MT SUMMIT 2013), págs. 215-222. Linda, Francia. Editorial: Asociación Internacional de Traducción Automática. Papel en línea Herramienta de código abierto
- Han, ALF, Wong, DF, Chao, LS, Lu, Y., He, L., Wang, Y. y Zhou, J. (2013b) "Una descripción de los sistemas de evaluación de traducción automática ajustables en la tarea de métricas WMT13" en Actas del octavo taller sobre traducción automática estadística, ACL-WMT13, Sofía, Bulgaria. Asociación de Lingüística Computacional. Documento en línea págs. 414–421
- Han, ALF, Wong, DF, Chao, LS, He, L. y Lu, Y. (2014) "Modelo de estimación de calidad no supervisado para la traducción del inglés al alemán y su aplicación en una evaluación supervisada extensa" en The Scientific World Journal. Asunto: Avances recientes en tecnología de la información. ISSN 1537-744X . Hindawi corporación editorial. Papel en línea
- ACL-WMT. (2013) " TAREA DE MÉTRICAS ACL-WMT13 "
- Wong, B. TM y Kit, C. (2008). "Elección de palabras y posición de palabras para la evaluación automática de MT" en el Taller: MetricsMATR de la Asociación para la Traducción Automática en las Américas (AMTA) , artículo corto, Waikiki, EE. UU.
- Banerjee, S. y Lavie, A. (2005) "METEOR: Una métrica automática para la evaluación de MT con mejor correlación con los juicios humanos" en las actas del taller sobre medidas de evaluación intrínsecas y extrínsecas para MT y / o resumen en la 43ª reunión anual de la Asociación de Lingüística Computacional (ACL-2005), Ann Arbor, Michigan, junio de 2005
- Han, Lifeng. (2014) "LEPOR: una métrica de evaluación de la traducción automática aumentada". Tesis de Maestría en Ciencias en Ingeniería de Software. Universidad de Macao, Macao. [1] PPT
- Yvette Graham, Timothy Baldwin y Nitika Mathur. (2015) Evaluación precisa de métricas de traducción automática a nivel de segmento. En NAACL HLT 2015, The 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Denver, Colorado, EE. UU., 31 de mayo - 5 de junio de 2015, páginas 1183–1191.
- Han, Lifeng. (2016) "Recursos y métodos de evaluación de la traducción automática: una encuesta". Edición preimpresa de ArXiv. Presentación en IPRC (Irish Postgraduate Research Conference). [2]
- Jekaterina Novikova, Ondˇrej Dušek, Amanda Cercas Curry y Verena Rieser. (2017) Por qué necesitamos nuevas métricas de evaluación para NLG. En Actas de la Conferencia de 2017 sobre métodos empíricos en el procesamiento del lenguaje natural, páginas 2241–2252, Copenhague, Dinamarca. Asociación de Lingüística Computacional.
- Zeyang Liu, Ke Zhou y Max L. Wilson. (2021) Metaevaluación de métricas de evaluación de búsqueda conversacional. arXiv e-prints, página arXiv: 2104.13453.
- Pietro Liguori y col. 2021. Shellcode_IA32: un conjunto de datos para la generación automática de Shellcode. [3]
- A Celikyilmaz, E Clark, J Gao (2020) Evaluación de la generación de texto: una encuesta. preimpresión de arXiv arXiv: 2006.14799, - arxiv.org
- D Qiu, B Rothrock, T Islam, AK Didier, VZ Sun… (2020) SCOTI: Subtítulos científicos de imágenes de terreno para priorización de datos y búsqueda de imágenes locales. Planetario y espacial. Elsevier
- Marzouk, S. & Hansen-Schirra, S. (2019) 'Evaluación del impacto del lenguaje controlado en la traducción automática neuronal en comparación con otras arquitecturas MT'. Revista de traducción automática (2019). [4]
- Han A.LF., Wong DF, Chao LS, He L., Li S., Zhu L. (2013c) Mapeo de conjuntos de etiquetas de frases para bancos de árboles en francés e inglés y su aplicación en la evaluación de la traducción automática. En: Gurevych I., Biemann C., Zesch T. (eds) Procesamiento del lenguaje y conocimiento en la Web. Lecture Notes in Computer Science, vol. 8105. Springer, Berlín, Heidelberg. [5]
enlaces externos
- Código LEPOR-google
- LEPOR y hLEPOR en Git
- hLEPOR
- EBLEU
- HPPR
- BLEU
- Medida F
- METEORITO
- TER