La traducción automática estadística ( SMT ) es un paradigma de traducción automática donde las traducciones se generan a partir de modelos estadísticos cuyos parámetros se derivan del análisis de corpus de textos bilingües . El enfoque estadístico contrasta con los enfoques basados en reglas para la traducción automática , así como con la traducción automática basada en ejemplos . [1]
Las primeras ideas de traducción automática estadística fueron introducidas por Warren Weaver en 1949, [2] incluidas las ideas de aplicar la teoría de la información de Claude Shannon . Traducción automática estadística fue re-introducido a finales de 1980 y principios de 1990 por investigadores de IBM 's Thomas J. Watson Research Center [3] [4] [5] y ha contribuido al resurgimiento significativo en el interés en la traducción automática en los últimos años . Antes de la introducción de la traducción automática neuronal , era, con mucho, el método de traducción automática más estudiado.
Base
La idea detrás de la traducción automática estadística proviene de la teoría de la información . Un documento se traduce según la distribución de probabilidad. que una cuerda en el idioma de destino (por ejemplo, inglés) es la traducción de una cadena en el idioma de origen (por ejemplo, francés).
El problema de modelar la distribución de probabilidad se ha abordado de diversas formas . Un enfoque que se presta bien a la implementación por computadora es aplicar el Teorema de Bayes , es decir, donde el modelo de traducción es la probabilidad de que la cadena de origen sea la traducción de la cadena de destino y el modelo de idioma es la probabilidad de ver esa cadena de idioma de destino. Esta descomposición es atractiva ya que divide el problema en dos subproblemas. Encontrar la mejor traducción se hace eligiendo el que da la mayor probabilidad:
- .
Para una implementación rigurosa de este tendría que realizar una búsqueda exhaustiva pasando por todas las cadenas en el idioma nativo. Realizar la búsqueda de manera eficiente es el trabajo de un decodificador de traducción automática que usa cadenas foráneas, heurísticas y otros métodos para limitar el espacio de búsqueda y al mismo tiempo mantener una calidad aceptable. Este compromiso entre calidad y uso del tiempo también se puede encontrar en el reconocimiento de voz .
Como los sistemas de traducción no pueden almacenar todas las cadenas nativas y sus traducciones, un documento normalmente se traduce frase por frase, pero incluso esto no es suficiente. Los modelos de lenguaje generalmente se aproximan mediante modelos de n -gramas suavizados , y se han aplicado enfoques similares a los modelos de traducción, pero existe una complejidad adicional debido a las diferentes longitudes de oraciones y el orden de las palabras en los idiomas.
Los modelos de traducción estadística se basaron inicialmente en palabras (Modelos 1-5 del modelo IBM Hidden Markov de Stephan Vogel [6] y Modelo 6 de Franz-Joseph Och [7] ), pero se lograron avances significativos con la introducción de modelos basados en frases . [8] incorporado trabajo posterior de sintaxis o cuasi-sintáctica estructuras. [9]
Beneficios
Los beneficios [ cita requerida ] más frecuentemente citados de la traducción automática estadística sobre el enfoque basado en reglas son:
- Uso más eficiente de los recursos humanos y de datos
- Hay muchos corpus paralelos en formato legible por máquina e incluso más datos monolingües.
- Generalmente, los sistemas SMT no se adaptan a ningún par de idiomas específico.
- Los sistemas de traducción basados en reglas requieren el desarrollo manual de reglas lingüísticas, que pueden ser costosas y que a menudo no se generalizan a otros idiomas.
- Traducciones más fluidas gracias al uso de un modelo de lenguaje
Defectos
- La creación de corpus puede resultar costosa.
- Los errores específicos son difíciles de predecir y corregir.
- Los resultados pueden tener una fluidez superficial que enmascara los problemas de traducción. [10]
- La traducción automática estadística generalmente funciona peor para pares de idiomas con un orden de palabras significativamente diferente.
- Los beneficios obtenidos por la traducción entre idiomas de Europa Occidental no son representativos de los resultados para otros pares de idiomas, debido a corpus de formación más pequeños y mayores diferencias gramaticales.
Traducción basada en palabras
En la traducción basada en palabras, la unidad fundamental de traducción es una palabra en algún idioma natural. Por lo general, la cantidad de palabras en las oraciones traducidas es diferente debido a las palabras compuestas, la morfología y los modismos. La proporción de longitudes de secuencias de palabras traducidas se llama fertilidad, que indica cuántas palabras extranjeras produce cada palabra nativa. Necesariamente, la teoría de la información asume que cada uno cubre el mismo concepto. En la práctica, esto no es realmente cierto. Por ejemplo, la palabra inglesa esquina se puede traducir al español por rincón o esquina , dependiendo de si significa su ángulo interno o externo.
La traducción simple basada en palabras no se puede traducir entre idiomas con diferente fertilidad. Los sistemas de traducción basados en palabras se pueden hacer de manera relativamente simple para hacer frente a una alta fertilidad, de modo que puedan asignar una sola palabra a varias palabras, pero no al revés sobre [ cita requerida ] . Por ejemplo, si estuviéramos traduciendo del inglés al francés, cada palabra en inglés podría producir cualquier número de palabras en francés, a veces ninguna. Pero no hay forma de agrupar dos palabras en inglés que produzcan una sola palabra en francés.
Un ejemplo de un sistema de traducción basado en palabras es el paquete GIZA ++ ( GPLed ), disponible gratuitamente , que incluye el programa de formación para los modelos IBM y el modelo HMM y el Modelo 6. [7]
La traducción basada en palabras no se usa mucho hoy en día; Los sistemas basados en frases son más comunes. La mayoría de los sistemas basados en frases todavía usan GIZA ++ para alinear el corpus [ cita requerida ] . Las alineaciones se utilizan para extraer frases o deducir reglas de sintaxis. [11] Y la coincidencia de palabras en bitexto sigue siendo un problema que se discute activamente en la comunidad. Debido al predominio de GIZA ++, ahora hay varias implementaciones distribuidas en línea. [12]
Traducción basada en frases
En la traducción basada en frases, el objetivo es reducir las restricciones de la traducción basada en palabras traduciendo secuencias completas de palabras, donde las longitudes pueden diferir. Las secuencias de palabras se denominan bloques o frases, pero normalmente no son frases lingüísticas , sino frases que se encuentran utilizando métodos estadísticos de corpus. Se ha demostrado que restringir las frases a frases lingüísticas (grupos de palabras motivados sintácticamente, ver categorías sintácticas ) disminuye la calidad de la traducción. [13]
Las frases elegidas se mapean adicionalmente una a una en función de una tabla de traducción de frases y se pueden reordenar. Esta tabla se puede aprender en función de la alineación de palabras o directamente de un corpus paralelo. El segundo modelo se entrena utilizando el algoritmo de maximización de expectativas , de manera similar al modelo de IBM basado en palabras . [14]
Traducción basada en sintaxis
La traducción basada en sintaxis se basa en la idea de traducir unidades sintácticas , en lugar de palabras individuales o cadenas de palabras (como en la MT basada en frases), es decir, árboles de análisis sintáctico (parcial) de oraciones / expresiones. [15] La idea de la traducción basada en sintaxis es bastante antigua en MT, aunque su contraparte estadística no despegó hasta el advenimiento de los analizadores sintácticos estocásticos fuertes en la década de 1990. Ejemplos de este enfoque incluyen MT basada en DOP y, más recientemente, gramáticas sin contexto sincrónicas .
Traducción jerárquica basada en frases
La traducción jerárquica basada en frases combina los puntos fuertes de la traducción basada en frases y basada en la sintaxis. Utiliza reglas gramaticales sincrónicas sin contexto , pero las gramáticas pueden construirse mediante una extensión de métodos para la traducción basada en frases sin referencia a componentes sintácticos motivados lingüísticamente. Esta idea se introdujo por primera vez en el sistema Hiero de Chiang (2005). [9]
Modelos de lenguaje
Un modelo de lenguaje es un componente esencial de cualquier sistema estadístico de traducción automática, que ayuda a que la traducción sea lo más fluida posible. Es una función que toma una oración traducida y devuelve la probabilidad de que la diga un hablante nativo. Un buen modelo de lenguaje asignará, por ejemplo, una probabilidad más alta a la oración "la casa es pequeña" que a "la casa es pequeña". Además del orden de las palabras , los modelos de idioma también pueden ayudar con la elección de palabras: si una palabra extranjera tiene múltiples traducciones posibles, estas funciones pueden brindar mejores probabilidades de ciertas traducciones en contextos específicos en el idioma de destino. [14]
Desafíos de la traducción automática estadística
Los problemas con los que tiene que lidiar la traducción automática estadística incluyen:
Alineación de oraciones
En corpus paralelos, las oraciones individuales en un idioma se pueden encontrar traducidas a varias oraciones en el otro y viceversa. [15] Las frases largas se pueden dividir, las frases cortas se pueden fusionar. Incluso hay algunos idiomas que utilizan sistemas de escritura sin una indicación clara del final de una oración (por ejemplo, tailandés). La alineación de oraciones se puede realizar a través del algoritmo de alineación Gale-Church . A través de este y otros modelos matemáticos es posible la búsqueda y recuperación eficiente de la alineación de oraciones con la puntuación más alta.
Alineación de palabras
La alineación de oraciones generalmente es proporcionada por el corpus o se obtiene mediante el algoritmo de alineación de Gale-Church antes mencionado . Sin embargo, para aprender, por ejemplo, el modelo de traducción, necesitamos saber qué palabras se alinean en un par de oraciones fuente-objetivo. Las soluciones son los modelos IBM o el enfoque HMM.
Uno de los problemas que se presentan son las palabras funcionales que no tienen un equivalente claro en el idioma de destino. Por ejemplo, al traducir del inglés al alemán la oración "John no vive aquí", la palabra "hace" no tiene una alineación clara en la frase traducida "John wohnt hier nicht". A través del razonamiento lógico, puede alinearse con las palabras "wohnt" (ya que en inglés contiene información gramatical para la palabra "live") o "nicht" (ya que solo aparece en la oración porque está negada) o puede ser no alineado. [14]
Anomalías estadísticas
Los conjuntos de entrenamiento del mundo real pueden anular las traducciones de, digamos, nombres propios. Un ejemplo sería que "Tomé el tren a Berlín" se traduce mal como "Tomé el tren a París" debido a la abundancia de "tren a París" en el conjunto de entrenamiento.
Modismos
Dependiendo de los corpus utilizados, es posible que los modismos no se traduzcan "idiomáticamente". Por ejemplo, si se utiliza Canadian Hansard como corpus bilingüe, "escuchar" puede traducirse casi invariablemente como "¡Bravo!" ya que en el Parlamento "¡Escuchen, escuchen!" se convierte en "¡Bravo!". [dieciséis]
Este problema está relacionado con la alineación de palabras, ya que en contextos muy específicos la expresión idiomática puede alinearse con palabras que dan como resultado una expresión idiomática del mismo significado en el idioma de destino. Sin embargo, es poco probable, ya que la alineación no suele funcionar en ningún otro contexto. Por esa razón, los modismos solo deben someterse a la alineación de frases, ya que no pueden descomponerse más sin perder su significado. Por tanto, este problema es específico de la traducción basada en palabras. [14]
Diferentes órdenes de palabras
El orden de las palabras en los idiomas es diferente. Se puede hacer alguna clasificación nombrando el orden típico de sujeto (S), verbo (V) y objeto (O) en una oración y se puede hablar, por ejemplo, de lenguajes SVO o VSO. También hay diferencias adicionales en el orden de las palabras, por ejemplo, dónde se encuentran los modificadores de sustantivos o dónde se usan las mismas palabras como una pregunta o una declaración.
En el reconocimiento de voz , la señal de voz y la representación textual correspondiente se pueden mapear entre sí en bloques en orden. Este no es siempre el caso con el mismo texto en dos idiomas. Para SMT, el traductor automático solo puede administrar pequeñas secuencias de palabras, y el diseñador del programa debe pensar en el orden de las palabras. Los intentos de encontrar soluciones han incluido modelos de reordenación, en los que se adivina una distribución de los cambios de ubicación para cada elemento de traducción a partir de bi-texto alineado. Se pueden clasificar diferentes cambios de ubicación con la ayuda del modelo de idioma y se puede seleccionar el mejor.
Recientemente, el comunicador de voz de Skype comenzó a probar la traducción de voz. [17] Sin embargo, la traducción automática sigue las tendencias tecnológicas del habla a un ritmo más lento que el reconocimiento de voz. De hecho, la traducción automática estadística ha adoptado algunas ideas de la investigación sobre reconocimiento de voz. [18]
Palabras sin vocabulario (OOV)
Los sistemas SMT normalmente almacenan diferentes formas de palabras como símbolos separados sin ninguna relación entre sí y las formas de palabras o frases que no estaban en los datos de entrenamiento no se pueden traducir. Esto puede deberse a la falta de datos de entrenamiento, cambios en el dominio humano donde se usa el sistema o diferencias en la morfología.
Dispositivos móviles
El rápido aumento de la potencia informática de las tabletas y los teléfonos inteligentes , combinado con la amplia disponibilidad de acceso a Internet móvil de alta velocidad , les permite ejecutar sistemas de traducción automática. Ya se han desarrollado sistemas experimentales para ayudar a los trabajadores sanitarios extranjeros en los países en desarrollo. Ya se encuentran disponibles en el mercado sistemas similares. Por ejemplo, de Apple ‘s iOS 8 permite a los usuarios dictar mensajes de texto . Un sistema ASR incorporado reconoce el habla y los resultados del reconocimiento son editados por un sistema en línea. [19]
Proyectos como Universal Speech Translation Advanced Research (U-STAR1, una continuación del proyecto A-STAR) y EU-BRIDGE2 están investigando actualmente la traducción de oraciones completas reconocidas del lenguaje hablado. En los últimos años se ha observado un interés creciente en combinar el reconocimiento de voz, la traducción automática y la síntesis de voz . Para lograr la traducción de voz a voz , las n mejores listas se pasan del ASR al sistema de traducción automática estadística. Sin embargo, la combinación de esos sistemas plantea problemas sobre cómo lograr la segmentación de las oraciones, la desnormalización y la predicción de la puntuación necesaria para las traducciones de calidad. [20]
Sistemas que implementan la traducción automática estadística
- Traductor de Google (comenzó la transición a la traducción automática neuronal en 2016) [21]
- Microsoft Translator (comenzó la transición a la traducción automática neuronal en 2016) [22]
- SYSTRAN (inició la transición a la traducción automática neuronal en 2016) [23]
- Yandex.Translate (cambiado a un enfoque híbrido que incorpora la traducción automática neuronal en 2017) [24]
Ver también
- AppTek
- Modelo de lenguaje de caché
- Duolingo
- Europarl corpus
- Traducción automática basada en ejemplos
- Traductor de google
- Traducción automática híbrida
- Traductor de Microsoft
- Moisés (traducción automática) , software gratuito
- Traducción automática basada en reglas
- SDL Language Weaver
- Análisis estadístico
notas y referencias
- ^ Philipp Koehn (2009). Traducción automática estadística . Prensa de la Universidad de Cambridge. pag. 27. ISBN 978-0521874151. Consultado el 22 de marzo de 2015 .
La traducción automática estadística está relacionada con otros métodos basados en datos en la traducción automática, como el trabajo anterior sobre la traducción automática basada en ejemplos. Compare esto con los sistemas que se basan en reglas hechas a mano.
- ^ W. Weaver (1955). Traducción (1949). En: Traducción automática de idiomas , MIT Press, Cambridge, MA.
- ^ P. Brown; John Cocke , S. Della Pietra, V. Della Pietra, Frederick Jelinek , Robert L. Mercer , P. Roossin (1988). "Un enfoque estadístico de la traducción de idiomas" . Coling'88 . Asociación de Lingüística Computacional. 1 : 71–76 . Consultado el 22 de marzo de 2015 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ P. Brown; John Cocke , S. Della Pietra, V. Della Pietra, Frederick Jelinek , John D. Lafferty , Robert L. Mercer , P. Roossin (1990). "Un enfoque estadístico de la traducción automática" . Lingüística computacional . Prensa del MIT. 16 (2): 79–85 . Consultado el 22 de marzo de 2015 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ P. Brown; S. Della Pietra, V. Della Pietra y R. Mercer (1993). "Las matemáticas de la traducción automática estadística: estimación de parámetros" . Lingüística computacional . Prensa del MIT. 19 (2): 263–311 . Consultado el 22 de marzo de 2015 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ S. Vogel, H. Ney y C. Tillmann. 1996. Alineación de palabras basada en HMM en traducción estadística . En COLING '96: La 16ª Conferencia Internacional sobre Lingüística Computacional, págs. 836-841, Copenhague, Dinamarca.
- ^ a b Och, Franz Josef; Ney, Hermann (2003). "Una comparación sistemática de varios modelos de alineación estadística" . Lingüística computacional . 29 : 19–51. doi : 10.1162 / 089120103321337421 .
- ^ P. Koehn, FJ Och y D. Marcu (2003). Traducción basada en frases estadísticas . En Actas de la Conferencia Conjunta sobre Tecnologías del Lenguaje Humano y la Reunión Anual del Capítulo Norteamericano de la Asociación de Lingüística Computacional (HLT / NAACL) .
- ↑ a b D. Chiang (2005). Un modelo jerárquico basado en frases para la traducción automática estadística . En Actas de la 43ª Reunión Anual de la Asociación de Lingüística Computacional (ACL'05) .
- ^ Zhou, Sharon (25 de julio de 2018). "¿La IA ha superado a los humanos en la traducción? ¡Ni siquiera cerca!" . Skynet hoy . Consultado el 2 de agosto de 2018 .
- ^ P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar , A. Constantin, E. Herbst. 2007. Moses: Conjunto de herramientas de código abierto para traducción automática estadística . ACL 2007, sesión de demostración, Praga, República Checa
- ^ Q. Gao, S. Vogel, " Implementaciones paralelas de la herramienta de alineación de palabras ", Ingeniería de software, pruebas y garantía de calidad para el procesamiento del lenguaje natural, págs. 49-57, junio de 2008
- ^ Philipp Koehn, Franz Josef Och, Daniel Marcu: Traducción estadística basada en frases (2003)
- ^ a b c d Koehn, Philipp (2010). Traducción automática estadística . Prensa de la Universidad de Cambridge. ISBN 978-0-521-87415-1.
- ^ a b Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 de agosto de 2016). Traducción automática estadística basada en sintaxis . Editores Morgan & Claypool. ISBN 978-1-62705-502-4.
- ^ WJ Hutchins y H. Somers. (1992). Introducción a la traducción automática , 18.3: 322. ISBN 978-0-12-362830-5
- ^ Vista previa del traductor de Skype
- ^ Wołk, K .; Marasek, K. (7 de abril de 2014). "Traducción estadística de voz en tiempo real". Avances en Computación y Sistemas Inteligentes . Saltador. 275 : 107-114. arXiv : 1509.09090 . doi : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN 2194-5357 . S2CID 15361632 .
- ^ Wołk K .; Marasek K. (2014). Sistemas de traducción automática de estadísticas del habla polaco-inglés para el IWSLT 2014 . Actas del 11º Taller internacional sobre traducción de lenguas habladas, Lake Tahoe, EE. UU.
- ^ Wołk K .; Marasek K. (2013). Sistemas de traducción automática estadística del habla polaco-inglés para el IWSLT 2013 . Actas del décimo taller internacional sobre traducción de lenguas habladas, Heidelberg, Alemania. págs. 113-119. arXiv : 1509.09097 .
- ^ Turovsky, Barak (15 de noviembre de 2016). "Encontrado en la traducción: oraciones más precisas y fluidas en el Traductor de Google" . Google . Consultado el 3 de octubre de 2019 .
- ^ "Traducción automática" . Traductor de Microsoft para empresas . Consultado el 3 de octubre de 2019 .
- ^ Vashee, Kirti (22 de diciembre de 2016). "Evolución continua de MT neuronal de SYSTRAN" . Páginas eMpTy . Consultado el 3 de octubre de 2019 .
- ^ "Un modelo es mejor que dos. Yandex.Translate lanza un sistema híbrido de traducción automática" . Blog de Yandex . 2017-09-14 . Consultado el 3 de octubre de 2019 .
enlaces externos
- Traducción automática estadística : incluye una introducción a las listas de investigación, conferencias, corpus y software
- Moses: un sistema SMT de código abierto de última generación
- Traducción basada en web : una herramienta estadística de traducción automática
- Lista anotada de recursos estadísticos de procesamiento de lenguaje natural : incluye enlaces a software de traducción automática estadística disponible gratuitamente
- Garuda DIKTI - una revista nacional abierta