La traducción automática neuronal ( NMT ) es un enfoque de la traducción automática que utiliza una red neuronal artificial para predecir la probabilidad de una secuencia de palabras, por lo general modelando oraciones completas en un solo modelo integrado.
Propiedades
Solo requieren una fracción de la memoria que necesitan los modelos tradicionales de traducción automática estadística (SMT). Además, a diferencia de los sistemas de traducción convencionales, todas las partes del modelo de traducción neuronal se entrenan conjuntamente (de un extremo a otro) para maximizar el rendimiento de la traducción. [1] [2] [3]
Historia
Las aplicaciones de aprendizaje profundo aparecieron por primera vez en el reconocimiento de voz en la década de 1990. El primer artículo científico sobre el uso de redes neuronales en la traducción automática apareció en 2014, seguido de muchos avances en los años siguientes. (NMT de vocabulario extenso, aplicación a subtítulos de imágenes, Subword-NMT, Multilingual NMT, Multi-Source NMT, Character-dec NMT, Zero-Resource NMT, Google, Fully Character-NMT, Zero-Shot NMT en 2017) En 2015 hubo fue la primera aparición de un sistema NMT en un concurso público de traducción automática (OpenMT'15). WMT'15 también tuvo por primera vez un contendiente NMT; al año siguiente ya contaba con el 90% de los sistemas NMT entre sus ganadores. [4]
Desde 2017, la Oficina Europea de Patentes ha utilizado la traducción automática neuronal para hacer que la información del sistema global de patentes sea accesible al instante. [5] El sistema, desarrollado en colaboración con Google , está emparejado con 31 idiomas y, en 2018, el sistema ha traducido más de nueve millones de documentos. [5]
Funcionamiento
NMT se aparta de los enfoques estadísticos basados en frases que utilizan subcomponentes diseñados por separado. [6] La traducción automática neuronal (NMT) no es un paso drástico más allá de lo que se ha hecho tradicionalmente en la traducción automática estadística (SMT). Su principal salida es el uso de representaciones vectoriales ("incrustaciones", "representaciones espaciales continuas") para palabras y estados internos. La estructura de los modelos es más simple que los modelos basados en frases. No existe un modelo de idioma, un modelo de traducción y un modelo de reordenación separados, sino un modelo de secuencia única que predice una palabra a la vez. Sin embargo, esta predicción de secuencia está condicionada a toda la frase fuente y a toda la secuencia objetivo ya producida. Los modelos NMT utilizan aprendizaje profundo y aprendizaje de representación .
El modelado de secuencia de palabras al principio se realizaba normalmente mediante una red neuronal recurrente (RNN). La red neuronal usa una red neuronal bidireccional recurrente, conocida como codificador , para codificar una oración fuente para un segundo RNN, conocido como decodificador , que se usa para predecir palabras en el idioma de destino . [7] Las redes neuronales recurrentes enfrentan dificultades para codificar entradas largas en un solo vector. Esto puede compensarse con un mecanismo de atención [8] que permite al decodificador enfocarse en diferentes partes de la entrada mientras genera cada palabra de la salida. Hay más modelos de cobertura que abordan los problemas en dichos mecanismos de atención, como ignorar la información de alineación pasada que conduce a una traducción excesiva y una traducción insuficiente. [9]
Las redes neuronales convolucionales (Convnets) son en principio algo mejores para secuencias continuas largas, pero inicialmente no se utilizaron debido a varias debilidades. Estos fueron compensados con éxito en 2017 mediante el uso de "mecanismos de atención". [10]
Un modelo basado en la atención, la arquitectura del transformador [11] sigue siendo la arquitectura dominante para varios pares de idiomas. [12]
Referencias
- ^ Kalchbrenner, Nal; Blunsom, Philip (2013). "Modelos de traducción continua recurrente" . Actas de la Asociación de Lingüística Computacional : 1700-1709.
- ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Secuencia a secuenciar el aprendizaje con redes neuronales". arXiv : 1409,3215 [ cs.CL ].
- ^ Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3 de septiembre de 2014). "Sobre las propiedades de la traducción automática neuronal: enfoques codificador-decodificador". arXiv : 1409.1259 [ cs.CL ].
- ^ Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Publicar, Matt; Rubino, Rafael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). "Hallazgos de la Conferencia de 2016 sobre traducción automática" (PDF) . Primera Conferencia ACL 2016 sobre traducción automática (WMT16) . La Asociación de Lingüística Computacional: 131-198. Archivado desde el original (PDF) el 27 de enero de 2018 . Consultado el 27 de enero de 2018 .
- ^ a b "Traducción automática neuronal" . Oficina Europea de Patentes. 16 de julio de 2018 . Consultado el 14 de junio de 2021 .
- ^ Wołk, Krzysztof; Marasek, Krzysztof (2015). "Traducción automática basada en neuronas para el dominio de texto médico. Basado en textos de folletos de la Agencia Europea de Medicamentos". Procedia Informática . 64 (64): 2–9. arXiv : 1509.08644 . Código Bibliográfico : 2015arXiv150908644W . doi : 10.1016 / j.procs.2015.08.456 . S2CID 15218663 .
- ^ Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). "Traducción automática neuronal mediante el aprendizaje conjunto de alinear y traducir". arXiv : 1409.0473 [ cs.CL ].
- ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 de septiembre de 2014). "Traducción automática neuronal mediante el aprendizaje conjunto de alinear y traducir". arXiv : 1409.0473 [ cs.CL ].
- ^ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). "Cobertura de modelado para traducción automática neuronal". arXiv : 1601.04811 [ cs.CL ].
- ^ Coldewey, Devin (29 de agosto de 2017). "DeepL escuelas otros traductores en línea con aprendizaje automático inteligente" . TechCrunch . Consultado el 27 de enero de 2018 .
- ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gómez, Aidan N .; Kaiser, Lukasz; Polosukhin, Illia (5 de diciembre de 2017). "La atención es todo lo que necesita". arXiv : 1706.03762 [ cs.CL ].
- ^ Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R .; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp; Malmasi, Shervin; Monz, Christof (agosto de 2019). "Hallazgos de la Conferencia de 2019 sobre traducción automática (WMT19)" . Actas de la Cuarta Conferencia sobre Traducción Automática (Volumen 2: Documentos de tareas compartidos, Día 1) . Florencia, Italia: Asociación de Lingüística Computacional: 1-61. doi : 10.18653 / v1 / W19-5301 .