Traducción automática basada en diccionario

La traducción automática puede utilizar un método basado en entradas de diccionario , lo que significa que las palabras se traducirán como lo hace un diccionario: palabra por palabra, generalmente sin mucha correlación de significado entre ellas. Las búsquedas de diccionarios se pueden realizar con o sin análisis morfológico o lematización . Si bien este enfoque de la traducción automática es probablemente el menos sofisticado, la traducción automática basada en diccionarios es ideal para la traducción de largas listas de frases en el nivel subsentente (es decir, no una oración completa), por ejemplo, inventarios o catálogos simples de productos y servicios . ^[1]

De A a A

También se puede utilizar para agilizar la traducción manual, si la persona que la realiza domina ambos idiomas y, por tanto, es capaz de corregir la sintaxis y la gramática.

LMT

LMT, introducido alrededor de 1990, ^[2] es un sistema de traducción automática basado en Prolog que funciona con diccionarios bilingües especialmente creados, como el Collins inglés-alemán (CEG), que se han reescrito en una forma indexada que es fácilmente legible por ordenadores. Este método utiliza una base de datos léxica estructurada (LDB) para identificar correctamente las categorías de palabras del idioma de origen, construyendo así una oración coherente en el idioma de destino, basada en un análisis morfológico rudimentario. Este sistema utiliza "marcos" ^[2] para identificar la posición que debe tener una determinada palabra, desde un punto de vista sintáctico, en una oración. Estos "marcos" ^[2] se mapean mediante convenciones lingüísticas, como UDICT en el caso del inglés.

En su forma inicial (prototipo), LMT ^[2] utiliza tres léxicos, a los que se accede simultáneamente: fuente, transferencia y destino, aunque es posible encapsular toda esta información en un solo léxico. El programa utiliza una configuración léxica que consta de dos elementos principales. El primer elemento es un apéndice de léxico codificado a mano que contiene posibles traducciones incorrectas. El segundo elemento consta de varios diccionarios bilingües y monolingües sobre los dos idiomas que son el idioma de origen y el de destino.

Traducción automática basada en ejemplos y basada en diccionarios

Este método de traducción automática basada en diccionarios explora un paradigma diferente al de sistemas como LMT. Se proporciona un sistema de traducción automática basado en ejemplos con sólo un "corpus bilingüe alineado en oraciones". ^[3] Con estos datos, el programa de traducción genera un "diccionario bilingüe palabra por palabra" ^[3] que se utiliza para futuras traducciones.

Si bien este sistema generalmente se consideraría una forma completamente diferente de traducción automática que la traducción automática basada en diccionarios, es importante comprender la naturaleza complementaria de estos paradigmas. Con el poder combinado inherente a ambos sistemas, junto con el hecho de que una traducción automática basada en diccionario funciona mejor con un "diccionario bilingüe palabra por palabra" ^[3] listas de palabras, demuestra el hecho de que una combinación de estas dos traducciones Los motores generarían una herramienta de traducción muy poderosa que, además de ser semánticamente precisa, es capaz de mejorar sus propias funcionalidades a través de ciclos de retroalimentación perpetuos.

Un sistema que combina ambos paradigmas de forma similar a lo que se describió en el párrafo anterior es el motor de traducción automática Pangloss basado en ejemplos (PanEBMT) ^[3] . PanEBMT utiliza una tabla de correspondencia entre idiomas para crear su corpus. Además, PanEBMT admite múltiples operaciones incrementales en su corpus, lo que facilita una traducción sesgada que se utiliza con fines de filtrado.

Procesamiento de texto paralelo

Douglas Hofstadter a través de su "Le Ton beau de Marot: En elogio de la música del lenguaje" demuestra lo compleja que es la traducción. El autor produjo y analizó docenas y docenas de posibles traducciones para un poema francés de dieciocho líneas, revelando así el complejo funcionamiento interno de la sintaxis, la morfología y el significado. ^[4] A diferencia de la mayoría de los motores de traducción que eligen una sola traducción basada en la comparación consecutiva de los textos en los idiomas de origen y de destino, el trabajo de Douglas Hofstadter demuestra el nivel inherente de error que está presente en cualquier forma de traducción, cuando el significado del texto fuente es demasiado detallado o complejo. Por tanto, se llama la atención sobre el problema de la alineación del texto y las "estadísticas del lenguaje" ^[4] .

Estas discrepancias llevaron a las opiniones de Martin Kay sobre la traducción y los motores de traducción en su conjunto. Como dice Kay, "Los éxitos más sustanciales en estas empresas requerirán una imagen más nítida del mundo que cualquiera que pueda obtenerse simplemente a partir de las estadísticas del uso del lenguaje" [(página xvii) Procesamiento de texto paralelo: alineación y uso de la traducción corpora] . ^[4] Así, Kay ha sacado a la luz la cuestión del significado dentro del lenguaje y la distorsión del significado a través de los procesos de traducción.

Estructura conceptual léxica

Uno de los posibles usos de la traducción automática basada en diccionarios es facilitar la "tutoría de idiomas extranjeros" (FLT). Esto se puede lograr utilizando tecnología de traducción automática, así como lingüística, semántica y morfología para producir "diccionarios a gran escala" ^[5] en prácticamente cualquier idioma. El desarrollo de la semántica léxica y la lingüística computacional durante el período comprendido entre 1990 y 1996 hizo posible que floreciera el "procesamiento del lenguaje natural" (PNL), adquiriendo nuevas capacidades, pero beneficiando a la traducción automática en general. ^[5]

La "Estructura Conceptual Léxica" (LCS) es una representación que es independiente del lenguaje. Se utiliza principalmente en la tutoría de idiomas extranjeros, especialmente en el elemento de procesamiento del lenguaje natural de FLT. LCS también ha demostrado ser una herramienta indispensable para la traducción automática de cualquier tipo, como la traducción automática basada en diccionarios. En general, uno de los objetivos principales de LCS es "demostrar que los sentidos de los verbos sinónimos comparten patrones de distribución". ^[5]

"DKvec"

"DKvec es un método para extraer léxicos bilingües, de cuerpos paralelos ruidosos basado en distancias de llegada de palabras en corpus paralelos ruidosos". Este método ha surgido en respuesta a dos problemas que plagan la extracción estadística de léxicos bilingües: "(1) ¿Cómo se pueden usar corpus paralelos ruidosos? (2) ¿Cómo se pueden usar corpus no paralelos pero comparables?" ^[6]

El método "DKvec" ha demostrado ser invaluable para la traducción automática en general, debido al asombroso éxito que ha tenido en ensayos realizados en corpus paralelos ruidosos en inglés - japonés e inglés - chino. Las cifras de precisión "muestran una precisión del 55,35% de un corpus pequeño y una precisión del 89,93% de un corpus más grande". ^[6] Con cifras tan impresionantes, es seguro asumir el inmenso impacto que métodos como "DKvec" han tenido en la evolución de la traducción automática en general, especialmente la traducción automática basada en diccionarios.

Los algoritmos utilizados para extraer corpus paralelos en un formato bilingüe aprovechan las siguientes reglas para lograr una precisión y calidad general satisfactorias: ^[6]

Las palabras tienen un sentido por corpus
Las palabras tienen una sola traducción por corpus
No faltan traducciones en el documento de destino
Las frecuencias de apariciones de palabras bilingües son comparables
Las posiciones de las ocurrencias de palabras bilingües son comparables

Estos métodos pueden usarse para generar o buscar patrones de ocurrencia que a su vez se usan para producir vectores de ocurrencia binarios que son usados por el método "DKvec".

Historia de la traducción automática

La historia de la traducción automática (MT) comienza a mediados de la década de 1940. La traducción automática fue probablemente la primera vez que se utilizaron computadoras con fines no numéricos. La traducción automática disfrutó de un gran interés en la investigación durante las décadas de 1950 y 1960, al que siguió un estancamiento hasta la década de 1980. ^[7] Después de la década de 1980, la traducción automática volvió a ser la corriente principal, disfrutando de una popularidad aún mayor que en las décadas de 1950 y 1960, así como de una rápida expansión, basada en gran parte en el enfoque de corpus de texto.

El concepto básico de traducción automática se remonta al siglo XVII en las especulaciones en torno a "lenguajes universales y diccionarios mecánicos". ^[7] Las primeras sugerencias prácticas verdaderas de traducción automática fueron hechas en 1933 por Georges Artsrouni en Francia y Petr Trojanskij en Rusia. Ambos tenían máquinas patentadas que creían que podían usarse para traducir el significado de un idioma a otro. "En junio de 1952, Yehoshua Bar-Hillel convocó la primera conferencia de MT en el MIT". ^[7] El 7 de enero de 1954, una convención de traducción automática en Nueva York, patrocinada por IBM, sirvió para popularizar el campo. La popularidad de las convenciones proviene de la traducción de frases cortas en inglés al ruso. Esta hazaña de la ingeniería cautivó al público y a los gobiernos de los Estados Unidos y la URSS, quienes, por lo tanto, estimularon la financiación a gran escala de la investigación en traducción automática. ^[7] Aunque el entusiasmo por la traducción automática era extremadamente alto, las limitaciones técnicas y de conocimiento llevaron a desilusiones con respecto a lo que la traducción automática era realmente capaz de hacer, al menos en ese momento. Así, la traducción automática perdió popularidad hasta la década de 1980, cuando los avances en lingüística y tecnología ayudaron a revitalizar el interés en este campo.

Recuperación de información translingual

"La recuperación de información translingual (TLIR) consiste en proporcionar una consulta en un idioma y buscar colecciones de documentos en uno o más idiomas diferentes". La mayoría de los métodos de TLIR se pueden cuantificar en dos categorías, a saber, enfoques estadísticos de IR y traducción de consultas. El TLIR basado en traducción automática funciona de dos formas. La consulta se traduce al idioma de destino o la consulta original se utiliza para buscar mientras la colección de posibles resultados se traduce al idioma de la consulta y se utiliza como referencia cruzada. Ambos métodos tienen pros y contras, a saber: ^[8]

Precisión de la traducción: la exactitud de cualquier traducción automática depende del tamaño del texto traducido, por lo que los textos o palabras breves pueden sufrir un mayor grado de errores semánticos, así como ambigüedades léxicas, mientras que un texto más grande puede proporcionar contexto, lo que ayuda a la desambiguación.
Precisión de recuperación: basado en la misma lógica invocada en el punto anterior, es preferible traducir documentos completos, en lugar de consultas, porque es probable que los textos grandes sufran menos pérdida de significado en la traducción que las consultas cortas.
Practicidad: a diferencia de los puntos anteriores, la mejor manera de hacerlo es traducir consultas breves. Esto se debe a que es fácil traducir textos breves, mientras que traducir bibliotecas enteras requiere muchos recursos, además el volumen de dicha tarea de traducción implica la indexación de los nuevos documentos traducidos.

Todos estos puntos prueban el hecho de que la traducción automática basada en diccionarios es la forma de traducción más eficiente y confiable cuando se trabaja con TLIR. Esto se debe a que el proceso "busca cada término de consulta en un diccionario bilingüe de uso general y utiliza todas sus traducciones posibles". ^[8]

Traducción automática de idiomas muy cercanos

Los ejemplos de RUSLAN, un sistema de traducción automática basado en diccionario entre checo y ruso y CESILKO, un sistema de traducción automática basado en diccionario checo - eslovaco, muestran que en el caso de idiomas muy cercanos, los métodos de traducción más simples son más eficientes, rápidos y confiables. ^[9]

El sistema RUSLAN se creó para probar la hipótesis de que los idiomas relacionados son más fáciles de traducir. El desarrollo del sistema comenzó en 1985 y se terminó cinco años después debido a la falta de financiación adicional. Las lecciones enseñadas por el experimento RUSLAN son que un enfoque de traducción basado en la transferencia conserva su calidad independientemente de lo cerca que estén los idiomas. Los dos principales cuellos de botella de los "sistemas basados en transferencias en toda regla" ^[9] son la complejidad y la falta de fiabilidad del análisis sintáctico. ^[10]

Recuperación de información multilingüe MLIR

"Los sistemas de recuperación de información clasifican los documentos de acuerdo con medidas estadísticas de similitud basadas en la co-ocurrencia de términos en consultas y documentos". El sistema MLIR fue creado y optimizado de tal manera que facilita la traducción de consultas basada en diccionario. Esto se debe a que las consultas suelen ser breves, de un par de palabras, lo que, a pesar de no aportar mucho contexto, es más factible que traducir documentos completos, por motivos prácticos. A pesar de todo esto, el sistema MLIR depende en gran medida de muchos recursos, como el software de detección automática de idiomas . ^[11]

Ver también

Bibliografía

^ Uwe Muegge (2006), "An Excellent Application for Crummy Machine Translation: Automatic Translation of a Large Database", en Elisabeth Gräfe (2006; ed.), Actas de la Conferencia Anual de la Sociedad Alemana de Comunicadores Técnicos , Stuttgart: tekom , 18-21.
↑ ^a ^b ^c ^d Mary S. Neff Michael C. McCord (1990). "ADQUISICIÓN DE DATOS LÉXICOS DE RECURSOS DE DICCIONARIOS LEGIBLES POR MÁQUINA PARA LA TRADUCCIÓN MÁQUINA". IBM TJ Watson Research Center, PO Box 704, Yorktown Heights, Nueva York 10598: 85–90. CiteSeerX 10.1.1.132.8355 . Cite journal requiere |journal=( ayuda )
^ a b c d Ralf D. Brown. "Extracción automatizada de diccionarios para traducción basada en ejemplos" sin conocimientos " (PDF) . Language Technologies Institute (Centro de traducción automática) Carnegie Mellon University Pittsburgh, PA 15213-3890 EE . UU . Consultado el 2 de noviembre de 2015 .
^ a b c Jean V´eronis (2001). Procesamiento de textos en paralelo: alineación y uso de corpus de traducción . Lingüística computacional . 27 . Dordrecht: Kluwer Academic Publishers (Serie de tecnología del texto, el habla y el lenguaje, editada por Nancy Ide y Jean V´eronis, volumen 13), 2000, xxiii + 402 pp; encuadernado. págs. 592–595. doi : 10.1162 / coli.2000.27.4.592 . ISBN 978-0-7923-6546-4. S2CID 14796449 .
^ a b c Dorr, Bonnie J. (1997). "Construcción de diccionarios a gran escala para tutoría de idiomas extranjeros y traducción automática interlingüística". Traducción automática . 12 (4): 271–322. doi : 10.1023 / A: 1007965530302 . S2CID 1548552 .
^ a b c David Farwell Laurie Gerber Eduard Hovy (1998). La traducción automática y la sopa de información . Apuntes de conferencias en Ciencias de la Computación. 1529 . Clasificación de materias de CR (1998): I.2.7, H.3, F.4.3, H.5, J.5 Springer-Verlag Berlin Heidelberg New York. doi : 10.1007 / 3-540-49478-2 . hdl : 11693/27676 . ISBN 978-3-540-65259-5. S2CID 19677267 .
^ a b c d J. Hutchins (enero de 2006). "Traducción automática: Historia". Enciclopedia de Lengua y Lingüística . págs. 375–383. doi : 10.1016 / B0-08-044854-2 / 00937-8 . ISBN 9780080448541. Falta o vacío |title=( ayuda )
^ a b Yiming Yang; Jaime G. Carbonell; Ralf D. Brown; Robert E. Frederking (agosto de 1998). "Recuperación de información translingual: aprendiendo de corpus bilingües". Inteligencia artificial . Instituto de Tecnologías del Lenguaje, Facultad de Ciencias de la Computación, Universidad Carnegie Mellon, 5000 Forbes Avenue, Pittsburgh, PA 15213, EE. UU. 103 (1–2): 323–345. doi : 10.1016 / S0004-3702 (98) 00063-0 .
^ a b Jan HAJIC; Jan HRIC; Vladislav KUBON (2000). "Traducción automática de idiomas muy cercanos" . Actas de la sexta conferencia sobre procesamiento del lenguaje natural aplicado - . págs. 7-12. doi : 10.3115 / 974147.974149 . S2CID 8355580 . Consultado el 2 de noviembre de 2015 .
^ Ari Pirkola (1998). Los efectos de la estructura de consultas y las configuraciones de diccionario en la recuperación de información entre idiomas basada en diccionarios . Departamento de estudios de la información de la Universidad de Tampere. págs. 55–63. CiteSeerX 10.1.1.20.3202 . doi : 10.1145 / 290941.290957 . ISBN 978-1581130157. S2CID 16199588 . Consultado el 2 de noviembre de 2015 .
^ David A. Hull; Gregory Grefenstette (1996). "Consultas en varios idiomas". Consultas en varios idiomas: un enfoque basado en diccionarios para la recuperación de información multilingüe . Rank Xerox Research Centre 6 chemin de Maupertuis, 38240 Meylan France. págs. 49–57. doi : 10.1145 / 243199.243212 . ISBN 978-0897917926. S2CID 1274065 .

[1] Uwe Muegge (2006), "An Excellent Application for Crummy Machine Translation: Automatic Translation of a Large Database", en Elisabeth Gräfe (2006; ed.), Actas de la Conferencia Anual de la Sociedad Alemana de Comunicadores Técnicos , Stuttgart: tekom , 18-21.

[:0-2] Mary S. Neff Michael C. McCord (1990). "ADQUISICIÓN DE DATOS LÉXICOS DE RECURSOS DE DICCIONARIOS LEGIBLES POR MÁQUINA PARA LA TRADUCCIÓN MÁQUINA". IBM TJ Watson Research Center, PO Box 704, Yorktown Heights, Nueva York 10598: 85–90. CiteSeerX 10.1.1.132.8355 . Cite journal requiere |journal=( ayuda )

[:1-3] Ralf D. Brown. "Extracción automatizada de diccionarios para traducción basada en ejemplos" sin conocimientos " (PDF) . Language Technologies Institute (Centro de traducción automática) Carnegie Mellon University Pittsburgh, PA 15213-3890 EE . UU . Consultado el 2 de noviembre de 2015 .

[:2-4] Jean V´eronis (2001). Procesamiento de textos en paralelo: alineación y uso de corpus de traducción . Lingüística computacional . 27 . Dordrecht: Kluwer Academic Publishers (Serie de tecnología del texto, el habla y el lenguaje, editada por Nancy Ide y Jean V´eronis, volumen 13), 2000, xxiii + 402 pp; encuadernado. págs. 592–595. doi : 10.1162 / coli.2000.27.4.592 . ISBN 978-0-7923-6546-4. S2CID 14796449 .

[:3-5] Dorr, Bonnie J. (1997). "Construcción de diccionarios a gran escala para tutoría de idiomas extranjeros y traducción automática interlingüística". Traducción automática . 12 (4): 271–322. doi : 10.1023 / A: 1007965530302 . S2CID 1548552 .

[:4-6] David Farwell Laurie Gerber Eduard Hovy (1998). La traducción automática y la sopa de información . Apuntes de conferencias en Ciencias de la Computación. 1529 . Clasificación de materias de CR (1998): I.2.7, H.3, F.4.3, H.5, J.5 Springer-Verlag Berlin Heidelberg New York. doi : 10.1007 / 3-540-49478-2 . hdl : 11693/27676 . ISBN 978-3-540-65259-5. S2CID 19677267 .

[:5-7] J. Hutchins (enero de 2006). "Traducción automática: Historia". Enciclopedia de Lengua y Lingüística . págs. 375–383. doi : 10.1016 / B0-08-044854-2 / 00937-8 . ISBN 9780080448541. Falta o vacío |title=( ayuda )

[:6-8] Yiming Yang; Jaime G. Carbonell; Ralf D. Brown; Robert E. Frederking (agosto de 1998). "Recuperación de información translingual: aprendiendo de corpus bilingües". Inteligencia artificial . Instituto de Tecnologías del Lenguaje, Facultad de Ciencias de la Computación, Universidad Carnegie Mellon, 5000 Forbes Avenue, Pittsburgh, PA 15213, EE. UU. 103 (1–2): 323–345. doi : 10.1016 / S0004-3702 (98) 00063-0 .

[:7-9] Jan HAJIC; Jan HRIC; Vladislav KUBON (2000). "Traducción automática de idiomas muy cercanos" . Actas de la sexta conferencia sobre procesamiento del lenguaje natural aplicado - . págs. 7-12. doi : 10.3115 / 974147.974149 . S2CID 8355580 . Consultado el 2 de noviembre de 2015 .

[10] Ari Pirkola (1998). Los efectos de la estructura de consultas y las configuraciones de diccionario en la recuperación de información entre idiomas basada en diccionarios . Departamento de estudios de la información de la Universidad de Tampere. págs. 55–63. CiteSeerX 10.1.1.20.3202 . doi : 10.1145 / 290941.290957 . ISBN 978-1581130157. S2CID 16199588 . Consultado el 2 de noviembre de 2015 .

[:8-11] David A. Hull; Gregory Grefenstette (1996). "Consultas en varios idiomas". Consultas en varios idiomas: un enfoque basado en diccionarios para la recuperación de información multilingüe . Rank Xerox Research Centre 6 chemin de Maupertuis, 38240 Meylan France. págs. 49–57. doi : 10.1145 / 243199.243212 . ISBN 978-0897917926. S2CID 1274065 .

[1]