De Wikipedia, la enciclopedia libre
  (Redirigido desde corpus paralelos )
Saltar a navegación Saltar a búsqueda
La Piedra de Rosetta , una estela grabada con el mismo decreto tanto en las escrituras del Antiguo Egipto como en el Antiguo Griego . Su descubrimiento fue clave para descifrar el idioma del Antiguo Egipto.

Un texto paralelo es un texto colocado junto a su traducción o traducciones. [1] [2] La alineación de texto paralelo es la identificación de las oraciones correspondientes en ambas mitades del texto paralelo. La biblioteca clásica de Loeb y la biblioteca sánscrita de Clay son dos ejemplos de series de textos en dos idiomas. Las Biblias de referencia pueden contener los idiomas originales y una traducción, o varias traducciones por sí mismas, para facilitar la comparación y el estudio; La Hexapla de Orígenes (en griego, "séxtuple") colocó seis versiones del Antiguo Testamento una al lado de la otra. Un ejemplo famoso es la Piedra de Rosetta , cuyo descubrimiento permitió alEl idioma egipcio antiguo comenzará a ser descifrado .

Las grandes colecciones de textos paralelos se denominan corpus paralelos (ver corpus de texto ). Las alineaciones de corpus paralelos a nivel de oraciones son un requisito previo para muchas áreas de la investigación lingüística . Durante la traducción, el traductor puede dividir, fusionar, eliminar, insertar o reordenar oraciones. Esto hace que la alineación sea una tarea no trivial.

Tipos de corpus paralelos [ editar ]

Los corpus paralelos se pueden clasificar en cuatro categorías principales: [ cita requerida ]

  • Un corpus paralelo contiene traducciones del mismo documento en dos o más idiomas, alineados al menos en el nivel de la oración. Estos tienden a ser más raros que los corpus menos comparables. [ cita requerida ]
  • Un corpus paralelo ruidoso contiene oraciones bilingües que no están perfectamente alineadas o tienen traducciones de mala calidad. Sin embargo, la mayoría de sus contenidos son traducciones bilingües de un documento específico.
  • Un corpus comparable se construye a partir de documentos bilingües no alineados con oraciones y sin traducir, pero los documentos están alineados con el tema.
  • Un corpus cuasi-comparable incluye documentos bilingües muy heterogéneos y no paralelos que pueden o no estar alineados con el tema.

Ruido en corpora [ editar ]

Los grandes corpus que se utilizan como conjuntos de formación para los algoritmos de traducción automática suelen extraerse de grandes conjuntos de fuentes similares, como bases de datos de artículos de noticias escritos en el primer y segundo idioma que describen eventos similares.

Sin embargo, los fragmentos extraídos pueden ser ruidosos, con elementos adicionales insertados en cada corpus. Las técnicas de extracción pueden diferenciar entre elementos bilingües representados en corpus y elementos monolingües representados en un solo corpus para extraer fragmentos paralelos más limpios de elementos bilingües. Los corpus comparables se utilizan para obtener conocimientos directamente con fines de traducción. Sin embargo, es difícil obtener datos paralelos de alta calidad, especialmente para idiomas de escasos recursos. [3]

Bitext [ editar ]

En el campo de los estudios de traducción, un bitext es un documento combinado compuesto por versiones en idioma de origen y de destino de un texto determinado.

Los bitexts son generados por una pieza de software llamada herramienta de alineación , o una herramienta de bitext , que alinea automáticamente las versiones original y traducida del mismo texto. La herramienta generalmente hace coincidir estos dos textos frase por frase. Una colección de bitexts se denomina base de datos de bitext o corpus bilingüe y se puede consultar con una herramienta de búsqueda.

Bitexts y memorias de traducción [ editar ]

Los bitexts tienen algunas similitudes con las memorias de traducción. La diferencia más destacada es que una memoria de traducción pierde el contexto original, mientras que un bitext conserva el orden original de la oración. Dicho esto, algunas implementaciones de la memoria de traducción, como Translation Memory eXchange (TMX), un formato XML estándar para intercambiar memorias de traducción entre programas de traducción asistida por computadora (CAT), permiten preservar el orden original de las oraciones.

Los bitexts están diseñados para ser consultados por un traductor humano , no por una máquina. Como tal, los pequeños errores de alineación o las discrepancias menores que harían fallar una memoria de traducción no tienen importancia.

En su artículo original de 1988, Harris también postuló que el bitext representa cómo los traductores mantienen juntos sus textos de origen y destino en sus memorias de trabajo mental a medida que avanzan. Sin embargo, esta hipótesis no ha sido seguida. [4]

Los bitexts en línea y las memorias de traducción también se pueden llamar concordancias bilingües online. Varios están disponibles en la Web pública, incluidos Linguée , Reverso y Tradooit. [5] [6] [7]

Ver también [ editar ]

  • Inscripción bilingüe
  • Revisión asistida por computadora
  • Traducción automática basada en ejemplos
  • Procesamiento natural del lenguaje
  • Polyglot (libro)
  • Personaje rubí
  • Traducción automática estadística

Referencias [ editar ]

  1. ^ Sin-Wai Chan (13 de noviembre de 2014). Enciclopedia de tecnología de traducción de Routledge . Routledge. ISBN 978-1-317-60815-8.
  2. ^ Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 de agosto de 2016). Traducción automática estadística basada en sintaxis . Editores Morgan & Claypool. ISBN 978-1-62705-502-4.
  3. ^ Wołk, K. (2015). "Metodología de filtrado de cuerpos comparables y en paralelo ruidoso para la extracción de datos equivalentes bilingües a nivel de oración". Ciencias de la Computación . 16 (2): 169-184. arXiv : 1510.04500 . Código Bib : 2015arXiv151004500W . doi : 10.7494 / csci.2015.16.2.169 . S2CID 12860633 . 
  4. ^ Harris, B. Bi-text, un nuevo concepto en la teoría de la traducción , Language Monthly (Reino Unido) 54, p. 8-10, marzo de 1988.
  5. ^ Marie Genette, "¿Qué tan confiables son los concordadores bilingües en línea ?: Una investigación de Linguee, TradooIT, WeBiText y ReversoContext y su confiabilidad a través de un análisis contrastivo de preposiciones complejas del francés al inglés", tesis de maestría, Université Catholique de Louvain y Universitetet i Oslo , Primavera de 2016 texto completo
  6. ^ "TradooIT - Concordancier bilingue" .
  7. ^ Alain Désilets, Benoît Farley, Marta Stojanović, Geneviève Patenaude, "WeBiText: Creación de grandes memorias de traducción heterogéneas a partir de contenido web paralelo", Actas de traducción y la computadora 30 : 27-28 (2008) texto completo

Enlaces externos [ editar ]

Corpus paralelos [ editar ]

  • El JRC-Acquis Multilingual Parallel Corpus del cuerpo total de la legislación de la Unión Europea (UE): Acquis Communautaire con 231 pares de idiomas. [1]
  • Actas del Parlamento Europeo Corpus paralelo 1996-2011
  • El proyecto Opus tiene como objetivo recopilar corpus paralelos disponibles de forma gratuita
  • Corpus bilingüe japonés-inglés de los artículos de Kioto de Wikipedia
  • COMPARA - corpus paralelos portugués / inglés
  • BÚSQUEDA DE TÉRMINOS: corpus paralelos en inglés / ruso / francés (principales tratados, convenciones, acuerdos, etc.
  • TradooIT - Inglés / Francés / Español - Herramientas en línea gratuitas
  • Nunavut Hansard - Corpus paralelo inglés / inuktitut
  • ParaSol: un corpus paralelo de idiomas eslavos y otros
  • Glosbe: corpus paralelos multilenguaje con interfaz de búsqueda en línea
  • InterCorp: un corpus paralelo multilingüe en 40 idiomas alineado con la interfaz de búsqueda en línea del checo
  • myCAT - Olanto , concordancer (código abierto AGPL) con búsqueda en línea en JCR y UNO corpus
  • TAUS , con interfaz de búsqueda en línea.
  • corpus paralelos multilingües linguatools , interfaz de búsqueda en línea.
  • EUR-Lex Corpus: el corpus creado a partir de la base de datos EUR-Lex consta de la legislación de la Unión Europea y otros documentos públicos de la Unión Europea
  • Language Grid: plataforma de servicio multilingüe que incluye servicios de texto en paralelo

Documentación [ editar ]

  • Bibliografía de procesamiento de texto paralelo por J. Veronis y M.-D. Mahimon
  • Actas del taller de 2003 sobre la construcción y el uso de textos paralelos
  • Actas del taller de 2005 sobre la construcción y el uso de textos paralelos

Herramientas de alineación [ editar ]

  • Herramienta de alineación GIZA ++ (1999)
  • Uplug - herramientas para procesar corpus paralelos (2003)
  • Una implementación del algoritmo de alineación de oraciones de Gale y Church (2005)
  • El alineador de oraciones de Hunalign (2005)
  • Champollion (2006)
  • mALIGNa (2008 - 2020)
  • Alineador de frases Gargantua (2010)
  • Bleualign - alineación de oraciones basada en traducción automática (2010)
  • YASA (2013)
  • Herramienta de alineación jerárquica (HAT) (2018)
  • Algoritmo de alineación de oraciones de Vecalign (2019)
  • Herramienta de alineación web en la Universidad de Grenoble
  1. ^ Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaž Erjavec; Dan Tufiş; Dániel Varga (2006). El JRC-Acquis: un corpus paralelo alineado multilingüe con más de 20 idiomas . Actas de la 5ª Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC'2006). Génova, Italia, 24 a 26 de mayo de 2006 .