Texto paralelo


Un texto paralelo es un texto colocado junto a su traducción o traducciones. [1] [2] La alineación de texto paralelo es la identificación de las oraciones correspondientes en ambas mitades del texto paralelo. La Biblioteca Clásica Loeb y la Biblioteca Clay Sanskrit son dos ejemplos de series de textos en dos idiomas. Las Biblias de referencia pueden contener los idiomas originales y una traducción, o varias traducciones por sí mismas, para facilitar la comparación y el estudio; La Hexapla de Orígenes (en griego, "séxtuple") colocó seis versiones del Antiguo Testamento una al lado de la otra. Un ejemplo famoso es la Piedra de Rosetta , cuyo descubrimiento permitió alAntiguo idioma egipcio para comenzar a ser descifrado .

Las grandes colecciones de textos paralelos se denominan corpus paralelos (ver corpus de texto ). Las alineaciones de corpus paralelos a nivel de oración son un requisito previo para muchas áreas de investigación lingüística . Durante la traducción, el traductor puede dividir, fusionar, eliminar, insertar o reordenar oraciones. Esto hace que la alineación sea una tarea no trivial.

Los grandes corpus utilizados como conjuntos de entrenamiento para algoritmos de traducción automática generalmente se extraen de grandes cuerpos de fuentes similares, como bases de datos de artículos de noticias escritos en el primer y segundo idioma que describen eventos similares.

Sin embargo, los fragmentos extraídos pueden ser ruidosos, con elementos adicionales insertados en cada corpus. Las técnicas de extracción pueden diferenciar entre elementos bilingües representados en ambos corpus y elementos monolingües representados en un solo corpus para extraer fragmentos paralelos más limpios de elementos bilingües. Los corpus comparables se utilizan para obtener conocimiento directamente con fines de traducción. Sin embargo, es difícil obtener datos paralelos de alta calidad, especialmente para los idiomas con pocos recursos. [3]

En el campo de los estudios de traducción, un bitexto es un documento combinado compuesto por versiones de un texto dado tanto en el idioma de origen como en el de destino.

Los bitextos son generados por una pieza de software llamada herramienta de alineación , o herramienta de bitextos , que alinea automáticamente las versiones original y traducida del mismo texto. La herramienta generalmente hace coincidir estos dos textos frase por frase. Una colección de bitextos se denomina base de datos de bitextos o corpus bilingüe , y se puede consultar con una herramienta de búsqueda.


La Piedra de Rosetta , una estela grabada con el mismo decreto tanto en las escrituras del Antiguo Egipto como en el Antiguo Griego . Su descubrimiento fue clave para descifrar el idioma del Antiguo Egipto.