De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En lingüística , un corpus ( corpora plural ) o corpus de texto es un recurso del lenguaje que consiste en un conjunto grande y estructurado de textos (hoy en día generalmente almacenados y procesados ​​electrónicamente). En lingüística de corpus , se utilizan para realizar análisis estadísticos y pruebas de hipótesis , verificando ocurrencias o validando reglas lingüísticas dentro de un territorio lingüístico específico.

Resumen [ editar ]

Un corpus puede contener textos en un solo idioma ( corpus monolingüe ) o datos de texto en varios idiomas ( corpus multilingüe ).

Con el fin de hacer que los corpus sean más útiles para la investigación lingüística, a menudo se someten a un proceso conocido como anotación . Un ejemplo de anotación de un corpus es el etiquetado de parte del discurso , o etiquetado POS , en el que la información sobre la parte del discurso de cada palabra (verbo, sustantivo, adjetivo, etc.) se agrega al corpus en forma de etiquetas . Otro ejemplo es indicar la forma lema (base) de cada palabra. Cuando el idioma del corpus no es un idioma de trabajo de los investigadores que lo utilizan, se utiliza un glosado interlineal para que la anotación sea bilingüe.

Algunos corpus han aplicado niveles de análisis más estructurados . En particular, se pueden analizar completamente varios corpus más pequeños . Dichos cuerpos son generalmente llamados treebanks o Analizada Corpora . La dificultad de asegurar que todo el corpus esté completa y consistentemente anotado significa que estos corpus suelen ser más pequeños, con alrededor de uno a tres millones de palabras. Son posibles otros niveles de análisis estructurado lingüístico, incluidas las anotaciones de morfología , semántica y pragmática .

Aplicaciones [ editar ]

Los corpus son la principal base de conocimientos de la lingüística de corpus . Otras áreas de aplicación notables incluyen:

  • Máquina traductora
    • Los corpus multilingües que han sido formateados especialmente para la comparación lado a lado se denominan corpus paralelos alineados . Hay dos tipos principales de corpus paralelos que contienen textos en dos idiomas. En un corpus de traducción , los textos en un idioma son traducciones de textos en el otro idioma. En un corpus comparable , los textos son del mismo tipo y cubren el mismo contenido, pero no son traducciones entre sí. [2] Para aprovechar un texto paralelo, algún tipo de alineación de texto que identifique segmentos de texto equivalentes (frases u oraciones) es un requisito previo para el análisis. Máquina traductoraLos algoritmos para traducir entre dos idiomas a menudo se entrenan utilizando fragmentos paralelos que comprenden un corpus de primer idioma y un corpus de segundo idioma que es una traducción elemento por elemento del corpus de primer idioma. [3]
  • Filologías
    • Los corpus de texto también se utilizan en el estudio de documentos históricos , por ejemplo, en los intentos de descifrar escrituras antiguas o en la erudición bíblica . Algunos corpus arqueológicos pueden ser de tan corta duración que proporcionan una instantánea en el tiempo. Uno de los corpus más breves en el tiempo pueden ser los textos de las cartas de Amarna de 15 a 30 años ( 1350 a . C. ). El corpus de una ciudad antigua, (por ejemplo, los " Textos Kültepe " de Turquía), puede pasar por una serie de corpus, determinados por las fechas del sitio de búsqueda.

Algunos corpus de texto notables [ editar ]

Ver también [ editar ]

  • Concordancia
  • Lenguaje del cuerpo
  • Base de datos distribucional-relacional
  • Consorcio de datos lingüísticos
  • Procesamiento natural del lenguaje
  • Kit de herramientas de lenguaje natural
  • Alineación de texto paralelo
  • Motores de búsqueda : acceden al "corpus web".
  • Corpus de habla
  • Memoria de traducción
  • Treebank
  • Ley de Zipf

Referencias [ editar ]

  1. ^ Yoon, H. y Hirvela, A. (2004). Actitudes de los estudiantes de ESL hacia el uso de corpus en escritura L2 . Journal of Second Language Writing, 13 (4), 257–283. Consultado el 21 de marzo de 2012.
  2. ^ Wołk, K .; Marasek, K. (7 de abril de 2014). "Un método de alineación basado en el significado de oraciones para la preparación de cuerpos de texto paralelo". Avances en Computación y Sistemas Inteligentes . Saltador. 275 : 107-114. arXiv : 1509.09090 . doi : 10.1007 / 978-3-319-05951-8_11 . ISBN 978-3-319-05950-1. ISSN  2194-5357 . S2CID  15361632 .
  3. ^ Wołk, K .; Marasek, K. (2015). "Minería de datos paralela sintonizada y acelerada por GPU de corpora comparables". Apuntes de conferencias en Inteligencia Artificial . Springer: 32–40. arXiv : 1509.08639 . ISBN 978-3-319-24032-9.

Enlaces externos [ editar ]

  • Enlaces de recursos de ACL SIGLEX: Text Corpora Archivado 2013-08-13 en Wayback Machine
  • Desarrollo de corpus lingüísticos: una guía de buenas prácticas
  • Muestras gratuitas (no gratuitas), corpus basados ​​en la web (45-425 millones de palabras cada uno): estadounidense (COCA, COHA, TIME), británico (BNC), español, portugués
  • Intercorp Construcción de corpus paralelos sincrónicos de los idiomas que se enseñan en la Facultad de Artes de la Universidad Charles.
  • Sketch Engine: corpus abiertos con acceso gratuito
  • TS Corpus: un corpus turco disponible gratuitamente para la investigación académica.
  • Corpus nacional turco: un corpus de propósito general para el turco contemporáneo
  • Corpus de discursos políticos , acceso gratuito a discursos políticos de políticos estadounidenses y chinos, desarrollado por la Biblioteca de la Universidad Bautista de Hong Kong
  • Corpus Nacional Ruso