cuerpo de texto

En lingüística , un corpus ( corpora plural ) o corpus de texto es un recurso lingüístico que consiste en un conjunto grande y estructurado de textos (hoy en día generalmente almacenados y procesados electrónicamente). En la lingüística de corpus , se utilizan para realizar análisis estadísticos y pruebas de hipótesis , verificar ocurrencias o validar reglas lingüísticas dentro de un territorio lingüístico específico.

Un corpus puede contener textos en un solo idioma ( corpus monolingüe ) o datos de texto en varios idiomas ( corpus multilingüe ).

Para que los corpus sean más útiles para la investigación lingüística, a menudo se someten a un proceso conocido como anotación . Un ejemplo de anotar un corpus es el etiquetado de parte del discurso , o etiquetado POS , en el que se agrega información sobre la parte del discurso de cada palabra (verbo, sustantivo, adjetivo, etc.) al corpus en forma de etiquetas . Otro ejemplo es indicar la forma del lema (base) de cada palabra. Cuando el idioma del corpus no es un idioma de trabajo de los investigadores que lo utilizan, se utiliza la glosa interlineal para hacer la anotación bilingüe.

Algunos corpus tienen aplicados niveles de análisis más estructurados . En particular, los corpus más pequeños pueden analizarse completamente . Dichos corpus suelen denominarse Treebanks o Parsed Corpora . La dificultad de garantizar que todo el corpus esté anotado de manera completa y coherente significa que estos corpus suelen ser más pequeños y contienen alrededor de uno a tres millones de palabras. Son posibles otros niveles de análisis estructurado lingüístico, incluidas anotaciones para morfología , semántica y pragmática .

Los corpus son la principal base de conocimiento en la lingüística de corpus . Otras áreas notables de aplicación incluyen: