Etiquetado de parte del discurso


En lingüística de corpus , el etiquetado de parte del discurso ( etiquetado POS o etiquetado PoS o POST ), también llamado etiquetado gramatical , es el proceso de marcar una palabra en un texto (corpus) como correspondiente a una parte particular del discurso , [1] basado tanto en su definición como en su contexto . Una forma simplificada de esto se enseña comúnmente a niños en edad escolar, en la identificación de palabras como sustantivos , verbos , adjetivos , adverbios , etc.

Una vez realizado a mano, el etiquetado de POS ahora se realiza en el contexto de la lingüística computacional , utilizando algoritmos que asocian términos discretos, así como partes ocultas del discurso, mediante un conjunto de etiquetas descriptivas. Los algoritmos de etiquetado de POS se dividen en dos grupos distintivos: basados ​​en reglas y estocásticos. El etiquetador de E. Brill , uno de los primeros y más utilizados etiquetadores de POS en inglés, emplea algoritmos basados ​​en reglas.

El etiquetado de partes del discurso es más difícil que simplemente tener una lista de palabras y sus partes del discurso, porque algunas palabras pueden representar más de una parte del discurso en diferentes momentos y porque algunas partes del discurso son complejas o no dichas. Esto no es raro: en los lenguajes naturales (a diferencia de muchos lenguajes artificiales ), un gran porcentaje de formas de palabras son ambiguas. Por ejemplo, incluso "dogs", que generalmente se considera solo como un sustantivo en plural, también puede ser un verbo:

El etiquetado gramatical correcto reflejará que "perros" se usa aquí como un verbo, no como el sustantivo plural más común. El contexto gramatical es una forma de determinar esto; El análisis semántico también se puede utilizar para inferir que "marinero" y "escotilla" implican "perros" como 1) en el contexto náutico y 2) una acción aplicada al objeto "escotilla" (en este contexto, "perros" es un término náutico ). término que significa "cierra (una puerta estanca) de forma segura").

Las escuelas comúnmente enseñan que hay 9 partes del discurso en inglés: sustantivo , verbo , artículo , adjetivo , preposición , pronombre , adverbio , conjunción e interjección . Sin embargo, claramente hay muchas más categorías y subcategorías. Para los sustantivos, se pueden distinguir las formas plural, posesiva y singular. En muchos idiomas, las palabras también se marcan por su " caso " (papel como sujeto, objeto, etc.), género gramatical , etc.; mientras que los verbos están marcados por tiempo , aspecto, Y otras cosas. En algunos sistemas de etiquetado, las diferentes inflexiones de la misma palabra raíz obtendrán diferentes partes del discurso, lo que dará como resultado una gran cantidad de etiquetas. Por ejemplo, NN para nombres comunes singulares, NNS para nombres comunes plurales, NP para nombres propios singulares (consulte las etiquetas POS utilizadas en el Brown Corpus). Otros sistemas de etiquetado utilizan un número menor de etiquetas e ignoran las diferencias sutiles o las modelan como características algo independientes de la parte del discurso. [2]

En el etiquetado de partes del discurso por computadora, es típico distinguir de 50 a 150 partes del discurso separadas para el inglés. El trabajo sobre métodos estocásticos para etiquetar el griego koiné (DeRose 1990) ha utilizado más de 1000 partes del discurso y ha descubierto que hay tantas palabras ambiguas en ese idioma como en inglés. Un descriptor morfosintáctico en el caso de lenguas morfológicamente ricas se expresa comúnmente usando mnemotécnicos muy cortos, como Ncmsan para Categoría = Sustantivo, Tipo = común, Género = masculino, Número = singular, Caso = acusativo, Animado = no.