Categorías lingüísticas


La definición de categorías lingüísticas es una de las principales preocupaciones de la teoría lingüística y, por lo tanto, la definición y el nombre de las categorías varía entre diferentes marcos teóricos y tradiciones gramaticales para diferentes idiomas. La operacionalización de categorías lingüísticas en lexicografía , lingüística computacional , procesamiento del lenguaje natural , lingüística de corpus y manejo de terminología generalmente requiere definiciones de categorías lingüísticas específicas de recursos, problemas o aplicaciones. En lingüística cognitiva se ha argumentado que las categorías lingüísticas tienen una estructura prototipocomo el de las categorías de palabras comunes en un idioma. [1]

Para facilitar la interoperabilidad entre recursos léxicos , anotaciones lingüísticas y herramientas de anotación y para el manejo sistemático de categorías lingüísticas en diferentes marcos teóricos, se han desarrollado y se están utilizando una serie de inventarios de categorías lingüísticas, con ejemplos que se dan a continuación. El objetivo práctico de dichos inventarios es realizar una evaluación cuantitativa (para inventarios de idiomas específicos), entrenar herramientas de PNL o facilitar la evaluación, consulta o anotación interlingüística de datos lingüísticos. A nivel teórico, se ha postulado la existencia de categorías universales en el lenguaje humano, por ejemplo, en la gramática universal , pero tambiénmuy criticado .

Las escuelas comúnmente enseñan que hay 9 partes del discurso en inglés: sustantivo , verbo , artículo , adjetivo , preposición , pronombre , adverbio , conjunción e interjección . Sin embargo, claramente hay muchas más categorías y subcategorías. Para los sustantivos, se pueden distinguir las formas plural, posesiva y singular. En muchos idiomas, las palabras también se marcan por su caso (papel como sujeto, objeto, etc.), género gramatical , etc. mientras que los verbos están marcados para tiempo , aspecto, Y otras cosas. En algunos sistemas de etiquetado, diferentes inflexiones de la misma palabra raíz obtendrán diferentes partes del habla, lo que dará como resultado una gran cantidad de etiquetas. Por ejemplo, NN para sustantivos comunes singulares, NNS para sustantivos comunes plurales, NP para sustantivos propios singulares (consulte las etiquetas POS utilizadas en el Brown Corpus). Otros sistemas de etiquetado utilizan un número menor de etiquetas e ignoran las pequeñas diferencias o las modelan como características algo independientes de la parte del discurso. [2]

En el etiquetado de partes del discurso por computadora, es típico distinguir de 50 a 150 partes separadas del discurso para el inglés. El trabajo de etiquetado de POS se ha realizado en una variedad de idiomas, y el conjunto de etiquetas de POS utilizadas varía mucho según el idioma. Las etiquetas generalmente están diseñadas para incluir distinciones morfológicas evidentes, aunque esto conduce a inconsistencias como el marcado de mayúsculas y minúsculas para pronombres pero no sustantivos en inglés, y diferencias entre idiomas mucho mayores. Los conjuntos de etiquetas para idiomas con muchas inflexiones, como el griego y el latín, pueden ser muy grandes; etiquetar palabras en lenguas aglutinantes como las lenguas inuit puede ser prácticamente imposible. Trabajar en métodos estocásticos para etiquetarEl griego koiné (DeRose 1990) ha utilizado más de 1000 partes del discurso y ha descubierto que tantas palabras eran ambiguas en ese idioma como en inglés. Un descriptor morfosintáctico en el caso de lenguas morfológicamente ricas se expresa comúnmente usando nemotécnicos muy cortos, como Ncmsan para Categoría = Sustantivo, Tipo = común, Género = masculino, Número = singular, Caso = acusativo, Animado = no.

El "conjunto de etiquetas" más popular para el etiquetado de puntos de venta en inglés estadounidense es probablemente el conjunto de etiquetas Penn, desarrollado en el proyecto Penn Treebank.