Categorías lingüísticas

Las categorías lingüísticas incluyen

Categoría léxica , una parte del discurso como sustantivo , preposición , etc.
Categoría sintáctica , un concepto similar que también puede incluir categorías de frase
Categoría gramatical , una característica gramatical como tiempo , género , etc.

La definición de categorías lingüísticas es una de las principales preocupaciones de la teoría lingüística y, por lo tanto, la definición y el nombre de las categorías varía entre diferentes marcos teóricos y tradiciones gramaticales para diferentes idiomas. La operacionalización de categorías lingüísticas en lexicografía , lingüística computacional , procesamiento del lenguaje natural , lingüística de corpus y manejo de terminología generalmente requiere definiciones de categorías lingüísticas específicas de recursos, problemas o aplicaciones. En lingüística cognitiva se ha argumentado que las categorías lingüísticas tienen una estructura prototipocomo el de las categorías de palabras comunes en un idioma. ^[1]

Inventarios de categorías lingüísticas

Para facilitar la interoperabilidad entre recursos léxicos , anotaciones lingüísticas y herramientas de anotación y para el manejo sistemático de categorías lingüísticas en diferentes marcos teóricos, se han desarrollado y se están utilizando varios inventarios de categorías lingüísticas, con ejemplos como los que se dan a continuación. El objetivo práctico de dichos inventarios es realizar una evaluación cuantitativa (para inventarios de idiomas específicos), entrenar herramientas de PNL o facilitar la evaluación, consulta o anotación interlingüística de datos lingüísticos. A nivel teórico, la existencia de categorías universales en el lenguaje humano se ha postulado, por ejemplo, en la gramática universal , pero también se ha criticado duramente .

Conjuntos de etiquetas de parte del discurso

Las escuelas comúnmente enseñan que hay 9 partes del discurso en inglés: sustantivo , verbo , artículo , adjetivo , preposición , pronombre , adverbio , conjunción e interjección . Sin embargo, claramente hay muchas más categorías y subcategorías. Para los sustantivos, se pueden distinguir las formas plural, posesiva y singular. En muchos idiomas, las palabras también se marcan por su " caso " (papel como sujeto, objeto, etc.), género gramatical , etc. mientras que los verbos están marcados por tiempo , aspecto y otras cosas. En algunos sistemas de etiquetado, diferentes inflexiones de la misma palabra raíz obtendrán diferentes partes del habla, lo que dará como resultado una gran cantidad de etiquetas. Por ejemplo, NN para sustantivos comunes singulares, NNS para sustantivos comunes plurales, NP para sustantivos propios singulares (consulte las etiquetas POS utilizadas en el Brown Corpus). Otros sistemas de etiquetado utilizan un número menor de etiquetas e ignoran las pequeñas diferencias o las modelan como características algo independientes de la parte del discurso. ^[2]

En el etiquetado de partes de la oración por computadora, es típico distinguir de 50 a 150 partes separadas de la oración para el inglés. El trabajo de etiquetado de POS se ha realizado en una variedad de idiomas, y el conjunto de etiquetas de POS utilizadas varía mucho según el idioma. Las etiquetas generalmente están diseñadas para incluir distinciones morfológicas evidentes, aunque esto conduce a inconsistencias como el marcado de mayúsculas y minúsculas para pronombres pero no sustantivos en inglés, y diferencias entre idiomas mucho mayores. Los conjuntos de etiquetas para idiomas con muchas inflexiones, como el griego y el latín, pueden ser muy grandes; etiquetar palabras en lenguas aglutinantes como las lenguas inuit puede ser prácticamente imposible. El trabajo en métodos estocásticos para etiquetar el griego koiné (DeRose 1990) ha utilizado más de 1.000 partes del discurso y ha descubierto que tantas palabras eran ambiguas en ese idioma como en inglés. Un descriptor morfosintáctico en el caso de lenguas morfológicamente ricas se expresa comúnmente usando nemotécnicos muy cortos, como Ncmsan para Categoría = Sustantivo, Tipo = común, Género = masculino, Número = singular, Caso = acusativo, Animado = no.

El "conjunto de etiquetas" más popular para el etiquetado de puntos de venta en inglés estadounidense es probablemente el conjunto de etiquetas Penn, desarrollado en el proyecto Penn Treebank.

Esquemas de anotaciones multilingües

Para los idiomas de Europa occidental, se han desarrollado esquemas de anotación de aplicación interlingüística para las partes del discurso, la morfosintaxis y la sintaxis con las Directrices de Eagles . Las directrices de Eagles también han inspirado trabajos posteriores en otras regiones, por ejemplo, Europa del Este. ^[3]

Petrov y col. ^[4]^[5] han propuesto un conjunto de etiquetas "universal", pero altamente reduccionista, con 12 categorías (por ejemplo, sin subtipos de sustantivos, verbos, puntuación, etc .; sin distinción de "a" como marcador de infinitivo vs. .preposición (difícilmente una coincidencia "universal"), etc.). Posteriormente, esto se complementó con especificaciones translingüísticas para la sintaxis de dependencia (Dependencias de Stanford), ^[6] y morfosintaxis (Interset interlingua, ^[7] basándose parcialmente en la tradición Multext-East / Eagles) en el contexto de las Dependencias Universales (UD ), un proyecto de cooperación internacional para crear bancos de árboles de los idiomas del mundo con anotaciones ("universales") de aplicación interlingüística para partes del habla, sintaxis de dependencia y (opcionalmente) características morfosintácticas (morfológicas). Las aplicaciones principales son el procesamiento de texto automatizado en el campo del procesamiento del lenguaje natural (PNL) y la investigación de la sintaxis y la gramática del lenguaje natural, especialmente dentro de la tipología lingüística . El esquema de anotación tiene sus raíces en tres proyectos relacionados: El esquema de anotación UD usa una representación en forma de árboles de dependencia en lugar de árboles de estructura de frases . En febrero de 2019, hay poco más de 100 bancos de árboles de más de 70 idiomas disponibles en el inventario de UD. ^[8] El objetivo principal del proyecto es lograr la coherencia de las anotaciones en varios idiomas. Sin embargo, se permiten extensiones específicas del idioma para características morfológicas (idiomas o recursos individuales pueden introducir características adicionales). En una forma más restringida, las relaciones de dependencia se pueden extender con una etiqueta secundaria que acompaña a la etiqueta UD, por ejemplo, aux: pass para un auxiliar (UD aux ) usado para marcar la voz pasiva. ^[9]

Las Dependencias Universales han inspirado esfuerzos similares para las áreas de morfología flexional, ^[10] semántica de marcos ^[11] y correferencia . ^[12] Para la sintaxis de estructura de frases , no parece existir un esfuerzo comparable, pero las especificaciones del Penn Treebank se han aplicado (y ampliado) a una amplia gama de idiomas, ^[13] por ejemplo, islandés, ^[14] Antiguo Inglés, ^[15] inglés medio, ^[16] bajo alemán medio, ^[17] alto alemán moderno temprano, ^[18] yiddish, ^[19] portugués, ^[20] japonés, ^[21] árabe ^[22] y chino. ^[23]

Convenciones para glosas interlineales

En lingüística , una glosa interlineal es una glosa (serie de explicaciones breves, como definiciones o pronunciaciones) colocadas entre líneas ( inter + lineal ), como entre una línea de texto original y su traducción a otro idioma . Cuando se glosa, cada línea del texto original adquiere una o más líneas de transcripción conocida como texto interlineal o texto glosado interlineal (IGT), interlineal para abreviar. Tales glosas ayudan al lector a seguir la relación entre el texto fuente y su traducción, y la estructura del idioma original. No existe un inventario estándar para glosas, pero las etiquetas comunes se recogen en las Reglas de Glosa de Leipzig. ^[24] Wikipedia también proporciona una lista de abreviaturas que se basan en esta y otras fuentes.

Ontología general para la descripción lingüística (GOLD)

GOLD ("Ontología general para la descripción lingüística") es una ontología para la lingüística descriptiva . Ofrece una descripción formalizada de las categorías y relaciones más básicas utilizadas en la descripción científica del lenguaje humano, por ejemplo, como formalización de glosas interlineales. GOLD fue introducido por primera vez por Farrar y Langendoen (2003). ^[25] Originalmente, se concibió como una solución al problema de resolver esquemas de marcado dispares para datos lingüísticos, en particular datos de idiomas en peligro de extinción . Sin embargo, GOLD es mucho más general y se puede aplicar a todos los idiomas. En esta función, GOLD se superpone con el Registro de categorías de datos ISO 12620 (ISOcat), sin embargo, está estructurado de manera más estricta.

GOLD fue mantenido por LINGUIST List y otros desde 2007 hasta 2010. ^[26] El proyecto RELISH creó un espejo de la edición 2010 de GOLD como una Selección de Categoría de Datos dentro de ISOcat. A partir de 2018, los datos GOLD siguen siendo un importante centro de terminología en el contexto de la nube Linguistic Linked Open Data , pero como ya no se mantienen activamente, su función se reemplaza cada vez más por OLiA (para la anotación lingüística, basada en GOLD e ISOcat) y lexinfo.net (para metadatos de diccionario, basado en ISOcat).

ISO 12620 (Registro de categoría de datos ISO TC37, ISOcat)

ISO 12620 es un estándar de ISO / TC 37 que define un registro para registrar términos lingüísticos utilizados en diversos campos de la traducción , la lingüística computacional y el procesamiento del lenguaje natural y definir asignaciones entre términos diferentes y los mismos términos utilizados en diferentes sistemas. Una edición anterior de este sistema, ISOcat, proporciona identificadores persistentes y URI para categorías lingüísticas, incluido el inventario de la ontología GOLD (ver más abajo). Desde 2014, ya no se desarrolla activamente. ^[27] A partir de mayo de 2020, los sistemas sucesores, CLARIN Concept Registry ^[28] y DatCatInfo ^[29] solo están emergiendo.

Para las categorías lingüísticas relevantes para los recursos léxicos , el vocabulario lexinfo representa un estándar comunitario establecido, ^[30] en particular en relación con el vocabulario OntoLex y los diccionarios legibles por máquina en el contexto de las tecnologías Linguistic Linked Open Data . Al igual que el vocabulario de OntoLex se basa en el Lexical Markup Framework (LMF), lexinfo se basa en (la sección LMF de) ISOcat. ^[31] Sin embargo, a diferencia de ISOcat, lexinfo se mantiene activamente y actualmente (mayo de 2020) se amplía en un esfuerzo comunitario. ^[32]

Ontologías de anotación lingüística (OLiA)

Similar en espíritu a GOLD, las Ontologías de Anotación Lingüística (OLiA) proporcionan un inventario de referencia de categorías lingüísticas para fenómenos sintácticos, morfológicos y semánticos relevantes para la anotación lingüística y corpus lingüísticos en forma de ontología . Además, también proporcionan esquemas de anotaciones legibles por máquina para más de 100 idiomas, vinculados con el modelo de referencia OLiA. ^[33] Las ontologías OLiA representan un importante centro de terminología de anotaciones en la nube de datos abiertos enlazados (lingüísticos) , con aplicaciones de búsqueda, recuperación y aprendizaje automático sobre recursos lingüísticos con anotaciones heterogéneas. ^[31]

Además de los esquemas de anotación, el Modelo de Referencia OLiA también está vinculado con las Directrices de Eagles, ^[34] GOLD, ^[34] ISOcat, ^[35] Registro de conceptos CLARIN, ^[36] Dependencias universales, ^[37] lexinfo, ^[37] etc. ., permiten así la interoperabilidad entre estos vocabularios. OLiA se está desarrollando como un proyecto comunitario en GitHub ^[38]

Referencias

^ John R Taylor (1995) Categorización lingüística: prototipos en teoría lingüística , 2a ed., Capítulo 2 p.21
^ Etiquetas POS universales
^ Dimitrova, L., Ide, N., Petkevic, V., Erjavec, T., Kaalep, HJ y Tufis, D. (1998, agosto). Multext-east: corpus y léxicos paralelos y comparables para seis idiomas de Europa central y oriental . En Actas de la 17ª conferencia internacional sobre lingüística computacional, volumen 1 (págs. 315-319). Asociación de Lingüística Computacional.
^ Petrov, eslavo; Das, Dipanjan; McDonald, Ryan (11 de abril de 2011). "Un conjunto de etiquetas de parte del discurso universal". arXiv : 1104.2086 [ cs.CL ].
^ Petrov, Slav (11 de abril de 2011). "Un conjunto de etiquetas de parte del discurso universal". arXiv : 1104.2086 [ cs.CL ].
^ "Dependencias de Stanford" . nlp.stanford.edu . El Grupo de Procesamiento del Lenguaje Natural de Stanford . Consultado el 8 de mayo de 2020 .
^ "Interset" . cuni.cz . Instituto de Lingüística Formal y Aplicada (República Checa) . Consultado el 8 de mayo de 2020 .
^ "Dependencias universales" . universaldependencies.org . Consultado el 14 de mayo de 2020 .
^ "aux: pass" . universaldependencies.org . Consultado el 14 de mayo de 2020 .
^ UniMorph. "UniMorph: anotación morfológica universal" . UniMorph . Consultado el 14 de mayo de 2020 .
^ System-T / UniversalPropositions , System-T, 2020-05-14 , recuperado 2020-05-14
^ Prange, J., Schneider, N. y Abend, O. (2019, agosto). Anotación multicapa restringida semánticamente: el caso de la correferencia . En Actas del Primer Taller Internacional sobre Diseño de Representaciones de Significado (págs. 164-176).
^ "Corpora analizada de Penn del inglés histórico: otros corpora" . www.ling.upenn.edu . Consultado el 14 de mayo de 2020 .
^ "Corpus histórico analizado islandés (IcePaHC)" . www.linguist.is . Consultado el 14 de mayo de 2020 .
^ Warner, Anthony Departamento de Lengua y Ciencias Lingüísticas de la Universidad de York York; Taylor, Ann; Warner, Anthony; Pintzuk, Susan; Beths, Frank (septiembre de 2003). "El Corpus analizado de York-Toronto-Helsinki de prosa en inglés antiguo (YCOE)" . Cite journal requiere |journal=( ayuda )
^ "Corpus analizado de Penn-Helsinki de inglés medio 2" . www.ling.upenn.edu . Consultado el 14 de mayo de 2020 .
^ "Corpus del Bajo Alemán Histórico" . www.chlg.ac.uk . Consultado el 14 de mayo de 2020 .
^ Light, C. y Wallenberg, J. (2011). Sobre el uso de pasivos en germánico. Presentado en el 13 ° Encuentro de la Conferencia de Sintaxis Generativa Diacrónica (DIGS) DIGS 13, Universidad de Pennsylvania. 5 de junio de 2011
^ Beatrice Santorini (1993) [./ Ftp://babel.ling.upenn.edu/papers/faculty/beatrice%20santorini/santorini-1993.pdf La tasa de cambio de estructura de frases en la historia del yiddish]. Variación y cambio de idioma 5, 257-283.
^ "Proyecto Tycho Brahe" . www.tycho.iel.unicamp.br . Consultado el 14 de mayo de 2020 .
^ "NPCMJ - Corpus analizado de Ninjal del japonés moderno" . Consultado el 14 de mayo de 2020 .
^ "Arab Treebank: Parte 3 (corpus completo) v 2.0 (MPG + Análisis sintáctico) - Consorcio de datos lingüísticos" . catalog.ldc.upenn.edu . Consultado el 14 de mayo de 2020 .
^ "Proyecto Penn Chinese Treebank" . verbs.colorado.edu . Consultado el 14 de mayo de 2020 .
^ Comrie, B., Haspelmath, M. y Bickel, B. (2008). Las reglas de glosa de Leipzig: convenciones para glosas interlineales morfema por morfema . Departamento de Lingüística del Instituto Max Planck de Antropología Evolutiva y Departamento de Lingüística de la Universidad de Leipzig. Obtenido enero , 28 , 2010.
^ Scott Farrar y D. Terence Langendoen (2003) "Una ontología lingüística para la Web Semántica". GLOT Internacional. 7 (3), págs. 97-100, [1] .
^ Versiones GOLD
^ "El repositorio de categorías de datos (DCR) ha cambiado de dirección" . www.iso.org . Consultado el 8 de mayo de 2020 .
^ "Registro de conceptos CLARIN | CLARIN ERIC" . www.clarin.eu . Consultado el 8 de mayo de 2020 .
^ "DatCatInfo" . www.datcatinfo.net . Consultado el 8 de mayo de 2020 .
^ "LexInfo" . www.lexinfo.net . Consultado el 14 de mayo de 2020 .
^ a b Cimiano, P., Chiarcos, C., McCrae, JP y Gracia, J. (2020). Datos vinculados lingüísticos (págs. 137-160). Springer, Cham.
^ ontolex / lexinfo , OntoLex Community Group, 2020-03-07 , consultado 2020-05-14
^ "Ontologías OLiA" . purl.org/olia . Consultado el 14 de mayo de 2020 .
↑ a b Chiarcos, C. (2008). Una ontología de anotaciones lingüísticas . En LDV Forum (Vol. 23, No. 1, págs. 1-16).
^ Chiarcos, C. (mayo de 2010). Basar una ontología de anotaciones lingüísticas en el Registro de categorías de datos . En el Taller de LREC 2010 sobre estándares de recursos lingüísticos y tecnología del lenguaje (LT & LTS), Valetta, Malta (págs. 37-40).
^ Rehm, G., Galanis, D., Labropoulou, P., Piperidis, S., Welß, M., Usbeck, R., et al (2020). Hacia un ecosistema interoperable de plataformas de IA y LT: una hoja de ruta para la implementación de diferentes niveles de interoperabilidad. preimpresión de arXiv arXiv: 2004.08355 .
^ a b Christian Chiarcos, Maxim Ionov y Christian Fäth (2020), Interoperabilidad de anotaciones en la era posterior a ISOcat, LREC 2020
^ acoli-repo / olia , ACoLi, 2020-03-10 , consultado 2020-05-14

enlaces externos

Reglas de glosa de Leipzig
Ontología GOLD
ISOcat

[Taylor1995p21-1] John R Taylor (1995) Categorización lingüística: prototipos en teoría lingüística , 2a ed., Capítulo 2 p.21

[universal-2] Etiquetas POS universales

[3] Dimitrova, L., Ide, N., Petkevic, V., Erjavec, T., Kaalep, HJ y Tufis, D. (1998, agosto). Multext-east: corpus y léxicos paralelos y comparables para seis idiomas de Europa central y oriental . En Actas de la 17ª conferencia internacional sobre lingüística computacional, volumen 1 (págs. 315-319). Asociación de Lingüística Computacional.

[4] Petrov, eslavo; Das, Dipanjan; McDonald, Ryan (11 de abril de 2011). "Un conjunto de etiquetas de parte del discurso universal". arXiv : 1104.2086 [ cs.CL ].

[5] Petrov, Slav (11 de abril de 2011). "Un conjunto de etiquetas de parte del discurso universal". arXiv : 1104.2086 [ cs.CL ].

[6] "Dependencias de Stanford" . nlp.stanford.edu . El Grupo de Procesamiento del Lenguaje Natural de Stanford . Consultado el 8 de mayo de 2020 .

[7] "Interset" . cuni.cz . Instituto de Lingüística Formal y Aplicada (República Checa) . Consultado el 8 de mayo de 2020 .

[8] "Dependencias universales" . universaldependencies.org . Consultado el 14 de mayo de 2020 .

[9] "aux: pass" . universaldependencies.org . Consultado el 14 de mayo de 2020 .

[10] UniMorph. "UniMorph: anotación morfológica universal" . UniMorph . Consultado el 14 de mayo de 2020 .

[11] System-T / UniversalPropositions , System-T, 2020-05-14 , recuperado 2020-05-14

[12] Prange, J., Schneider, N. y Abend, O. (2019, agosto). Anotación multicapa restringida semánticamente: el caso de la correferencia . En Actas del Primer Taller Internacional sobre Diseño de Representaciones de Significado (págs. 164-176).

[13] "Corpora analizada de Penn del inglés histórico: otros corpora" . www.ling.upenn.edu . Consultado el 14 de mayo de 2020 .

[14] "Corpus histórico analizado islandés (IcePaHC)" . www.linguist.is . Consultado el 14 de mayo de 2020 .

[15] Warner, Anthony Departamento de Lengua y Ciencias Lingüísticas de la Universidad de York York; Taylor, Ann; Warner, Anthony; Pintzuk, Susan; Beths, Frank (septiembre de 2003). "El Corpus analizado de York-Toronto-Helsinki de prosa en inglés antiguo (YCOE)" . Cite journal requiere |journal=( ayuda )

[16] "Corpus analizado de Penn-Helsinki de inglés medio 2" . www.ling.upenn.edu . Consultado el 14 de mayo de 2020 .

[17] "Corpus del Bajo Alemán Histórico" . www.chlg.ac.uk . Consultado el 14 de mayo de 2020 .

[18] Light, C. y Wallenberg, J. (2011). Sobre el uso de pasivos en germánico. Presentado en el 13 ° Encuentro de la Conferencia de Sintaxis Generativa Diacrónica (DIGS) DIGS 13, Universidad de Pennsylvania. 5 de junio de 2011

[19] Beatrice Santorini (1993) [./ Ftp://babel.ling.upenn.edu/papers/faculty/beatrice%20santorini/santorini-1993.pdf La tasa de cambio de estructura de frases en la historia del yiddish]. Variación y cambio de idioma 5, 257-283.

[20] "Proyecto Tycho Brahe" . www.tycho.iel.unicamp.br . Consultado el 14 de mayo de 2020 .

[21] "NPCMJ - Corpus analizado de Ninjal del japonés moderno" . Consultado el 14 de mayo de 2020 .

[22] "Arab Treebank: Parte 3 (corpus completo) v 2.0 (MPG + Análisis sintáctico) - Consorcio de datos lingüísticos" . catalog.ldc.upenn.edu . Consultado el 14 de mayo de 2020 .

[23] "Proyecto Penn Chinese Treebank" . verbs.colorado.edu . Consultado el 14 de mayo de 2020 .

[:0-24] Comrie, B., Haspelmath, M. y Bickel, B. (2008). Las reglas de glosa de Leipzig: convenciones para glosas interlineales morfema por morfema . Departamento de Lingüística del Instituto Max Planck de Antropología Evolutiva y Departamento de Lingüística de la Universidad de Leipzig. Obtenido enero , 28 , 2010.

[25] Scott Farrar y D. Terence Langendoen (2003) "Una ontología lingüística para la Web Semántica". GLOT Internacional. 7 (3), págs. 97-100, [1] .

[26] Versiones GOLD

[27] "El repositorio de categorías de datos (DCR) ha cambiado de dirección" . www.iso.org . Consultado el 8 de mayo de 2020 .

[28] "Registro de conceptos CLARIN | CLARIN ERIC" . www.clarin.eu . Consultado el 8 de mayo de 2020 .

[29] "DatCatInfo" . www.datcatinfo.net . Consultado el 8 de mayo de 2020 .

[30] "LexInfo" . www.lexinfo.net . Consultado el 14 de mayo de 2020 .

[Cimiano,_P._2020_pp._137-160-31] Cimiano, P., Chiarcos, C., McCrae, JP y Gracia, J. (2020). Datos vinculados lingüísticos (págs. 137-160). Springer, Cham.

[32] tolex / lexinfo , OntoLex Community Group, 2020-03-07 , consultado 2020-05-14

[33] "Ontologías OLiA" . purl.org/olia . Consultado el 14 de mayo de 2020 .

[:1-34] Chiarcos, C. (2008). Una ontología de anotaciones lingüísticas . En LDV Forum (Vol. 23, No. 1, págs. 1-16).

[35] Chiarcos, C. (mayo de 2010). Basar una ontología de anotaciones lingüísticas en el Registro de categorías de datos . En el Taller de LREC 2010 sobre estándares de recursos lingüísticos y tecnología del lenguaje (LT & LTS), Valetta, Malta (págs. 37-40).

[36] Rehm, G., Galanis, D., Labropoulou, P., Piperidis, S., Welß, M., Usbeck, R., et al (2020). Hacia un ecosistema interoperable de plataformas de IA y LT: una hoja de ruta para la implementación de diferentes niveles de interoperabilidad. preimpresión de arXiv arXiv: 2004.08355 .

[:2-37] Christian Chiarcos, Maxim Ionov y Christian Fäth (2020), Interoperabilidad de anotaciones en la era posterior a ISOcat, LREC 2020

[38] -repo / olia , ACoLi, 2020-03-10 , consultado 2020-05-14

[1]