Dependencias universales


Universal Dependencies , frecuentemente abreviado como UD , es un proyecto cooperativo internacional para crear bancos de árboles de las lenguas del mundo. [1] Estos bancos de árboles son de acceso abierto y están disponibles. Las aplicaciones principales son el procesamiento automatizado de textos en el campo del procesamiento del lenguaje natural (PLN) y la investigación de la sintaxis y gramática del lenguaje natural, especialmente dentro de la tipología lingüística . El objetivo principal del proyecto es lograr coherencia interlingüística de la anotación, permitiendo al mismo tiempo extensiones específicas del idioma cuando sea necesario. El esquema de anotación tiene sus raíces en tres proyectos relacionados: Stanford Dependencies, [2]etiquetas universales de parte del discurso de Google, [3] e Interset interlingua [4] para conjuntos de etiquetas morfosintácticas. El esquema de anotación UD utiliza una representación en forma de árboles de dependencia en lugar de árboles de estructura de frases . En la actualidad (enero de 2022), hay poco más de 200 bancos de árboles de más de 100 idiomas disponibles en el inventario de la UD.

El esquema de anotación UD produce análisis sintácticos de oraciones en términos de dependencias de la gramática de dependencia. Cada dependencia se caracteriza en términos de una función sintáctica, que se muestra mediante una etiqueta en el borde de la dependencia. Por ejemplo: [5]

Este análisis muestra que ella , él y una nota son dependientes de la izquierda . El pronombre ella se identifica como un sujeto nominal (nsubj), el pronombre él como un objeto indirecto (iobj) y el sintagma nominal una nota como un objeto directo (obj); existe una dependencia adicional que conecta a con la nota , aunque no se muestra. Un segundo ejemplo:

Este análisis lo identifica como sujeto (nsubj), es como cópula (cop) y for como marcador de caso (case), todos los cuales se muestran como dependientes de la palabra raíz her , que es un pronombre. El siguiente ejemplo incluye un insulto y un objeto oblicuo:

Este análisis identifica allí como un insulto (expl), la comida como un sujeto nominal (nsubj), la cocina como un objeto oblicuo (obl) y como un marcador de caso (case); también hay una dependencia que conecta el con la cocina . pero no se muestra. En este caso , la cópula se coloca como la raíz de la oración, un hecho que es contrario a cómo se analiza la cópula en el segundo ejemplo anterior, donde se coloca como dependiente de la raíz.

Por supuesto, los ejemplos de anotación UD que se acaban de proporcionar sólo pueden dar una impresión de la naturaleza del proyecto UD y su esquema de anotación. El énfasis de UD está en producir análisis de dependencia consistentes entre idiomas para facilitar el paralelismo estructural entre diversos idiomas. Con este fin, UD utiliza un conjunto de etiquetas POS universal para todos los idiomas, aunque un idioma determinado no tiene por qué utilizar cada etiqueta. Se puede agregar información más específica a cada palabra mediante un conjunto de características morfosintácticas gratuitas. Las etiquetas universales de los enlaces de dependencia se pueden especificar con relaciones secundarias, que se indican como una etiqueta secundaria detrás de dos puntos, por ejemplo, nsubj:pass, siguiendo el formato "universal:extensión" .