En lingüística , un banco de árboles es un corpus de texto analizado que anota la estructura sintáctica o semántica de la oración . La construcción de corpus analizados a principios de la década de 1990 revolucionó la lingüística computacional , que se benefició de los datos empíricos a gran escala . [1] La explotación de datos de bancos de árboles ha sido importante desde el primer banco de árboles a gran escala, The Penn Treebank., fue publicado. Sin embargo, aunque se originó en la lingüística computacional, el valor de los bancos de árboles es cada vez más apreciado en la investigación lingüística en su conjunto. Por ejemplo, los datos de bancos de árboles anotados han sido cruciales en la investigación sintáctica para probar las teorías lingüísticas de la estructura de las oraciones frente a grandes cantidades de ejemplos naturales.
Etimología
El término banco de árboles fue acuñado por el lingüista Geoffrey Leech en la década de 1980, por analogía con otros depósitos, como un banco de semillas o un banco de sangre . [2] Esto se debe a que tanto la estructura sintáctica como la semántica se representan comúnmente en términos de composición como una estructura de árbol . El término corpus analizado a menudo se usa indistintamente con el término banco de árboles, con el énfasis en la primacía de las oraciones en lugar de los árboles.
Construcción
Los bancos de árboles a menudo se crean sobre un corpus que ya ha sido anotado con etiquetas de parte del discurso . A su vez, los bancos de árboles a veces se mejoran con información semántica u otra información lingüística. Los árboles se pueden crear de forma completamente manual, donde los lingüistas anotan cada oración con estructura sintáctica, o semiautomáticamente, donde un analizador asigna una estructura sintáctica que los lingüistas luego verifican y, si es necesario, corrigen. En la práctica, verificar y completar completamente el análisis de los corpus de lenguaje natural es un proyecto que requiere mucha mano de obra y que puede llevar varios años a equipos de lingüistas graduados. El nivel de detalle de las anotaciones y la amplitud de la muestra lingüística determinan la dificultad de la tarea y el tiempo necesario para construir un banco de árboles.
Algunos bancos de árboles siguen una teoría lingüística específica en su anotación sintáctica (por ejemplo, BulTreeBank sigue a HPSG ) pero la mayoría intenta ser menos específicos de la teoría. Sin embargo, se pueden distinguir dos grupos principales: los bancos de árboles que anotan la estructura de la frase (por ejemplo, el Penn Treebank o ICE-GB ) y los que anotan la estructura de dependencia (por ejemplo, el Praga Dependency Treebank o el Coránico Árabe Dependency Treebank ).
Es importante aclarar la distinción entre la representación formal y el formato de archivo utilizado para almacenar los datos anotados. Los bancos de árboles se construyen necesariamente de acuerdo con una gramática particular. La misma gramática puede implementarse con diferentes formatos de archivo. Por ejemplo, el análisis sintáctico de John loves Mary , que se muestra en la figura de la derecha, puede representarse mediante simples corchetes etiquetados en un archivo de texto, como este (siguiendo la notación de Penn Treebank ):
(S (NP (NNP Juan)) (VP (VPZ ama) (NP (NNP María))) (..))
Este tipo de representación es popular porque tiene pocos recursos y la estructura de árbol es relativamente fácil de leer sin herramientas de software. Sin embargo, a medida que los corpus se vuelven cada vez más complejos, es posible que se prefieran otros formatos de archivo. Las alternativas incluyen esquemas XML específicos de bancos de árboles , sangría numerada y varios tipos de notación de separación.
Aplicaciones
Desde una perspectiva de la lingüística computacional [3] , los bancos de árboles se han utilizado para diseñar sistemas de procesamiento de lenguaje natural de última generación, como etiquetadores de parte del discurso , analizadores sintácticos , analizadores semánticos y sistemas de traducción automática. [4] La mayoría de los sistemas computacionales utilizan datos de bancos de árboles estándar de oro. Sin embargo, un corpus analizado automáticamente que no sea corregido por lingüistas humanos puede resultar útil. Puede proporcionar evidencia de la frecuencia de las reglas para un analizador. Un analizador puede mejorarse aplicándolo a grandes cantidades de texto y recopilando frecuencias de reglas. Sin embargo, debería ser obvio que solo mediante un proceso de corregir y completar un corpus a mano es posible identificar reglas ausentes en la base de conocimientos del analizador sintáctico. Además, es probable que las frecuencias sean más precisas.
En lingüística de corpus , los bancos de árboles se utilizan para estudiar fenómenos sintácticos (por ejemplo, los corpus diacrónicos se pueden utilizar para estudiar el curso temporal del cambio sintáctico). Una vez analizado, un corpus contendrá evidencia de frecuencia que muestre cuán comunes se utilizan las diferentes estructuras gramaticales. Los bancos de árboles también proporcionan evidencia de cobertura y respaldan el descubrimiento de fenómenos gramaticales nuevos e imprevistos.
Otro uso de los bancos de árboles en lingüística teórica y psicolingüística es la evidencia de interacción. Un banco de árboles completo puede ayudar a los lingüistas a realizar experimentos sobre cómo la decisión de utilizar una construcción gramatical tiende a influir en la decisión de formar otras y a tratar de comprender cómo los hablantes y escritores toman decisiones a medida que forman oraciones. La investigación de interacciones es particularmente fructífera ya que se agregan más capas de anotación, por ejemplo, semántica, pragmática, a un corpus. Entonces es posible evaluar el impacto de los fenómenos no sintácticos en las elecciones gramaticales.
Bancos de árboles semánticos
Un banco de árboles semántico es una colección de oraciones en lenguaje natural anotadas con una representación de significado. Estos recursos utilizan una representación formal de la estructura semántica de cada oración . Los bancos de árboles semánticos varían en la profundidad de su representación semántica. Un ejemplo notable de anotación semántica profunda es el Banco de Significado de Groningen , desarrollado en la Universidad de Groningen y anotado utilizando la Teoría de la Representación del Discurso . Un ejemplo de un banco de árboles semántico poco profundo es PropBank , que proporciona anotaciones de proposiciones verbales y sus argumentos, sin intentar representar cada palabra en el corpus en forma lógica .
Idioma | Treebank | Formalismo semántico | Distribución / Licencia |
---|---|---|---|
chino | Proposiciones universales chinas | Semántica de PropBank | CC BY-NC-SA 3.0 EE. UU. |
inglés | Banco de Representación de Significado Abstracto (AMR) | Semántica profunda | ? |
inglés | FrameNet | Semántica superficial | ? |
inglés | Anotación cognitiva conceptual universal (UCCA) | Semántica profunda | ? |
inglés | Árbol de comandos de robots [5] | Semántica profunda | ? |
inglés | Banco Significado de Groningen | Semántica profunda | ? |
inglés | Proyecto DeepBank | Semántica profunda | ? |
inglés | Corpus analizado de semántica de Treebank | Semántica profunda | ? |
inglés | RoboCup Corpus | Semántica profunda | ? |
inglés | Geoconsulta | Semántica profunda | ? |
inglés | PropBank | Semántica de PropBank | diferentes licencias |
finlandés | Proposiciones universales finlandesas | Semántica de PropBank | CC BY-NC-SA 3.0 EE. UU. |
finlandés | PropBank finlandés | Semántica de PropBank | CC BY-SA 4.0 |
francés | Proposiciones universales francesas | Semántica de PropBank | CC BY-NC-SA 3.0 EE. UU. |
alemán | Proposiciones universales alemanas | Semántica de PropBank | CC BY-NC-SA 3.0 EE. UU. |
italiano | Proposiciones universales italianas | Semántica de PropBank | CC BY-NC-SA 3.0 EE. UU. |
portugués | Portugués PortLex | Semántica de PropBank | ? |
portugués | Proposiciones universales portuguesas | Semántica de PropBank | CC BY-NC-SA 3.0 EE. UU. |
Español | Proposiciones Universales Españolas | Semántica de PropBank | CC BY-NC-SA 3.0 EE. UU. |
turco | PropBank turco | Semántica de PropBank | CC BY-NC-SA 4.0 |
Bancos de árboles de sintaxis profunda
Un banco de árboles de sintaxis profunda es un banco de árboles que se encuentra en la interfaz entre la sintaxis y la semántica, donde la estructura de representación se puede interpretar como un gráfico, que representa el sujeto de frases infinitivas, extracción, construcción de claves, elipsis de sujeto compartido, etc. (extender)
- Dependencias de AnCora UPF
- Proyecto Deep Sequoia
Bancos de árboles sintácticos
Se han desarrollado muchos bancos de árboles sintácticos para una amplia variedad de lenguajes:
Idioma | Treebank | Formalismo sintáctico | Distribución / Licencia |
---|---|---|---|
Abaza | Dependencias universales , ATB | Dependencia | CC BY-SA |
africaans | Dependencias universales , AfriBooms | Dependencia | CC BY-SA |
Acadio | Dependencias universales , PISANDUB | Dependencia | CC BY-SA |
albanés | Dependencias universales , TSA | Dependencia | CC BY-SA |
Amárico | Dependencias universales , ATT | Dependencia | CC BY-SA |
La antigua grecia | Dependencias universales , Perseo | Dependencia | CC BY-NC-SA |
La antigua grecia | Dependencias universales , PROIEL | Dependencia | CC BY-NC-SA |
Griego (antiguo) | Banco de árboles de dependencia de la antigua Grecia [6] [7] | Dependencia | Código abierto ( licencia Creative Commons ) |
Griego (antiguo) | PROIEL Treebank [8] | Dependencia | Código abierto ( licencia Creative Commons ) |
Arábica | Banco de árboles árabes de Columbia (CATiB) | Dependencia | Consorcio de datos lingüísticos |
Arábica | Banco de árboles de la dependencia árabe de Praga (PADT) | Dependencia | Consorcio de datos lingüísticos |
Arábica | Dependencias universales , NYUAD | Dependencia | CC BY-SA |
Arábica | Dependencias universales , PADT | Dependencia | CC BY-NC-SA |
Arábica | Dependencias universales , PUD | Dependencia | CC BY-SA |
Arábica | Penn Arabic Treebank | Estructura de la frase | Consorcio de datos lingüísticos |
armenio | Dependencias universales , ArmTDP | Dependencia | CC BY-SA |
Asirio (neo-arameo) | Dependencias universales , AS | Dependencia | CC BY-SA |
Bambara | Dependencias universales , CRB | Dependencia | CC BY-SA |
vasco | Dependencias universales , BDT | Dependencia | CC BY-NC-SA |
Bielorruso | Dependencias universales , HSE | Dependencia | CC BY-SA |
Bhojpuri | Dependencias universales , BhEn | Dependencia | CC BY-SA |
Bhojpuri | Dependencias universales , BHTB | Dependencia | CC BY-SA |
Bretón | Dependencias universales , KEB | Dependencia | CC BY-SA |
búlgaro | Dependencias universales , BTB | Dependencia | CC BY-NC-SA |
búlgaro | BulTreeBank | HPSG | Libremente disponible para investigación |
Buryat | Dependencias universales , BDT | Dependencia | CC BY-SA |
Cantonés | Dependencias universales , HK | Dependencia | CC BY-SA |
catalán | Cat3LB | Estructura de la frase | Libremente disponible para investigación |
catalán | Dependencias universales , AnCora | Dependencia | GPL |
chino | Sinica Treebank | Gramática de casos | No disponible gratuitamente |
chino | Dependencias universales , CFL | Dependencia | CC BY-SA |
chino | Dependencias universales , GSD | Dependencia | CC BY-SA |
chino | Dependencias universales , GSDSimp | Dependencia | CC BY-SA |
chino | Dependencias universales , HK | Dependencia | CC BY-SA |
chino | Dependencias universales , PUD | Dependencia | CC BY-SA |
chino | Penn Chinese Treebank | Estructura de la frase | Consorcio de datos lingüísticos |
chino | Banco de árbol de dependencia chino | Dependencia | Consorcio de datos lingüísticos |
Árabe (clásico) | Banco de árboles de dependencia árabe coránico (QADT) ( Corpus árabe coránico ) | Dependencia | Código abierto ( licencia pública general GNU ) |
Armenio clásico | PROIEL Treebank [8] | Dependencia | Código abierto ( licencia Creative Commons ) |
copto | Dependencias universales , copto scriptorium | Dependencia | CC BY |
croata | Banco de árboles de la dependencia croata | Dependencia | Código abierto ( licencia Creative Commons ) |
croata | Dependencias universales , SET | Dependencia | CC BY-SA |
checo | Banco de árboles de la dependencia de Praga | Dependencia | Código abierto ( licencia Creative Commons ) |
checo | Dependencias universales , CAC | Dependencia | CC BY-SA |
checo | Dependencias universales , CLTT | Dependencia | CC BY-SA |
checo | Dependencias universales , FicTree | Dependencia | CC BY-NC-SA |
checo | Dependencias universales , PDT | Dependencia | CC BY-NC-SA |
checo | Dependencias universales , PUD | Dependencia | CC BY-SA |
danés | Banco de árboles de dependencia danesa | Dependencia | Código abierto ( licencia pública general GNU ) |
danés | Arboretum: un corpus de árbol sintáctico del danés | Estructura de la frase | Derechos de licencia |
danés | Dependencias universales , DDT | Dependencia | CC BY-SA |
danés | Dependencias universales , DTB | Dependencia | CC BY-SA |
holandés | Corpus en holandés hablado (CGN) | Estructura de la frase | Derechos de licencia |
holandés | Dependencias universales , Alpino | Dependencia | CC BY-SA |
holandés | Dependencias universales , LassySmall | Dependencia | CC BY-SA |
holandés | LASSY pequeño y grande | Dependencia | Derechos de licencia |
holandés | Alpino Treebank | Dependencia | Código abierto ( licencia pública general GNU ) |
inglés | CCGbank | Gramática categorial combinatoria | Consorcio de datos lingüísticos |
inglés | Secuoyas LinGO | HPSG | ? |
inglés | Corpus analizado de Lancaster | Estructura de la frase | ? |
inglés | Banco del árbol de la dependencia inglesa de Praga | Dependencia | Consorcio de datos lingüísticos |
inglés | Dependencias universales , BhEn | Dependencia | CC BY-SA |
inglés | Dependencias universales , ESL | Dependencia | CC BY-SA |
inglés | Dependencias universales , EWT | Dependencia | CC BY-SA |
inglés | Dependencias universales , GUM | Dependencia | CC BY-NC-SA |
inglés | Dependencias universales , GUMReddit | Dependencia | CC BY |
inglés | Dependencias universales , LinES | Dependencia | CC BY-NC-SA |
inglés | Dependencias universales , ParTUT | Dependencia | CC BY-NC-SA |
inglés | Dependencias universales , pronombres | Dependencia | CC BY-SA |
inglés | Dependencias universales , PUD | Dependencia | CC BY-SA |
inglés | Corpus analizado de semántica de Treebank | Estructura de la frase | Código abierto ( licencia Creative Commons ) |
inglés | Christine Corpus | Estructura de la frase | Libremente disponible para investigación |
inglés | Lucy Corpus | Estructura de la frase | Libremente disponible para investigación |
inglés | Susanne Corpus | Estructura de la frase | Libremente disponible para investigación |
inglés | Cuerpo BLLIP WSJ | Estructura de la frase | Consorcio de datos lingüísticos |
inglés | Banco de árboles de Tübingen de inglés / habla espontánea (TüBa-E / S) | HPSG | Libremente disponible para investigación |
inglés | Corpus diacrónico del inglés hablado actual (DCPSE) | Estructura de la frase | Derechos de licencia |
inglés | Componente británico del Corpus Internacional de Inglés (ICE-GB) | Estructura de la frase | Derechos de licencia |
inglés | El banco de dependencia PARC 700 | Dependencia | ? |
inglés | Banco de árbol de consultas de Yahoo | Dependencia | Libremente disponible para investigación |
inglés | Penn Treebank | Estructura de la frase | Consorcio de datos lingüísticos |
inglés | Multi-Treebank | Estructura de la frase | Disponible en línea para fines de comparación |
inglés | CHILDES Brown Eve corpus con anotación de dependencia | Dependencia | Código abierto ( licencia Creative Commons ) |
inglés | SMULTRON - Banco de árboles paralelo EN-DE-SV | Estructura de la frase | Libremente disponible para investigación |
Erzya | Dependencias universales , JR | Dependencia | CC BY-SA |
Estonio | Arborest | Estructura de la frase | ? |
Estonio | Corpus de texto analizado sintácticamente y sin ambigüedades | Dependencia | Libremente disponible para investigación |
Estonio | Dependencias universales , EDT | Dependencia | CC BY-NC-SA |
Estonio | Dependencias universales , EWT | Dependencia | CC BY-NC-SA |
Feroés | Dependencias universales , FarPaHC | Dependencia | CC BY-SA |
Feroés | Dependencias universales , OFT | Dependencia | CC BY-SA |
finlandés | Turku Dependency Treebank (TDT) | Dependencia | Código abierto ( licencia Creative Commons ) |
finlandés | Dependencias universales , FTB | Dependencia | CC BY |
finlandés | Dependencias universales , PUD | Dependencia | CC BY-SA |
finlandés | Dependencias universales , TDT | Dependencia | CC BY-SA |
Francés (hablado) | Rapsodia | Dependencia y anotación macrosintáctica | Código abierto ( licencia Creative Commons ) |
francés | L'Arboratoire | Estructura de la frase | ? |
francés | Dependencias universales , CrapBank | Dependencia | CC BY-SA |
francés | Dependencias universales , FQB | Dependencia | GPL |
francés | Dependencias universales , FTB | Dependencia | GPL |
francés | Dependencias universales , GSD | Dependencia | CC BY-SA |
francés | Dependencias universales , ParTUT | Dependencia | CC BY-NC-SA |
francés | Dependencias universales , PUD | Dependencia | CC BY-SA |
francés | Dependencias universales , Sequoia | Dependencia | GPL |
francés | Dependencias universales , habladas | Dependencia | CC BY-SA |
francés | Treebank francés | Estructura de la frase | Libremente disponible para investigación |
francés | Free French Treebank | Estructura de la frase | Licencia de código abierto LGPL-LR |
francés | Sequoia Treebank | Estructura y dependencia de la frase | Licencia de código abierto LGPL-LR |
gallego | Dependencias universales , CTG | Dependencia | CC BY-NC-SA |
gallego | Dependencias universales , TreeGal | Dependencia | GPL |
alemán | Banco de dependencias de Hamburgo (HDT) | Dependencia | Libremente disponible para investigación |
alemán | Dependencias universales , GSD | Dependencia | CC BY-SA |
alemán | Dependencias universales , LIT | Dependencia | CC BY-NC-SA |
alemán | Dependencias universales , PUD | Dependencia | CC BY-SA |
alemán | SMULTRON - Banco de árboles paralelo EN-DE-SV | Estructura de la frase | Libremente disponible para investigación |
alemán | NEGRA | Estructura de la frase | Libremente disponible para investigación |
alemán | TIGRE | Estructura de la frase | Libremente disponible para investigación |
alemán | Banco de árboles de Tübingen de habla alemana / espontánea (TüBa-D / S) | Estructura de la frase | Libremente disponible para investigación |
alemán | Tübingen Treebank of Written German (TüBa-D / Z) | Estructura de la frase | Libremente disponible para investigación |
alemán | Corpus de Tübingen parcialmente analizado de alemán escrito (TüPP-D / Z) | Estructura de la frase | Derechos de licencia |
gótico | PROIEL Treebank [8] | Dependencia | Código abierto ( licencia Creative Commons ) |
gótico | Dependencias universales , PROIEL | Dependencia | CC BY-NC-SA |
griego | Treebank de dependencia griega | Dependencia | No disponible gratuitamente |
griego | Dependencias universales , GDT | Dependencia | CC BY-NC-SA |
hebreo | Dependencias universales , HTB | Dependencia | CC BY-NC-SA |
hebreo | Banco de árbol de dependencia hebrea | Dependencia | Código abierto ( licencia pública general GNU ) |
Inglés Hindi | Dependencias universales , HIENCS | Dependencia | CC BY-SA |
hindi | Dependencias universales , HDTB | Dependencia | CC BY-NC-SA |
hindi | Dependencias universales , PUD | Dependencia | CC BY-SA |
hindi | AnnCorra | Dependencia | ? |
Inglés (histórico) | Penn Parsed Corpora of Historical English ; | Estructura de la frase | Consorcio de datos lingüísticos (a partir de abril de 2020) |
Inglés (histórico) | York-Toronto-Helsinki Corpus analizado de prosa inglesa antigua (YCOE) | Estructura de la frase | Libremente disponible para investigación |
Francés (histórico) | Corpus MCVF | Estructura de la frase | Libremente disponible para investigación |
Portugués (histórico) | Tycho Brahe corpus | Estructura de la frase | ? |
húngaro | Dependencias universales , Szeged | Dependencia | CC BY-NC-SA |
húngaro | Treebank húngaro | Estructura de la frase | ? |
islandés | IcePaHC - Corpus histórico analizado islandés | Estructura de la frase | Código abierto ( Licencia pública general reducida GNU ) |
islandés | Dependencias universales , IcePaHC | Dependencia | CC BY-SA |
islandés | Dependencias universales , PUD | Dependencia | CC BY-SA |
indonesio | Dependencias universales , GSD | Dependencia | CC BY-SA |
indonesio | Dependencias universales , PUD | Dependencia | CC BY-SA |
irlandesa | Dependencias universales , IDT | Dependencia | CC BY-SA |
italiano | ISST - Treebank sintáctico-semántico italiano | Estructura y dependencia de la frase | Derechos de licencia |
italiano | MIDT (Merged Italian Dependency Treebank) resultante de la fusión y armonización de los bancos de árboles TUT e ISST-CoNLL / TANL | dependencia | Libremente disponible para investigación |
italiano | VIT - Banco de árboles italiano de Venecia | Estructura y dependencia de la frase | Derechos de licencia |
italiano | Dependencias universales , ISDT | Dependencia | CC BY-NC-SA |
italiano | Dependencias universales , ParTUT | Dependencia | CC BY-NC-SA |
italiano | Dependencias universales , PoSTWITA | Dependencia | CC BY-NC-SA |
italiano | Dependencias universales , PUD | Dependencia | CC BY-SA |
italiano | Dependencias universales , TWITTIRO | Dependencia | CC BY-SA |
italiano | Dependencias universales , VIT | Dependencia | CC BY-NC-SA |
italiano | Treebank sintáctico-semántico italiano para la tarea compartida CoNLL-2007 (ISST-CoNLL) | dependencia | Libremente disponible para investigación |
italiano | SUT - Banco de árboles de la Universidad de Siena | ? | ? |
italiano | TUT - Treebank de la Universidad de Turín | Dependencia | Código abierto ( licencia Creative Commons ) |
italiano | ISDT (banco italiano de dependencia de Stanford) | dependencia | Libremente disponible para investigación |
japonés | Corpus de texto de Kioto | ? | ? |
japonés | Dependencias universales , BCCWJ | Dependencia | CC BY-NC-SA |
japonés | Dependencias universales , GSD | Dependencia | CC BY-SA |
japonés | Dependencias universales , KTC | Dependencia | CC BY-SA |
japonés | Dependencias universales , modernas | Dependencia | CC BY-NC-ND |
japonés | Dependencias universales , PUD | Dependencia | CC BY-SA |
japonés | Banco de árboles de Keyaki | Estructura de la frase | Código abierto ( licencia Creative Commons ) |
japonés | Banco de árboles de Tübingen del habla japonesa / espontánea (TüBa-J / S) | Estructura de la frase | Libremente disponible para investigación |
japonés | Cuerpo de dependencia de ATR | Dependencia | ? |
Carelio | Dependencias universales , KKPP | Dependencia | CC BY-SA |
Kazajo | Dependencias universales , KTB | Dependencia | CC BY-SA |
Komi Permyak | Dependencias universales , UH | Dependencia | CC BY-SA |
Komi Zyrian | Dependencias universales , IKDP | Dependencia | CC BY-SA |
Komi Zyrian | Dependencias universales , celosía | Dependencia | CC BY-SA |
coreano | Dependencias universales , GSD | Dependencia | CC BY-SA |
coreano | Dependencias universales , Kaist | Dependencia | CC BY-SA |
coreano | Dependencias universales , Penn | Dependencia | CC BY-SA |
coreano | Dependencias universales , PUD | Dependencia | CC BY-SA |
coreano | Dependencias universales , Sejong | Dependencia | CC BY-SA |
coreano | Banco de árboles coreano | Estructura de la frase | Consorcio de datos lingüísticos |
Kurmanji | Dependencias universales , MG | Dependencia | CC BY-SA |
latín | Dependencias universales , ITTB | Dependencia | CC BY-NC-SA |
latín | Dependencias universales , LLCT | Dependencia | CC BY-SA |
latín | Dependencias universales , Perseo | Dependencia | CC BY-NC-SA |
latín | Dependencias universales , PROIEL | Dependencia | CC BY-NC-SA |
latín | Índice Thomisticus Treebank | Dependencia | Código abierto ( licencia Creative Commons ) |
latín | PROIEL Treebank [8] | Dependencia | Código abierto ( licencia Creative Commons ) |
latín | Banco de árboles de dependencia latina [9] | Dependencia | Código abierto ( licencia Creative Commons ) |
letón | Dependencias universales , LVTB | Dependencia | CC BY-SA |
lituano | Dependencias universales , ALKSNIS | Dependencia | CC BY-SA |
lituano | Dependencias universales , HSE | Dependencia | CC BY-SA |
Livvi | Dependencias universales , KKPP | Dependencia | CC BY-SA |
Magahi | Dependencias universales , MGTB | Dependencia | CC BY-SA |
maltés | Dependencias universales , MUDT | Dependencia | CC BY-SA |
Marathi | Dependencias universales , UFAL | Dependencia | CC BY-SA |
Mbya guaraní | Dependencias universales , Dooley | Dependencia | CC BY-NC-SA |
Mbya guaraní | Dependencias universales , Thomas | Dependencia | CC BY-NC-SA |
Irlandés medio | Dependencias universales , CritMITB | Dependencia | CC BY-SA |
Irlandés medio | Dependencias universales , DipMITB | Dependencia | CC BY-SA |
Moksha | Dependencias universales , JR | Dependencia | CC BY-SA |
Naija | Dependencias universales , NSC | Dependencia | CC BY-SA |
Sami del Norte | Dependencias universales , Giella | Dependencia | CC BY-SA |
noruego | Infraestructura de bancos de árboles INESS | LFG | ? |
noruego | Dependencias universales , Bokmaal | Dependencia | CC BY-SA |
noruego | Dependencias universales , Nynorsk | Dependencia | CC BY-SA |
noruego | Dependencias universales , NynorskLIA | Dependencia | CC BY-SA |
Antiguo eslavo eclesiástico | Dependencias universales , PROIEL | Dependencia | CC BY-NC-SA |
Antiguo eslavo eclesiástico | Banco de árboles TOROT [8] | Dependencia | Código abierto ( licencia Creative Commons ) |
Francés antiguo | Dependencias universales , SRCMF | Dependencia | CC BY-NC-SA |
Ruso antiguo | Dependencias universales , RNC | Dependencia | CC BY-SA |
Ruso antiguo | Dependencias universales , TOROT | Dependencia | CC BY-NC-SA |
Ruso antiguo | Banco de árboles TOROT [8] | Dependencia | Código abierto ( licencia Creative Commons ) |
persa | Banco de árboles de dependencia persa (PerDT) | Dependencia | Libremente disponible para investigación |
persa | PerTreeBank | HPSG | Libremente disponible para investigación |
persa | Dependencias universales , Seraji | Dependencia | CC BY-SA |
polaco | Un Treebank / Test Suite para polaco | HPSG | ? |
polaco | Dependencias universales , LFG | Dependencia | GPL |
polaco | Dependencias universales , PDB | Dependencia | CC BY-NC-SA |
polaco | Dependencias universales , PUD | Dependencia | CC BY-SA |
polaco | Składnica | Estructura y dependencia de la frase | Código abierto ( licencia pública general GNU ) |
portugués | Dependencias universales , Bosque | Dependencia | CC BY-SA |
portugués | Dependencias universales , GSD | Dependencia | CC BY-SA |
portugués | Dependencias universales , PUD | Dependencia | CC BY-SA |
portugués | Projecto Floresta Sintá (c) tica | Dependencia , estructura de la frase | Código abierto ( licencia pública general GNU ) |
rumano | Dependencia rumana Treebank | Dependencia | ? |
rumano | Dependencias universales , no estándar | Dependencia | CC BY-SA |
rumano | Dependencias universales , RRT | Dependencia | CC BY-SA |
rumano | Dependencias universales , SiMoNERo | Dependencia | CC BY-SA |
ruso | Dependencias universales , GSD | Dependencia | CC BY-SA |
ruso | Dependencias universales , PUD | Dependencia | CC BY-SA |
ruso | Dependencias universales , SynTagRus | Dependencia | CC BY-NC-SA |
ruso | Dependencias universales , Taiga | Dependencia | CC BY-SA |
ruso | SynTagRus Dependency Treebank ( Corpus Nacional Ruso ) | Dependencia | Libremente disponible para investigación |
sánscrito | Dependencias universales , UFAL | Dependencia | CC BY-SA |
sánscrito | Dependencias universales , védicas | Dependencia | CC BY-SA |
gaélico escocés | Dependencias universales , ARCOSG | Dependencia | CC BY-SA |
serbio | Dependencias universales , SET | Dependencia | CC BY-SA |
Sindhi | Dependencias universales , MazharDootio | Dependencia | CC BY-SA |
Skolt Sami | Dependencias universales , Giellagas | Dependencia | CC BY-SA |
eslovaco | Dependencias universales , SNK | Dependencia | CC BY-SA |
esloveno | Banco del árbol de la dependencia eslovena | Dependencia | Libremente disponible para investigación |
esloveno | Dependencias universales , SSJ | Dependencia | CC BY-NC-SA |
esloveno | Dependencias universales , SST | Dependencia | CC BY-NC-SA |
Español | Cast3LB | Estructura y dependencia de la frase | Libremente disponible para investigación |
Español | Dependencias universales , AnCora | Dependencia | GPL |
Español | Dependencias universales , GSD | Dependencia | CC BY-SA |
Español | Dependencias universales , PUD | Dependencia | CC BY-SA |
Español | UAM Treebank de Español | Estructura de la frase | Libremente disponible para investigación |
sueco | Talbanken05 | Estructura y dependencia de la frase | Libremente disponible para investigación |
sueco | Treebank sueco | Estructura de la frase | Libremente disponible para investigación |
sueco | Dependencias universales , LinES | Dependencia | CC BY-NC-SA |
sueco | Dependencias universales , PUD | Dependencia | CC BY-SA |
sueco | Dependencias universales , Talbanken | Dependencia | CC BY-SA |
sueco | SMULTRON - Banco de árboles paralelo EN-DE-SV | Estructura de la frase | Libremente disponible para investigación |
Lenguaje de señas sueco | Dependencias universales , SSLC | Dependencia | CC BY-SA |
suizo alemán | Dependencias universales , UZH | Dependencia | CC BY-SA |
Tagalo | Dependencias universales , TRG | Dependencia | CC BY-SA |
Tagalo | Dependencias universales , Ugnayan | Dependencia | CC BY-NC-SA |
Tamil | Dependencias universales , TTB | Dependencia | CC BY-NC-SA |
Telugu | Dependencias universales , MTG | Dependencia | CC BY-SA |
tailandés | Banco de árboles tailandés NAiST | Dependencia | Código abierto ( licencia pública general GNU ) |
tailandés | Dependencias universales , PUD | Dependencia | CC BY-SA |
turco | Banco de árboles turco METU-Sabanci | Dependencia | Libremente disponible para investigación |
turco | Dependencias universales , BOUN | Dependencia | CC BY-SA |
turco | Dependencias universales , GB | Dependencia | CC BY-SA |
turco | Dependencias universales , IMST | Dependencia | CC BY-NC-SA |
turco | Dependencias universales , PUD | Dependencia | CC BY-SA |
ucranio | Instituto de Ucrania, ONG Gold Standard | Dependencia | Código abierto ( licencia Creative Commons ) |
ucranio | Dependencias universales , IU | Dependencia | CC BY-NC-SA |
Alto sorabo | Dependencias universales , UFAL | Dependencia | CC BY-SA |
Urdu | Banco de árboles NU-FAST | Estructura de la frase | Contacto en Estrategias y prácticas de aprendizaje computacional |
Urdu | El banco de árboles URDU.KON-TB | Frase y estructura de hiperdependencia | Contacto en Estrategias y prácticas de aprendizaje computacional |
Urdu | Dependencias universales , UDTB | Dependencia | CC BY-NC-SA |
Uigur | Dependencias universales , UDT | Dependencia | CC BY-SA |
vietnamita | Dependencias universales , VTB | Dependencia | CC BY-SA |
vietnamita | Treebank vietnamita | Estructura de la frase | Libremente disponible para investigación |
vietnamita | Banco de árboles de dependencia vietnamita | Dependencia | Libremente disponible para investigación |
Warlpiri | Dependencias universales , UFAL | Dependencia | CC BY-SA |
galés | Dependencias universales , CCG | Dependencia | CC BY-SA |
Wolof | Dependencias universales , WTB | Dependencia | CC BY-SA |
Yoruba | Dependencias universales , YTB | Dependencia | CC BY-SA |
Para facilitar las investigaciones posteriores entre tareas multilingües, algunos investigadores discutieron el esquema de anotación universal para idiomas cruzados. De esta manera, las personas intentan utilizar o fusionar las ventajas de diferentes corpora de bancos de árboles. Por ejemplo, el enfoque de anotación universal para bancos de árboles de dependencia; [10] y el enfoque de anotación universal para los árboles de estructura de frases. [11]
herramientas de búsqueda
Una de las formas clave de extraer evidencia de un banco de árboles es a través de herramientas de búsqueda. Las herramientas de búsqueda para corpus analizados normalmente dependen del esquema de anotaciones que se aplicó al corpus. Las interfaces de usuario varían en sofisticación, desde sistemas de consulta basados en expresiones dirigidos a programadores de computadoras hasta entornos de exploración completa dirigidos a lingüistas en general. Wallis (2008) analiza los principios de la búsqueda en los bancos de árboles en detalle y revisa el estado del arte. [12]
- Gramática de la estructura de la frase
- CorpusSearch
- fsq
- ICECUP III ; ICECUP IV
- Base de datos lingüística (LDB)
- MonaSearch
- tgrep; tgrep2
- Tregex
- VIQTORYA
- Gramática de dependencia
- DTAG
- Netgraph
- Sanchay
- TrEd
- Creció-partido
- Gramática de dependencia y / o gramática de estructura de frases
- ANNIS (multicapa)
- PML-TQ (multicapa)
- TigerSearch (una capa)
- INESS-Búsqueda
- Otros
- GSearch
- Motor de búsqueda del lingüista
- Milhafre: motor de búsqueda de un banco de árboles portugués
- Tatoeba
Ver también
- Corpus de texto
- Gramática de la estructura de la frase
- Gramática de dependencia
- Analizando
- Etiquetado de parte de la voz
Referencias
- ^ Alexander Clark, Chris Fox y Shalom Lappin (2010). El manual de lingüística computacional y procesamiento del lenguaje natural. Wiley.
- ^ Sampson, G. (2003) 'Reflexiones de un dendrógrafo'. En A. Wilson, P. Rayson y T. McEnery (eds.) Corpus Linguistics por Lune: A Festschrift for Geoffrey Leech, Frankfurt am Main: Peter Lang, págs. 157-184
- ^ Haitao Liu, Wei Huang - A Chinese Dependency Syntax for Treebanking , publicado por Communication University of China , publicado (en línea) por la Association for Computational Linguistics - consultado 2020-2-4
- ^ Kübler, Sandra; McDonald, Ryan; Nivre, Joakim (18 de diciembre de 2008). "Análisis de dependencia". Conferencias de síntesis sobre tecnologías del lenguaje humano . 2 (1): 1–127. doi : 10.2200 / s00169ed1v01y200901hlt002 .
- ^ Kais Dukes (2013) Anotación semántica de comandos espaciales robóticos . Conferencia de Lengua y Tecnología (LTC). Poznan, Polonia.
- ^ Celano, Giuseppe GA 2014. Directrices para la anotación de la dependencia griega antigua Treebank 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
- ^ Mambrini, F. 2016. The Ancient Greek Dependency Treebank: Anotación lingüística en un entorno de enseñanza. En: Bodard, G & Romanello, M (eds.) Clásicos digitales fuera de la cámara de eco: enseñanza, intercambio de conocimientos y participación pública, pág. 83–99. Londres: Ubiquity Press. doi : 10.5334 / bat.f
- ^ a b c d e f Dag Haug. 2015. Los bancos de árboles en la investigación lingüística histórica. En Carlotta Viti (ed.), Perspectives on Historical Syntax, Benjamins, 188-202. Una preimpresión está disponible en http://folk.uio.no/daghaug/historical-treebanks.pdf .
- ^ Bamman David y col. 2008. Directrices para la anotación sintáctica de los bancos de árboles latinos (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
- ^ McDonald, R .; Nivre, J., Quirmbach-Brundage, Y .; et al. "Anotación de dependencia universal para análisis multilingüe". Actas de la ACL 2013 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Han, AL-F; Wong, DF; Chao, LS; Lu, Y .; Él, L. y Tian, L. (2014). "Un conjunto de etiquetas de frase universal para bancos de árboles multilingües" (PDF) . Actas de CCL y NLP-NABD 2014, LNAI 8801, págs. 247-258. © Springer International Publishing Suiza . doi : 10.1007 / 978-3-319-12277-9_22 .
- ^ Wallis, Sean (2008). Búsqueda de bancos de árboles y otros corpus estructurados. Capítulo 34 en Lüdeling, A. & Kytö, M. (ed.) Corpus Linguistics: An International Handbook. Handbücher zur Sprache und Kommunikationswissenschaft series. Berlín: Mouton de Gruyter.