Treebank


En lingüística , un banco de árboles es un corpus de texto analizado que anota la estructura sintáctica o semántica de la oración . La construcción de corpus analizados a principios de la década de 1990 revolucionó la lingüística computacional , que se benefició de los datos empíricos a gran escala . [1]

El término banco de árboles fue acuñado por el lingüista Geoffrey Leech en la década de 1980, por analogía con otros depósitos, como un banco de semillas o un banco de sangre . [2] Esto se debe a que tanto la estructura sintáctica como la semántica se representan comúnmente en términos de composición como una estructura de árbol . El término corpus analizado a menudo se usa indistintamente con el término banco de árboles, con el énfasis en la primacía de las oraciones en lugar de los árboles.

Los bancos de árboles a menudo se crean sobre un corpus que ya ha sido anotado con etiquetas de parte del discurso . A su vez, los bancos de árboles a veces se mejoran con información semántica u otra información lingüística. Los árboles se pueden crear de forma completamente manual, donde los lingüistas anotan cada oración con estructura sintáctica, o semiautomáticamente, donde un analizador asigna una estructura sintáctica que los lingüistas luego verifican y, si es necesario, corrigen. En la práctica, verificar y completar completamente el análisis de los corpus de lenguaje natural es un proyecto que requiere mucha mano de obra y que puede llevar varios años a equipos de lingüistas graduados. El nivel de detalle de las anotaciones y la amplitud de la muestra lingüística determinan la dificultad de la tarea y el tiempo necesario para construir un banco de árboles.

Algunos bancos de árboles siguen una teoría lingüística específica en su anotación sintáctica (por ejemplo, BulTreeBank sigue a HPSG ) pero la mayoría intenta ser menos específicos de la teoría. Sin embargo, se pueden distinguir dos grupos principales: los bancos de árboles que anotan la estructura de frases (por ejemplo, el Penn Treebank o ICE-GB ) y los que anotan la estructura de dependencia (por ejemplo, el Praga Dependency Treebank o el Coránico Árabe Dependency Treebank ).

Es importante aclarar la distinción entre la representación formal y el formato de archivo utilizado para almacenar los datos anotados. Los bancos de árboles se construyen necesariamente de acuerdo con una gramática particular. La misma gramática puede implementarse con diferentes formatos de archivo. Por ejemplo, el análisis sintáctico de John loves Mary , que se muestra en la figura de la derecha, puede representarse mediante simples corchetes etiquetados en un archivo de texto, como este (siguiendo la notación de Penn Treebank ):

Este tipo de representación es popular porque consume pocos recursos y la estructura de árbol es relativamente fácil de leer sin herramientas de software. Sin embargo, a medida que los corpus se vuelven cada vez más complejos, es posible que se prefieran otros formatos de archivo. Las alternativas incluyen esquemas XML específicos de los bancos de árboles , sangría numerada y varios tipos de notación de separación.


La mayoría de los bancos de árboles sintácticos anotan variantes de la estructura de frase (izquierda) o la estructura de dependencia (derecha).
Ejemplo de árbol de estructura de frases para John loves Mary
Árbol híbrido de circunscripciones / dependencias del Corpus Árabe Coránico