Datos abiertos vinculados lingüísticamente

En el procesamiento del lenguaje natural , la lingüística y los campos vecinos, Linguistic Linked Open Data (LLOD) describe un método y una comunidad interdisciplinaria preocupados por crear, compartir y (re) utilizar los recursos del lenguaje de acuerdo con los principios de Linked Data . La Nube de Datos Abiertos Lingüística Vinculada fue concebida y está siendo mantenida por el Grupo de Trabajo de Lingüística Abierta (OWLG) de la Open Knowledge Foundation , pero ha sido un punto de actividad focal para varios grupos comunitarios, proyectos de investigación y esfuerzos de infraestructura del W3C desde entonces.

Definición y desarrollo

LLOD Cloud (24 de mayo de 2016)

Los datos abiertos vinculados lingüísticos describen la publicación de datos para la lingüística y el procesamiento del lenguaje natural utilizando los siguientes principios: ^[1]

Los datos deben tener una licencia abierta utilizando licencias como las licencias Creative Commons .
Los elementos de un conjunto de datos deben identificarse de forma única mediante un URI .
El URI debería resolverse para que los usuarios puedan acceder a más información mediante navegadores web.
La resolución de un recurso LLOD debería devolver resultados utilizando estándares web como Resource Description Framework (RDF).
Deben incluirse enlaces a otros recursos para ayudar a los usuarios a descubrir nuevos recursos y proporcionar semántica.

Los principales beneficios de LLOD se han identificado como: ^[2]

Representación: los gráficos vinculados son un formato de representación más flexible para datos lingüísticos.
Interoperabilidad: los modelos RDF comunes se pueden integrar fácilmente.
Federación: los datos de varias fuentes se pueden combinar de manera trivial.
Ecosistema: Las herramientas para RDF y datos vinculados están ampliamente disponibles bajo licencias de código abierto.
Expresividad: los vocabularios existentes ayudan a expresar los recursos lingüísticos.
Semántica: los enlaces comunes expresan lo que quieres decir.
Dinámica: los datos web se pueden mejorar continuamente.

El hogar del diagrama de nubes LLOD se encuentra en linguistic-lod.org ^[3]

Vocabularios LLOD

Además de recopilar metadatos y generar el diagrama de nube LLOD, la comunidad LLOD está impulsando el desarrollo de estándares comunitarios con respecto a vocabularios, metadatos y recomendaciones de mejores prácticas.

Según el resumen de vanguardia de Cimiano et al. (2020), ^[4] estos incluyen:

para modelar recursos léxicos
- OntoLex-Lemon , estándar comunitario para recursos léxicos (diccionarios legibles por máquina, terminologías multilingües, lexicalización de ontologías) ^[5]
para modelar anotaciones lingüísticas (en corpus o PNL)
- Web Annotation , un estándar del W3C para la anotación de recursos web (textuales o de otro tipo) ^[6]
- NLP Interchange Format (NIF), un estándar comunitario para la anotación gramatical de texto ^[7]
- CoNLL-RDF, un vocabulario basado en NIF para la representación RDF de corpus en formatos TSV convencionales ("CoNLL") ^[8]
- POWLA, un vocabulario para estructuras de datos lingüísticos genéricos que se puede utilizar para complementar NIF, CoNLL-RDF o Web Annotation ^[9]

para categorías de datos lingüísticos
- Ontologías de anotación lingüística (OLiA) para la anotación lingüística ^[10]
- lexinfo para características gramaticales y de otro tipo en recursos léxicos ^[11]
para la identificación del idioma
- como cadenas con etiquetas de idioma utilizando etiquetas de idioma IETF BCP 47
- con ISO 639-3 URI proporcionados por lexvo.org ^[12]
- con URI de Glottolog para variedades de idiomas no cubiertas por ISO 639
para metadatos
- Dublin Core , un estándar comunitario de términos que se puede utilizar para describir recursos web
- Vocabulario de catálogos de datos (DCAT), un estándar del W3C para catálogos de datos publicados en la web ^[13]
- METASHARE-OWL, vocabulario para metadatos de recursos lingüísticos ^[14]

A mediados de 2020, se trabaja activamente en la mayoría de estos estándares comunitarios. Particularmente problemática es la existencia de múltiples estándares incompatibles para las anotaciones lingüísticas y, a principios de 2020, los datos vinculados del W3C Community Group para la tecnología del lenguaje ha comenzado a trabajar hacia la consolidación de estos (y otros) vocabularios para las anotaciones lingüísticas en la web. ^[15]

Comunidad

El diagrama de nube LLOD ha sido desarrollado y mantenido por el Open Linguistics Working Group (OWLG) de la Open Knowledge Foundation (desde 2014 Open Knowledge), un grupo abierto e interdisciplinario de expertos en recursos lingüísticos.

El OWLG organiza eventos comunitarios y coordina los desarrollos de LLOD y facilita la comunicación interdisciplinaria entre los contribuyentes y usuarios de LLOD.

Varios grupos empresariales y comunitarios del W3C se centran en aspectos especializados de LLOD:

El W3C Ontology-Lexica Community Group ( OntoLex ) desarrolla y mantiene especificaciones para diccionarios legibles por máquina en la nube LLOD.
El W3C Best Practices for Multilingual Linked Open Data Community Group recopila información sobre las mejores prácticas para producir datos abiertos multilingües vinculados. ^[dieciséis]
El Grupo Comunitario de Datos Vinculados para Tecnología de Idiomas del W3C reúne casos de usuarios y requisitos para aplicaciones de tecnología de idiomas que utilizan Datos Vinculados. ^[17]

El desarrollo de LLOD está impulsado y documentado en una serie de talleres internacionales, datathons y publicaciones asociadas. Entre otros, estos incluyen

Linked Data in Linguistics (LDL), taller científico anual, iniciado en 2012
Datos abiertos multilingües vinculados para empresas (MLODE), reunión comunitaria semestral (2012 y 2014)
Summer Datathon on Linguistic Linked Open Data (SD-LLOD), datathon semestral, desde 2015

Aplicaciones de LLOD

Los datos abiertos enlazados lingüísticos se aplican para abordar una serie de problemas de investigación científica:

En todas las áreas de la lingüística empírica, la filología computacional y el procesamiento del lenguaje natural , la anotación lingüística y el marcado lingüístico representan elementos centrales del análisis. Sin embargo, el progreso en este campo se ve obstaculizado por los desafíos de interoperabilidad , sobre todo las diferencias en los vocabularios y los esquemas de anotaciones utilizados para los diferentes recursos y herramientas. El uso de datos vinculados para conectar recursos lingüísticos y repositorios de ontologías / terminología facilita la reutilización de vocabularios compartidos y su interpretación en una base común.
En lingüística de corpus y filología computacional, el marcado superpuesto representa un problema notorio para los formatos XML convencionales . Por lo tanto, se han sugerido modelos de datos basados en gráficos desde finales de la década de 1990. ^[18] Estos se representan tradicionalmente por medio de múltiples archivos XML interconectados (XML standoff), ^[19] que no son compatibles con la tecnología XML estándar. ^[20] Modelar anotaciones tan complejas como Linked Data representa un formalismo semánticamente equivalente a XML standoff, ^[21] pero elimina la necesidad de tecnología de propósito especial y, en cambio, se basa en el ecosistema RDF existente.
Temas multilingües, incluida la vinculación de recursos léxicos como WordNet como se realizó en el Índice Interlingüístico de la Asociación Global WordNet y la interconexión de recursos heterogéneos como WordNet y Wikipedia, como se hizo en BabelNet .
Proporcionar foros para la estandarización de la información sobre recursos lingüísticos.

Los datos abiertos enlazados lingüísticos están estrechamente relacionados con el desarrollo de

mejores prácticas para vincular datos léxicos en la web (para datos publicados de acuerdo con las convenciones de OntoLex )
mejores prácticas para crear anotaciones en la web (p. ej., utilizando el estándar de anotaciones web )
mejores prácticas para modelar y compartir recursos textuales con marcado superpuesto

Proyectos de investigación seleccionados

Los usos y el desarrollo de LLOD han sido objeto de varios proyectos de investigación a gran escala, que incluyen

LOD2. Creación de conocimiento a partir de datos interconectados (11 países de la UE + Corea, 2010-2014) ^[22]
MONNET. Ontologías multilingües para el conocimiento en red (5 países de la UE, 2010-2013) ^[23]
LIDER. Linked Data como facilitador de análisis de contenido multilingüe y cross-media para empresas de toda Europa (5 países de la UE, 2013-2015) ^[24]
QTLeap. Traducción de calidad mediante enfoques de ingeniería lingüística profunda (6 países de la UE, 2013-2016) ^[25]
LiODi. Diccionarios abiertos enlazados (BMBF eHumanities Early Career Research Group, Goethe University Frankfurt, Alemania, 2015-2020) ^[26]
FREME. Marco abierto de servicios electrónicos para el enriquecimiento semántico y multilingüe del contenido digital (6 países de la UE, 2015-2017) ^[27]
POSTDATA. Estandarización de poesía y datos abiertos enlazados (ERC Starting Grant, UNED, España, 2016-2021) ^[28]
Linking Latin (Beca ERC Consolidator, Universita Cattolica del Sacro Cuore, Italia, 2018-2023) ^[29]
Pret-a-LLOD (5 países de la UE, 2019-2021) ^[30]
NexusLinguarum. Red europea para la ciencia de datos lingüísticos centrados en la Web (acción COST, 35 países COST, 2 países vecinos cercanos, un país socio internacional, 2019-2023) ^[31]

Recursos seleccionados

A octubre de 2018, los 10 recursos vinculados con mayor frecuencia en el diagrama LLOD son (en orden de la cantidad de conjuntos de datos vinculados):

Las Ontologías de Anotación Lingüística ( OLiA , vinculado con 74 conjuntos de datos) proporcionan terminología de referencia para anotaciones lingüísticas y metadatos gramaticales;
WordNet (vinculado con 51 conjuntos de datos), una base de datos léxica para inglés y pivote para desarrollar bases de datos similares para otros idiomas, con varias ediciones (edición de Princeton vinculada con 36 conjuntos de datos; edición W3C vinculada con 8 conjuntos de datos; edición VU vinculada con 7 conjuntos de datos);
DBpedia (vinculado con 50 conjuntos de datos) base de conocimiento multilingüe del conocimiento mundial general, basada en Wikipedia;
lexinfo.net (vinculado con 36 conjuntos de datos) proporciona terminología de referencia para recursos léxicos;
BabelNet (vinculada con 33 conjuntos de datos) red semántica lexicalizada multilingüe , basada en la agregación de varios otros recursos, principalmente WordNet y Wikipedia;
lexvo.org (vinculado con 26 conjuntos de datos) proporciona identificadores de idioma y otros datos relacionados con el idioma. Más importante aún, lexvo proporciona una representación RDF de los códigos de 3 letras ISO 639-3 para identificadores de idiomas e información sobre estos idiomas;
El Registro de categorías de datos ISO 12620 (ISOcat; edición RDF, vinculado con 10 conjuntos de datos) proporciona un repositorio semiestructurado para varios términos relacionados con el lenguaje. ISOcat está alojado por The Language Archive, respectivamente, el proyecto DOBES , en el Instituto Max Planck de Psicolingüística , pero actualmente en transición a CLARIN ;
UBY (edición RDF lemon-Uby , vinculado con 9 conjuntos de datos), una red léxica para el inglés, agregada a partir de varios recursos léxicos;
Glottolog (vinculado con 7 conjuntos de datos) proporciona identificadores de lenguaje detallados para lenguajes de bajos recursos, en particular, muchos no cubiertos por lexvo.org;
Wiktionary : enlaces DBpedia ( wiktionary.dbpedia.org , vinculado con 7 conjuntos de datos), lexicalizaciones basadas en Wiktionary para conceptos DBpedia.

Aspectos

Hay una serie de discusiones recurrentes sobre los diferentes aspectos del término, su aplicabilidad y para un tipo particular de recursos. ^[32]

Datos lingüísticos: alcance y clasificación

Además de los recursos utilizados y creados para la investigación lingüística, el diagrama de nube LLOD también incluye ontologías, terminologías y bases de conocimiento general cuyo desarrollo no fue impulsado originalmente por el interés en las ciencias del lenguaje o la tecnología del lenguaje, por ejemplo, la DBpedia . Como criterio para la inclusión en el diagrama LLOD, el OWLG requiere "relevancia lingüística": "[Un] conjunto de datos es lingüísticamente relevante si proporciona o describe datos lingüísticos que se pueden utilizar con fines de investigación lingüística o procesamiento del lenguaje natural". ^[33] Esto incluye recursos lingüísticos en sentido estricto ("condición 1": un recurso anotado o estructurado de otro modo creado para su aplicación en ciencias del lenguaje o tecnología del lenguaje, como lo demuestra, por ejemplo, una publicación científica en una revista relacionada con la lingüística o conferencia), sino también recursos "que se pueden utilizar para anotar, enriquecer, recuperar o clasificar recursos lingüísticos ... [si su relevancia] puede verificarse mediante la existencia de vínculos entre un recurso (cuya relevancia lingüística debe ser confirmada) y recursos que cumplen la condición (1) "(" condición 2 "). ^[34]

Un tema relacionado es la clasificación de conjuntos de datos lingüísticamente relevantes (o recursos lingüísticos en general). El OWLG desarrolló la siguiente clasificación para el diagrama de nubes LLOD: ^[35]

corpora : recopilación de datos lingüísticos analizados lingüísticamente
léxicos: datos léxico-conceptuales
- recursos léxicos: léxicos y diccionarios
- bases de términos: terminologías, tesauros y bases de conocimiento
metadatos
- metadatos de recursos lingüísticos (metadatos sobre recursos lingüísticos, incluidos recursos lingüísticos digitales y libros impresos)
- categorías de datos lingüísticos (metadatos sobre terminología lingüística, incluidas categorías lingüísticas , identificadores de idiomas)
- bases de datos tipológicas (metadatos sobre idiomas individuales, especialmente, características lingüísticas de esos idiomas)
otro (marcador de posición para recursos que (todavía) no están clasificados) ^[1]

Tenga en cuenta que en esta clasificación, las bases de términos están al margen de la relevancia lingüística, ya que normalmente se crean para fines distintos a la tecnología del lenguaje o la investigación lingüística.

Datos abiertos: disponibilidad

LLOD se define en relación con los datos abiertos vinculados y, por lo tanto, los recursos ( datos ) de LLOD deben ajustarse a las licencias de acuerdo con la definición abierta . ^[36] Para generar el diagrama de nube LLOD (y el diagrama LOD), esto, sin embargo, no parece haberse aplicado todavía, por lo que el criterio técnico es la disponibilidad en la web y una entrada de metadatos. En el OWLG, se ha discutido repetidamente si los recursos no comerciales (académicos) podrían incluirse con un consenso general de admitirlos por el momento (2015) pero posteriormente aplicando requisitos más estrictos junto con el crecimiento de la nube LLOD. En enero de 2018, aún no se acordó cuándo estaba a punto de suceder este movimiento. ^[37] En enero de 2020, había disponibles metadatos de licencia legibles por máquina para 86 recursos LLOD, de los cuales 82 adoptaron licencias abiertas, 4 adoptaron licencias no comerciales. ^[38]

En un sentido más amplio, el término tecnología LLOD (infraestructuras, herramientas, vocabularios) también se puede utilizar para referirse a la tecnología independientemente de si realmente están involucrados recursos abiertos, por ejemplo, en el nombre del proyecto de la UE Pret-a-LLOD que presenta varios casos de negocios comerciales. ^[39] Esto se justifica para aplicaciones que consumen (en lugar de proporcionar) datos abiertos, pero además, también cuando la tecnología de datos enlazados y la adopción de otras convenciones LLOD (especialmente, el uso de vocabularios RDF desarrollados en el contexto de LLOD) son aplicado con el fin de facilitar la integración perfecta de los recursos LLOD (recursos abiertos).

La abreviatura "LLOD" se puede utilizar para referirse a la tecnología LLOD (uso de datos enlazados y vocabularios LLOD, independientemente del estado legal de los datos que se procesan) y recursos LLOD (datos abiertos). Para la eliminación de ambigüedades, se pueden utilizar los términos "recursos LLOD" y "tecnología LLOD". Para enfatizar la aplicación o aplicabilidad a recursos no abiertos, también se ha utilizado "LLD" (Linguistic Linked Data). ^[40] Un posible compromiso es el acrónimo "LL (O) D" de la tecnología. Actualmente (junio de 2020) no existe una nube de "Datos vinculados lingüísticos con licencia" que contenga recursos no abiertos. ^[41]

Datos vinculados: formatos

La definición de datos vinculados requiere la aplicación de RDF o estándares relacionados. Esto incluye las recomendaciones del W3C SPARQL, Turtle, JSON-LD, RDF-XML, RDFa, etc. Sin embargo, en la tecnología del lenguaje y las ciencias del lenguaje, otros formalismos son actualmente más populares, y la inclusión de dichos datos en el diagrama de nubes LLOD ha ha sido solicitado ocasionalmente. ^[32] Para varios de estos lenguajes, existen mecanismos de envoltura estandarizados por el W3C (por ejemplo, para XML , CSV o bases de datos relacionales, consulte Extracción de conocimiento # Extracción de fuentes estructuradas a RDF ), y dichos datos se pueden integrar bajo la condición de que el mapeo correspondiente se proporciona junto con los datos de origen.

Literatura seleccionada

Una descripción exhaustiva sobre el estado del arte en LLOD es proporcionada por

Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones. Springer International Publishing

El concepto de una nube de datos abiertos vinculados lingüísticamente fue introducido originalmente por

Chiarcos, Christian, Hellmann, Sebastian y Nordhoff, Sebastian (2011). Hacia una nube de datos abiertos vinculados lingüísticamente: el grupo de trabajo de lingüística abierta. TAL ( Traitement Automatique des Langues) , 52 (3), 245-275.

El primer libro sobre el tema es

Christian Chiarcos, Sebastian Nordhoff y Sebastian Hellmann (eds., 2012). Datos enlazados en lingüística. Representar y conectar datos lingüísticos y metadatos lingüísticos. Springer, Heidelberg.

Según Cimiano et al. (2020), ^[42] otras publicaciones fundamentales desde entonces incluyen

Christian Chiarcos, Steven Moran, Pablo N. Mendes, Sebastian Nordhoff y Richard Littauer. Construcción de una nube de recursos lingüísticos Linked Open Data: motivaciones y desarrollos. En Iryna Gurevych y Jungi Kim (eds.), The People's Web Meets NLP. Recursos lingüísticos construidos de forma colaborativa Springer, Heidelberg, 2013.
Christian Chiarcos, John McCrae, Philipp Cimiano y Christiane Fellbaum. Hacia datos abiertos para la lingüística: Lexical Linked Data. En Alessandro Oltramari, Piek Vossen, Lu Qin y Eduard Hovy (eds.), Nuevas tendencias de investigación en ontologías y recursos léxicos. Springer, Heidelberg, 2013.
Jorge Gracia, Elena Montiel-Ponsoda, Philipp Cimiano, Asunción Gómez-Pérez, Paul Buitelaar y John McCrae. Desafíos para la Web multilingüe de datos, Journal of Web Semantics, vol. 11, págs. 63–71. Elsevier BV, 2012.

Los desarrollos de 2015 a 2019 se resumen en el volumen recopilado por

Pareja-Lora, Antonio; Lujuria, Barbara; Blume, Maria; Chiarcos, Christian (eds., 2020). Desarrollo de recursos de datos abiertos enlazados lingüísticos para la investigación intensiva de datos colaborativos en las ciencias del lenguaje. La prensa del MIT

Referencias

^ a b Grupo de trabajo de lingüística abierta. "LOD lingüístico" . linguistic-lod.org . Proyecto LIDER . Consultado el 24 de mayo de 2016 .
^ Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Hacia datos abiertos para la lingüística: Lexical Linked Data (PDF) . Heidelberg: En: Alessandro Oltramari, Piek Vossen, Lu Qin y Eduard Hovy (eds.), Nuevas tendencias de investigación en ontologías y recursos léxicos. Springer . Consultado el 24 de mayo de 2016 .
^ "Linguistic Linked Open Data. Información sobre el estado actual de la creciente nube de datos abiertos lingüísticos vinculados" . Consultado el 10 de diciembre de 2019 .
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. ISBN 978-3-030-30224-5.
^ "Modelo de léxico para ontologías: informe de la comunidad, 10 de mayo de 2016" . www.w3.org . Consultado el 5 de junio de 2020 .
^ "Entregables del Grupo de Trabajo de Anotación Web del W3C" . w3c.github.io . Consultado el 5 de junio de 2020 .
^ Hellmann, Sebastián; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). "Integración de PNL mediante datos enlazados" . La Web Semántica - ISWC 2013 . Apuntes de conferencias en informática. Berlín, Heidelberg: Springer. 7908 : 98-113. doi : 10.1007 / 978-3-642-41338-4_7 . ISBN 978-3-642-41338-4.
^ Chiarcos, Christian; Fäth, Christian (2017). Gracia, Jorge; Bond, Francis; McCrae, John P .; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastián (eds.). "CoNLL-RDF: Corpora enlazado hecho de una manera amigable con la PNL" . Lenguaje, datos y conocimiento . Apuntes de conferencias en informática. Cham: Springer International Publishing. 10318 : 74–88. doi : 10.1007 / 978-3-319-59888-8_6 . ISBN 978-3-319-59888-8.
^ Chiarcos, Christian (2012). Simperl, Elena; Cimiano, Philipp; Polleres, Axel; Corcho, Oscar; Presutti, Valentina (eds.). "POWLA: Modelado de corpus lingüísticos en OWL / DL" . La Web Semántica: Investigación y Aplicaciones . Apuntes de conferencias en informática. Berlín, Heidelberg: Springer. 7295 : 225–239. doi : 10.1007 / 978-3-642-30284-8_22 . ISBN 978-3-642-30284-8.
^ Chiarcos, Christian; Sukhareva, Maria (1 de enero de 2015). "OLiA - Ontologías de anotación lingüística" . Web semántica . 6 (4): 379–386. doi : 10.3233 / SW-140167 . ISSN 1570-0844 .
^ Cimiano, P .; Buitelaar, P .; McCrae, J .; Sintek, M. (1 de marzo de 2011). "LexInfo: un modelo declarativo para la interfaz léxico-ontología" . Revista de semántica web . 9 (1): 29–51. doi : 10.1016 / j.websem.2010.11.001 . ISSN 1570-8268 .
^ de Melo, Gerard (1 de enero de 2015). "Lexvo.org: información relacionada con el idioma para la nube de datos enlazados lingüísticos" . Web semántica . 6 (4): 393–400. doi : 10.3233 / SW-150171 . ISSN 1570-0844 .
^ "Vocabulario de catálogo de datos (DCAT) - Versión 2" . www.w3.org . Consultado el 5 de junio de 2020 .
^ McCrae, John P .; Labropoulou, Penny; Gracia, Jorge; Villegas, Marta; Rodríguez-Doncel, Víctor; Cimiano, Philipp (2015). Gandon, Fabien; Guéret, Christophe; Villata, Serena; Breslin, John; Faron-Zucker, Catherine; Zimmermann, Antoine (eds.). "Una ontología para unirlos a todos: la ontología META-SHARE OWL para la interoperabilidad de conjuntos de datos lingüísticos en la web" . La Web Semántica: Eventos satélite de la ESWC 2015 . Apuntes de conferencias en informática. Cham: Springer International Publishing. 9341 : 271–282. doi : 10.1007 / 978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.
^ ld4lt / linguistic-annotation , ld4lt, 2020-05-19 , consultado 2020-06-05
^ "Mejores prácticas para el grupo comunitario de datos abiertos enlazados multilingües" . Consultado el 9 de diciembre de 2019 .
^ "Linked Data for Language Technology Community Group" . Consultado el 9 de diciembre de 2019 .
^ Bird, Steven; Liberman, Mark. "Hacia un marco formal para las anotaciones lingüísticas" (PDF) . En: Actas de la Conferencia Internacional sobre Procesamiento del Lenguaje Hablado, Sydney, 1998 . Consultado el 25 de mayo de 2016 .^{[ enlace muerto permanente ]}
^ ISO 24612: 2012. "Gestión de recursos lingüísticos - Marco de anotación lingüística (LAF)" . ISO . Consultado el 25 de mayo de 2016 .
^ Eckart, Richard (2008). Elección de una base de datos XML para corpus con anotaciones lingüísticas . SDV. Sprache und Datenverarbeitung 32.1 / 2008: Revista internacional para el procesamiento de datos lingüísticos, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlín, septiembre de 2008. págs. 7–22.
^ Chiarcos, Christian. "Interoperabilidad de corpus y anotaciones (versión borrador)" (PDF) . En: Christian Chiarcos, Sebastian Nordhoff y Sebastian Hellmann (eds.) Linked Data in Linguistics. Representación y conexión de datos lingüísticos y metadatos lingüísticos, 2012 . Consultado el 25 de mayo de 2016 .
^ "lod2.okfn.org (versión archivada)" . Archivado desde el original el 7 de marzo de 2014 . Consultado el 9 de diciembre de 2019 .
^ "Ontologías multilingües para el conocimiento en red (Monnet)" . Comisión Europea, resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .
^ "LIDER: Linked Data como facilitador de análisis de contenido multilingüe y cross-media para empresas de toda Europa" . Comisión Europea, resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .
^ "Traducción de calidad mediante enfoques de ingeniería del lenguaje profundo" . Comisión Europea, resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .
^ "Diccionarios abiertos enlazados (LiODi)" . Consultado el 10 de diciembre de 2019 .
^ "Marco abierto de servicios electrónicos para el enriquecimiento multilingüe y semántico de contenidos digitales" . Consultado el 10 de diciembre de 2019 .
^ "POSTDATA - Normalización de poesía y datos abiertos enlazados" . Consultado el 10 de diciembre de 2019 .
^ "Vinculando el latín. Construyendo una base de conocimiento de recursos lingüísticos para el latín" . Consultado el 10 de diciembre de 2019 .
^ "Página de inicio del proyecto Pret-a-LLOD" . Consultado el 10 de diciembre de 2019 ."Pret-a-LLOD" . Comisión Europea, resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .
^ "CA18209 - Red europea de ciencia de datos lingüísticos centrada en la Web" . costo. Cooperación europea en ciencia y tecnología . Consultado el 10 de diciembre de 2019 .
^ a b Para obtener un historial de estas discusiones, consulte los archivos de la lista de correo de Open Linguistics, disponible solo como copia de seguridad en https://github.com/open-linguistics/linguistics.okfn.org/tree/master/backup
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. pag. 33. ISBN 978-3-030-30224-5.
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. págs. 33–34. ISBN 978-3-030-30224-5.
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. págs. 36 y sig. ISBN 978-3-030-30224-5.
^ Chiarcos, Christian y Pareja-Lora, Antonio (2020), Datos abiertos — Datos enlazados — Datos abiertos enlazados — Datos abiertos enlazados lingüísticos (LLOD): una introducción general. En: Pareja-Lora, Antonio; Lujuria, Barbara; Blume, Maria; Chiarcos, Christian (eds.). Desarrollo de recursos de datos abiertos enlazados lingüísticos para la investigación intensiva de datos colaborativos en las ciencias del lenguaje . The MIT Press, p.1-18.
^ "linguistics.okfn.org/003004.html en master · open-linguistics / linguistics.okfn.org · GitHub" . Consultado el 5 de junio de 2020 .
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. pag. 37. ISBN 978-3-030-30224-5.
^ "Prêt-à-LLOD - Sitio web del proyecto Prêt-à-LLOD" . Consultado el 5 de junio de 2020 .
^ Ver el título del libro de Cimiano, Chiarcos, Gracia, McCrae (2020). Sin embargo, el acrónimo LLD (junio de 2020: 7 coincidencias académicas de Google inequívocas ) parece que rara vez se usa en comparación con LLOD (junio de 2020: 309 coincidencias académicas de Google inequívocas ).
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. pag. 37. ISBN 978-3-030-30224-5.
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. págs. vi. ISBN 978-3-030-30224-5.

[:1-1] Grupo de trabajo de lingüística abierta. "LOD lingüístico" . linguistic-lod.org . Proyecto LIDER . Consultado el 24 de mayo de 2016 .

[2] Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Hacia datos abiertos para la lingüística: Lexical Linked Data (PDF) . Heidelberg: En: Alessandro Oltramari, Piek Vossen, Lu Qin y Eduard Hovy (eds.), Nuevas tendencias de investigación en ontologías y recursos léxicos. Springer . Consultado el 24 de mayo de 2016 .

[3] "Linguistic Linked Open Data. Información sobre el estado actual de la creciente nube de datos abiertos lingüísticos vinculados" . Consultado el 10 de diciembre de 2019 .

[4] Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. ISBN 978-3-030-30224-5.

[5] "Modelo de léxico para ontologías: informe de la comunidad, 10 de mayo de 2016" . www.w3.org . Consultado el 5 de junio de 2020 .

[6] "Entregables del Grupo de Trabajo de Anotación Web del W3C" . w3c.github.io . Consultado el 5 de junio de 2020 .

[7] Hellmann, Sebastián; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). "Integración de PNL mediante datos enlazados" . La Web Semántica - ISWC 2013 . Apuntes de conferencias en informática. Berlín, Heidelberg: Springer. 7908 : 98-113. doi : 10.1007 / 978-3-642-41338-4_7 . ISBN 978-3-642-41338-4.

[8] Chiarcos, Christian; Fäth, Christian (2017). Gracia, Jorge; Bond, Francis; McCrae, John P .; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastián (eds.). "CoNLL-RDF: Corpora enlazado hecho de una manera amigable con la PNL" . Lenguaje, datos y conocimiento . Apuntes de conferencias en informática. Cham: Springer International Publishing. 10318 : 74–88. doi : 10.1007 / 978-3-319-59888-8_6 . ISBN 978-3-319-59888-8.

[9] Chiarcos, Christian (2012). Simperl, Elena; Cimiano, Philipp; Polleres, Axel; Corcho, Oscar; Presutti, Valentina (eds.). "POWLA: Modelado de corpus lingüísticos en OWL / DL" . La Web Semántica: Investigación y Aplicaciones . Apuntes de conferencias en informática. Berlín, Heidelberg: Springer. 7295 : 225–239. doi : 10.1007 / 978-3-642-30284-8_22 . ISBN 978-3-642-30284-8.

[10] Chiarcos, Christian; Sukhareva, Maria (1 de enero de 2015). "OLiA - Ontologías de anotación lingüística" . Web semántica . 6 (4): 379–386. doi : 10.3233 / SW-140167 . ISSN 1570-0844 .

[11] Cimiano, P .; Buitelaar, P .; McCrae, J .; Sintek, M. (1 de marzo de 2011). "LexInfo: un modelo declarativo para la interfaz léxico-ontología" . Revista de semántica web . 9 (1): 29–51. doi : 10.1016 / j.websem.2010.11.001 . ISSN 1570-8268 .

[12] Melo, Gerard (1 de enero de 2015). "Lexvo.org: información relacionada con el idioma para la nube de datos enlazados lingüísticos" . Web semántica . 6 (4): 393–400. doi : 10.3233 / SW-150171 . ISSN 1570-0844 .

[13] "Vocabulario de catálogo de datos (DCAT) - Versión 2" . www.w3.org . Consultado el 5 de junio de 2020 .

[14] McCrae, John P .; Labropoulou, Penny; Gracia, Jorge; Villegas, Marta; Rodríguez-Doncel, Víctor; Cimiano, Philipp (2015). Gandon, Fabien; Guéret, Christophe; Villata, Serena; Breslin, John; Faron-Zucker, Catherine; Zimmermann, Antoine (eds.). "Una ontología para unirlos a todos: la ontología META-SHARE OWL para la interoperabilidad de conjuntos de datos lingüísticos en la web" . La Web Semántica: Eventos satélite de la ESWC 2015 . Apuntes de conferencias en informática. Cham: Springer International Publishing. 9341 : 271–282. doi : 10.1007 / 978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.

[15] 4lt / linguistic-annotation , ld4lt, 2020-05-19 , consultado 2020-06-05

[16] "Mejores prácticas para el grupo comunitario de datos abiertos enlazados multilingües" . Consultado el 9 de diciembre de 2019 .

[17] "Linked Data for Language Technology Community Group" . Consultado el 9 de diciembre de 2019 .

[18] Bird, Steven; Liberman, Mark. "Hacia un marco formal para las anotaciones lingüísticas" (PDF) . En: Actas de la Conferencia Internacional sobre Procesamiento del Lenguaje Hablado, Sydney, 1998 . Consultado el 25 de mayo de 2016 .^{[ enlace muerto permanente ]}

[19] ISO 24612: 2012. "Gestión de recursos lingüísticos - Marco de anotación lingüística (LAF)" . ISO . Consultado el 25 de mayo de 2016 .

[20] Eckart, Richard (2008). Elección de una base de datos XML para corpus con anotaciones lingüísticas . SDV. Sprache und Datenverarbeitung 32.1 / 2008: Revista internacional para el procesamiento de datos lingüísticos, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlín, septiembre de 2008. págs. 7–22.

[21] Chiarcos, Christian. "Interoperabilidad de corpus y anotaciones (versión borrador)" (PDF) . En: Christian Chiarcos, Sebastian Nordhoff y Sebastian Hellmann (eds.) Linked Data in Linguistics. Representación y conexión de datos lingüísticos y metadatos lingüísticos, 2012 . Consultado el 25 de mayo de 2016 .

[22] "lod2.okfn.org (versión archivada)" . Archivado desde el original el 7 de marzo de 2014 . Consultado el 9 de diciembre de 2019 .

[23] "Ontologías multilingües para el conocimiento en red (Monnet)" . Comisión Europea, resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .

[24] "LIDER: Linked Data como facilitador de análisis de contenido multilingüe y cross-media para empresas de toda Europa" . Comisión Europea, resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .

[25] "Traducción de calidad mediante enfoques de ingeniería del lenguaje profundo" . Comisión Europea, resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .

[26] "Diccionarios abiertos enlazados (LiODi)" . Consultado el 10 de diciembre de 2019 .

[27] "Marco abierto de servicios electrónicos para el enriquecimiento multilingüe y semántico de contenidos digitales" . Consultado el 10 de diciembre de 2019 .

[28] "POSTDATA - Normalización de poesía y datos abiertos enlazados" . Consultado el 10 de diciembre de 2019 .

[29] "Vinculando el latín. Construyendo una base de conocimiento de recursos lingüísticos para el latín" . Consultado el 10 de diciembre de 2019 .

[30] "Página de inicio del proyecto Pret-a-LLOD" . Consultado el 10 de diciembre de 2019 ."Pret-a-LLOD" . Comisión Europea, resultados de la investigación de CORDIS EU . Consultado el 10 de diciembre de 2019 .

[31] "CA18209 - Red europea de ciencia de datos lingüísticos centrada en la Web" . costo. Cooperación europea en ciencia y tecnología . Consultado el 10 de diciembre de 2019 .

[:0-32] Para obtener un historial de estas discusiones, consulte los archivos de la lista de correo de Open Linguistics, disponible solo como copia de seguridad en https://github.com/open-linguistics/linguistics.okfn.org/tree/master/backup

[33] Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. pag. 33. ISBN 978-3-030-30224-5.

[34] Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. págs. 33–34. ISBN 978-3-030-30224-5.

[35] Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. págs. 36 y sig. ISBN 978-3-030-30224-5.

[36] Chiarcos, Christian y Pareja-Lora, Antonio (2020), Datos abiertos — Datos enlazados — Datos abiertos enlazados — Datos abiertos enlazados lingüísticos (LLOD): una introducción general. En: Pareja-Lora, Antonio; Lujuria, Barbara; Blume, Maria; Chiarcos, Christian (eds.). Desarrollo de recursos de datos abiertos enlazados lingüísticos para la investigación intensiva de datos colaborativos en las ciencias del lenguaje . The MIT Press, p.1-18.

[37] "linguistics.okfn.org/003004.html en master · open-linguistics / linguistics.okfn.org · GitHub" . Consultado el 5 de junio de 2020 .

[38] Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. pag. 37. ISBN 978-3-030-30224-5.

[39] "Prêt-à-LLOD - Sitio web del proyecto Prêt-à-LLOD" . Consultado el 5 de junio de 2020 .

[40] Ver el título del libro de Cimiano, Chiarcos, Gracia, McCrae (2020). Sin embargo, el acrónimo LLD (junio de 2020: 7 coincidencias académicas de Google inequívocas ) parece que rara vez se usa en comparación con LLOD (junio de 2020: 309 coincidencias académicas de Google inequívocas ).

[41] Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. pag. 37. ISBN 978-3-030-30224-5.

[42] Cimiano, Philipp; Chiarcos, Christian; McCrae, John P .; Gracia, Jorge (2020). Datos enlazados lingüísticos: representación, generación y aplicaciones . Springer International Publishing. págs. vi. ISBN 978-3-030-30224-5.

[1]