En lingüística y tecnología del lenguaje, un recurso lingüístico es una "[composición] de material lingüístico utilizado en la construcción, mejora y / o evaluación de aplicaciones de procesamiento del lenguaje, (...) en estudios y aplicaciones de investigación mediada por el lenguaje y el lenguaje". [1]
Según Bird & Simons (2003), [2] esto incluye
- datos, es decir, "cualquier información que documente o describa un idioma, como una monografía publicada, un archivo de datos informáticos o incluso una caja de zapatos llena de fichas escritas a mano. El contenido de la información puede variar desde grabaciones de sonido no analizadas hasta textos totalmente transcritos y anotados a una gramática descriptiva completa ", [2]
- herramientas, es decir, "recursos computacionales que facilitan la creación, visualización, consulta o uso de datos lingüísticos", [2] y
- asesoramiento, es decir, "cualquier información sobre qué fuentes de datos son fiables, qué herramientas son adecuadas en una situación determinada, qué prácticas seguir al crear nuevos datos". Este último aspecto se suele denominar "mejores prácticas" o "normas (comunitarias)". [2]
En un sentido más estricto, el recurso de lenguaje se aplica específicamente a los recursos que están disponibles en forma digital, y luego, "abarcando (a) conjuntos de datos (textual, multimodal / multimedia y datos léxicos, gramáticas, modelos de lenguaje, etc.) en formato legible por máquina forma, y (b) herramientas / tecnologías / servicios utilizados para su procesamiento y gestión ". [1]
Tipología
En mayo de 2020, no se ha establecido una tipología estándar de recursos lingüísticos ampliamente utilizada (las propuestas actuales incluyen LREMap , [3] METASHARE, [4] y, para los datos, la clasificación LLOD ). Las clases importantes de recursos lingüísticos incluyen
- datos
- recursos léxicos , por ejemplo, diccionarios legibles por máquina ,
- corpus lingüísticos , es decir, colecciones digitales de datos de lenguaje natural,
- Bases de datos lingüísticos como la recopilación de datos enlazados interlingüísticos ,
- herramientas
- anotaciones lingüísticas y herramientas para crear dichas anotaciones de forma manual o semiautomatizada (por ejemplo, herramientas para anotar texto glosado interlineal como Toolbox y FLEx , u otras herramientas de documentación de idiomas ),
- aplicaciones para la búsqueda y recuperación de dichos datos ( sistemas de gestión de corpus ), para la anotación automatizada ( etiquetado de parte de la voz , análisis sintáctico , análisis semántico , etc.),
- metadatos y vocabularios
- vocabularios, repositorios de terminología lingüística y metadatos lingüísticos, por ejemplo, MetaShare (para metadatos de recursos lingüísticos), [4] el registro de categorías de datos ISO 12620 (para características lingüísticas, estructuras de datos y anotaciones dentro de un recurso lingüístico), [5] o el Glottolog base de datos (identificadores de variedades lingüísticas y base de datos bibliográfica). [6]
Publicación, difusión y creación de recursos lingüísticos
Una de las principales preocupaciones de la comunidad de recursos lingüísticos ha sido desarrollar infraestructuras y plataformas para presentar, debatir y difundir recursos lingüísticos. Las contribuciones seleccionadas a este respecto incluyen:
- una serie de conferencias internacionales sobre evaluación y recursos lingüísticos (LREC),
- la Asociación Europea de Recursos Lingüísticos (ELRA, con sede en la UE) y el Consorcio de Datos Lingüísticos (LDC, con sede en EE. UU.), que representan plataformas comerciales de alojamiento y difusión de recursos lingüísticos,
- la Comunidad de Archivos de Idiomas Abiertos (OLAC) , que proporciona y agrega metadatos de recursos de idiomas,
- la Revista de Evaluación y Recursos Lingüísticos (LREJ). [7]
En cuanto al desarrollo de estándares y mejores prácticas para los recursos lingüísticos, estos son objeto de varios grupos comunitarios y esfuerzos de estandarización, que incluyen
- Comité Técnico 37 de ISO : Terminología y otros recursos lingüísticos y de contenido ( ISO / TC 37 ), desarrollo de estándares para todos los aspectos de los recursos lingüísticos,
- W3C Community Group Best Practices for Multilingual Linked Open Data (BPMLOD), [8] trabajando en recomendaciones de mejores prácticas para publicar recursos lingüísticos como Linked Data o en RDF ,
- W3C Community Group Linked Data for Language Technology (LD4LT), [9] trabajando en anotaciones lingüísticas en la web y metadatos de recursos lingüísticos,
- W3C Community Group Ontology-Lexica ( OntoLex ), [10] trabajando en recursos léxicos,
- el grupo de trabajo de Open Linguistics de la Open Knowledge Foundation , que trabaja en convenciones para publicar y vincular recursos de lenguaje abierto , desarrollando la nube Linguistic Linked Open Data , [11]
- la Iniciativa de codificación de texto (TEI) , [12] que trabaja en especificaciones basadas en XML para recursos lingüísticos y texto editado digitalmente.
Referencias
- ^ a b LD4LT (2020), La ontología de Metashare creada por LD4LT Community Group , W3C Community Group Linked Data for Language Technology (LD4LT), rama de desarrollo, versión del 10 de marzo de 2020
- ^ a b c d Bird, Steven; Simons, Gary (1 de noviembre de 2003). "Ampliación de los metadatos de Dublin Core para respaldar la descripción y el descubrimiento de recursos lingüísticos". Informática y Humanidades . 37 (4): 375–388. arXiv : cs / 0308022 . Código Bibliográfico : 2003cs ........ 8022B . doi : 10.1023 / A: 1025720518994 . ISSN 1572-8412 . S2CID 5969663 .
- ^ Calzolari, N., Del Gratta, R., Francopoulo, G., Mariani, J., Rubino, F., Russo, I. y Soria, C. (2012, mayo). El mapa de LRE. Armonización de las descripciones de recursos de la comunidad . En LREC (págs. 1084-1089).
- ^ a b McCrae, John P .; Labropoulou, Penny; Gracia, Jorge; Villegas, Marta; Rodríguez-Doncel, Víctor; Cimiano, Philipp (2015). Gandon, Fabien; Guéret, Christophe; Villata, Serena; Breslin, John; Faron-Zucker, Catherine; Zimmermann, Antoine (eds.). "Una ontología para unirlos a todos: la ontología META-SHARE OWL para la interoperabilidad de conjuntos de datos lingüísticos en la web" . La Web Semántica: Eventos satélite de la ESWC 2015 . Apuntes de conferencias en Ciencias de la Computación. Cham: Springer International Publishing. 9341 : 271–282. doi : 10.1007 / 978-3-319-25639-9_42 . ISBN 978-3-319-25639-9.
- ^ Kemps-Snijders, M., Windhouwer, M., Wittenburg, P. y Wright, SE (2008). ISOcat: Acorralar categorías de datos en la naturaleza . En el 6º Congreso Internacional sobre Evaluación y Recursos Lingüísticos (LREC 2008) .
- ^ Nordhoff, Sebastián (2012), Chiarcos, Christian; Nordhoff, Sebastián; Hellmann, Sebastian (eds.), "Linked Data for Linguistic Diversity Research: Glottolog / Langdoc y ASJP Online", Linked Data in Linguistics: Representing and Connecting Language Data and Language Metadata , Springer, págs. 191-200, doi : 10.1007 / 978-3-642-28249-2_18 , ISBN 978-3-642-28249-2
- ^ "Recursos lingüísticos y evaluación" . Springer . Consultado el 13 de mayo de 2020 .
- ^ "Mejores prácticas para el grupo comunitario de datos abiertos enlazados multilingües" . www.w3.org . Consultado el 13 de mayo de 2020 .
- ^ "Linked Data for Language Technology Community Group" . www.w3.org . Consultado el 13 de mayo de 2020 .
- ^ "Grupo Comunitario Ontología-Léxica" . www.w3.org . Consultado el 13 de mayo de 2020 .
- ^ "Datos abiertos enlazados lingüísticos" .
- ^ "TEI: Iniciativa de codificación de texto" . tei-c.org . Consultado el 13 de mayo de 2020 .