El mapa LRE (evaluación y recursos lingüísticos) es una gran base de datos de acceso libre sobre recursos dedicados al procesamiento del lenguaje natural . La característica original de LRE Map es que los registros se recopilan durante la presentación de diferentes conferencias importantes de procesamiento del lenguaje natural . Luego, los registros se limpian y se recopilan en una base de datos global llamada "Mapa LRE". [1]
El Mapa LRE pretende ser un instrumento para recopilar información sobre recursos lingüísticos y convertirse, al mismo tiempo, en una comunidad de usuarios, un lugar para compartir y descubrir recursos, discutir opiniones, dar retroalimentación, descubrir nuevas tendencias, etc. es un instrumento para descubrir, buscar y documentar recursos lingüísticos, aquí concebidos en un sentido amplio, como datos y herramientas.
La gran cantidad de información contenida en el Mapa se puede analizar de muchas formas diferentes. Por ejemplo, el mapa LRE puede proporcionar información sobre el tipo de recurso más frecuente, el lenguaje más representado, las aplicaciones para las que se utilizan o se están desarrollando recursos, la proporción de recursos nuevos frente a los ya existentes, o la forma en que los recursos se distribuyen a la comunidad.
Contexto
Varias instituciones en todo el mundo mantienen catálogos de recursos lingüísticos ( ELRA , LDC , NICT Universal Catalog, ACL Data and Code Repository, OLAC , LT World, etc.) [2] Sin embargo, se ha estimado que solo se conoce el 10% de los recursos existentes, ya sea mediante catálogos de distribución o mediante publicidad directa por parte de proveedores (sitios web y similares). El resto permanece oculto, las únicas ocasiones en las que emerge brevemente es cuando un recurso se presenta en el contexto de un trabajo de investigación o informe en alguna conferencia. Incluso en este caso, sin embargo, podría ser que un recurso permanezca en segundo plano simplemente porque el foco de la investigación no está en el recurso per se .
Historia
El mapa LRE se originó bajo el nombre "Mapa LREC" durante la preparación de la conferencia LREC 2010. [3] Más específicamente, la idea se discutió dentro del proyecto FlaReNet, y en colaboración con ELRA y el Instituto de Lingüística Computacional de CNR en Pisa , el Mapa se implementó en LREC 2010. [4] Los organizadores de LREC preguntaron a los autores para proporcionar información básica sobre todos los recursos (en un sentido amplio, es decir, incluyendo herramientas, estándares y paquetes de evaluación), ya sean utilizados o creados, descritos en sus artículos. Luego, todos estos descriptores se reunieron en una matriz global denominada Mapa LREC.
La misma metodología y los requisitos de los autores se han aplicado y ampliado a otras conferencias, a saber, COLING-2010, [5] EMNLP-2010, [6] RANLP-2011, [7] LREC 2012, [8] LREC 2014 [9 ] y LREC 2016. [10]
Después de esta generalización a otras conferencias, el Mapa LREC ha sido rebautizado como Mapa LRE .
Tamaño y contenido
El tamaño de la base de datos aumenta con el tiempo. Los datos recogidos ascienden a 4776 entradas.
Cada recurso se describe de acuerdo con los siguientes atributos:
- Tipo de recurso, por ejemplo, léxico , herramienta de anotación, etiquetador / analizador .
- Estado de producción de recursos, por ejemplo, recién creado terminado, existente-actualizado.
- Disponibilidad de recursos, por ejemplo, disponibles gratuitamente, desde el centro de datos.
- Modalidad de recursos, por ejemplo, habla , escrito, lenguaje de señas .
- Uso de recursos, por ejemplo , reconocimiento de entidades nombradas , identificación de idiomas , traducción automática .
- Idioma del recurso, por ejemplo, inglés, 23 idiomas de la Unión Europea, idiomas oficiales de la India.
Usos
El mapa LRE es una herramienta muy importante para trazar el campo NLP. Comparado con otros estudiados basados en puntuaciones subjetivas, el mapa LRE está hecho de hechos reales.
El mapa tiene un gran potencial para muchos usos, además de ser una herramienta de recopilación de información:
- Es un gran instrumento para monitorear la evolución del campo (útil para los financiadores), si se aplica en diferentes contextos y épocas.
- Puede verse como un gran esfuerzo conjunto, el comienzo de una acción cooperativa aún mayor no solo entre unos pocos líderes sino entre todos los investigadores.
- También es un medio "educativo" hacia el amplio reconocimiento de la necesidad de actividades de metainvestigación con la participación activa de muchos.
- También es fundamental para introducir la nueva noción de "cita de recursos" que podría proporcionar un premio y un medio de reconocimiento académico para los investigadores que participan en la creación de recursos.
- Se utiliza para ayudar a la organización de las conferencias del campo como LREC .
Matrices derivadas
Joseph Mariani (CNRS-LIMSI IMMI) y Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica) limpiaron y clasificaron los datos para calcular las diversas matrices de los informes finales de FLaReNet [11] . Uno de ellos, la matriz de datos escritos en LREC 2010 es la siguiente:
Cuerpo | Léxico | Ontología | Modelo de gramática / lenguaje | Terminología | |
---|---|---|---|---|---|
búlgaro | 7 | 6 | 1 | 1 | 1 |
checo | 12 | 7 | 2 | 1 | 1 |
danés | 6 | 2 | 0 | 2 | 0 |
holandés | 17 | 8 | 2 | 1 | 2 |
inglés | 206 | 77 | 18 | 11 | 10 |
Estonio | 3 | 1 | 0 | 0 | 1 |
finlandés | 3 | 2 | 0 | 1 | 0 |
francés | 44 | 24 | 3 | 4 | 5 |
alemán | 43 | 15 | 4 | 2 | 3 |
griego | 10 | 3 | 2 | 0 | 0 |
húngaro | 8 | 4 | 0 | 1 | 1 |
irlandesa | 1 | 0 | 0 | 0 | 0 |
italiano | 32 | dieciséis | 4 | 2 | 0 |
letón | 9 | 0 | 0 | 0 | 1 |
lituano | 4 | 0 | 2 | 0 | 1 |
maltés | 1 | 0 | 0 | 1 | 0 |
polaco | 7 | 2 | 1 | 2 | 1 |
portugués | 19 | 6 | 1 | 1 | 0 |
rumano | 12 | 7 | 1 | 1 | 0 |
eslovaco | 2 | 0 | 0 | 1 | 0 |
esloveno | 5 | 1 | 0 | 0 | 0 |
Español | 29 | 19 | 4 | 5 | 2 |
sueco | 19 | 4 | 0 | 1 | 0 |
Otra Europa | 19 | 11 | 3 | 3 | 2 |
Europa regional | 18 | 8 | 0 | 1 | 3 |
Plurilingüe | 5 | 3 | 1 | 0 | 1 |
Independiente del idioma | 9 | 3 | dieciséis | 2 | 1 |
No aplicable | 2 | 0 | 2 | 1 | 0 |
Total | 552 | 229 | 67 | 45 | 36 |
El inglés es el idioma más estudiado. En segundo lugar, vienen los idiomas francés y alemán y luego italiano y español.
Futuro
El mapa de LRE se ha ampliado a Language Resources and Evaluation Journal [12] y otras conferencias.
Referencias
- ^ Nicoletta Calzolari, Claudia Soria, Riccardo Del Gratta, Sara Goggi, Valeria Quochi, Irene Russo, Khalid Choukri, Joseph Mariani, Stelios Piperidis, 2010 The LREC Map of Language Resources and Technologies. LREC-2010, Malta
- ^ Informe técnico de FlaReNet, mapa de recursos lingüísticos y evaluación (LRE), Nicoletta Calzolari (CNR-ILC Pisa, Italia), Claudia Soria, Irene Russo, Francesco Rubino, Riccardo Del Gratta. Proyecto eContentPlus [1]
- ^ Nicoletta Calzolari, Introducción de la presidenta de la conferencia LREC 2010
- ^ Séptima edición de la Conferencia de evaluación y recursos lingüísticos, La Valeta, Malta
- ^ La 23ª Conferencia Internacional sobre Lingüística Computacional, Beijing, China [2]
- ^ Métodos empíricos en el procesamiento del lenguaje natural 9-11 de octubre, MIT Stata Center, Cambridge, Massachusetts, EE. UU. [3]
- ^ Avances recientes en el procesamiento del lenguaje natural 12-14 de septiembre, Hissar, Bulgaria [4]
- ^ Octava edición de la Conferencia de evaluación y recursos lingüísticos, Estambul, Turquía
- ^ Novena edición de la Conferencia de evaluación y recursos lingüísticos, Reykjavik, Islandia
- ^ Décima edición de la Conferencia de evaluación y recursos lingüísticos, Portoroz, Eslovenia
- ^ FLaReNet (Fostering Language Resources Network) es un proyecto financiado por la UE que tiene como objetivo desarrollar una visión común del área de recursos lingüísticos y tecnologías del lenguaje para los próximos años y fomentar una estrategia europea para consolidar el sector y mejorar la competitividad a nivel de la UE y Mundial.
- ^ Revista de evaluación y recursos lingüísticos Ed. Saltador
enlaces externos
- Página de búsqueda de mapas LREC