Gestión de recursos lingüísticos: el marco de marcado léxico ( LMF ; ISO 24613: 2008 ) es el estándar ISO / TC37 de la Organización Internacional de Normalización ISO para el procesamiento del lenguaje natural (NLP) y los léxicos de diccionario legible por máquina (MRD) . [1] El alcance es la estandarización de principios y métodos relacionados con los recursos lingüísticos en los contextos de la comunicación multilingüe.
Objetivos
Los objetivos de LMF son proporcionar un modelo común para la creación y uso de recursos léxicos , gestionar el intercambio de datos entre estos recursos y permitir la fusión de un gran número de recursos electrónicos individuales para formar extensos recursos electrónicos globales.
Los tipos de instanciaciones individuales de LMF pueden incluir recursos léxicos monolingües, bilingües o multilingües. Se utilizarán las mismas especificaciones para léxicos grandes y pequeños, para léxicos simples y complejos, para representaciones léxicas tanto escritas como habladas. Las descripciones van desde la morfología , la sintaxis , la semántica computacional hasta la traducción asistida por computadora . Los idiomas cubiertos no se limitan a los idiomas europeos, sino que cubren todos los idiomas naturales . La gama de aplicaciones de PNL específicas no está restringida. LMF puede representar la mayoría de léxicos, incluidos los léxicos WordNet , EDR y PAROLE.
Historia
En el pasado, la estandarización del léxico ha sido estudiada y desarrollada por una serie de proyectos como GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE e ISLE. Luego, las delegaciones nacionales de ISO / TC37 decidieron abordar las normas dedicadas a la PNL y la representación del léxico. El trabajo sobre LMF comenzó en el verano de 2003 con una nueva propuesta de elemento de trabajo emitida por la delegación de los Estados Unidos. En el otoño de 2003, la delegación francesa emitió una propuesta técnica para un modelo de datos dedicado a los léxicos de la PNL. A principios de 2004, el comité ISO / TC37 decidió formar un proyecto ISO común con Nicoletta Calzolari ( CNR -ILC Italia) como coordinadora y Gil Francopoulo (Tagmatica Francia) y Monte George ( ANSI EE.UU.) como editores. El primer paso en el desarrollo de LMF fue diseñar un marco general basado en las características generales de los léxicos existentes y desarrollar una terminología coherente para describir los componentes de esos léxicos. El siguiente paso fue el diseño real de un modelo completo que representara mejor todos los léxicos en detalle. Un gran panel de 60 expertos contribuyó con una amplia gama de requisitos para LMF que cubrían muchos tipos de léxicos de PNL. Los editores de LMF trabajaron en estrecha colaboración con el panel de expertos para identificar las mejores soluciones y llegar a un consenso sobre el diseño de LMF. Se prestó especial atención a la morfología con el fin de proporcionar mecanismos poderosos para manejar problemas en varios idiomas que se conocían como difíciles de manejar. Se han escrito, enviado 13 versiones (a los expertos nacionales designados), comentado y discutido durante varias reuniones técnicas de ISO. Después de cinco años de trabajo, incluidas numerosas reuniones cara a cara e intercambios de correo electrónico, los editores llegaron a un modelo UML coherente. En conclusión, LMF debe considerarse una síntesis del estado del arte en el campo del léxico de PNL.
Etapa actual
El número ISO es 24613. La especificación LMF se publicó oficialmente como Norma Internacional el 17 de noviembre de 2008.
Como uno de los miembros de la familia de normas ISO / TC37
Los estándares ISO / TC37 se elaboran actualmente como especificaciones de alto nivel y se ocupan de la segmentación de palabras (ISO 24614), anotaciones (ISO 24611 alias MAF, ISO 24612 alias LAF, ISO 24615 alias SynAF e ISO 24617-1 alias SemAF / Time), estructuras de características (ISO 24610), contenedores multimedia (ISO 24616 también conocido como MLIF) y léxicos (ISO 24613). Estos estándares se basan en especificaciones de bajo nivel dedicadas a las constantes, a saber, categorías de datos (revisión de ISO 12620), códigos de idioma ( ISO 639 ), códigos de scripts ( ISO 15924 ), códigos de países ( ISO 3166 ) y Unicode ( ISO 10646 ).
La organización de dos niveles forma una familia coherente de estándares con las siguientes reglas comunes y simples:
- la especificación de alto nivel proporciona elementos estructurales que están adornados por las constantes estandarizadas;
- las especificaciones de bajo nivel proporcionan constantes estandarizadas como metadatos.
Estándares clave
Las constantes lingüísticas como / femenino / o / transitivo / no están definidas dentro de LMF pero se registran en el Registro de Categoría de Datos (DCR) que se mantiene como un recurso global por ISO / TC37 de acuerdo con ISO / IEC 11179-3: 2003. [2] Y estas constantes se utilizan para adornar los elementos estructurales de alto nivel.
La especificación LMF cumple con los principios de modelado del Lenguaje de modelado unificado (UML) según lo definido por Object Management Group (OMG). La estructura se especifica por medio de clase UML diagramas . Los ejemplos se presentan mediante diagramas de instancia (u objeto) UML.
Se proporciona una DTD XML en un anexo del documento LMF.
Estructura del modelo
LMF se compone de los siguientes componentes:
- El paquete central que es el esqueleto estructural que describe la jerarquía básica de información en una entrada léxica.
- Extensiones del paquete básico que se expresan en un marco que describe la reutilización de los componentes básicos junto con los componentes adicionales necesarios para un recurso léxico específico.
Las extensiones se dedican específicamente a la morfología , MRD , NLP sintaxis , PNL semántica , PNL notaciones multilingües , PNL patrones morfológicos , de expresión de varias palabras patrones , y expresión de restricción patrones .
Ejemplo
En el siguiente ejemplo, la entrada léxica está asociada con un lema clérigo y dos formas flexionadas clérigo y clérigo . La codificación del idioma se establece para todo el recurso léxico. El valor del idioma se establece para todo el léxico como se muestra en el siguiente diagrama de instancias de UML .
Los elementos Recurso léxico , Información global , Léxico , Entrada léxica , Lema y Forma de la palabra definen la estructura del léxico. Se especifican en el documento LMF. Por el contrario, languageCoding , language , partOfSpeech , commonNoun , escritoForm , grammaticalNumber , singular , plural son categorías de datos que se toman del Registro de categorías de datos. Estas marcas adornan la estructura. Los valores ISO 639-3 , clérigo , clérigos son cadenas de caracteres simples. El valor eng se toma de la lista de idiomas definida por ISO 639-3 .
Con información adicional como dtdVersion y feat , los mismos datos se pueden expresar mediante el siguiente fragmento XML :
dtdVersion = "15" > att = "languageCoding" val = "ISO 639-3" /> att = "language" val = "eng" /> < LexicalEntry> att = "partOfSpeech" val = "commonNoun" /> att = "escritoForm" val = "clergyman" /> att = "escritoForm" val = " clergyman " /> att = " grammaticalNumber " val = " singular " /> att = " writingForm " val = " clergymen " /> att = " grammaticalNumber " val = " plural " />
Este ejemplo es bastante simple, mientras que LMF puede representar descripciones lingüísticas mucho más complejas, el etiquetado XML es correspondientemente complejo.
Publicaciones seleccionadas sobre LMF
La primera publicación sobre la especificación LMF tal como ha sido ratificada por ISO (este artículo se convirtió (en 2015) en el noveno artículo más citado dentro de las conferencias de Recursos Lingüísticos y Evaluación de los artículos LREC):
- Recursos lingüísticos y evaluación LREC-2006 / Génova: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Lexical Markup Framework (LMF) [3]
Acerca de la representación semántica:
- Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: Marco de marcado léxico estándar ISO para información semántica en léxicos de PNL [4]
Acerca de las lenguas africanas:
- Traitement Automatique des langues naturelles, Marsella, 2014: Mouhamadou Khoule, Mouhamad Ndiankho Thiam, El Hadj Mamadou Nguer: Hacia el establecimiento de un léxico en wolof basado en LMF (Vers la mise en place d'un lexique basé sur LMF pour la langue wolof ) [en francés] [5]
Acerca de los idiomas asiáticos:
- Lexicography, Journal of ASIALEX, Springer 2014: Lexical Markup Framework: Gil Francopoulo, Chu-Ren Huang: An ISO Standard for Electronic Lexicons and its Implications for Asian Languages DOI 10.1007 / s40607-014-0006-z
Acerca de los idiomas europeos:
- COLING 2010: Verena Henrich, Erhard Hinrichs: Normalización de Wordnets en el estándar ISO LMF: Wordnet-LMF para GermaNet [6]
- EACL 2012: Judith Eckle-Kohler, Iryna Gurevych: Subcat-LMF: Desarrollo de un formato estandarizado para la interoperabilidad de marcos de subcategorización [7]
- EACL 2012: Iryna Gurevych, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M Meyer, Christian Wirth: UBY: un recurso léxico-semántico unificado a gran escala basado en LMF. [8]
Acerca de las lenguas semíticas:
- Journal of Natural Language Engineering , Cambridge University Press (que aparecerá en la primavera de 2015): Aida Khemakhem, Bilel Gargouri, Abdelmajid Ben Hamadou, Gil Francopoulo: Modelado estándar ISO de un gran diccionario árabe.
- Actas de la séptima Conferencia Global Wordnet 2014: Nadia BM Karmani, Hsan Soussou, Adel M Alimi: Construyendo una Wordnet estandarizada en la ISO LMF para el lenguaje aeb. [9]
- Actas del taller: HLT y PNL en el mundo árabe, LREC 2008: Noureddine Loukil, Kais Haddar, Abdelmajid Ben Hamadou: Hacia un léxico sintáctico de los verbos árabes. [10]
- Traitement Automatique des Langues Naturelles, Toulouse (en francés) 2007: Khemakhem A, Gargouri B, Abdelwahed A, Francopoulo G: Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613. [11]
Libro dedicado
Hay un libro publicado en 2013: LMF Lexical Markup Framework [12] que está completamente dedicado a LMF. El primer capítulo trata de la historia de los modelos de léxico, el segundo capítulo es una presentación formal del modelo de datos y el tercero trata de la relación con las categorías de datos del ISO-DCR. Los otros 14 capítulos tratan sobre un léxico o un sistema, ya sea en el ámbito civil o militar, ya sea dentro de los laboratorios de investigación científica o para aplicaciones industriales. Estos son Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (o Global Atlas) y Wordscape.
Comunicaciones científicas relacionadas
- Recursos lingüísticos y evaluación LREC-2006 / Génova: la relevancia de las normas para las infraestructuras de investigación [2]
Ver también
- Lexicología computacional
- Semántica léxica
- Morfología (lingüística) para explicaciones sobre paradigmas y morfosintaxis
- Traducción automática para una presentación de los diferentes tipos de notaciones multilingües (consulte la sección Enfoques )
- Patrón morfológico para la diferencia entre un paradigma y un patrón de paradigma
- WordNet para una presentación del léxico semántico más famoso del idioma inglés
- Universal Terminology eXchange (UTX) para un formato alternativo orientado al usuario para diccionarios legibles por máquina
- Lenguaje de red universal
- UBY-LMF para una aplicación de LMF
- OntoLex-Lemon para un modelo basado en LMF para publicar diccionarios como gráficos de conocimiento , en RDF y / o como datos abiertos vinculados lingüísticamente
Referencias
- ^ "ISO 24613: 2008 - Gestión de recursos de lenguaje - Marco de marcado léxico (LMF)" . Iso.org . Consultado el 24 de enero de 2016 .
- ^ a b "La relevancia de los estándares para las infraestructuras de investigación" (PDF) . Hal.inria.fr . Consultado el 24 de enero de 2016 .
- ^ "Marco de marcado léxico (LMF)" (PDF) . Hal.inria.fr . Consultado el 24 de enero de 2016 .
- ^ "Marco de marcado léxico (LMF) para recursos multilingües de PNL" (PDF) . Hal.inria.fr . Consultado el 24 de enero de 2016 .
- ^ "Vers la mise en place d'un lexique basé sur LMF pour la langue wolof" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
- ^ "Estandarización de Wordnets en la Norma ISO LMF: Wordnet-LMF para GermaNet" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
- ^ "Subcat-LMF: Desarrollo de un formato estandarizado para la interoperabilidad del marco de subcategorización" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
- ^ "UBY: un recurso léxico-semántico unificado a gran escala basado en LMF" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
- ^ "Construyendo un Wordnet estandarizado en ISO LMF para lenguaje aeb" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
- ^ "Actas de LREC 2008" . Lrec-conf.org . Consultado el 24 de enero de 2016 .
- ^ "Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF - ISO 24613" (PDF) . Aclweb.org . Consultado el 24 de enero de 2016 .
- ^ Gil Francopoulo (editado por) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )
enlaces externos
- Sitio web de LMF
- Sitio web de LIRICS