UBY [1] es un recurso léxico-semántico a gran escala para el procesamiento del lenguaje natural (NLP) desarrollado en el Ubiquitous Knowledge Processing Lab (UKP) en el departamento de Ciencias de la Computación de la Technische Universität Darmstadt . UBY se basa en el Marco de marcado léxico (LMF) estándar de ISO y combina información de varios recursos construidos por expertos y construidos en colaboración para inglés y alemán.
Versión | 1,7 |
---|---|
Marco de referencia | Java |
Tipo | Recurso semántico léxico multilingüe |
Licencia | Licencias gratuitas para el software, combinación de licencias para los recursos incluidos |
Sitio web | https://www.ukp.tu-darmstadt.de/data/lexical-resources/uby |
UBY aplica un enfoque de alineación de sentido de palabras (subcampo de desambiguación de sentido de palabras ) para combinar información sobre sustantivos y verbos. [2] Actualmente, UBY contiene 12 recursos integrados en inglés y alemán.
Recursos incluidos
Formato
UBY-LMF [3] [4] es un formato para estandarizar recursos léxicos para el procesamiento del lenguaje natural (NLP). [5] UBY-LMF cumple con el estándar ISO para léxicos: LMF , diseñado dentro del ISO-TC37 , y constituye una así llamada serialización de este estándar abstracto. [6] De acuerdo con la LMF, todos los atributos y otros términos lingüísticos introducidos en UBY-LMF se refieren a descripciones estandarizadas de su significado en ISOCat .
Disponibilidad y versiones
UBY está disponible como parte del repositorio de recursos abierto DKPro. DKPro UBY es un marco de Java para crear y acceder a recursos léxicos vinculados a los sentidos de acuerdo con el modelo de léxico UBY-LMF . Si bien el código de UBY se licencia bajo una combinación de licencias gratuitas como GPL y CC de SA , algunos de los recursos incluidos se encuentran bajo diferentes licencias, como el uso académico únicamente .
También existe una versión web semántica de UBY llamada lemonUby. [7] lemonUby se basa en el modelo lemon propuesto en el proyecto Monnet. lemon es un modelo para modelar léxico y diccionarios legibles por máquina y vinculado a la Web Semántica y la nube de Datos Vinculados.
UBY frente a BabelNet
BabelNet es un recurso semántico léxico automático que vincula Wikipedia a los léxicos computacionales más populares como WordNet . A primera vista, UBY y BabelNet parecen ser proyectos idénticos y competitivos; sin embargo, los dos recursos siguen filosofías diferentes. En su etapa inicial, BabelNet se basó principalmente en la alineación de WordNet y Wikipedia, que por la propia naturaleza de Wikipedia implicaba un fuerte enfoque en los sustantivos, y especialmente en las entidades con nombre. Más tarde, el enfoque de BabelNet se desplazó más hacia otras partes del discurso. UBY, sin embargo, se centró desde el principio en la información de los verbos, especialmente, la información sintáctica, que está contenida en recursos, como VerbNet o FrameNet . Otra diferencia principal es que UBY modela otros recursos de forma completa e independiente entre sí, de modo que UBY puede usarse como reemplazo mayorista de cada uno de los recursos contenidos. Se proporciona un acceso colectivo a múltiples recursos a través de las alineaciones de recursos disponibles. Además, el modelo LMF en UBY permite una forma unificada de acceso para todos, así como para los recursos individuales. Mientras tanto, BabelNet sigue un enfoque similar a WordNet y convierte los tipos de información seleccionados en los llamados Babel Synsets. Esto hace que el acceso y procesamiento del conocimiento sea más conveniente, sin embargo, difumina las líneas entre las bases de conocimiento vinculadas. Además, BabelNet enriquece los recursos originales, por ejemplo, proporcionando traducciones creadas automáticamente para conceptos que no están lexicalizados en un idioma en particular. Aunque esto proporciona un gran impulso de cobertura para aplicaciones multilingües, la inferencia automática de información siempre es propensa a cierto grado de error.
En resumen, debido a las diferencias enumeradas entre los dos recursos, el uso de uno u otro podría ser preferible según el escenario de aplicación particular. De hecho, los dos recursos se pueden utilizar para proporcionar un amplio conocimiento lexicográfico, especialmente, si están vinculados entre sí. La estructura abierta y bien documentada de los dos recursos proporciona un hito crucial para lograr este objetivo.
Aplicaciones
UBY se ha utilizado con éxito en diferentes tareas de PNL como Desambiguación de sentido de palabra , [8] Agrupación de sentido de palabra, [9] Etiquetado de sentido de verbo [10] y Clasificación de texto . [11] UBY también inspiró otros proyectos sobre la construcción automática de recursos semánticos léxicos. [12] Además, lemonUby se utilizó para mejorar los resultados de la traducción automática , especialmente, para encontrar traducciones de palabras desconocidas. [13]
Ver también
enlaces externos
Referencias
- ^ Iryna Gurevych ; Judith Eckle-Kohler; Silvana Hartmann; Michael Matuschek; Christian M. Meyer; Christian Wirth (abril de 2012). UBY: un recurso léxico-semántico unificado a gran escala basado en LMF . Actas de la XIII Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional . Actas de la Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional. págs. 580–590. ISBN 978-1-937284-19-0. Wikidata Q51752742 .
- ^ Matuschek, Michael: Alineación del sentido de la palabra de los recursos léxicos. Technische Universität, Darmstadt [Disertación], (2015)
- ^ Judith Eckle-Kohler, Iryna Gurevych, Silvana Hartmann, Michael Matuschek, Christian M Meyer: UBY-LMF - explorando los límites de los modelos de léxico independientes del lenguaje, en Gil Francopoulo, LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )
- ^ Judith Eckle-Kohler, Iryna Gurevych, Silvana Hartmann, Michael Matuschek y Christian M. Meyer. UBY-LMF: un modelo uniforme para estandarizar recursos léxico-semánticos heterogéneos en ISO-LMF. En: Nicoletta Calzolari y Khalid Choukri y Thierry Declerck y Mehmet Uğur Doğan y Bente Maegaard y Joseph Mariani y Jan Odijk y Stelios Piperidis: Actas de la 8ª Conferencia Internacional sobre Recursos y Evaluación del Lenguaje (LREC), p. 275-282, mayo de 2012.
- ^ Gottfried Herzog, Laurent Romary, Andreas Witt: Estándares para los recursos lingüísticos. Presentación de póster en el META-FORUM 2013 - Exposición META, septiembre de 2013, Berlín, Alemania.
- ^ Laurent Romary: Pasos peatonales TEI y LMF. CoRR abs / 1301.2444 (2013)
- ^ Judith Eckle-Kohler, John Philip McCrae y Christian Chiarcos: lemonUby - un recurso léxico grande, interconectado y rico sintácticamente para ontologías. En: Semantic Web Journal, vol. 6, no. 4, pág. 371-378, 2015.
- ^ Christian M. Meyer e Iryna Gurevych: Exhibir no es holgazanear: un wikcionario multilingüe y sin ambigüedades para medir la similitud de los verbos, en: Actas de la 24a Conferencia Internacional sobre Lingüística Computacional (COLING), vol. 4, pág. 1763-1780, diciembre de 2012. Mumbai, India.
- ^ Michael Matuschek, Tristan Miller e Iryna Gurevych: un enfoque de agrupación de sentidos independiente del lenguaje para WSD mejorado. En: Josef Ruppert y Gertrud Faaß: Actas de la XII Konferenz zur Verarbeitung natürlicher Sprache (KONVENS 2014), p. 11-21, Universitätsverlag Hildesheim, octubre de 2014.
- ^ Kostadin Cholakov y Judith Eckle-Kohler e Iryna Gurevych: etiquetado automatizado del sentido del verbo basado en recursos léxicos vinculados. En: Actas de la XIV Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional (EACL 2014), p. 68-77, Asociación de Lingüística Computacional
- ^ Lucie Flekova e Iryna Gurevych: Perfiles de personalidad de personajes de ficción utilizando vínculos a nivel de sentido entre recursos léxicos, en: Actas de la Conferencia de 2015 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP), septiembre de 2015.
- ^ José Gildo de A. Júnior, Ulrich Schiel y Leandro Balby Marinho. 2015. Un enfoque para la construcción de recursos léxico-semánticos a partir de fuentes de información heterogéneas. In Proceedings of the 30th Annual ACM Symposium on Applied Computing (SAC '15). ACM, Nueva York, EE. UU., 402-408. DOI = 10.1145 / 2695664.2695896 http://doi.acm.org/10.1145/2695664.2695896
- ^ JP McCrae, P. Cimiano: Minería de traducciones de la web de datos abiertos vinculados, en: Actas del taller conjunto sobre PNL y LOD y SWAIE: Web semántica, datos abiertos vinculados y extracción de información, págs. 9-13 (2013).