Extracción de relaciones

Una tarea de extracción de relaciones requiere la detección y clasificación de menciones de relaciones semánticas dentro de un conjunto de artefactos , generalmente de documentos de texto o XML . La tarea es muy similar a la de extracción de información (IE), pero IE adicionalmente requiere la eliminación de relaciones repetidas ( desambiguación ) y generalmente se refiere a la extracción de muchas relaciones diferentes.

Aplicaciones

Los dominios de aplicación donde la extracción de relaciones es útil incluyen relaciones gen-enfermedad, ^[1] interacción proteína-proteína ^[2], etc.

El aprendizaje de idiomas interminable es un sistema de aprendizaje automático semántico desarrollado por un equipo de investigación de la Universidad Carnegie Mellon que extrae relaciones de la web abierta.

Enfoques

Un enfoque de este problema implica el uso de ontologías de dominio . ^[3]^[4] Otro enfoque implica la detección visual de relaciones significativas en valores paramétricos de objetos enumerados en una tabla de datos que cambian de posición a medida que la tabla se permuta automáticamente según lo controla el usuario del software. La escasa cobertura, rareza y coste de desarrollo relacionados con recursos estructurados como léxicos semánticos (p. Ej. , WordNet , UMLS ) y ontologías de dominio (p. Ej., La ontología genética ) ha dado lugar a nuevos enfoques basados en un conocimiento amplio y dinámico de la Web. Por ejemplo, la técnica ARCHILES ^[5] utiliza únicamente Wikipedia y el recuento de páginas del motor de búsqueda para adquirir relaciones de grano grueso para construir ontologías ligeras.

Las relaciones se pueden representar utilizando una variedad de formalismos / lenguajes. Uno de esos lenguajes de representación de datos en la Web es RDF .

Más recientemente, se han propuesto sistemas de extremo a extremo que aprenden conjuntamente a extraer menciones de entidades y sus relaciones semánticas con un fuerte potencial para obtener un alto rendimiento. ^[6]

La mayoría de los sistemas informados han demostrado su enfoque en el conjunto de datos en inglés. Sin embargo, se han descrito datos y sistemas para otros idiomas, por ejemplo, ruso ^[7] y vietnamita . ^[8]

Conjuntos de datos

Los investigadores han construido múltiples conjuntos de datos para comparar métodos de extracción de relaciones. ^[9] Uno de esos conjuntos de datos fue el conjunto de datos de extracción de relaciones a nivel de documento llamado DocRED lanzado en 2019. Utiliza relaciones de Wikidata y texto de la Wikipedia en inglés . ^[9] El conjunto de datos ha sido utilizado por otros investigadores y se ha establecido una competencia de predicción en CodaLab . ^[10]^[11]

Ver también

Referencias

^ Hong-Woo Chun; Yoshimasa Tsuruoka; Jin-Dong Kim; Rie Shiba; Naoki Nagata; Teruyoshi Hishiki; Jun-ichi Tsujii (2006). "Extracción de relaciones gen-enfermedad de Medline mediante diccionarios de dominio y aprendizaje automático". Simposio del Pacífico sobre Biocomputación . CiteSeerX 10.1.1.105.9656 .
^ Minlie Huang y Xiaoyan Zhu y Yu Hao y Donald G. Payan y Kunbin Qu y Ming Li (2004). "Descubriendo patrones para extraer interacciones proteína-proteína de textos completos" . Bioinformática . 20 (18): 3604–3612. doi : 10.1093 / bioinformatics / bth451 . PMID 15284092 . Parámetro desconocido |book-title=ignorado ( ayuda )
^ TCRindflesch y L.Tanabe y JNWeinstein y L.Hunter (2000). "EDGAR: Extracción de fármacos, genes y relaciones de la literatura biomédica". Proc. Simposio del Pacífico sobre Biocomputación . págs. 514–525. PMC 2709525 .
^ C. Ramakrishnan y KJ Kochut y AP Sheth (2006). "Un marco para el descubrimiento de relaciones basadas en esquemas a partir de texto no estructurado" . Proc. Conferencia Internacional de Web Semántica . págs. 583–596.
^ W. Wong y W. Liu y M. Bennamoun (2009). "Adquirir relaciones semánticas utilizando la Web para la construcción de ontologías ligeras". Proc. 13ª Conferencia de Asia Pacífico sobre descubrimiento de conocimientos y minería de datos (PAKDD) . doi : 10.1007 / 978-3-642-01307-2_26 .
^ Dat Quoc Nguyen y Karin Verspoor (2019). "Extracción de la relación neuronal de un extremo a otro mediante la atención biafina profunda". Actas de la 41ª Conferencia Europea sobre Recuperación de Información (ECIR) . arXiv : 1812.11275 . doi : 10.1007 / 978-3-030-15712-8_47 .
^ Elena Bruches; Alexey Pauls; Tatiana Batura; Vladimir Isachenko (14 de diciembre de 2020), Reconocimiento de entidades y extracción de relaciones de textos científicos y técnicos en ruso (PDF) , arXiv : 2011.09817 , Wikidata Q104419957
^ Pham Quang Nhat Minh (18 de diciembre de 2020), Un estudio empírico sobre el uso de modelos BERT previamente entrenados para la tarea de extracción de relaciones vietnamitas en VLSP 2020 (PDF) , arXiv : 2012.10275 , Wikidata Q104418048
^ a b Yuan Yao; Deming Ye; Peng Li; et al. (2019). "DocRED: un conjunto de datos de extracción de relaciones a gran escala a nivel de documentos" (PDF) . Actas de la 57ª Reunión Anual de la Asociación de Lingüística Computacional : 764–777. arXiv : 1906.06127 . doi : 10.18653 / V1 / P19-1074 . Wikidata Q104419388 .
^ Wang Xu; Kehai Chen; Tiejun Zhao (21 de diciembre de 2020), Extracción de relación a nivel de documento con reconstrucción (PDF) , arXiv : 2012.11384 , Wikidata Q104417795
^ "DocRED. Concurso. CodaLab" .

Este artículo de ciencias de la computación es un fragmento . Puedes ayudar a Wikipedia expandiéndolo .

[Chun06-1] Hong-Woo Chun; Yoshimasa Tsuruoka; Jin-Dong Kim; Rie Shiba; Naoki Nagata; Teruyoshi Hishiki; Jun-ichi Tsujii (2006). "Extracción de relaciones gen-enfermedad de Medline mediante diccionarios de dominio y aprendizaje automático". Simposio del Pacífico sobre Biocomputación . CiteSeerX 10.1.1.105.9656 .

[huang04-2] Minlie Huang y Xiaoyan Zhu y Yu Hao y Donald G. Payan y Kunbin Qu y Ming Li (2004). "Descubriendo patrones para extraer interacciones proteína-proteína de textos completos" . Bioinformática . 20 (18): 3604–3612. doi : 10.1093 / bioinformatics / bth451 . PMID 15284092 . Parámetro desconocido |book-title=ignorado ( ayuda )

[rindflesch00-3] TCRindflesch y L.Tanabe y JNWeinstein y L.Hunter (2000). "EDGAR: Extracción de fármacos, genes y relaciones de la literatura biomédica". Proc. Simposio del Pacífico sobre Biocomputación . págs. 514–525. PMC 2709525 .

[ramakrishnan06-4] C. Ramakrishnan y KJ Kochut y AP Sheth (2006). "Un marco para el descubrimiento de relaciones basadas en esquemas a partir de texto no estructurado" . Proc. Conferencia Internacional de Web Semántica . págs. 583–596.

[wongetal09-5] W. Wong y W. Liu y M. Bennamoun (2009). "Adquirir relaciones semánticas utilizando la Web para la construcción de ontologías ligeras". Proc. 13ª Conferencia de Asia Pacífico sobre descubrimiento de conocimientos y minería de datos (PAKDD) . doi : 10.1007 / 978-3-642-01307-2_26 .

[ecir2019-6] Dat Quoc Nguyen y Karin Verspoor (2019). "Extracción de la relación neuronal de un extremo a otro mediante la atención biafina profunda". Actas de la 41ª Conferencia Europea sobre Recuperación de Información (ECIR) . arXiv : 1812.11275 . doi : 10.1007 / 978-3-030-15712-8_47 .

[7] Elena Bruches; Alexey Pauls; Tatiana Batura; Vladimir Isachenko (14 de diciembre de 2020), Reconocimiento de entidades y extracción de relaciones de textos científicos y técnicos en ruso (PDF) , arXiv : 2011.09817 , Wikidata Q104419957

[8] Pham Quang Nhat Minh (18 de diciembre de 2020), Un estudio empírico sobre el uso de modelos BERT previamente entrenados para la tarea de extracción de relaciones vietnamitas en VLSP 2020 (PDF) , arXiv : 2012.10275 , Wikidata Q104418048

[DocRED:_A_Large-Scale_Document-Level_Relation_Extraction_Dataset-9] Yuan Yao; Deming Ye; Peng Li; et al. (2019). "DocRED: un conjunto de datos de extracción de relaciones a gran escala a nivel de documentos" (PDF) . Actas de la 57ª Reunión Anual de la Asociación de Lingüística Computacional : 764–777. arXiv : 1906.06127 . doi : 10.18653 / V1 / P19-1074 . Wikidata Q104419388 .

[10] Wang Xu; Kehai Chen; Tiejun Zhao (21 de diciembre de 2020), Extracción de relación a nivel de documento con reconstrucción (PDF) , arXiv : 2012.11384 , Wikidata Q104417795

[11] "DocRED. Concurso. CodaLab" .

[1]