Vinculación de entidades

En el procesamiento del lenguaje natural , la vinculación de entidades , también conocida como vinculación de entidades con nombre (NEL), ^[1] desambiguación de entidades con nombres (NED), reconocimiento y desambiguación de entidades con nombres (NERD) o normalización de entidades con nombres (NEN) ^{[2 ]} es la tarea de asignar una identidad única a las entidades (como personas famosas, ubicaciones o empresas) mencionadas en el texto. Por ejemplo, dada la oración "París es la capital de Francia" , la idea es determinar que "París" se refiere a la ciudad de París y no a Paris Hilton.o cualquier otra entidad que pueda denominarse "París" . La vinculación de entidades es diferente del reconocimiento de entidades nombradas (NER) en que NER identifica la ocurrencia de una entidad nombrada en el texto, pero no identifica qué entidad específica es (ver Diferencias con otras técnicas ).

En la vinculación de entidades, cada entidad nombrada está vinculada a un identificador único. A menudo, este identificador corresponde a una página de Wikipedia.

Introducción

En la vinculación de entidades, las palabras de interés (nombres de personas, ubicaciones y empresas) se asignan a partir de un texto de entrada a las entidades únicas correspondientes en una base de conocimientos de destino . Las palabras de interés se denominan entidades nombradas (NE), menciones o formas superficiales. La base de conocimiento de destino depende de la aplicación prevista, pero para los sistemas de vinculación de entidades destinados a trabajar en texto de dominio abierto, es común utilizar bases de conocimiento derivadas de Wikipedia (como Wikidata o DBpedia ). ^[2]^[3] En este caso, cada página de Wikipedia individual se considera una entidad separada. Las técnicas de vinculación de entidades que asignan entidades con nombre a entidades de Wikipedia también se denominan wikificación . ^[4]

Considerando nuevamente la oración de ejemplo "París es la capital de Francia" , el resultado esperado de un sistema de vinculación de entidades será París y Francia . Estos localizadores uniformes de recursos (URL) se pueden utilizar como identificadores uniformes de recursos (URI) únicos para las entidades de la base de conocimientos. El uso de una base de conocimiento diferente devolverá diferentes URI, pero para las bases de conocimiento creadas a partir de Wikipedia existen asignaciones de URI uno a uno. ^[5]

En la mayoría de los casos, las bases de conocimiento se construyen manualmente, ^[6] pero en aplicaciones donde se encuentran disponibles grandes corpus de texto , la base de conocimiento se puede inferir automáticamente del texto disponible . ^[7]

La vinculación de entidades es un paso crítico para unir datos web con bases de conocimiento, lo cual es beneficioso para anotar la enorme cantidad de datos sin procesar y, a menudo, ruidosos en la web y contribuye a la visión de la web semántica . ^[8] Además de la vinculación de entidades, hay otros pasos críticos que incluyen, entre otros, la extracción de eventos, ^[9] y la vinculación de eventos ^[10], etc.

Aplicaciones

La vinculación de entidades es beneficiosa en campos que necesitan extraer representaciones abstractas del texto, como ocurre en el análisis de texto, los sistemas de recomendación , la búsqueda semántica y los chatbots. En todos estos campos, los conceptos relevantes para la aplicación están separados del texto y otros datos no significativos. ^[11]^[12]

Por ejemplo, una tarea común realizada por los motores de búsqueda es encontrar documentos que sean similares a uno dado como entrada, o encontrar información adicional sobre las personas que se mencionan en él. Considere una oración que contiene la expresión "la capital de Francia" : sin la vinculación de entidades, el motor de búsqueda que analiza el contenido de los documentos no podría recuperar directamente los documentos que contienen la palabra "París" , lo que da lugar a los llamados falsos negativos. (FN). Peor aún, el motor de búsqueda puede producir coincidencias falsas (o falsos positivos (FP)), como la recuperación de documentos que se refieren a "Francia" como país.

Existen muchos enfoques ortogonales a la vinculación de entidades para recuperar documentos similares a un documento de entrada. Por ejemplo, análisis semántico latente (LSA) o comparación de incrustaciones de documentos obtenidas con doc2vec . Sin embargo, estas técnicas no permiten el mismo control detallado que ofrece la vinculación de entidades, ya que devolverán otros documentos en lugar de crear representaciones de alto nivel del original. Por ejemplo, obtener información esquemática sobre "París" , tal como la presentan los infoboxes de Wikipedia , sería mucho menos sencillo o, en ocasiones, incluso inviable, según la complejidad de la consulta. ^[13]

Además, la vinculación de entidades se ha utilizado para mejorar el rendimiento de los sistemas de recuperación de información ^[2] y para mejorar el rendimiento de la búsqueda en bibliotecas digitales. ^{[14] La} vinculación de entidades también es una entrada clave para la búsqueda semántica . ^[15]

Desafíos en la vinculación de entidades

Un sistema de vinculación de entidades tiene que hacer frente a una serie de desafíos antes de ser eficaz en aplicaciones de la vida real. Algunos de estos problemas son intrínsecos a la tarea de vinculación de entidades, ^[16] como la ambigüedad del texto, mientras que otros, como la escalabilidad y el tiempo de ejecución, se vuelven relevantes cuando se considera el uso real de dichos sistemas.

Variaciones de nombre : la misma entidad puede aparecer con representaciones textuales. Las fuentes de estas variaciones incluyen abreviaturas ( Nueva York , NY ), alias ( Nueva York , Gran Manzana ) o variaciones y errores ortográficos ( Nueva yokr ).

Ambigüedad : la misma mención a menudo puede referirse a muchas entidades diferentes, dependiendo del contexto, ya que muchos nombres de entidades tienden a ser polisémicos (es decir, tienen múltiples significados). La palabra París , entre otras cosas, podría referirse a la capital francesa oa Paris Hilton . En algunos casos (como en la capital de Francia ), no hay similitud textual entre el texto de la mención y la entidad de destino real ( París ).

Ausencia : a veces, es posible que algunas entidades nombradas no tengan un vínculo de entidad correcto en la base de conocimiento de destino. Esto puede suceder cuando se trata de entidades muy específicas o inusuales, o cuando se procesan documentos sobre eventos recientes, en los que puede haber menciones de personas o eventos que aún no tienen una entidad correspondiente en la base de conocimiento. Otra situación común en la que faltan entidades es cuando se utilizan bases de conocimiento específicas del dominio (por ejemplo, una base de conocimientos de biología o una base de datos de películas). En todos estos casos, el sistema de vinculación de entidades debe devolver un NILvínculo de entidad. Entender cuándo devolver una NILpredicción no es sencillo y se han propuesto muchos enfoques diferentes; por ejemplo, estableciendo un umbral de algún tipo de puntuación de confianza en el sistema de vinculación de entidades, o agregando una NILentidad adicional a la base de conocimientos, que se trata de la misma manera que las otras entidades. Además, en algunos casos, proporcionar una predicción de enlace de entidad incorrecta, pero relacionada, puede ser mejor que ningún resultado desde la perspectiva de un usuario final. ^[dieciséis]

Escalabilidad y velocidad : es deseable que un sistema de vinculación de entidades industriales proporcione resultados en un tiempo razonable y, a menudo, en tiempo real. Este requisito es fundamental para los motores de búsqueda, los chat-bots y los sistemas de enlace de entidades que ofrecen las plataformas de análisis de datos. Asegurar un tiempo de ejecución reducido puede ser un desafío cuando se utilizan grandes bases de conocimientos o cuando se procesan documentos grandes. ^[17] Por ejemplo, Wikipedia contiene casi 9 millones de entidades y más de 170 millones de relaciones entre ellas.

Información en evolución : un sistema de vinculación de entidades también debe ocuparse de la información en evolución e integrar fácilmente las actualizaciones en la base de conocimientos. El problema de la evolución de la información a veces está relacionado con el problema de las entidades faltantes, por ejemplo, al procesar artículos de noticias recientes en los que hay menciones de eventos que no tienen una entrada correspondiente en la base de conocimiento debido a su novedad. ^[18]

Varios idiomas : un sistema de vinculación de entidades puede admitir consultas realizadas en varios idiomas. Idealmente, la precisión del sistema de vinculación de entidades no debería verse influenciada por el idioma de entrada, y las entidades de la base de conocimientos deberían ser las mismas en diferentes idiomas. ^[19]

Diferencias con otras técnicas

La vinculación de entidades también se conoce como desambiguación de entidades nombradas (NED) y está profundamente conectada con la Wikificación y la vinculación de registros . ^{[20] Las} definiciones suelen ser borrosas y varían ligeramente entre los diferentes autores: Alhelbawy et al. ^[21] considere la vinculación de entidades como una versión más amplia de NED, ya que NED debe asumir que la entidad que coincide correctamente con una determinada mención textual de entidad con nombre está en la base de conocimientos. Los sistemas de vinculación de entidades pueden tratar casos en los que no hay ninguna entrada disponible para la entidad nombrada en la base de conocimientos de referencia. Otros autores no hacen tal distinción y usan los dos nombres indistintamente. ^[22]^[23]

La wikificación es la tarea de vincular menciones textuales a entidades en Wikipedia (generalmente, limitando el alcance a la Wikipedia en inglés en caso de wikificación en varios idiomas).

La vinculación de registros (RL) se considera un campo más amplio que la vinculación de entidades y consiste en encontrar registros, en múltiples conjuntos de datos, a menudo heterogéneos, que se refieren a la misma entidad. ^[14] La vinculación de registros es un componente clave para digitalizar archivos y para unir múltiples bases de conocimiento. ^[14]

El reconocimiento de entidades con nombre ubica y clasifica las entidades con nombre en texto no estructurado en categorías predefinidas, como nombres, organizaciones, ubicaciones y más. Por ejemplo, la siguiente oración:

París es la capital de Francia.

sería procesado por un sistema NER para obtener el siguiente resultado:

[ París ] _City es la capital de [ Francia ] _País .

El reconocimiento de entidades nombradas suele ser un paso previo al procesamiento de un sistema de vinculación de entidades, ya que puede ser útil saber de antemano qué palabras deben vincularse a entidades de la base de conocimientos.

La resolución de correferencia comprende si varias palabras en un texto se refieren a la misma entidad. Puede ser útil, por ejemplo, comprender la palabra a la que se refiere un pronombre. Considere el siguiente ejemplo:

París es la capital de Francia. También es la ciudad más grande de Francia.

En este ejemplo, un algoritmo de resolución de correferencia identificaría que el pronombre Se refiere a París y no a Francia ni a otra entidad. Una distinción notable en comparación con la vinculación de entidades es que la resolución de correferencia no asigna ninguna identidad única a las palabras que coincide, sino que simplemente dice si se refieren a la misma entidad o no. En ese sentido, las predicciones de un sistema de resolución de correferencia podrían ser útiles para un componente de vinculación de entidades posterior.

Enfoques para vincular entidades

La vinculación de entidades ha sido un tema candente en la industria y el mundo académico durante la última década. Sin embargo, a día de hoy, la mayoría de los desafíos existentes siguen sin resolverse y se han propuesto muchos sistemas de vinculación de entidades, con fortalezas y debilidades muy diferentes. ^[24]

En términos generales, los sistemas modernos de vinculación de entidades se pueden dividir en dos categorías:

Enfoques basados en texto , que hacen uso de características textuales extraídas de grandes corpus de texto (por ejemplo, Frecuencia de términos - Frecuencia de documentos inversa (Tf-Idf), probabilidades de co-ocurrencia de palabras, etc.). ^[25]^[16]
Enfoques basados en gráficos , que explotan la estructura de los gráficos de conocimiento para representar el contexto y la relación de entidades. ^[3]^[26]

A menudo, los sistemas de vinculación de entidades no pueden clasificarse estrictamente en ninguna de las categorías, pero hacen uso de gráficos de conocimiento que se han enriquecido con características textuales adicionales extraídas, por ejemplo, de los corpus de texto que se utilizaron para construir los propios gráficos de conocimiento. ^[22]^[23]

Representación de los pasos principales en un algoritmo de vinculación de entidades. La mayoría de los algoritmos de vinculación de entidades se componen de un paso inicial de reconocimiento de entidades nombradas en el que las entidades nombradas se encuentran en el texto original (aquí, París y Francia), y de un paso posterior en el que cada entidad nombrada está vinculada a su identificador único correspondiente ( aquí, una página de Wikipedia). Este último paso a menudo se realiza creando un pequeño conjunto de identificadores candidatos para cada entidad nombrada y eligiendo el candidato más prometedor con respecto a una métrica elegida.

Vinculación de entidades basada en texto

El trabajo fundamental de Cucerzan en 2007 propuso uno de los primeros sistemas de vinculación de entidades que apareció en la literatura, y abordó la tarea de la wikificación, vinculando menciones textuales a páginas de Wikipedia. ^[25] Este sistema divide las páginas como páginas de entidad, desambiguación o lista, que se utilizan para asignar categorías a cada entidad. El conjunto de entidades presentes en cada página de entidad se utiliza para construir el contexto de la entidad. El paso final de vinculación de entidades es una desambiguación colectiva realizada mediante la comparación de vectores binarios obtenidos de características hechas a mano y del contexto de cada entidad. El sistema de vinculación de entidades de Cucerzan todavía se utiliza como base para muchos trabajos recientes. ^[27]

El trabajo de Rao et al. es un documento muy conocido en el campo de la vinculación de entidades. ^[16] Los autores proponen un algoritmo de dos pasos para vincular entidades con nombre a entidades en una base de conocimiento de destino. En primer lugar, se elige un conjunto de entidades candidatas mediante la concordancia de cadenas, acrónimos y alias conocidos. Luego, se elige el mejor vínculo entre los candidatos con una máquina de vectores de soporte de clasificación (SVM) que utiliza características lingüísticas.

Los sistemas recientes, como el propuesto por Tsai et al., ^[20] emplean incrustaciones de palabras obtenidas con un modelo de omisión de gramática como características del lenguaje, y se pueden aplicar a cualquier idioma siempre que se proporcione un corpus grande para construir incrustaciones de palabras. . De manera similar a la mayoría de los sistemas de vinculación de entidades, la vinculación se realiza en dos pasos, con una selección inicial de entidades candidatas y una SVM de clasificación lineal como segundo paso.

Se han intentado varios enfoques para abordar el problema de la ambigüedad de las entidades. En el enfoque fundamental de Milne y Witten, el aprendizaje supervisado se emplea utilizando los textos de anclaje de las entidades de Wikipedia como datos de entrenamiento. ^[28] Otros enfoques también recopilaron datos de entrenamiento basados en sinónimos inequívocos. ^[29]

Vinculación de entidades basada en gráficos

Los sistemas modernos de vinculación de entidades no limitan su análisis a características textuales generadas a partir de documentos de entrada o corpus de texto, sino que emplean grandes gráficos de conocimiento creados a partir de bases de conocimiento como Wikipedia. Estos sistemas extraen características complejas que aprovechan la topología del gráfico de conocimiento o aprovechan las conexiones de varios pasos entre entidades, que se ocultarían mediante un simple análisis de texto. Además, la creación de sistemas de enlace de entidades multilingües basados en el procesamiento del lenguaje natural (PNL) es intrínsecamente difícil, ya que requiere grandes corpus de texto, a menudo ausentes en muchos idiomas, o reglas gramaticales hechas a mano, que son muy diferentes entre los idiomas. Han y col. proponer la creación de un gráfico de desambiguación (un subgráfico de la base de conocimientos que contiene entidades candidatas). ^[3] Este gráfico se emplea para un procedimiento de clasificación puramente colectivo que encuentra el mejor enlace candidato para cada mención textual.

Otro enfoque de vinculación de entidades famoso es AIDA, que utiliza una serie de algoritmos de gráficos complejos y un algoritmo codicioso que identifica menciones coherentes en un subgrafo denso al considerar también las similitudes de contexto y las características de importancia de vértice para realizar la desambiguación colectiva. ^[26]

La clasificación de gráficos (o clasificación de vértices) denota algoritmos como PageRank (PR) y búsqueda de temas inducida por hipervínculos (HITS), con el objetivo de asignar una puntuación a cada vértice que represente su importancia relativa en el gráfico general. El sistema de vinculación de entidades presentado en Alhelbawy et al. emplea PageRank para realizar la vinculación colectiva de entidades en un gráfico de desambiguación y para comprender qué entidades están más estrechamente relacionadas entre sí y representarían una mejor vinculación. ^[21]

Vinculación de entidades matemáticas

Las expresiones matemáticas (símbolos y fórmulas) se pueden vincular a entidades semánticas (por ejemplo, artículos de Wikipedia ^[30] o elementos de Wikidata ^[31] ) etiquetados con su significado en lenguaje natural. Esto es esencial para la desambiguación, ya que los símbolos pueden tener diferentes significados (por ejemplo, "E" puede ser "energía" o "valor esperado", etc.). ^[32]^[33] El proceso de vinculación de entidades matemáticas puede facilitarse y acelerarse mediante la recomendación de anotaciones, por ejemplo, utilizando el sistema "AnnoMathTeX" alojado en Wikimedia. ^[34]^[35]^[36]

Para facilitar la reproducibilidad de los experimentos de vinculación de entidades matemáticas (MathEL), se creó el punto de referencia MathMLben. ^[37]^[38] Contiene fórmulas de Wikipedia, arXiV y la Biblioteca Digital de Funciones Matemáticas (DLMF) del NIST. Las entradas de fórmulas en el punto de referencia están etiquetadas y aumentadas por el marcado de Wikidata . ^[31] Además, para dos grandes corporae del repositorio arXiv ^[39] y zbMATH ^[40] se examinaron distribuciones de notación matemática. Los objetos matemáticos de interés (MOI) se identifican como candidatos potenciales para MathEL. ^[41]

Además de vincular a Wikipedia, Schubotz ^[38] y Scharpf et al. ^[31] describen la vinculación del contenido de fórmulas matemáticas con Wikidata, tanto en el marcado MathML como en LaTeX . Para extender las citas clásicas por matemáticas, piden un desafío de Descubrimiento de conceptos de fórmulas (FCD) y Reconocimiento de conceptos de fórmulas (FCR) para elaborar MathEL automatizado. Su enfoque FCD produce una recuperación del 68% para recuperar representaciones equivalentes de fórmulas frecuentes y del 72% para extraer el nombre de la fórmula del texto circundante en el conjunto de datos arXiv de NTCIR ^[42] . ^[36]

Ver también

Vocabulario controlado
Análisis semántico explícito
Geoparsing
Extracción de información
Datos vinculados
Entidad nombrada
Reconocimiento de entidad designada
Vinculación de registros
Desambiguación del sentido de la palabra
Desambiguación del nombre del autor
Correferencia
Anotación

Referencias

^ Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (1 de enero de 2013). "Inteligencia artificial, Wikipedia y recursos semiestructuradosEvaluación de vinculación de entidades con Wikipedia" . Inteligencia artificial . 194 : 130-150. doi : 10.1016 / j.artint.2012.04.005 .
↑ a b c M. A. Khalid, V. Jijkoun y M. de Rijke (2008). El impacto de la normalización de entidades nombradas en la recuperación de información para responder preguntas . Proc. ECIR.
^ a b c Han, Xianpei; Sun, Le; Zhao, junio (2011). "Vinculación de entidades colectivas en texto web: un método basado en gráficos" . Actas de la 34ª Conferencia Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información . ACM: 765–774. doi : 10.1145 / 2009916.2010019 . S2CID 14428938 .
^ Rada Mihalcea y Andras Csomai (2007) ¡Wikify! Vinculación de documentos al conocimiento enciclopédico . Proc. CIKM.
^ "Enlaces de Wikipedia" .
^ Wikidata
^ Aaron M. Cohen (2005). Normalización de entidad denominada gen / proteína no supervisada utilizando diccionarios extraídos automáticamente. Proc. Taller ACL -ISMB sobre la vinculación de la literatura biológica, las ontologías y las bases de datos: Semántica biológica minera, págs. 17–24.
^ Shen W, Wang J, Han J. Entidad que se vincula con una base de conocimientos: problemas, técnicas y soluciones [J]. Transacciones IEEE sobre conocimiento e ingeniería de datos, 2014, 27 (2): 443-460.
^ Chang YC, Chu CH, Su YC, et al. PIPE: un módulo de extracción de pasajes de interacción proteína-proteína para el desafío BioCreative [J]. Base de datos, 2016, 2016.
^ Lou P, Jimeno Yepes A, Zhang Z, et al. BioNorm: normalización de eventos basada en aprendizaje profundo para la conservación de bases de datos de reacciones [J]. Bioinformática, 2020, 36 (2): 611-620.
^ Slawski, Bill. "Cómo utiliza Google la desambiguación de entidades con nombre para entidades con los mismos nombres" .
^ Zhou, Ming; Lv, Weifeng; Ren, Pengjie; Wei, Furu; Tan, Chuanqi (2017). "Entidad de vinculación para consultas mediante la búsqueda de frases de Wikipedia" . Actas de la Conferencia de 2017 sobre métodos empíricos en el procesamiento del lenguaje natural . págs. 68–77. arXiv : 1704.02788 . doi : 10.18653 / v1 / D17-1007 . S2CID 1125678 .
^ Le, Quoc; Mikolov, Tomas (2014). "Representaciones distribuidas de sentencias y documentos" . Actas de la 31a Conferencia Internacional sobre Conferencia Internacional sobre Aprendizaje Automático - Volumen 32 . JMLR.org: II – 1188 – II – 1196. arXiv : 1405.4053 .
^ a b c Hui Han, Hongyuan Zha, C. Lee Giles, "Desambiguación de nombres en citas de autores utilizando un método de agrupamiento espectral de K-way", Conferencia conjunta ACM / IEEE sobre bibliotecas digitales 2005 (JCDL 2005): 334-343, 2005
^ STICS
^ a b c d Rao, Delip; McNamee, Paul; Dredze, Mark (2013). "Vinculación de entidades: encontrar entidades extraídas en una base de conocimientos". Extracción y resumen de información multilingüe y de múltiples fuentes . Teoría y aplicaciones del procesamiento del lenguaje natural. Springer Berlin Heidelberg: 93-115. doi : 10.1007 / 978-3-642-28569-1_5 . ISBN 978-3-642-28568-4.
^ Parravicini, Alberto; Patra, Rhicheek; Bartolini, Davide B .; Santambrogio, Marco D. (2019). "Vinculación de entidades rápida y precisa mediante la incrustación de gráficos" . Actas del 2º Taller Internacional Conjunto sobre Experiencias y Sistemas de Gestión de Datos Gráficos (GRADES) y Análisis de Datos de Red (NDA) . ACM: 10: 1–10: 9. doi : 10.1145 / 3327964.3328499 . hdl : 11311/1119019 . ISBN 9781450367899. S2CID 195357229 .
^ Hoffart, Johannes; Altun, Yasemin; Weikum, Gerhard (2014). "Descubrimiento de entidades emergentes con nombres ambiguos" . Actas de la 23ª Conferencia Internacional sobre World Wide Web . ACM: 385–396. doi : 10.1145 / 2566486.2568003 . ISBN 9781450327442. S2CID 7562986 .
^ Doermann, David S .; Oard, Douglas W .; Lawrie, Dawn J .; Mayfield, James; McNamee, Paul (2011). "Vinculación de entidades entre idiomas". Indefinido . S2CID 3801685 .
^ a b Tsai, Chen-Tse; Roth, Dan (2016). "Wikificación translingual mediante incrustaciones multilingües" . Actas de NAACL-HLT 2016: 589–598. Cite journal requiere |journal=( ayuda )
^ a b Alhelbawy, Ayman; Gaizauskas, Robert. "Desambiguación de entidades con nombre colectivo utilizando enfoques de partición de pandillas y ranking de gráficos" . Actas de COLING 2014, 25ª Conferencia Internacional sobre Lingüística Computacional: Artículos técnicos (Universidad de la ciudad de Dublín y Asociación de Lingüística Computacional): 1544-1555. Cite journal requiere |journal=( ayuda )
^ a b Zwicklbauer, Stefan; Seifert, Christin; Granitzer, Michael (2016). "Desambiguación robusta y colectiva de entidades mediante incrustaciones semánticas" . Actas de la 39ª Conferencia Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información . ACM: 425–434. doi : 10.1145 / 2911451.2911535 . ISBN 9781450340694. S2CID 207237647 .
^ a b Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013). "Evaluación de la vinculación de entidades con Wikipedia" . Artif. Intell . 194 : 130-150. doi : 10.1016 / j.artint.2012.04.005 . ISSN 0004-3702 .
^ Ji, Heng; Nothman, Joel; Hachey, Ben; Florian, Radu (2015). "Descripción general de la vinculación y descubrimiento de entidades trilingües TAC-KBP2015". TAC .
^ a b Cucerzan, Silviu. "Desambiguación de entidad nombrada a gran escala basada en datos de Wikipedia" . Actas de la Conferencia conjunta de 2007 sobre métodos empíricos en el procesamiento del lenguaje natural y el aprendizaje computacional del lenguaje natural (EMNLP-CoNLL): 708–716. Cite journal requiere |journal=( ayuda )
^ a b Weikum, Gerhard; Thater, Stefan; Taneva, Bilyana; Spaniol, Marc; Pinkal, Manfred; Fürstenau, Hagen; Bordino, Ilaria; Yosef, Mohamed Amir; Hoffart, Johannes (2011). "Desambiguación robusta de entidades nombradas en el texto" . Actas de la Conferencia de 2011 sobre métodos empíricos en el procesamiento del lenguaje natural : 782–792.
^ Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Anotación colectiva de entidades de Wikipedia en texto web . Proc. 15ª Conf. Int'l ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos (KDD). doi : 10.1145 / 1557019.1557073 . ISBN 9781605584959.
^ David Milne e Ian H. Witten (2008). Aprendiendo a enlazar con Wikipedia. Proc. CIKM.
^ Zhang, Wei; Jian Su; Chew Lim Tan (2010). "Entidad vinculación aprovechando la anotación generada automáticamente". Actas de la 23ª Conferencia Internacional de Lingüística Computacional (Coling 2010) .
^ Giovanni Yoko Kristianto; Tema de Goran; Akiko Aizawa; et al. (2016). "Entidad de vinculación para expresiones matemáticas en documentos científicos". Conferencia internacional sobre bibliotecas digitales asiáticas . Apuntes de conferencias en informática. Saltador. 10075 : 144-149. doi : 10.1007 / 978-3-319-49304-6_18 . ISBN 978-3-319-49303-9.
^ a b c Philipp Scharpf; Moritz Schubotz; et al. (2018). "Representación de fórmulas matemáticas en contenido MathML usando Wikidata". Parámetro desconocido |conference=ignorado ( ayuda )
^ Moritz Schubotz; Philipp Scharpf; et al. (2018). "Presentación de MathQA: un sistema de respuesta a preguntas de Math-Aware". Descubrimiento y entrega de información . Emerald Publishing Limited. 46 (4): 214–224. arXiv : 1907.01642 . doi : 10.1108 / IDD-06-2018-0022 . S2CID 49484035 .
^ Philipp Scharpf; Moritz Schubotz; et al. (2018). "Representación de fórmulas matemáticas en contenido MathML usando Wikidata". Parámetro desconocido |conference=ignorado ( ayuda )
^ "Sistema de recomendación de anotación de identificador / fórmula AnnoMathTeX" .
^ Philipp Scharpf; Ian Mackerracher; et al. (17 de septiembre de 2019). "AnnoMathTeX: un sistema de recomendación de anotaciones de identificadores de fórmulas para documentos STEM" (PDF) . Actas de la 13ª Conferencia de ACM sobre sistemas de recomendación (RecSys 2019) : 532–533. doi : 10.1145 / 3298689.3347042 . ISBN 9781450362436. S2CID 202639987 .
^ a b Philipp Scharpf; Moritz Schubotz; Bela Gipp (14 de abril de 2021). "Vínculo rápido de entidades de Wikidata matemática en artículos de Wikipedia mediante recomendación de anotación" (PDF) . Actas complementarias de la conferencia web 2021 (WWW '21 Companion) . arXiv : 2104.05111 . doi : 10.1145 / 3442442.3452348 (inactivo 2021-05-24).Mantenimiento de CS1: DOI inactivo a partir de mayo de 2021 ( enlace )
^ "Punto de referencia de la fórmula MathMLben" .
^ a b Moritz Schubotz; André Greiner-Petter; Philipp Scharpf; Norman Meuschke; Howard Cohl; Bela Gipp (2018). "Mejora de la representación y conversión de fórmulas matemáticas considerando su contexto textual" (PDF) . 18 ° ACM / IEEE sobre la conferencia conjunta sobre bibliotecas digitales 2018 : 233–242. arXiv : 1804.04956 . doi : 10.1145 / 3197026.3197058 . ISBN 9781450351782.
^ "repositorio de preimpresión arXiv" .
^ "Biblioteca de documentos matemáticos zbMath" .
^ André Greiner-Petter; Moritz Schubotz; Fabian Mueller; Corinna Breitinger; Howard S. Cohl; Akiko Aizawa; Bela Gipp (2020). "Descubrimiento de objetos matemáticos de interés: un estudio de notaciones matemáticas" (PDF) . Actas de la Conferencia Web 2020 (WWW '20) : 1445–1456. arXiv : 2002.02712 . doi : 10.1145 / 3366423.3380218 . ISBN 9781450370233.
^ Akiko Aizawa; Michael Kohlhase; Iadh Ounis; Moritz Schubotz. "Resumen de la tarea NTCIR-11 Math-2". Actas de la 11ª Conferencia del NTCIR sobre evaluación de tecnologías de acceso a la información .

[1] Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (1 de enero de 2013). "Inteligencia artificial, Wikipedia y recursos semiestructuradosEvaluación de vinculación de entidades con Wikipedia" . Inteligencia artificial . 194 : 130-150. doi : 10.1016 / j.artint.2012.04.005 .

[khalid2008-2] M. A. Khalid, V. Jijkoun y M. de Rijke (2008). El impacto de la normalización de entidades nombradas en la recuperación de información para responder preguntas . Proc. ECIR.

[xianpei-3] Han, Xianpei; Sun, Le; Zhao, junio (2011). "Vinculación de entidades colectivas en texto web: un método basado en gráficos" . Actas de la 34ª Conferencia Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información . ACM: 765–774. doi : 10.1145 / 2009916.2010019 . S2CID 14428938 .

[wikify-4] Rada Mihalcea y Andras Csomai (2007) ¡Wikify! Vinculación de documentos al conocimiento enciclopédico . Proc. CIKM.

[5] "Enlaces de Wikipedia" .

[Wikidata-6] Wikidata

[7] Aaron M. Cohen (2005). Normalización de entidad denominada gen / proteína no supervisada utilizando diccionarios extraídos automáticamente. Proc. Taller ACL -ISMB sobre la vinculación de la literatura biológica, las ontologías y las bases de datos: Semántica biológica minera, págs. 17–24.

[8] Shen W, Wang J, Han J. Entidad que se vincula con una base de conocimientos: problemas, técnicas y soluciones [J]. Transacciones IEEE sobre conocimiento e ingeniería de datos, 2014, 27 (2): 443-460.

[9] Chang YC, Chu CH, Su YC, et al. PIPE: un módulo de extracción de pasajes de interacción proteína-proteína para el desafío BioCreative [J]. Base de datos, 2016, 2016.

[10] Lou P, Jimeno Yepes A, Zhang Z, et al. BioNorm: normalización de eventos basada en aprendizaje profundo para la conservación de bases de datos de reacciones [J]. Bioinformática, 2020, 36 (2): 611-620.

[11] Slawski, Bill. "Cómo utiliza Google la desambiguación de entidades con nombre para entidades con los mismos nombres" .

[12] Zhou, Ming; Lv, Weifeng; Ren, Pengjie; Wei, Furu; Tan, Chuanqi (2017). "Entidad de vinculación para consultas mediante la búsqueda de frases de Wikipedia" . Actas de la Conferencia de 2017 sobre métodos empíricos en el procesamiento del lenguaje natural . págs. 68–77. arXiv : 1704.02788 . doi : 10.18653 / v1 / D17-1007 . S2CID 1125678 .

[13] Le, Quoc; Mikolov, Tomas (2014). "Representaciones distribuidas de sentencias y documentos" . Actas de la 31a Conferencia Internacional sobre Conferencia Internacional sobre Aprendizaje Automático - Volumen 32 . JMLR.org: II – 1188 – II – 1196. arXiv : 1405.4053 .

[han2005-14] Hui Han, Hongyuan Zha, C. Lee Giles, "Desambiguación de nombres en citas de autores utilizando un método de agrupamiento espectral de K-way", Conferencia conjunta ACM / IEEE sobre bibliotecas digitales 2005 (JCDL 2005): 334-343, 2005

[15] STICS

[rao-16] Rao, Delip; McNamee, Paul; Dredze, Mark (2013). "Vinculación de entidades: encontrar entidades extraídas en una base de conocimientos". Extracción y resumen de información multilingüe y de múltiples fuentes . Teoría y aplicaciones del procesamiento del lenguaje natural. Springer Berlin Heidelberg: 93-115. doi : 10.1007 / 978-3-642-28569-1_5 . ISBN 978-3-642-28568-4.

[17] Parravicini, Alberto; Patra, Rhicheek; Bartolini, Davide B .; Santambrogio, Marco D. (2019). "Vinculación de entidades rápida y precisa mediante la incrustación de gráficos" . Actas del 2º Taller Internacional Conjunto sobre Experiencias y Sistemas de Gestión de Datos Gráficos (GRADES) y Análisis de Datos de Red (NDA) . ACM: 10: 1–10: 9. doi : 10.1145 / 3327964.3328499 . hdl : 11311/1119019 . ISBN 9781450367899. S2CID 195357229 .

[18] Hoffart, Johannes; Altun, Yasemin; Weikum, Gerhard (2014). "Descubrimiento de entidades emergentes con nombres ambiguos" . Actas de la 23ª Conferencia Internacional sobre World Wide Web . ACM: 385–396. doi : 10.1145 / 2566486.2568003 . ISBN 9781450327442. S2CID 7562986 .

[19] Doermann, David S .; Oard, Douglas W .; Lawrie, Dawn J .; Mayfield, James; McNamee, Paul (2011). "Vinculación de entidades entre idiomas". Indefinido . S2CID 3801685 .

[tsai-20] Tsai, Chen-Tse; Roth, Dan (2016). "Wikificación translingual mediante incrustaciones multilingües" . Actas de NAACL-HLT 2016: 589–598. Cite journal requiere |journal=( ayuda )

[alhelbawy-21] Alhelbawy, Ayman; Gaizauskas, Robert. "Desambiguación de entidades con nombre colectivo utilizando enfoques de partición de pandillas y ranking de gráficos" . Actas de COLING 2014, 25ª Conferencia Internacional sobre Lingüística Computacional: Artículos técnicos (Universidad de la ciudad de Dublín y Asociación de Lingüística Computacional): 1544-1555. Cite journal requiere |journal=( ayuda )

[zwick-22] Zwicklbauer, Stefan; Seifert, Christin; Granitzer, Michael (2016). "Desambiguación robusta y colectiva de entidades mediante incrustaciones semánticas" . Actas de la 39ª Conferencia Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información . ACM: 425–434. doi : 10.1145 / 2911451.2911535 . ISBN 9781450340694. S2CID 207237647 .

[hachey-23] Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013). "Evaluación de la vinculación de entidades con Wikipedia" . Artif. Intell . 194 : 130-150. doi : 10.1016 / j.artint.2012.04.005 . ISSN 0004-3702 .

[24] Ji, Heng; Nothman, Joel; Hachey, Ben; Florian, Radu (2015). "Descripción general de la vinculación y descubrimiento de entidades trilingües TAC-KBP2015". TAC .

[cucerzan-25] Cucerzan, Silviu. "Desambiguación de entidad nombrada a gran escala basada en datos de Wikipedia" . Actas de la Conferencia conjunta de 2007 sobre métodos empíricos en el procesamiento del lenguaje natural y el aprendizaje computacional del lenguaje natural (EMNLP-CoNLL): 708–716. Cite journal requiere |journal=( ayuda )

[weikum-26] Weikum, Gerhard; Thater, Stefan; Taneva, Bilyana; Spaniol, Marc; Pinkal, Manfred; Fürstenau, Hagen; Bordino, Ilaria; Yosef, Mohamed Amir; Hoffart, Johannes (2011). "Desambiguación robusta de entidades nombradas en el texto" . Actas de la Conferencia de 2011 sobre métodos empíricos en el procesamiento del lenguaje natural : 782–792.

[kulkarni-27] Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Anotación colectiva de entidades de Wikipedia en texto web . Proc. 15ª Conf. Int'l ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos (KDD). doi : 10.1145 / 1557019.1557073 . ISBN 9781605584959.

[28] David Milne e Ian H. Witten (2008). Aprendiendo a enlazar con Wikipedia. Proc. CIKM.

[29] Zhang, Wei; Jian Su; Chew Lim Tan (2010). "Entidad vinculación aprovechando la anotación generada automáticamente". Actas de la 23ª Conferencia Internacional de Lingüística Computacional (Coling 2010) .

[Kristianto2016-30] Giovanni Yoko Kristianto; Tema de Goran; Akiko Aizawa; et al. (2016). "Entidad de vinculación para expresiones matemáticas en documentos científicos". Conferencia internacional sobre bibliotecas digitales asiáticas . Apuntes de conferencias en informática. Saltador. 10075 : 144-149. doi : 10.1007 / 978-3-319-49304-6_18 . ISBN 978-3-319-49303-9.

[Scharpf2018-31] Philipp Scharpf; Moritz Schubotz; et al. (2018). "Representación de fórmulas matemáticas en contenido MathML usando Wikidata". Parámetro desconocido |conference=ignorado ( ayuda )

[Schubotz2018b-32] Moritz Schubotz; Philipp Scharpf; et al. (2018). "Presentación de MathQA: un sistema de respuesta a preguntas de Math-Aware". Descubrimiento y entrega de información . Emerald Publishing Limited. 46 (4): 214–224. arXiv : 1907.01642 . doi : 10.1108 / IDD-06-2018-0022 . S2CID 49484035 .

[ScharpfSchubotz2018a-33] Philipp Scharpf; Moritz Schubotz; et al. (2018). "Representación de fórmulas matemáticas en contenido MathML usando Wikidata". Parámetro desconocido |conference=ignorado ( ayuda )

[AnnoMathTeX-34] "Sistema de recomendación de anotación de identificador / fórmula AnnoMathTeX" .

[Scharpf2019-35] Philipp Scharpf; Ian Mackerracher; et al. (17 de septiembre de 2019). "AnnoMathTeX: un sistema de recomendación de anotaciones de identificadores de fórmulas para documentos STEM" (PDF) . Actas de la 13ª Conferencia de ACM sobre sistemas de recomendación (RecSys 2019) : 532–533. doi : 10.1145 / 3298689.3347042 . ISBN 9781450362436. S2CID 202639987 .

[Scharpf2021-36] Philipp Scharpf; Moritz Schubotz; Bela Gipp (14 de abril de 2021). "Vínculo rápido de entidades de Wikidata matemática en artículos de Wikipedia mediante recomendación de anotación" (PDF) . Actas complementarias de la conferencia web 2021 (WWW '21 Companion) . arXiv : 2104.05111 . doi : 10.1145 / 3442442.3452348 (inactivo 2021-05-24).Mantenimiento de CS1: DOI inactivo a partir de mayo de 2021 ( enlace )

[MathMLben-37] "Punto de referencia de la fórmula MathMLben" .

[Schubotz2018-38] Moritz Schubotz; André Greiner-Petter; Philipp Scharpf; Norman Meuschke; Howard Cohl; Bela Gipp (2018). "Mejora de la representación y conversión de fórmulas matemáticas considerando su contexto textual" (PDF) . 18 ° ACM / IEEE sobre la conferencia conjunta sobre bibliotecas digitales 2018 : 233–242. arXiv : 1804.04956 . doi : 10.1145 / 3197026.3197058 . ISBN 9781450351782.

[arXiv-39] "repositorio de preimpresión arXiv" .

[zbMath-40] "Biblioteca de documentos matemáticos zbMath" .

[Greiner-Petter2020-41] André Greiner-Petter; Moritz Schubotz; Fabian Mueller; Corinna Breitinger; Howard S. Cohl; Akiko Aizawa; Bela Gipp (2020). "Descubrimiento de objetos matemáticos de interés: un estudio de notaciones matemáticas" (PDF) . Actas de la Conferencia Web 2020 (WWW '20) : 1445–1456. arXiv : 2002.02712 . doi : 10.1145 / 3366423.3380218 . ISBN 9781450370233.

[Aizawa2014-42] Akiko Aizawa; Michael Kohlhase; Iadh Ounis; Moritz Schubotz. "Resumen de la tarea NTCIR-11 Math-2". Actas de la 11ª Conferencia del NTCIR sobre evaluación de tecnologías de acceso a la información .

[1]