La desambiguación del nombre del autor es un tipo de desambiguación y vinculación de registros que se aplica a los nombres de personas individuales. El proceso podría, por ejemplo, distinguir a las personas con el nombre " John Smith ".
Un editor puede aplicar el proceso a documentos académicos donde el objetivo es encontrar todas las menciones del mismo autor y agruparlas. Los autores de documentos académicos a menudo comparten nombres, lo que dificulta distinguir el trabajo de cada autor. Por lo tanto, la desambiguación del nombre del autor tiene como objetivo encontrar todas las publicaciones que pertenecen a un autor determinado y distinguirlas de las publicaciones de otros autores que comparten el mismo nombre.
Métodos
Se ha realizado una investigación considerable para realizar la desambiguación. [1] [2] [3] [4] Los enfoques típicos para la desambiguación del nombre del autor se basan en información sobre los autores, como sus afiliaciones, direcciones de correo electrónico, año de publicación, coautores, información sobre el tema para distinguir entre los autores. Esta información se puede utilizar para entrenar a un clasificador de aprendizaje automático para decidir si dos menciones de autor se refieren al mismo autor o no. [5] Muchos trabajos de investigación consideran la desambiguación de nombres como un problema de agrupamiento , es decir, la división de documentos en algunos grupos, donde cada uno representa a un autor. [1] [6] [7] Algunos trabajos construyen gráficos de documentos y utilizan la topología de gráficos para aprender la similitud de los documentos. [7] [8] Recientemente, varios trabajos de investigación [8] [9] tienen como objetivo aprender la representación de documentos de baja dimensión mediante el empleo de métodos de integración en red. [10] [11]
Aplicaciones
Hay varias razones que hacen que los nombres de los autores sean ambiguos, entre las cuales: las personas pueden publicar con varios nombres por una variedad de razones que incluyen diferentes transliteraciones, errores ortográficos, cambio de nombre debido al matrimonio o el uso de apodos o segundos nombres e iniciales. [12]
Las motivaciones para eliminar la ambigüedad de las personas incluyen la identificación de inventores a partir de patentes. [13] La desambiguación de nombres también es una piedra angular en los sistemas de búsqueda y minería académicos centrados en el autor, como ArnetMiner (también AMiner). [14]
Problemas similares
La desambiguación del nombre del autor es solo un problema de vinculación de registros en el dominio de los datos académicos. Problemas estrechamente relacionados y potencialmente beneficiosos para ambos incluyen: desambiguación de la organización (afiliación), [15] así como desambiguación del lugar de la conferencia o publicación, ya que los editores de datos a menudo usan nombres o alias diferentes para estas entidades.
Recursos
A continuación se enumeran varios puntos de referencia bien conocidos para evaluar la desambiguación del nombre del autor, cada uno de los cuales proporciona publicaciones con algunos nombres ambiguos y sus verdades fundamentales.
- Conjunto de datos de desambiguación de nombres de ainer
- Conjunto de datos de desambiguación de nombres de CiteSeerX
Códigos fuente
Referencias
- ^ a b Khabsa, Madian; Treeratpituk, Pucktada; Giles, C. Lee (2015). Actas de la 15ª ACM / IEEE-CE sobre la Conferencia Conjunta sobre Bibliotecas Digitales - JCDL '15 . págs. 37–46. doi : 10.1145 / 2756406.2756915 . ISBN 9781450335942. S2CID 14068285 .
- ^ Mann, Gideon S .; Yarowsky, David (2003). "Desambiguación de nombres personales sin supervisión". Actas de la séptima conferencia sobre el aprendizaje del lenguaje natural en HLT-NAACL 2003 - . 4 . págs. 33–40. doi : 10.3115 / 1119176.1119181 . S2CID 29759924 .
- ^ Han, Hui; Giles, Lee; Zha, Hongyuan; Li, Cheng; Tsioutsiouliklis, Kostas (2004). "Dos enfoques de aprendizaje supervisado para la desambiguación de nombres en las citas del autor". Actas de la conferencia conjunta ACM / IEEE de 2004 sobre bibliotecas digitales - JCDL '04 . pag. 296. doi : 10.1145 / 996350.996419 . ISBN 1581138326. S2CID 1089260 .
- ^ Huang, Jian; Ertekin, Seyda; Giles, C. Lee (2006). Descubrimiento de conocimiento en bases de datos: PKDD 2006 . Apuntes de conferencias en Ciencias de la Computación. 4213 . págs. 536–544. doi : 10.1007 / 11871637_53 . ISBN 978-3-540-45374-1. ISSN 0302-9743 .
- ^ Treeratpituk, Pucktada; Giles, C. Lee (2009). Desambiguando a los autores en publicaciones académicas utilizando bosques aleatorios (PDF) . Actas de la novena conferencia conjunta ACM / IEEE-CS sobre bibliotecas digitales. ACM . págs. 39–48. CiteSeerX 10.1.1.147.3500 . doi : 10.1145 / 1555400.1555408 .
- ^ Jie Tang; ACM Fong; Bo Wang; Jing Zhang (2012). "Un marco probabilístico unificado para la desambiguación de nombres en la biblioteca digital". Transacciones IEEE sobre conocimiento e ingeniería de datos . IEEE. 24 (6): 975–987. doi : 10.1109 / TKDE.2011.13 . S2CID 1032074 .
- ^ a b Xuezhi Wang; Jie Tang; Hong Cheng; Philip S. Yu (2011). ADANA: Desambiguación de nombre activo . Actas de la Conferencia Internacional IEEE 2011 sobre Minería de Datos . Vancouver: IEEE. págs. 794–803. doi : 10.1109 / ICDM.2011.19 .
- ^ a b c Yutao Zhang; Fanjin Zhang; Peiran Yao; Jie Tang (2018). Desambiguación de nombres en AMiner: Clustering, Maintenance y Human in the Loop . Actas de la 24ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos . Londres: ACM. págs. 1002–1011.
- ^ Baichuan Zhang; Mohammad Al Hasan (2017). Desambiguación de nombres en gráficos anonimizados mediante incrustación de red . Actas de la ACM de 2017 sobre la Conferencia sobre Gestión de la Información y el Conocimiento . Singapur: ACM. págs. 1239-1248.
- ^ Bryan Perozzi; Rami Al-Rfou; Steven Skiena (2014). Deepwalk: aprendizaje online de representaciones sociales . Actas de la 20ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos . Nueva York: ACM. págs. 701–710.
- ^ Jiezhong Qiu; Yuxiao Dong; Hao Ma; Jian Li; Kuansan Wang; Jie Tang (2018). Integración de red como factorización matricial: unificación de DeepWalk, LINE, PTE y node2vec . Actas de la XI Conferencia Internacional ACM sobre búsqueda web y minería de datos . Marina Del Rey: ACM. págs. 459–467.
- ^ Smalheiser, Neil R .; Torvik, Vetle I. (2009). "Desambiguación del nombre del autor". Revisión anual de ciencia y tecnología de la información . 43 : 1–43. doi : 10.1002 / aris.2009.1440430113 .
- ^ Morrison, Greg; Riccaboni, Massimo; Pammolli, Fabio (16 de mayo de 2017). "Desambiguación de inventores y cesionarios de patentes utilizando datos de geolocalización de alta resolución" . Datos científicos . 4 : 170064. Código bibliográfico : 2017NatSD ... 470064M . doi : 10.1038 / sdata.2017.64 . PMC 5433392 . PMID 28509897 .
- ^ Jie Tang; Jing Zhang; Limin Yao; Juanzi Li; Li Zhang; Zhong Su (2008). ArnetMiner: extracción y minería de redes sociales académicas . Actas de la 14ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos . Nueva York: ACM. págs. 990–998.
- ^ Zhang, Ziqi; Nuzzolese, Andrea; Gentile, Anna Lisa (2017). Deduplicación de entidades en ScholarlyData . Actas de la Conferencia de Web Semántica Extendida. Springer-Verlag . págs. 85-100. doi : 10.1007 / 978-3-319-58068-5_6 .