Resolución de nombres (semántica y extracción de texto)

En semántica y extracción de texto, la resolución de nombres se refiere a la capacidad del software de minería de texto para determinar a qué persona, actor u objeto real se refiere un uso particular de un nombre. También puede denominarse resolución de entidad .

En estas oraciones, el software debe determinar si el pronombre "él" se refiere a "John" o "Edward" de la primera oración. El software también debe determinar si el "John" al que se hace referencia en la segunda oración es el mismo que el "John" en la primera oración, o una tercera persona cuyo nombre también es "John". Estos ejemplos se aplican a casi todos los idiomas, y no solo al inglés.

Con frecuencia, este tipo de resolución de nombres también se utiliza en todos los documentos, por ejemplo, para determinar si el " George Bush " al que se hace referencia en un artículo de un periódico antiguo como presidente de los Estados Unidos ( George HW Bush ) es la misma persona que "George Bush". mencionado en un artículo de noticias separado años más tarde sobre un hombre que se postula para presidente ( George W. Bush ). Debido a que muchas personas pueden tener el mismo nombre, los analistas y el software deben tener en cuenta sustancialmente más información que solo un nombre para determinar si dos referencias idénticas ("George Bush") en realidad se refieren a la misma entidad o persona específica.

La resolución de nombre / entidad en la extracción de texto y la semántica es un problema notoriamente difícil, en parte porque en muchos casos no hay suficiente información para hacer una determinación precisa. Existen numerosas soluciones parciales que se basan en pistas contextuales específicas que se encuentran en los datos, pero actualmente no existe una solución general conocida.

En ocasiones, el problema se denomina desambiguación de nombres y, en el caso de las bibliotecas digitales, desambiguación del autor.