vinculación de entidades

En el procesamiento del lenguaje natural , la vinculación de entidades , también conocida como vinculación de entidades nombradas (NEL), ^[1] desambiguación de entidades nombradas (NED), reconocimiento y desambiguación de entidades nombradas (NERD) o normalización de entidades nombradas (NEN) ^{[2] ]} es la tarea de asignar una identidad única a las entidades (como personas, lugares o empresas famosas) mencionadas en el texto. Por ejemplo, dada la oración "París es la capital de Francia" , la idea es determinar que "París" se refiere a la ciudad de París y no a Paris Hilton .o cualquier otra entidad a la que se pueda hacer referencia como "París" . La vinculación de entidades es diferente del reconocimiento de entidades nombradas (NER) en que NER identifica la aparición de una entidad nombrada en el texto pero no identifica qué entidad específica es (ver Diferencias con otras técnicas ).

En la vinculación de entidades, las palabras de interés (nombres de personas, ubicaciones y empresas) se asignan desde un texto de entrada a las entidades únicas correspondientes en una base de conocimientos de destino . Las palabras de interés se denominan entidades nombradas (NE), menciones o formas superficiales. La base de conocimientos de destino depende de la aplicación prevista, pero para los sistemas de vinculación de entidades destinados a trabajar en texto de dominio abierto, es común utilizar bases de conocimientos derivadas de Wikipedia (como Wikidata o DBpedia ). ^[2]^[3] En este caso, cada página individual de Wikipedia se considera una entidad separada. Las técnicas de vinculación de entidades que asignan entidades nombradas a entidades de Wikipedia también se denominan wikificación.. ^[4]

Considerando nuevamente la oración de ejemplo "París es la capital de Francia" , la salida esperada de un sistema de vinculación de entidades será París y Francia . Estos localizadores de recursos uniformes (URL) se pueden usar como identificadores de recursos uniformes (URI) únicos para las entidades en la base de conocimiento. El uso de una base de conocimiento diferente devolverá diferentes URI, pero para las bases de conocimiento creadas a partir de Wikipedia, existen asignaciones de URI uno a uno. ^[5]

En la mayoría de los casos, las bases de conocimiento se construyen manualmente, ^[6] pero en aplicaciones donde hay grandes corpus de texto disponibles, la base de conocimiento se puede deducir automáticamente del texto disponible . ^[7]

La vinculación de entidades es un paso crítico para conectar los datos web con las bases de conocimiento, lo que es beneficioso para anotar la gran cantidad de datos sin procesar y, a menudo, ruidosos en la web y contribuye a la visión de la web semántica . ^[8] Además de la vinculación de entidades, existen otros pasos críticos que incluyen, entre otros, la extracción de eventos, ^[9] y la vinculación de eventos ^[10], etc.

La vinculación de entidades es beneficiosa en campos que necesitan extraer representaciones abstractas del texto, como sucede en el análisis de texto, los sistemas de recomendación , la búsqueda semántica y los chatbots. En todos estos campos, los conceptos relevantes para la aplicación están separados del texto y otros datos no significativos. ^[11]^[12]

En la vinculación de entidades, cada entidad nombrada está vinculada a un identificador único. A menudo, este identificador corresponde a una página de Wikipedia.

Representación de los pasos principales en un algoritmo de enlace de entidades. La mayoría de los algoritmos de vinculación de entidades se componen de un paso inicial de reconocimiento de entidades nombradas en el que las entidades nombradas se encuentran en el texto original (aquí, París y Francia), y de un paso posterior en el que cada entidad nombrada se vincula a su identificador único correspondiente ( aquí, una página de Wikipedia). Este último paso a menudo se realiza creando un pequeño conjunto de identificadores de candidatos para cada entidad nombrada y seleccionando el candidato más prometedor con respecto a una métrica elegida.