Reconocimiento de entidad nombrada

El reconocimiento de entidades nombradas ( NER ) (también conocido como identificación de entidades (nombradas) , fragmentación de entidades y extracción de entidades ) es una subtarea de extracción de información que busca ubicar y clasificar entidades nombradas mencionadas en texto no estructurado en categorías predefinidas como persona nombres, organizaciones, ubicaciones, códigos médicos , expresiones de tiempo, cantidades, valores monetarios, porcentajes, etc.

La mayoría de las investigaciones sobre los sistemas NER/NEE se han estructurado tomando un bloque de texto sin anotaciones, como este:

En este ejemplo, se ha detectado y clasificado un nombre de persona que consta de un token, un nombre de empresa de dos tokens y una expresión temporal.

Los sistemas NER de última generación para inglés producen un rendimiento casi humano. Por ejemplo, el mejor sistema que ingresó a MUC-7 obtuvo un 93,39 % de la medida F, mientras que los anotadores humanos obtuvieron un 97,60 % y un 96,95 %. ^[1]^[2]

En la expresión entidad nombrada , la palabra nombrada restringe la tarea a aquellas entidades para las cuales una o varias cadenas, como palabras o frases, representan (bastante) consistentemente algún referente. Esto está estrechamente relacionado con los designadores rígidos , como los define Kripke , ^[3]^[4] aunque en la práctica NER trata con muchos nombres y referentes que no son filosóficamente "rígidos". Por ejemplo, la compañía automotriz creada por Henry Ford en 1903 puede denominarse Ford o Ford Motor Company , aunque "Ford" también puede referirse a muchas otras entidades (ver Ford). Los designadores rígidos incluyen nombres propios, así como términos para ciertas especies y sustancias biológicas, ^[5] pero excluyen pronombres (como "eso"; ver resolución de correferencia ), descripciones que seleccionan un referente por sus propiedades (ver también De dicto y de re ), y nombres para tipos de cosas en lugar de individuos (por ejemplo, "Banco").

El reconocimiento completo de la entidad nombrada a menudo se divide, conceptualmente y posiblemente también en las implementaciones, ^[6] como dos problemas distintos: detección de nombres y clasificación de los nombres por el tipo de entidad a la que se refieren (por ejemplo, persona, organización o ubicación). ). ^[7] La primera fase generalmente se simplifica a un problema de segmentación: los nombres se definen como tramos contiguos de tokens, sin anidamiento, de modo que "Bank of America" es un solo nombre, sin tener en cuenta el hecho de que dentro de este nombre, la subcadena "América" es en sí mismo un nombre. Este problema de segmentación es formalmente similar a la fragmentación . La segunda fase requiere elegir una ontología por la cual organizar categorías de cosas.