Reconocimiento de entidad nombrada


El reconocimiento de entidades nombradas ( NER ) (también conocido como identificación de entidades (nombradas) , fragmentación de entidades y extracción de entidades ) es una subtarea de extracción de información que busca ubicar y clasificar entidades nombradas mencionadas en texto no estructurado en categorías predefinidas como persona nombres, organizaciones, ubicaciones, códigos médicos , expresiones de tiempo, cantidades, valores monetarios, porcentajes, etc.

La mayoría de las investigaciones sobre los sistemas NER/NEE se han estructurado tomando un bloque de texto sin anotaciones, como este:

En este ejemplo, se ha detectado y clasificado un nombre de persona que consta de un token, un nombre de empresa de dos tokens y una expresión temporal.

Los sistemas NER de última generación para inglés producen un rendimiento casi humano. Por ejemplo, el mejor sistema que ingresó a MUC-7 obtuvo un 93,39 % de la medida F, mientras que los anotadores humanos obtuvieron un 97,60 % y un 96,95 %. [1] [2]

En la expresión entidad nombrada , la palabra nombrada restringe la tarea a aquellas entidades para las cuales una o varias cadenas, como palabras o frases, representan (bastante) consistentemente algún referente. Esto está estrechamente relacionado con los designadores rígidos , como los define Kripke , [3] [4] aunque en la práctica NER trata con muchos nombres y referentes que no son filosóficamente "rígidos". Por ejemplo, la compañía automotriz creada por Henry Ford en 1903 puede denominarse Ford o Ford Motor Company , aunque "Ford" también puede referirse a muchas otras entidades (ver Ford). Los designadores rígidos incluyen nombres propios, así como términos para ciertas especies y sustancias biológicas, [5] pero excluyen pronombres (como "eso"; ver resolución de correferencia ), descripciones que seleccionan un referente por sus propiedades (ver también De dicto y de re ), y nombres para tipos de cosas en lugar de individuos (por ejemplo, "Banco").

El reconocimiento completo de la entidad nombrada a menudo se divide, conceptualmente y posiblemente también en las implementaciones, [6] como dos problemas distintos: detección de nombres y clasificación de los nombres por el tipo de entidad a la que se refieren (por ejemplo, persona, organización o ubicación). ). [7] La ​​primera fase generalmente se simplifica a un problema de segmentación: los nombres se definen como tramos contiguos de tokens, sin anidamiento, de modo que "Bank of America" ​​es un solo nombre, sin tener en cuenta el hecho de que dentro de este nombre, la subcadena "América" ​​es en sí mismo un nombre. Este problema de segmentación es formalmente similar a la fragmentación . La segunda fase requiere elegir una ontología por la cual organizar categorías de cosas.