La extracción de información ( IE ) es la tarea de extraer automáticamente información estructurada de documentos no estructurados y / o semiestructurados legibles por máquina y otras fuentes representadas electrónicamente. En la mayoría de los casos, esta actividad se refiere al procesamiento de textos en lenguaje humano mediante el procesamiento del lenguaje natural (PNL). Las actividades recientes en el procesamiento de documentos multimedia , como la anotación automática y la extracción de contenido de imágenes / audio / video / documentos, podrían verse como extracción de información.
Debido a la dificultad del problema, los enfoques actuales de IE se centran en dominios muy restringidos. Un ejemplo es la extracción de informes de cable de noticias sobre fusiones corporativas, como las denotadas por la relación formal:
- ,
de una oración de noticias en línea como:
- "Ayer, Foo Inc., con sede en Nueva York, anunció la adquisición de Bar Corp."
Un objetivo amplio de IE es permitir que el cálculo se realice sobre los datos previamente no estructurados. Un objetivo más específico es permitir que el razonamiento lógico saque inferencias basadas en el contenido lógico de los datos de entrada. Los datos estructurados son datos semánticamente bien definidos de un dominio objetivo elegido, interpretados con respecto a la categoría y el contexto .
La extracción de información es la parte de un rompecabezas mayor que se ocupa del problema de idear métodos automáticos para la gestión de texto, más allá de su transmisión, almacenamiento y visualización. La disciplina de recuperación de información (RI) [1] ha desarrollado métodos automáticos, típicamente de carácter estadístico, para indexar grandes colecciones de documentos y clasificar documentos. Otro enfoque complementario es el del procesamiento del lenguaje natural (PNL) que ha resuelto el problema de modelar el procesamiento del lenguaje humano con considerable éxito teniendo en cuenta la magnitud de la tarea. En términos de dificultad y énfasis, IE se ocupa de tareas entre IR y PNL. En términos de entrada, IE asume la existencia de un conjunto de documentos en los que cada documento sigue una plantilla, es decir, describe una o más entidades o eventos de una manera similar a los de otros documentos pero que difieren en los detalles. Por ejemplo, considere un grupo de artículos de noticias sobre terrorismo en América Latina y se presume que cada artículo se basa en uno o más actos terroristas. También definimos para cualquier tarea de IE dada una plantilla, que es un (o un conjunto de) marcos de casos para contener la información contenida en un solo documento. Para el ejemplo del terrorismo, una plantilla tendría espacios correspondientes al perpetrador, la víctima y el arma del acto terrorista, y la fecha en que ocurrió el evento. Se requiere un sistema IE para este problema para "comprender" un artículo de ataque solo lo suficiente para encontrar los datos correspondientes a las ranuras en esta plantilla.
Historia
La extracción de información se remonta a finales de la década de 1970, en los primeros días de la PNL. [2] Uno de los primeros sistemas comerciales de mediados de la década de 1980 fue JASPER creado para Reuters por Carnegie Group Inc con el objetivo de proporcionar noticias financieras en tiempo real a los operadores financieros. [3]
A partir de 1987, IE fue impulsada por una serie de conferencias sobre comprensión de mensajes . MUC es una conferencia basada en la competencia [4] que se centró en los siguientes dominios:
- MUC-1 (1987), MUC-2 (1989): Mensajes de operaciones navales.
- MUC-3 (1991), MUC-4 (1992): Terrorismo en países de América Latina.
- MUC-5 (1993): Joint ventures y dominio de la microelectrónica.
- MUC-6 (1995): Artículos de noticias sobre cambios en la gestión.
- MUC-7 (1998): Informes de lanzamiento de satélites.
Un apoyo considerable provino de la Agencia de Proyectos de Investigación Avanzada de Defensa de los Estados Unidos ( DARPA ), que deseaba automatizar tareas mundanas realizadas por analistas gubernamentales, como escanear periódicos en busca de posibles vínculos con el terrorismo. [ cita requerida ]
Importancia presente
La importancia actual de IE se refiere a la creciente cantidad de información disponible en forma no estructurada. Tim Berners-Lee , inventor de la red mundial , se refiere a la Internet existente como la red de documentos [5] y aboga por que una mayor parte del contenido esté disponible como una red de datos . [6] Hasta que esto suceda, la web consiste principalmente en documentos no estructurados que carecen de metadatos semánticos . El conocimiento contenido en estos documentos puede hacerse más accesible para el procesamiento de la máquina mediante la transformación en forma relacional o mediante el marcado con etiquetas XML . Un agente inteligente que supervisa una fuente de datos de noticias requiere que IE transforme los datos no estructurados en algo con lo que se pueda razonar. Una aplicación típica de IE es escanear un conjunto de documentos escritos en un lenguaje natural y llenar una base de datos con la información extraída. [7]
Tareas y subtareas
La aplicación de la extracción de información al texto está vinculada al problema de la simplificación del texto para crear una vista estructurada de la información presente en el texto libre. El objetivo general es crear un texto más fácilmente legible por máquina para procesar las oraciones. Las tareas y subtareas típicas de IE incluyen:
- Relleno de plantilla: Extraer un conjunto fijo de campos de un documento, por ejemplo, extraer perpetradores, víctimas, tiempo, etc. de un artículo de periódico sobre un ataque terrorista.
- Extracción de eventos: dado un documento de entrada, genera cero o más plantillas de eventos. Por ejemplo, un artículo de periódico puede describir múltiples ataques terroristas.
- Población de la base de conocimientos : llene una base de datos de hechos con un conjunto de documentos. Por lo general, la base de datos tiene la forma de trillizos (entidad 1, relación, entidad 2), por ejemplo ( Barack Obama , cónyuge, Michelle Obama )
- Reconocimiento de entidades nombradas : reconocimiento de nombres de entidades conocidas (para personas y organizaciones), nombres de lugares, expresiones temporales y ciertos tipos de expresiones numéricas, mediante el empleo del conocimiento existente del dominio o información extraída de otras oraciones. [8] Normalmente, la tarea de reconocimiento implica la asignación de un identificador único a la entidad extraída. Una tarea más simple se llama detección de entidades , que tiene como objetivo detectar entidades sin tener ningún conocimiento existente sobre las instancias de entidad. Por ejemplo, al procesar la oración "A M. Smith le gusta pescar", la detección de entidad nombrada denotaría detectar que la frase "M. Smith" se refiere a una persona, pero sin necesariamente tener (o usar) ningún conocimiento sobre una determinada M. Smith que es (o "podría ser") la persona específica de la que habla esa oración.
- Resolución de correferencia : detección de correferencia y enlaces anafóricos entre entidades de texto. En las tareas de IE, esto generalmente se restringe a encontrar enlaces entre entidades con nombre extraídas previamente. Por ejemplo, "International Business Machines" e "IBM" se refieren a la misma entidad del mundo real. Si tomamos las dos frases "A M. Smith le gusta pescar. Pero no le gusta andar en bicicleta", sería beneficioso detectar que "él" se refiere a la persona previamente detectada "M. Smith".
- Extracción de relaciones : identificación de relaciones entre entidades, [8] tales como:
- PERSON trabaja para ORGANIZATION (extraído de la frase "Bill trabaja para IBM").
- PERSONA ubicada en UBICACIÓN (extraída de la oración "Bill está en Francia").
- Extracción de información semiestructurada que puede referirse a cualquier IE que intente restaurar algún tipo de estructura de información que se haya perdido durante la publicación, como por ejemplo:
- Extracción de tablas: búsqueda y extracción de tablas de documentos. [9] [10]
- Extracción de información de tablas: extracción de información de forma estructurada de las tablas. Esta es una tarea más compleja que la extracción de tablas, ya que la extracción de tablas es solo el primer paso, mientras que comprender los roles de las celdas, filas, columnas, vincular la información dentro de la tabla y comprender la información presentada en la tabla son tareas adicionales necesarias para la tabla. extracción de información. [11] [12] [13]
- Extracción de comentarios: extracción de comentarios del contenido real del artículo para restaurar el vínculo entre el autor de cada oración.
- Análisis de lenguaje y vocabulario
- Extracción de terminología : encontrar los términos relevantes para un corpus dado
- Extracción de audio
- Extracción de música basada en plantillas: encontrar características relevantes en una señal de audio tomada de un repertorio determinado; por ejemplo, [14] se pueden extraer índices de tiempo de apariciones de sonidos de percusión para representar el componente rítmico esencial de una pieza musical.
Tenga en cuenta que esta lista no es exhaustiva y que el significado exacto de las actividades de IE no se acepta comúnmente y que muchos enfoques combinan múltiples subtareas de IE para lograr un objetivo más amplio. El aprendizaje automático, el análisis estadístico y / o el procesamiento del lenguaje natural se utilizan a menudo en IE.
IE en documentos que no son de texto se está convirtiendo en un tema cada vez más interesante [ ¿cuándo? ] en la investigación, y la información extraída de documentos multimedia ahora puede [ ¿cuándo? ] expresarse en una estructura de alto nivel como se hace en texto. Esto naturalmente conduce a la fusión de información extraída de múltiples tipos de documentos y fuentes.
Aplicaciones de la World Wide Web
IE ha sido el foco de las conferencias MUC. Sin embargo, la proliferación de la Web intensificó la necesidad de desarrollar sistemas de IE que ayuden a las personas a hacer frente a la enorme cantidad de datos disponibles en línea. Los sistemas que realizan IE a partir de texto en línea deben cumplir los requisitos de bajo costo, flexibilidad en el desarrollo y fácil adaptación a nuevos dominios. Los sistemas MUC no cumplen con esos criterios. Además, el análisis lingüístico realizado para texto no estructurado no aprovecha las etiquetas HTML / XML y los formatos de diseño que están disponibles en los textos en línea. Como resultado, se han desarrollado enfoques menos intensivos desde el punto de vista lingüístico para IE en la Web utilizando envoltorios , que son conjuntos de reglas muy precisas que extraen el contenido de una página en particular. El desarrollo manual de envoltorios ha demostrado ser una tarea que requiere mucho tiempo y un alto nivel de experiencia. Se han utilizado técnicas de aprendizaje automático , supervisadas o no supervisadas , para inducir tales reglas automáticamente.
Los contenedores suelen manejar colecciones de páginas web altamente estructuradas, como catálogos de productos y directorios telefónicos. Sin embargo, fallan cuando el tipo de texto está menos estructurado, lo que también es común en la Web. El esfuerzo reciente en la extracción de información adaptativa motiva el desarrollo de sistemas IE que pueden manejar diferentes tipos de texto, desde texto bien estructurado hasta casi libre -donde fallan los envoltorios comunes-, incluidos los tipos mixtos. Estos sistemas pueden aprovechar el conocimiento superficial del lenguaje natural y, por lo tanto, también se pueden aplicar a textos menos estructurados.
Un reciente [ ¿cuándo? ] desarrollo es Visual Information Extraction, [15] [16] que se basa en la representación de una página web en un navegador y la creación de reglas basadas en la proximidad de las regiones en la página web renderizada. Esto ayuda a extraer entidades de páginas web complejas que pueden mostrar un patrón visual, pero carecen de un patrón discernible en el código fuente HTML.
Enfoques
Los siguientes enfoques estándar ahora son ampliamente aceptados:
- Expresiones regulares escritas a mano (o grupo anidado de expresiones regulares)
- Usando clasificadores
- Generativo: clasificador ingenuo de Bayes
- Discriminativo: modelos de máxima entropía como la regresión logística multinomial
- Modelos de secuencia
- Red neuronal recurrente
- Modelo de Markov oculto
- Modelo de Markov condicional (CMM) / Modelo de Markov de máxima entropía (MEMM)
- Los campos aleatorios condicionales (CRF) se utilizan comúnmente junto con IE para tareas tan variadas como extraer información de artículos de investigación [17] o extraer instrucciones de navegación. [18]
Existen muchos otros enfoques para IE, incluidos los enfoques híbridos que combinan algunos de los enfoques estándar enumerados anteriormente.
Software y servicios gratuitos o de código abierto
- La Arquitectura general para la ingeniería de textos (GATE) se incluye con un sistema de extracción de información gratuito
- Apache OpenNLP es un kit de herramientas de aprendizaje automático de Java para el procesamiento del lenguaje natural
- OpenCalais es un servicio web de extracción de información automatizada de Thomson Reuters (versión gratuita limitada)
- Machine Learning for Language Toolkit (Mallet) es un paquete basado en Java para una variedad de tareas de procesamiento de lenguaje natural, incluida la extracción de información.
- DBpedia Spotlight es una herramienta de código abierto en Java / Scala (y un servicio web gratuito) que se puede utilizar para el reconocimiento de entidades con nombre y la resolución de nombres .
- Natural Language Toolkit es un conjunto de bibliotecas y programas para el procesamiento simbólico y estadístico del lenguaje natural (NLP) para el lenguaje de programación Python.
- Ver también implementaciones de CRF
Ver también
- Extracción de ontología
- Aplicaciones de la inteligencia artificial
- Minería de conceptos
- Programa DARPA TIPSTER
- Búsqueda empresarial
- Facetas de búsqueda
- Extracción de conocimiento
- Reconocimiento de entidad nombrada
- Nutch
- Traducción semántica
- Extracción de textos
- Raspado web
- Extracción de información abierta
- Extracción de datos
- Liza
- Lista de tecnologías emergentes
- Esquema de la inteligencia artificial
Referencias
- ^ FREITAG, DAYNE. "Aprendizaje automático para la extracción de información en dominios informales" (PDF) . 2000 Editores académicos de Kluwer. Impreso en Holanda .
- ^ Andersen, Peggy M .; Hayes, Philip J .; Huettner, Alison K .; Schmandt, Linda M .; Nirenburg, Irene B .; Weinstein, Steven P. (1992). "Extracción automática de hechos de comunicados de prensa para generar noticias" . Actas de la tercera conferencia sobre procesamiento del lenguaje natural aplicado - . págs. 170-177. CiteSeerX 10.1.1.14.7943 . doi : 10.3115 / 974499.974531 . S2CID 14746386 .
- ^ Cowie, Jim; Wilks, Yorick (1996). Extracción de información (PDF) . pag. 3. CiteSeerX 10.1.1.61.6480 . S2CID 10237124 . Archivado desde el original (PDF) el 20 de febrero de 2019.
- ^ Marco Costantino, Paolo Coletti, Extracción de información en finanzas, Wit Press, 2008. ISBN 978-1-84564-146-7
- ^ "Datos vinculados: la historia hasta ahora" (PDF) .
- ^ "Tim Berners-Lee en la próxima Web" .
- ^ RK Srihari , W. Li, C. Niu y T. Cornell, "InfoXtract: un motor de extracción de información de nivel intermedio personalizable", Journal of Natural Language Engineering , [ enlace muerto ] Cambridge U. Press, 14 (1), 2008, pp. 33-69.
- ^ a b Dat Quoc Nguyen y Karin Verspoor (2019). "Extracción de la relación neuronal de un extremo a otro mediante la atención biafina profunda". Actas de la 41ª Conferencia Europea sobre Recuperación de Información (ECIR) . arXiv : 1812.11275 . doi : 10.1007 / 978-3-030-15712-8_47 .
- ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (febrero de 2019). "Un marco para la extracción de información de tablas en la literatura biomédica". Revista Internacional de Análisis y Reconocimiento de Documentos (IJDAR) . 22 (1): 55–78. arXiv : 1902.10031 . Código bibliográfico : 2019arXiv190210031M . doi : 10.1007 / s10032-019-00317-0 . S2CID 62880746 .
- ^ Milosevic, Nikola (2018). Un enfoque de múltiples capas para la extracción de información de tablas en documentos biomédicos (PDF) (PhD). Universidad de Manchester.
- ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (febrero de 2019). "Un marco para la extracción de información de tablas en la literatura biomédica". Revista Internacional de Análisis y Reconocimiento de Documentos (IJDAR) . 22 (1): 55–78. arXiv : 1902.10031 . Código bibliográfico : 2019arXiv190210031M . doi : 10.1007 / s10032-019-00317-0 . S2CID 62880746 .
- ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (junio de 2016). "Desenredar la estructura de las tablas en la literatura científica" . XXI Congreso Internacional de Aplicaciones del Lenguaje Natural a los Sistemas de Información . Apuntes de conferencias en Ciencias de la Computación. 21 : 162-174. doi : 10.1007 / 978-3-319-41754-7_14 . ISBN 978-3-319-41753-0.
- ^ Milosevic, Nikola (2018). Un enfoque de múltiples capas para la extracción de información de tablas en documentos biomédicos (PDF) (PhD). Universidad de Manchester.
- ^ A.Zils, F.Pachet, O.Delerue y F. Gouyon, Extracción automática de pistas de batería a partir de señales de música polifónica , Actas de WedelMusic, Darmstadt, Alemania, 2002.
- ^ Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: un álgebra para expresar reglas espaciales y textuales para la extracción de información". arXiv : 1506.08454 [ cs.CL ].
- ^ Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). "Extracción visual de información web con Lixto": 119-128. CiteSeerX 10.1.1.21.8236 . Cite journal requiere
|journal=
( ayuda ) - ^ Peng, F .; McCallum, A. (2006). "Extracción de información de trabajos de investigación utilizando campos aleatorios condicionales ☆". Tratamiento y gestión de la información . 42 (4): 963. doi : 10.1016 / j.ipm.2005.09.002 .
- ^ Shimizu, Nobuyuki; Hass, Andrew (2006). "Extracción de la representación del conocimiento basada en marcos a partir de instrucciones de ruta" (PDF) . Archivado desde el original (PDF) el 2006-09-01 . Consultado el 27 de marzo de 2010 .
enlaces externos
- Página de "concurso" Alias-I Una lista de conjuntos de herramientas académicos y conjuntos de herramientas industriales para la extracción de información en lenguaje natural.
- Página de Gabor Melli en IE Descripción detallada de la tarea de extracción de información.