El resumen de varios documentos es un procedimiento automático destinado a la extracción de información de varios textos escritos sobre el mismo tema. El informe resumido resultante permite a los usuarios individuales, como los consumidores de información profesional, familiarizarse rápidamente con la información contenida en un gran grupo de documentos. De esta manera, los sistemas de resumen de múltiples documentos complementan a los agregadores de noticias que realizan el siguiente paso en el camino para hacer frente a la sobrecarga de información .
Beneficios y dificultades clave
El resumen de varios documentos crea informes de información que son a la vez concisos y completos. Con diferentes opiniones reunidas y delineadas, cada tema se describe desde múltiples perspectivas dentro de un solo documento. Si bien el objetivo de un breve resumen es simplificar la búsqueda de información y reducir el tiempo al señalar los documentos fuente más relevantes, el resumen completo de varios documentos debería, en teoría, contener la información requerida, lo que limita la necesidad de acceder a los archivos originales a los casos en los que se refina. se requiere. En la práctica, es difícil resumir varios documentos con opiniones y prejuicios contradictorios. De hecho, es casi imposible lograr un resumen extractivo claro de documentos con opiniones contradictorias. El resumen abstracto es el lugar preferido en este caso.
Los resúmenes automáticos presentan información extraída de múltiples fuentes de forma algorítmica, sin ningún toque editorial o intervención humana subjetiva, por lo que es completamente imparcial. Las dificultades persisten, si se hacen resúmenes extractivos automáticos de documentos con puntos de vista contradictorios.
Desafíos tecnológicos
La tarea de resumen de varios documentos es más compleja que resumir un solo documento , incluso uno largo. La dificultad surge de la diversidad temática dentro de un gran conjunto de documentos. Una buena tecnología de resumen tiene como objetivo combinar los temas principales con integridad, legibilidad y concisión. Las conferencias sobre comprensión de documentos, [1] realizadas anualmente por el NIST , han desarrollado criterios de evaluación sofisticados para las técnicas que aceptan el desafío del resumen de varios documentos.
Un sistema ideal de resumen de múltiples documentos no solo acorta los textos fuente, sino que también presenta información organizada en torno a los aspectos clave para representar diferentes puntos de vista. El éxito produce una descripción general de un tema determinado. Dichas compilaciones de texto también deben cumplir los requisitos básicos para un texto general compilado por un humano. Los criterios de calidad del resumen de varios documentos son los siguientes:
- estructura clara, incluido un esquema del contenido principal, desde el que es fácil navegar a las secciones de texto completo
- el texto dentro de las secciones se divide en párrafos significativos
- transición gradual de aspectos temáticos más generales a más específicos
- buena legibilidad .
Este último punto merece una nota adicional. Se tiene cuidado para asegurarse de que la descripción general automática muestre:
- sin " ruido de información " no relacionado con el papel de los documentos respectivos (p. ej., páginas web)
- sin referencias colgantes a lo que no se menciona o explica en la descripción general
- ningún texto se interrumpe en una oración
- sin redundancia semántica .
Sistemas de la vida real
La tecnología de resumen de múltiples documentos está llegando a la mayoría de edad, una vista respaldada por una selección de sistemas avanzados basados en la web que están disponibles actualmente.
- ReviewChomp presenta resúmenes de las opiniones de los clientes sobre cualquier producto o servicio determinado. Algunos productos tienen miles de reseñas en línea, lo que las hace ilegibles para los humanos en tiempo real. La búsqueda del producto o servicio se realiza a través del sitio web.
- Ultimate Research Assistant [2] : realiza minería de texto en los resultados de búsqueda de Internet para ayudar a resumirlos y organizarlos y facilitar al usuario la búsqueda en línea. Las técnicas de minería de texto específicas utilizadas por la herramienta incluyen extracción de conceptos, resumen de texto, agrupación jerárquica de conceptos (por ejemplo, generación automatizada de taxonomía) y varias técnicas de visualización, incluidas nubes de etiquetas y mapas mentales.
- iResearch Reporter [3] - Extracción de texto comercial y sistema de resumen de texto, el sitio de demostración gratuito acepta consultas ingresadas por el usuario, las pasa al motor de búsqueda de Google, recupera múltiples documentos relevantes, produce informes resumidos en lenguaje natural categorizados y fácilmente legibles que cubren múltiples documentos recuperados conjunto, todos los extractos vinculados a documentos originales en la Web, posprocesamiento, extracción de entidades, extracción de eventos y relaciones , extracción de texto, agrupación de extractos, análisis lingüístico, documentos múltiples, texto completo, procesamiento de lenguaje natural, reglas de categorización, agrupación, lingüística análisis, conjunto de herramientas de construcción de resumen de texto.
- Newsblaster [4] es un sistema que ayuda a los usuarios a encontrar las noticias que más les interesan. El sistema recopila, agrupa, categoriza y resume automáticamente noticias de varios sitios en la web ( CNN , Reuters , Fox News , etc.) a diario y proporciona a los usuarios una interfaz para examinar los resultados.
- NewsInEssence [5] se puede utilizar para recuperar y resumir un grupo de artículos de la web. Puede comenzar desde una URL y recuperar documentos que sean similares, o puede recuperar documentos que coincidan con un conjunto determinado de palabras clave. NewsInEssence también descarga artículos de noticias a diario y produce grupos de noticias a partir de ellos.
- NewsFeed Researcher [6] es un portal de noticias que realiza un resumen automático continuo de los documentos inicialmente agrupados por los agregadores de noticias (por ejemplo, Google News ). NewsFeed Researcher cuenta con el respaldo de un motor en línea gratuito que cubre los principales eventos relacionados con los negocios, la tecnología y las noticias internacionales y de EE. UU. Esta herramienta también está disponible en modo a pedido, lo que permite al usuario crear resúmenes sobre temas seleccionados.
- Scrape This [7] es como un motor de búsqueda, pero en lugar de proporcionar enlaces a los sitios web más relevantes basados en una consulta, extrae la información pertinente de los sitios web relevantes y proporciona al usuario un resumen consolidado de varios documentos, junto con definiciones de diccionario, imágenes y videos.
- JistWeb [8] es un resumen de documentos múltiples específico de consultas.
Dado que los resúmenes de varios documentos generados automáticamente se asemejan cada vez más a las descripciones generales escritas por un humano, el uso de fragmentos de texto extraídos puede que algún día se enfrente a problemas de derechos de autor en relación con el concepto de derechos de autor de uso justo .
Bibliografía
- Günes Erkan; Dragomir R. Radev (1 de diciembre de 2004). "LexRank: centralidad léxica basada en gráficos como prominencia en el resumen de texto" . Revista de Investigación en Inteligencia Artificial . 22 : 457–479. arXiv : 1109.2128 . doi : 10.1613 / JAIR.1523 . ISSN 1076-9757 . Wikidata Q81312697 .
- Dragomir R. Radev, Hongyan Jing, Malgorzata Styś y Daniel Tam. Resumen basado en centroides de varios documentos. Information Processing and Management, 40: 919–938, diciembre de 2004. [5]
- Kathleen R. McKeown y Dragomir R. Radev. Generación de resúmenes de múltiples artículos noticiosos. En Proceedings, ACM Conference on Research and Development in Information Retrieval SIGIR'95, páginas 74–82, Seattle, Washington, julio de 1995. [6]
- C.-Y. Lin, E. Hovy, "Del resumen de un solo documento al de varios documentos: un sistema prototipo y su evaluación", en "Proceedings of the ACL", págs. 457–464, 2002
- Kathleen McKeown, Rebecca J. Passonneau, David K. Elson, Ani Nenkova, Julia Hirschberg, "Do Summaries Help? A Task-Based Evaluation of Multi-Document Summarization", SIGIR'05, Salvador, Brasil, 15-19 de agosto de 2005 [7]
- R. Barzilay, N. Elhadad, KR McKeown, "Inferir estrategias para el ordenamiento de oraciones en el resumen de noticias de varios documentos", Journal of Artificial Intelligence Research, v. 17, págs. 35–55, 2002
- M. Soubbotin, S. Soubbotin, "Compensación entre factores que influyen en la calidad del resumen", Taller de comprensión de documentos (DUC), Vancouver, BC, Canadá, 9 al 10 de octubre de 2005 [8]
- C Ravindranath Chowdary y P. Sreenivasa Kumar. "Esum: un sistema eficaz para el resumen de varios documentos específicos de consultas". En ECIR (Avances en la recuperación de información), págs. 724–728. Springer Berlín Heidelberg, 2009.
Ver también
Referencias
- ^ "Documento de comprensión de conferencias" . Nlpir.nist.gov . 2014-09-09 . Consultado el 10 de enero de 2016 .
- ^ "Generar informe de investigación" . Asistente de investigación definitiva . Consultado el 10 de enero de 2016 .
- ^ "Servicio iResearch Reporter" . Iresearch-reporter.com . Archivado desde el original el 9 de junio de 2013 . Consultado el 10 de enero de 2016 .
- ^ [1] Archivado el 16 de abril de 2013 en la Wayback Machine.
- ^ [2] Archivado el 11 de abril de 2011 en la Wayback Machine.
- ^ "Investigador de noticias en tiempo real | Cosas generales" . Newsfeedresearcher.com . Consultado el 10 de enero de 2016 .
- ^ [3] Archivado el 19 de septiembre de 2009 en la Wayback Machine.
- ^ [4] Archivado el 29 de mayo de 2013 en la Wayback Machine.
enlaces externos
- Conferencias de comprensión de documentos
- Proyectos de PNL de Columbia
- NewsInEssence: resumen de noticias basado en la web
- Revisión