Resumen automático

El resumen automático es el proceso de acortar computacionalmente un conjunto de datos para crear un subconjunto (un resumen ) que representa la información más importante o relevante dentro del contenido original.

Además del texto, también se pueden resumir imágenes y videos. El resumen de texto encuentra las oraciones más informativas en un documento; ^[1] varios métodos de resumen de imágenes son objeto de investigación en curso, y algunos buscan mostrar las imágenes más representativas de una colección determinada o generar un video; ^[2]^[3]^{[4] El} resumen de video extrae los cuadros más importantes del contenido del video. ^[5]

Aquí, el contenido se extrae de los datos originales, pero el contenido extraído no se modifica de ninguna manera. Los ejemplos de contenido extraído incluyen frases clave que se pueden usar para "etiquetar" o indexar un documento de texto, u oraciones clave (incluidos los encabezados) que en conjunto comprenden un resumen e imágenes representativas o segmentos de video, como se indicó anteriormente. Para el texto, la extracción es análoga al proceso de hojear, donde el resumen (si está disponible), los títulos y subtítulos, las figuras, el primer y último párrafo de una sección y, opcionalmente, la primera y la última oración de un párrafo se leen antes de elegir para leer todo el documento en detalle. ^[6] Otros ejemplos de extracción que incluyen secuencias clave de texto en términos de relevancia clínica (incluyendo paciente/problema, intervención y resultado). ^[7]

Esto se ha aplicado principalmente para el texto. Los métodos abstractivos construyen una representación semántica interna del contenido original y luego usan esta representación para crear un resumen más cercano a lo que un humano podría expresar. La abstracción puede transformar el contenido extraído parafraseando secciones del documento fuente, para condensar un texto con más fuerza que la extracción. Sin embargo, dicha transformación es mucho más desafiante desde el punto de vista computacional que la extracción, ya que involucra tanto el procesamiento del lenguaje natural como, a menudo, una comprensión profunda del dominio del texto original en los casos en que el documento original se relaciona con un campo especial de conocimiento. "Parafrasear" es aún más difícil de aplicar a imágenes y videos, razón por la cual la mayoría de los sistemas de resumen son extractivos.

Los enfoques destinados a una mayor calidad de resumen se basan en software combinado y esfuerzo humano. En Machine Aided Human Summarization, las técnicas extractivas resaltan pasajes candidatos para su inclusión (a los que el humano agrega o elimina texto). En Human Aided Machine Summarization, una salida de software de posprocesamiento humano, de la misma manera que uno edita la salida de la traducción automática de Google Translate.

En términos generales, existen dos tipos de tareas de resumen extractivas según en qué se centre el programa de resumen. El primero es el resumen genérico , que se centra en obtener un resumen o resumen genérico de la colección (ya sean documentos, conjuntos de imágenes, videos, noticias, etc.). El segundo es el resumen relevante de la consulta , a veces llamado resumen basado en consultas , que resume objetos específicos de una consulta. Los sistemas de resumen pueden crear tanto resúmenes de texto relevantes para la consulta como resúmenes genéricos generados por máquinas, según las necesidades del usuario.