De Wikipedia, la enciclopedia libre
Ir a navegaciónSaltar a buscar

El resumen automático es el proceso de acortar un conjunto de datos computacionalmente, para crear un subconjunto (un resumen ) que representa la información más importante o relevante dentro del contenido original.

Además del texto, también se pueden resumir imágenes y videos. El resumen de texto encuentra las oraciones más informativas de un documento; [1] varios métodos de resumen de imágenes son objeto de investigación en curso, y algunos buscan mostrar las imágenes más representativas de una colección determinada o generar un video; [2] [3] [4] el resumen de video extrae los fotogramas más importantes del contenido del video. [5]

Enfoques

Hay dos enfoques generales para el resumen automático: extracción y abstracción .

Resumen basado en extracción

Aquí, el contenido se extrae de los datos originales, pero el contenido extraído no se modifica de ninguna manera. Los ejemplos de contenido extraído incluyen frases clave que se pueden usar para "etiquetar" o indexar un documento de texto, o frases clave (incluidos los títulos) que comprenden colectivamente un resumen e imágenes representativas o segmentos de video, como se indicó anteriormente. Para el texto, la extracción es análoga al proceso de desnatar, donde el resumen (si está disponible), los títulos y subtítulos, las figuras, el primer y último párrafo de una sección y, opcionalmente, la primera y última oración de un párrafo se leen antes de que se elija. para leer el documento completo en detalle. [6] Otros ejemplos de extracción que incluyen secuencias clave de texto en términos de relevancia clínica (incluido el paciente / problema, la intervención y el resultado). [7]

Resumen basado en abstracciones

Esto se ha aplicado principalmente al texto. Los métodos abstractos construyen una representación semántica interna del contenido original y luego usan esta representación para crear un resumen más cercano a lo que podría expresar un ser humano. La abstracción puede transformar el contenido extraído parafraseando secciones del documento fuente, para condensar un texto con más fuerza que la extracción. Sin embargo, dicha transformación es computacionalmente mucho más desafiante que la extracción, involucrando tanto el procesamiento del lenguaje natural como a menudo una comprensión profunda del dominio del texto original en los casos en que el documento original se relaciona con un campo especial de conocimiento. La "paráfrasis" es aún más difícil de aplicar a imágenes y videos, razón por la cual la mayoría de los sistemas de resumen son extractivos.

Resumen asistido

Los enfoques dirigidos a una mayor calidad de resumen se basan en la combinación de software y esfuerzo humano. En el resumen humano asistido por máquina, las técnicas extractivas resaltan los pasajes candidatos para su inclusión (a los que el humano agrega o elimina texto). En Human Aided Machine Summarization, un humano posprocesa la salida del software, de la misma manera que se edita la salida de la traducción automática por Google Translate.

Aplicaciones y sistemas de resumen

En términos generales, existen dos tipos de tareas de resumen extractivo según el enfoque del programa de resumen. El primero es el resumen genérico , que se centra en obtener un resumen genérico o un resumen de la colección (ya sean documentos, conjuntos de imágenes, videos, noticias, etc.). El segundo es el resumen relevante de la consulta , a veces llamado resumen basado en consultas , que resume los objetos específicos de una consulta. Los sistemas de resumen pueden crear resúmenes de texto relevantes para consultas y resúmenes genéricos generados por máquina, según las necesidades del usuario.

Un ejemplo de problema de resumen es el resumen de documentos, que intenta producir automáticamente un resumen de un documento determinado. A veces, uno puede estar interesado en generar un resumen a partir de un único documento de origen, mientras que otros pueden utilizar varios documentos de origen (por ejemplo, un grupo de artículos sobre el mismo tema). Este problema se denomina resumen de varios documentos . Una aplicación relacionada está resumiendo artículos de noticias. Imagine un sistema, que reúne automáticamente artículos de noticias sobre un tema determinado (de la web) y representa de manera concisa las últimas noticias como un resumen.

El resumen de la colección de imágenes es otro ejemplo de aplicación del resumen automático. Consiste en seleccionar un conjunto representativo de imágenes de un conjunto mayor de imágenes. [8] Un resumen en este contexto es útil para mostrar las imágenes más representativas de los resultados en un sistema de exploración de colección de imágenes . El resumen de video es un dominio relacionado, donde el sistema crea automáticamente un avance de un video largo. Esto también tiene aplicaciones en videos personales o de consumo, donde uno podría querer omitir las acciones aburridas o repetitivas. Del mismo modo, en los videos de vigilancia, uno querría extraer actividad importante y sospechosa, ignorando todos los fotogramas aburridos y redundantes capturados.

En un nivel muy alto, los algoritmos de resumen intentan encontrar subconjuntos de objetos (como un conjunto de oraciones o un conjunto de imágenes), que cubren la información de todo el conjunto. Esto también se denomina conjunto básico . Estos algoritmos modelan nociones como diversidad, cobertura, información y representatividad del resumen. Técnicas de resumen basadas en consultas, además de modelar la relevancia del resumen con la consulta. Algunas técnicas y algoritmos que modelan naturalmente los problemas de resumen son TextRank y PageRank, función de conjunto submodular , proceso de punto determinante , relevancia marginal máxima (MMR), etc.

Extracción de frases clave

La tarea es la siguiente. Se le da un fragmento de texto, como un artículo de revista, y debe producir una lista de palabras clave o [frases] clave que capturen los temas principales discutidos en el texto. [9] En el caso de los artículos de investigación , muchos autores proporcionan palabras clave asignadas manualmente, pero la mayoría del texto carece de frases clave preexistentes. Por ejemplo, los artículos de noticias rara vez tienen frases clave adjuntas, pero sería útil poder hacerlo automáticamente para una serie de aplicaciones que se describen a continuación. Considere el texto de ejemplo de un artículo de noticias:

"El Cuerpo de Ingenieros del Ejército, apresurándose a cumplir la promesa del presidente Bush de proteger a Nueva Orleans al comienzo de la temporada de huracanes de 2006, instaló bombas de control de inundaciones defectuosas el año pasado a pesar de las advertencias de su propio experto de que el equipo fallaría durante una tormenta, según a los documentos obtenidos por The Associated Press ".

Un extractor de frases clave podría seleccionar "Cuerpo de Ingenieros del Ejército", "Presidente Bush", "Nueva Orleans" y "bombas de control de inundaciones defectuosas" como frases clave. Estos se extraen directamente del texto. Por el contrario, un sistema de frases clave abstractas internalizaría de alguna manera el contenido y generaría frases clave que no aparecen en el texto, pero que se asemejan más a lo que podría producir un ser humano, como "negligencia política" o "protección inadecuada contra inundaciones". La abstracción requiere una comprensión profunda del texto , lo que dificulta un sistema informático. Las frases clave tienen muchas aplicaciones. Pueden habilitar la exploración de documentos al proporcionar un breve resumen, mejorar la recuperación de información (si los documentos tienen frases clave asignadas,un usuario podría buscar por frase clave para producir resultados más confiables que unbúsqueda de texto completo ) y se empleará en la generación de entradas de índice para un corpus de texto grande.

Dependiendo de la literatura diferente y la definición de términos, palabras o frases clave , la extracción de palabras clave es un tema muy relacionado.

Enfoques de aprendizaje supervisado

A partir del trabajo de Turney, [10] muchos investigadores han abordado la extracción de frases clave como un problema de aprendizaje automático supervisado . Dado un documento, construimos un ejemplo para cada unigrama , bigrama y trigrama que se encuentra en el texto (aunque también son posibles otras unidades de texto, como se explica a continuación). Luego calculamos varias características que describen cada ejemplo (por ejemplo, ¿la frase comienza con una letra mayúscula?). Suponemos que hay frases clave conocidas disponibles para un conjunto de documentos de formación. Usando las frases clave conocidas, podemos asignar etiquetas positivas o negativas a los ejemplos. Luego aprendemos un clasificador que puede discriminar entre ejemplos positivos y negativos en función de las características. Algunos clasificadores hacen unclasificación binariapara un ejemplo de prueba, mientras que otros asignan una probabilidad de ser una frase clave. Por ejemplo, en el texto anterior, podríamos aprender una regla que dice que las frases con letras mayúsculas iniciales probablemente sean frases clave. Después de capacitar a un alumno, podemos seleccionar frases clave para los documentos de prueba de la siguiente manera. Aplicamos la misma estrategia de generación de ejemplos a los documentos de prueba y luego ejecutamos cada ejemplo a través del alumno. Podemos determinar las frases clave observando decisiones de clasificación binaria o probabilidades devueltas de nuestro modelo aprendido. Si se dan probabilidades, se utiliza un umbral para seleccionar las frases clave. Los extractores de frases clave generalmente se evalúan utilizando precisión y recuperación. La precisión mide cuántas de las frases clave propuestas son realmente correctas. Recall mide cuántas de las verdaderas frases clave propuso su sistema.Las dos medidas se pueden combinar en una puntuación F, que es la media armónica de las dos (F  = 2 PR / ( P  +  R )). Las coincidencias entre las frases clave propuestas y las frases clave conocidas se pueden verificar después de derivar o aplicar alguna otra normalización de texto.

El diseño de un sistema de extracción de frases clave supervisado implica decidir sobre varias opciones (algunas de ellas también se aplican a los no supervisados). La primera opción es exactamente cómo generar ejemplos. Turney y otros han utilizado todos los unigramas, bigramas y trigramas posibles sin intervenir la puntuación y después de eliminar las palabras vacías. Hulth demostró que puede obtener algunas mejoras seleccionando ejemplos para que sean secuencias de tokens que coincidan con ciertos patrones de etiquetas de parte del discurso. Idealmente, el mecanismo para generar ejemplos produce todas las frases clave etiquetadas conocidas como candidatas, aunque a menudo este no es el caso. Por ejemplo, si usamos solo unigramas, bigramas y trigramas, nunca podremos extraer una frase clave conocida que contenga cuatro palabras. Por lo tanto, el recuerdo puede sufrir. Sin embargo, generar demasiados ejemplos también puede conducir a una baja precisión.

También necesitamos crear características que describan los ejemplos y que sean lo suficientemente informativas como para permitir que un algoritmo de aprendizaje discrimine frases clave de las que no lo son. Por lo general, las características involucran varias frecuencias de términos (cuántas veces aparece una frase en el texto actual o en un corpus más grande), la longitud del ejemplo, la posición relativa de la primera aparición, varias características sintácticas booleanas (por ejemplo, contiene mayúsculas), etc. El artículo de Turney utilizó alrededor de 12 de tales características. Hulth utiliza un conjunto reducido de características, que se consideraron más exitosas en el trabajo de KEA (algoritmo de extracción de frases clave) derivado del artículo fundamental de Turney.

Al final, el sistema deberá devolver una lista de frases clave para un documento de prueba, por lo que debemos tener una forma de limitar el número. Los métodos de conjunto (es decir, el uso de votos de varios clasificadores) se han utilizado para producir puntuaciones numéricas que se pueden establecer como umbral para proporcionar un número de frases clave proporcionado por el usuario. Ésta es la técnica utilizada por Turney con árboles de decisión C4.5. Hulth usó un solo clasificador binario, por lo que el algoritmo de aprendizaje determina implícitamente el número apropiado.

Una vez que se crean ejemplos y funciones, necesitamos una forma de aprender a predecir frases clave. Se podría utilizar prácticamente cualquier algoritmo de aprendizaje supervisado, como árboles de decisión, Naive Bayes e inducción de reglas. En el caso del algoritmo GenEx de Turney, se utiliza un algoritmo genético para aprender los parámetros de un algoritmo de extracción de frase clave específico del dominio. El extractor sigue una serie de heurísticas para identificar frases clave. El algoritmo genético optimiza los parámetros para estas heurísticas con respecto al rendimiento en documentos de entrenamiento con frases clave conocidas.

Enfoque sin supervisión: TextRank

Otro algoritmo de extracción de frases clave es TextRank. Si bien los métodos supervisados ​​tienen algunas propiedades interesantes, como poder producir reglas interpretables para las características que caracterizan una frase clave, también requieren una gran cantidad de datos de entrenamiento . Se necesitan muchos documentos con frases clave conocidas. Además, el entrenamiento en un dominio específico tiende a personalizar el proceso de extracción para ese dominio, por lo que el clasificador resultante no es necesariamente portátil, como demuestran algunos de los resultados de Turney. La extracción de frases clave sin supervisión elimina la necesidad de datos de entrenamiento. Aborda el problema desde un ángulo diferente. En lugar de intentar aprender las características explícitas que caracterizan las frases clave, el algoritmo TextRank [11]explota la estructura del texto en sí para determinar frases clave que parecen "centrales" para el texto de la misma manera que PageRank selecciona páginas web importantes. Recordemos que esto se basa en la noción de "prestigio" o "recomendación" de las redes sociales . De esta manera, TextRank no se basa en ningún dato de entrenamiento previo, sino que se puede ejecutar en cualquier fragmento de texto arbitrario y puede producir resultados simplemente basados ​​en las propiedades intrínsecas del texto. Por lo tanto, el algoritmo es fácilmente transferible a nuevos dominios e idiomas.

TextRank es un algoritmo de clasificación basado en gráficos de propósito general para PNL . Básicamente, ejecuta PageRank en un gráfico especialmente diseñado para una tarea de PNL en particular. Para la extracción de frases clave, crea un gráfico utilizando algún conjunto de unidades de texto como vértices. Los bordes se basan en alguna medida de similitud semántica o léxica entre los vértices de las unidades de texto. A diferencia de PageRank, los bordes normalmente no están dirigidos y se pueden ponderar para reflejar un grado de similitud. Una vez que se construye el gráfico, se utiliza para formar una matriz estocástica, combinada con un factor de amortiguación (como en el "modelo de surfista aleatorio"), y la clasificación sobre los vértices se obtiene al encontrar el vector propio correspondiente al valor propio 1 (es decir, el distribución estacionariadel paseo aleatorio en el gráfico).

Los vértices deben corresponder a lo que queremos clasificar. Potencialmente, podríamos hacer algo similar a los métodos supervisados ​​y crear un vértice para cada unigrama, bigrama, trigrama, etc. Sin embargo, para mantener el gráfico pequeño, los autores deciden clasificar los unigramas individuales en un primer paso y luego incluir un segundo paso que fusiona unigramas adyacentes altamente clasificados para formar frases de varias palabras. Esto tiene un buen efecto secundario al permitirnos producir frases clave de longitud arbitraria. Por ejemplo, si clasificamos los unigramas y encontramos que "avanzado", "natural", "lenguaje" y "procesamiento" obtienen todos los rangos altos, entonces miraremos el texto original y veríamos que estas palabras aparecen consecutivamente y crear un final frase clave utilizando los cuatro juntos. Tenga en cuenta que los unigramas colocados en el gráfico se pueden filtrar por parte del discurso.Los autores encontraron que los adjetivos y los sustantivos eran los mejores para incluir. Por tanto, en este paso entran en juego algunos conocimientos lingüísticos.

Los bordes se crean a partir de la palabra co-ocurrencia en esta solicitud de TextRank. Dos vértices están conectados por un borde si los unigramas aparecen dentro de una ventana de tamaño N en el texto original. Normalmente, N está alrededor de 2 a 10. Por lo tanto, "natural" y "lenguaje" pueden estar vinculados en un texto sobre PNL. "Natural" y "procesamiento" también estarían vinculados porque ambos aparecerían en la misma cadena de N palabras. Estos bordes se basan en la noción de " cohesión del texto " y la idea de que las palabras que aparecen cerca unas de otras probablemente estén relacionadas de manera significativa y se "recomienden" entre sí al lector.

Dado que este método simplemente clasifica los vértices individuales, necesitamos una forma de establecer un umbral o producir un número limitado de frases clave. La técnica elegida es establecer un recuento T para que sea una fracción especificada por el usuario del número total de vértices en el gráfico. Luego, los vértices / unigramas superiores T se seleccionan en función de sus probabilidades estacionarias. Luego se aplica un paso de posprocesamiento para fusionar instancias adyacentes de estos T unigramas. Como resultado, se producirán potencialmente más o menos de T frases clave finales, pero el número debe ser aproximadamente proporcional a la longitud del texto original.

Inicialmente, no está claro por qué la aplicación de PageRank a un gráfico de co-ocurrencia produciría frases clave útiles. Una forma de pensarlo es la siguiente. Una palabra que aparece varias veces a lo largo de un texto puede tener muchos vecinos concurrentes diferentes. Por ejemplo, en un texto sobre aprendizaje automático, el "aprendizaje" de unigrama podría coexistir con "máquina", "supervisado", "no supervisado" y "semi-supervisado" en cuatro oraciones diferentes. Por lo tanto, el vértice de "aprendizaje" sería un "eje" central que se conecta a estas otras palabras modificadoras. Es probable que la ejecución de PageRank / TextRank en el gráfico clasifique "aprendizaje" alto. Del mismo modo, si el texto contiene la frase "clasificación supervisada", habría una diferencia entre "supervisado" y "clasificación".. Si la "clasificación" aparece en varios otros lugares y por lo tanto tiene muchos vecinos, su importancia contribuiría a la importancia de "supervisado". Si termina con un rango alto, será seleccionado como uno de los mejores unigramas de T, junto con "aprendizaje" y probablemente "clasificación". En el paso final de posprocesamiento, terminaríamos con frases clave "aprendizaje supervisado" y "clasificación supervisada".luego terminaríamos con frases clave "aprendizaje supervisado" y "clasificación supervisada".luego terminaríamos con frases clave "aprendizaje supervisado" y "clasificación supervisada".

En resumen, el gráfico de co-ocurrencia contendrá regiones densamente conectadas para términos que aparecen con frecuencia y en diferentes contextos. Un recorrido aleatorio en este gráfico tendrá una distribución estacionaria que asigna grandes probabilidades a los términos en los centros de los conglomerados. Esto es similar a las páginas web densamente conectadas que obtienen una alta clasificación por PageRank. Este enfoque también se ha utilizado en el resumen de documentos, que se analiza a continuación.

Resumen de documentos

Al igual que la extracción de frases clave, el resumen de documentos tiene como objetivo identificar la esencia de un texto. La única diferencia real es que ahora estamos tratando con unidades de texto más grandes: oraciones completas en lugar de palabras y frases.

Antes de entrar en los detalles de algunos métodos de resumen, mencionaremos cómo se evalúan típicamente los sistemas de resumen. La forma más común es utilizar la medida denominada ROUGE (estudio orientado al recuerdo para la evaluación de Gisting). Esta es una medida basada en el recuerdo que determina qué tan bien un resumen generado por el sistema cubre el contenido presente en uno o más resúmenes de modelos generados por humanos conocidos como referencias. Se basa en recordar para alentar a los sistemas a incluir todos los temas importantes en el texto. El recuerdo se puede calcular con respecto a la coincidencia de unigramo, bigrama, trigrama o 4 gramos. Por ejemplo, ROUGE-1 se calcula como la división del recuento de unigramas en referencia que aparecen en el sistema y el recuento de unigramas en el resumen de referencia.

Si hay varias referencias, se promedian las puntuaciones de ROUGE-1. Debido a que ROUGE se basa solo en la superposición de contenido, puede determinar si los mismos conceptos generales se discuten entre un resumen automático y un resumen de referencia, pero no puede determinar si el resultado es coherente o si las oraciones fluyen juntas de manera sensata. Las medidas de ROUGE de n-gramas de alto orden intentan juzgar la fluidez hasta cierto punto. Tenga en cuenta que ROUGE es similar a la medida BLEU para la traducción automática, pero BLEU se basa en la precisión, porque los sistemas de traducción favorecen la precisión.

Una línea prometedora en el resumen de documentos es el resumen de texto / documento adaptativo. [12] La idea de resumen adaptativo implica el reconocimiento preliminar del género de documento / texto y la aplicación posterior de algoritmos de resumen optimizados para este género. Primero resume que se han creado realizar resúmenes adaptativos. [13]

Enfoques de aprendizaje supervisado

El resumen de texto supervisado es muy parecido a la extracción supervisada de frases clave. Básicamente, si tiene una colección de documentos y resúmenes generados por humanos para ellos, puede aprender las características de las oraciones que las convierten en buenos candidatos para su inclusión en el resumen. Las características pueden incluir la posición en el documento (es decir, las primeras oraciones probablemente sean importantes), el número de palabras en la oración, etc. La principal dificultad en el resumen extractivo supervisado es que los resúmenes conocidos deben crearse manualmente extrayendo oraciones para las frases de un documento de formación original se pueden etiquetar como "en resumen" o "no en resumen". Normalmente no es así como las personas crean resúmenes, por lo que el simple hecho de utilizar resúmenes de revistas o resúmenes existentes no suele ser suficiente.Las oraciones de estos resúmenes no coinciden necesariamente con las oraciones del texto original, por lo que sería difícil asignar etiquetas a los ejemplos para la capacitación. Sin embargo, tenga en cuenta que estos resúmenes naturales aún se pueden usar con fines de evaluación, ya que ROUGE-1 solo se preocupa por los unigramos.

Resumen máximo basado en entropía

Durante los talleres de evaluación de DUC 2001 y 2002, TNO desarrolló un sistema de extracción de oraciones para el resumen de múltiples documentos en el ámbito de las noticias. El sistema se basó en un sistema híbrido que utiliza un clasificador de Bayes ingenuo y modelos de lenguaje estadístico para modelar la prominencia. Aunque el sistema mostró buenos resultados, los investigadores querían explorar la efectividad de un clasificador de máxima entropía (ME) para la tarea de resumen de reuniones, ya que se sabe que ME es robusto contra las dependencias de características. La entropía máxima también se ha aplicado con éxito para el resumen en el dominio de noticias de difusión.

TextRank y LexRank

El enfoque sin supervisión del resumen también es bastante similar en espíritu a la extracción de frases clave sin supervisión y evita el problema de los costosos datos de capacitación. Algunos enfoques de resumen no supervisados ​​se basan en encontrar una oración " centroide ", que es el vector de palabra media de todas las oraciones del documento. Luego, las oraciones pueden clasificarse con respecto a su similitud con esta oración centroide.

Una forma más basada en principios para estimar la importancia de las oraciones es usar recorridos aleatorios y centralidad de vector propio. LexRank [14] es un algoritmo esencialmente idéntico a TextRank, y ambos utilizan este enfoque para el resumen de documentos. Los dos métodos fueron desarrollados por diferentes grupos al mismo tiempo, y LexRank simplemente se centró en el resumen, pero podría usarse con la misma facilidad para la extracción de frases clave o cualquier otra tarea de clasificación de PNL.

Tanto en LexRank como en TextRank, un gráfico se construye creando un vértice para cada oración en el documento.

Los bordes entre oraciones se basan en alguna forma de similitud semántica o superposición de contenido. Mientras LexRank usa la similitud de coseno de los vectores TF-IDF , TextRank usa una medida muy similar basada en la cantidad de palabras que dos oraciones tienen en común ( normalizadas por la longitud de las oraciones). El documento LexRank exploró el uso de bordes no ponderados después de aplicar un umbral a los valores de coseno, pero también experimentó con el uso de bordes con pesos iguales a la puntuación de similitud. TextRank utiliza puntuaciones de similitud continua como ponderaciones.

En ambos algoritmos, las oraciones se clasifican aplicando PageRank al gráfico resultante. Un resumen se forma combinando las oraciones de mayor rango, usando un umbral o corte de longitud para limitar el tamaño del resumen.

Vale la pena señalar que TextRank se aplicó al resumen exactamente como se describe aquí, mientras que LexRank se usó como parte de un sistema de resumen más grande ( MEAD ) que combina la puntuación LexRank (probabilidad estacionaria) con otras características como la posición y la longitud de la oración usando una combinación lineal con pesos especificados por el usuario o ajustados automáticamente. En este caso, es posible que se necesiten algunos documentos de capacitación, aunque los resultados de TextRank muestran que las funciones adicionales no son absolutamente necesarias.

Otra distinción importante es que TextRank se utilizó para el resumen de un solo documento, mientras que LexRank se aplicó para el resumen de varios documentos. La tarea sigue siendo la misma en ambos casos: solo ha aumentado el número de oraciones para elegir. Sin embargo, al resumir varios documentos, existe un mayor riesgo de seleccionar oraciones duplicadas o muy redundantes para colocarlas en el mismo resumen. Imagine que tiene un grupo de artículos de noticias sobre un evento en particular y desea producir un resumen. Es probable que cada artículo tenga muchas oraciones similares y solo querrá incluir ideas distintas en el resumen. Para abordar este problema, LexRank aplica un paso de posprocesamiento heurístico que crea un resumen agregando oraciones en orden de clasificación, pero descarta las oraciones que son demasiado similares a las que ya se encuentran en el resumen.El método utilizado se denomina subsunción de información de frases cruzadas (CSIS).

Estos métodos funcionan basados ​​en la idea de que las oraciones "recomiendan" al lector otras oraciones similares. Por lo tanto, si una oración es muy similar a muchas otras, probablemente será una oración de gran importancia. La importancia de esta oración también se deriva de la importancia de las oraciones "recomendándola". Por lo tanto, para obtener una clasificación alta y colocarla en un resumen, una oración debe ser similar a muchas oraciones que, a su vez, también son similares a muchas otras oraciones. Esto tiene un sentido intuitivo y permite que los algoritmos se apliquen a cualquier texto nuevo arbitrario. Los métodos son independientes del dominio y fácilmente portátiles. Uno podría imaginar que las características que indican oraciones importantes en el dominio de las noticias podrían variar considerablemente del dominio biomédico. Sin embargo, el enfoque basado en "recomendaciones" sin supervisión se aplica a cualquier dominio.

Resumen de varios documentos

El resumen de varios documentos es un procedimiento automático destinado a la extracción de información de varios textos escritos sobre el mismo tema. El informe resumido resultante permite a los usuarios individuales, como los consumidores de información profesional, familiarizarse rápidamente con la información contenida en un gran grupo de documentos. De esta manera, los sistemas de resumen de múltiples documentos complementan a los agregadores de noticias que realizan el siguiente paso en el camino para hacer frente a la sobrecarga de información . También se puede realizar un resumen de varios documentos en respuesta a una pregunta. [15] [7]

El resumen de varios documentos crea informes de información que son a la vez concisos y completos. Con diferentes opiniones reunidas y delineadas, cada tema se describe desde múltiples perspectivas dentro de un solo documento. Si bien el objetivo de un breve resumen es simplificar la búsqueda de información y reducir el tiempo al señalar los documentos fuente más relevantes, el resumen completo de varios documentos debe contener la información requerida, lo que limita la necesidad de acceder a los archivos originales a los casos en los que el refinamiento es necesario. requerido. Los resúmenes automáticos presentan información extraída de múltiples fuentes de forma algorítmica, sin ningún toque editorial o intervención humana subjetiva, por lo que es completamente imparcial. [ dudoso ]

Incorporando diversidad

El resumen extractivo de varios documentos se enfrenta a un problema de posible redundancia. Idealmente, nos gustaría extraer oraciones que sean tanto "centrales" (es decir, que contengan las ideas principales) como "diversas" (es decir, que difieran entre sí). LexRank trata la diversidad como una etapa final heurística utilizando CSIS, y otros sistemas han utilizado métodos similares, como la Relevancia Marginal Máxima (MMR), [16] para tratar de eliminar la redundancia en los resultados de la recuperación de información. Existe un algoritmo de clasificación basado en gráficos de propósito general como Page / Lex / TextRank que maneja tanto la "centralidad" como la "diversidad" en un marco matemático unificado basado en la absorción de la cadena de Markov.paseos al azar. (Una caminata aleatoria absorbente es como una caminata aleatoria estándar, excepto que algunos estados ahora están absorbiendo estados que actúan como "agujeros negros" que hacen que la caminata termine abruptamente en ese estado). El algoritmo se llama SALTAMONTES. [17] Además de promover explícitamente la diversidad durante el proceso de clasificación, GRASSHOPPER incorpora una clasificación previa (basada en la posición de la oración en el caso del resumen).

Sin embargo, los resultados del estado de la técnica para el resumen de múltiples documentos se obtienen utilizando mezclas de funciones submodulares. Estos métodos han alcanzado los resultados más avanzados para Document Summarization Corpora, DUC 04 - 07. [18] También se obtuvieron resultados similares con el uso de procesos de puntos determinantes (que son un caso especial de funciones submodulares) para DUC-04. [19]

Recientemente se ha desarrollado un nuevo método para el resumen de múltiples documentos en varios idiomas que evita la redundancia simplificando y generando ideogramas que representan el significado de cada oración en cada documento y luego evalúa la similitud "cualitativamente" comparando la forma y posición de dichos ideogramas. . Esta herramienta no usa frecuencia de palabras, no necesita entrenamiento o preprocesamiento de ningún tipo y funciona generando ideogramas que representan el significado de cada oración y luego resume usando dos parámetros proporcionados por el usuario: equivalencia (cuando dos oraciones deben considerarse equivalentes) y relevancia (cuánto tiempo es el resumen deseado).


Funciones submodulares como herramientas genéricas de resumen

La idea de una función de conjunto submodular ha surgido recientemente como una poderosa herramienta de modelado para varios problemas de resumen. Las funciones submodulares modelan naturalmente las nociones de cobertura , información , representación y diversidad . Además, se producen varios problemas importantes de optimización combinatoria como casos especiales de optimización submodular. Por ejemplo, el problema de la cobertura del conjunto es un caso especial de optimización submodular, ya que la función de cobertura del conjunto es submodular. La función de cobertura del conjunto intenta encontrar un subconjunto de objetos que cubrenun conjunto dado de conceptos. Por ejemplo, en el resumen de documentos, a uno le gustaría que el resumen cubriera todos los conceptos importantes y relevantes del documento. Esta es una instancia de cobertura de conjunto. De manera similar, el problema de la ubicación de las instalaciones es un caso especial de funciones submodulares. La función Ubicación de instalaciones también modela naturalmente la cobertura y la diversidad. Otro ejemplo de un problema de optimización submodular es el uso de un proceso de punto determinantepara modelar la diversidad. De manera similar, el procedimiento de máxima relevancia marginal también puede verse como una instancia de optimización submodular. Todos estos importantes modelos que fomentan la cobertura, la diversidad y la información son todos submodulares. Además, las funciones submodulares se pueden combinar de manera eficiente, y la función resultante sigue siendo submodular. Por lo tanto, se podría combinar una función submodular que modela la diversidad, otra que modela la cobertura y usar la supervisión humana para aprender un modelo correcto de una función submodular para el problema.

Si bien las funciones submodulares son problemas adecuados para el resumen, también admiten algoritmos muy eficientes para la optimización. Por ejemplo, un algoritmo codicioso simple admite una garantía de factor constante. [20] Además, el algoritmo codicioso es extremadamente simple de implementar y puede escalar a grandes conjuntos de datos, lo cual es muy importante para problemas de resumen.

Las funciones submodulares han alcanzado el estado del arte para casi todos los problemas de resumen. Por ejemplo, el trabajo de Lin y Bilmes, 2012 [21] muestra que las funciones submodulares logran los mejores resultados hasta la fecha en los sistemas DUC-04, DUC-05, DUC-06 y DUC-07 para el resumen de documentos. De manera similar, el trabajo de Lin y Bilmes, 2011, [22] muestra que muchos sistemas existentes para el resumen automático son instancias de funciones submodulares. Este fue un resultado revolucionario que estableció funciones submodulares como los modelos adecuados para los problemas de resumen. [ cita requerida ]

Las funciones submodulares también se han utilizado para otras tareas de resumen. Tschiatschek et al., 2014 muestran [23] que las mezclas de funciones submodulares logran resultados de vanguardia para el resumen de la colección de imágenes. De manera similar, Bairi et al., 2015 [24] muestran la utilidad de las funciones submodulares para resumir jerarquías de temas de múltiples documentos. Las funciones submodulares también se han utilizado con éxito para resumir conjuntos de datos de aprendizaje automático. [25]

Aplicaciones

Las aplicaciones específicas del resumen automático incluyen:

  • El bot de Reddit "autotldr", [26] creado en 2011 resume los artículos de noticias en la sección de comentarios de las publicaciones de reddit. La comunidad de reddit descubrió que era muy útil y votó a favor de sus resúmenes cientos de miles de veces. [27] El nombre es una referencia a TL; DR - jerga de Internet que significa "demasiado tiempo; no se leyó". [28] [29]

Técnicas de evaluación

La forma más común de evaluar la capacidad de información de los resúmenes automáticos es compararlos con resúmenes de modelos hechos por humanos.

Las técnicas de evaluación se clasifican en intrínsecas y extrínsecas, [30] intertextuales e intratextuales. [31]

Evaluación intrínseca y extrínseca

Una evaluación intrínseca prueba el sistema de resumen en sí mismo, mientras que una evaluación extrínseca prueba el resumen en función de cómo afecta la realización de alguna otra tarea. Las evaluaciones intrínsecas han evaluado principalmente la coherencia y el carácter informativo de los resúmenes. Las evaluaciones extrínsecas, por otro lado, han probado el impacto del resumen en tareas como evaluación de relevancia, comprensión de lectura, etc.

Intertextual e intratextual

Los métodos intratextuales evalúan el resultado de un sistema de resumen específico, y los intertextuales se centran en el análisis contrastivo de los resultados de varios sistemas de resumen.

El juicio humano a menudo tiene una gran variación en lo que se considera un "buen" resumen, lo que significa que hacer que el proceso de evaluación sea automático es particularmente difícil. Se puede utilizar la evaluación manual, pero esto requiere mucho tiempo y trabajo, ya que requiere que los humanos lean no solo los resúmenes sino también los documentos originales. Otras cuestiones son las relativas a la coherencia y la cobertura.

Una de las métricas utilizadas en las conferencias anuales de comprensión de documentos del NIST , en las que los grupos de investigación envían sus sistemas para tareas de resumen y traducción, es la métrica ROUGE (Recall-Oriented Understudy for Gisting Evaluation [2] ). Básicamente, calcula las superposiciones de n-gramas entre los resúmenes generados automáticamente y los resúmenes humanos escritos previamente. Un alto nivel de superposición debería indicar un alto nivel de conceptos compartidos entre los dos resúmenes. Tenga en cuenta que las métricas superpuestas como esta no pueden proporcionar comentarios sobre la coherencia de un resumen. Resolución anáforasigue siendo otro problema que aún no se ha resuelto por completo. De manera similar, para el resumen de imágenes, Tschiatschek et al., Desarrollaron una puntuación Visual-ROUGE que juzga el rendimiento de los algoritmos para el resumen de imágenes. [32]

Técnicas de resumen específicas de dominio versus independientes de dominio

Las técnicas de resumen independientes del dominio generalmente aplican conjuntos de características generales que pueden usarse para identificar segmentos de texto ricos en información. El enfoque de la investigación reciente se ha desplazado hacia técnicas de resumen de dominios específicos que utilizan el conocimiento disponible específico del dominio del texto. Por ejemplo, la investigación de resumen automático de textos médicos generalmente intenta utilizar las diversas fuentes de ontologías y conocimientos médicos codificados. [33]

Evaluación de resúmenes cualitativamente

El principal inconveniente de los sistemas de evaluación existentes hasta ahora es que necesitamos al menos un resumen de referencia, y para algunos métodos más de uno, para poder comparar los resúmenes automáticos con modelos. Ésta es una tarea ardua y costosa. Hay que hacer un gran esfuerzo para tener un corpus de textos y sus correspondientes resúmenes. Además, para algunos métodos, no solo necesitamos tener resúmenes hechos por humanos disponibles para la comparación, sino que también se debe realizar la anotación manual en algunos de ellos (por ejemplo, SCU en el método de la pirámide). En cualquier caso, lo que los métodos de evaluación necesitan como insumo, es un conjunto de resúmenes que sirvan como estándares de oro y un conjunto de resúmenes automáticos. Además, todos realizan una evaluación cuantitativa con respecto a diferentes métricas de similitud.

Historia

La primera publicación en la zona data de 1958 (Lun), partiendo de una técnica estadística. La investigación aumentó significativamente en 2015. En 2016 se utilizó la frecuencia de términos inversa de los documentos. El resumen basado en patrones fue la opción más poderosa para el resumen de varios documentos que se encontró en 2016. En el año siguiente, fue superado por el análisis semántico latente (LSA) combinado con factorización matricial no negativa(NMF). Aunque no reemplazaron a otros enfoques y a menudo se combinan con ellos, en 2019 los métodos de aprendizaje automático dominaban el resumen extractivo de documentos individuales, que se consideraba que estaba cerca de la madurez. Para 2020, el campo todavía estaba muy activo y la investigación se está desplazando hacia la suma abstracta y el resumen en tiempo real. [34]

Ver también

  • Extracción de oraciones
  • Extracción de textos
  • Resumen de varios documentos

Referencias

  1. ^ Torres-Moreno, Juan-Manuel (1 de octubre de 2014). Resumen de texto automático . Wiley. págs. 320–. ISBN 978-1-848-21668-6.
  2. ^ Pan, Xingjia; Tang, Fan; Dong, Weiming; Ma, Chongyang; Meng, Yiping; Huang, Feiyue; Lee, Tong-Yee; Xu, Changsheng (1 de abril de 2021). "Resumen visual basado en contenido para colecciones de imágenes" . Transacciones IEEE sobre visualización y gráficos por computadora . 27 (4): 2298–2312. doi : 10.1109 / tvcg.2019.2948611 . ISSN 1077-2626 . PMID 31647438 . S2CID 204865221 .   
  3. ^ "OMPI PUBLICA PATENTE DE KT PARA" SISTEMA Y MÉTODO DE RESUMEN DE IMAGEN "(INVENTORES DE COREA DEL SUR)" . Servicio de Noticias de la Fed de EE . UU . 10 de enero de 2018. ProQuest 1986931333 . Consultado el 22 de enero de 2021 . 
  4. ^ Li Tan; Canción de Yangqiu; Shixia Liu; Lexing Xie (febrero de 2012). "ImageHive: resumen interactivo de imágenes con reconocimiento de contenido" . Aplicaciones y gráficos informáticos IEEE . 32 (1): 46–55. doi : 10.1109 / mcg.2011.89 . ISSN 0272-1716 . PMID 24808292 . S2CID 7668289 .   
  5. ^ Sankar K. Pal; Alfredo Petrosino; Lucia Maddalena (25 de enero de 2012). Manual de Soft Computing para videovigilancia . Prensa CRC. págs. 81–. ISBN 978-1-4398-5685-7.
  6. ^ Richard Sutz, Peter Weverka. Cómo hojear el texto. https://www.dummies.com/education/language-arts/speed-reading/how-to-skim-text/ Consultado en diciembre de 2019.
  7. ^ a b Afzal M, Alam F, Malik KM, Malik GM, Resumen de texto biomédico sensible al contexto clínico utilizando una red neuronal profunda: desarrollo y validación de modelos , J Med Internet Res 2020; 22 (10): e19810, DOI: 10.2196 / 19810 , PMID: 33095174
  8. ^ Jorge E. Camargo y Fabio A. González. Un método de alineación de kernel de varias clases para el resumen de la colección de imágenes. En Actas del XIV Congreso Iberoamericano de Reconocimiento de Patrones: Avances en Reconocimiento de Patrones, Análisis de Imágenes, Visión por Computador y Aplicaciones (CIARP '09), Eduardo Bayro-Corrochano y Jan-Olof Eklundh (Eds.). Springer-Verlag, Berlín, Heidelberg, 545-552. doi : 10.1007 / 978-3-642-10268-4_64
  9. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: extracción automática de frases clave sin supervisión mediante la propagación de afinidad". Avances en Sistemas de Inteligencia Computacional . Avances en Computación y Sistemas Inteligentes. 650 . págs. 222-235. doi : 10.1007 / 978-3-319-66939-7_19 . ISBN 978-3-319-66938-0.
  10. ^ Turney, Peter D (2002). "Algoritmos de aprendizaje para la extracción de frases clave". Recuperación de información) . 2 (4): 303–336. arXiv : cs / 0212020 . Bibcode : 2002cs ....... 12020T . doi : 10.1023 / A: 1009976227802 . S2CID 7007323 . 
  11. ^ Rada Mihalcea y Paul Tarau, 2004: TextRank : Poner orden en los textos , Departamento de Ciencias de la Computación de la Universidad del Norte de Texas "Copia archivada" (PDF) . Archivado desde el original (PDF) el 17 de junio de 2012 . Consultado el 20 de julio de 2012 . CS1 maint: archived copy as title (link)
  12. ^ Yatsko, VA; Starikov, MS; Butakov, AV (2010). "Reconocimiento automático de género y resumen de texto adaptativo". Documentación automática y lingüística matemática . 44 (3): 111-120. doi : 10.3103 / S0005105510030027 . S2CID 1586931 . 
  13. ^ UNIS (resumen universal)
  14. ^ Güneş Erkan y Dragomir R. Radev: LexRank: Centralidad léxica basada en gráficos como prominencia en el resumen de texto [1]
  15. ^ " Sistemas versátiles de respuesta a preguntas: ver en síntesis ", Revista internacional de sistemas de bases de datos de información inteligente, 5 (2), 119-142, 2011.
  16. ^ Carbonell, Jaime y Jade Goldstein. " El uso de MMR, reordenación basada en la diversidad para reordenar documentos y producir resúmenes ". Actas de la 21ª conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en la recuperación de información. ACM, 1998.
  17. ^ Zhu, Xiaojin, et al. " Mejorar la diversidad en la clasificación mediante la absorción de paseos aleatorios ". HLT-NAACL. 2007.
  18. ^ Hui Lin, Jeff Bilmes. " Aprendizaje de mezclas de shells submodulares con aplicación al resumen de documentos
  19. ^ Alex Kulesza y Ben Taskar, Procesos de puntos determinantes para el aprendizaje automático . Fundamentos y tendencias en el aprendizaje automático, diciembre de 2012.
  20. ^ Nemhauser, George L., Laurence A. Wolsey y Marshall L. Fisher. "Un análisis de aproximaciones para maximizar las funciones de conjuntos submodulares: I". Programación matemática 14.1 (1978): 265-294.
  21. ^ Hui Lin, Jeff Bilmes. " Aprendizaje de mezclas de conchas submodulares con aplicación al resumen de documentos ", AUI, 2012
  22. ^ Hui Lin, Jeff Bilmes. " Una clase de funciones submodulares para el resumen de documentos ", 49a reunión anual de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano (ACL-HLT), 2011
  23. ^ Sebastian Tschiatschek, Rishabh Iyer, Hoachen Wei y Jeff Bilmes, Aprendizaje de mezclas de funciones submodulares para el resumen de la colección de imágenes, Avance de los sistemas de procesamiento de información neuronal (NIPS), Montreal, Canadá, diciembre de 2014.
  24. ^ Ramakrishna Bairi, Rishabh Iyer, Ganesh Ramakrishnan y Jeff Bilmes, Resumiendo jerarquías de temas de múltiples documentos utilizando mezclas submodulares , para aparecer en la reunión anual de la Asociación de Lingüística Computacional (ACL), Beijing, China, julio de 2015
  25. ^ Kai Wei, Rishabh Iyer y Jeff Bilmes, submodularidad en la selección de subconjuntos de datos y aprendizaje activo , para aparecer en proc. Conferencia internacional sobre aprendizaje automático (ICML), Lille, Francia, junio de 2015
  26. ^ "descripción general de autotldr" . reddit . Consultado el 9 de febrero de 2017 .
  27. Squire, Megan (29 de agosto de 2016). Dominar la minería de datos con Python: encuentre patrones ocultos en sus datos . Packt Publishing Ltd. ISBN 9781785885914. Consultado el 9 de febrero de 2017 .
  28. ^ "¿Qué es 'TLDR'?" . Lifewire . Consultado el 9 de febrero de 2017 .
  29. ^ "¿Qué significa TL; DR? ¿AMA? ¿TIL? Glosario de términos y abreviaturas de Reddit" . Tiempos de negocios internacionales . 29 de marzo de 2012 . Consultado el 9 de febrero de 2017 .
  30. ^ Mani, I. Evaluación de resumen: una descripción general
  31. ^ Yatsko, VA; Vishnyakov, TN (2007). "Un método para evaluar sistemas modernos de resumen automático de texto". Documentación automática y lingüística matemática . 41 (3): 93–103. doi : 10.3103 / S0005105507030041 . S2CID 7853204 . 
  32. ^ Sebastian Tschiatschek, Rishabh Iyer, Hoachen Wei y Jeff Bilmes, Aprendizaje de mezclas de funciones submodulares para el resumen de la colección de imágenes, Avance de los sistemas de procesamiento de información neuronal (NIPS), Montreal, Canadá, diciembre de 2014. (PDF)
  33. ^ Sarker, Abeed; Molla, Diego; París, Cecile (2013). Un enfoque para el resumen de texto centrado en consultas para la medicina basada en la evidencia . Apuntes de conferencias en Ciencias de la Computación. 7885 . págs. 295-304. doi : 10.1007 / 978-3-642-38326-7_41 . ISBN 978-3-642-38325-0.
  34. ^ Widyassari, Adhika Pramita; Rustad, Supriadi; Shidik, Guruh Fajar; Noersasongko, Edi; Syukur, Abdul; Afablemente, afablemente; Setiadi, De Rosal Ignatius Moses (20/05/2020). "Revisión de técnicas y métodos de resumen de texto automático" . Revista de la Universidad King Saud - Ciencias de la Información y la Computación . doi : 10.1016 / j.jksuci.2020.05.006 . ISSN 1319-1578 . 

Lectura adicional

  • Hércules, Dalianis (2003). Portar y evaluar el resumen automático .
  • Roxana, Angheluta (2002). El uso de la segmentación de temas para el resumen automático .
  • Anne, Buist (2004). Resumen automático de datos de reuniones: un estudio de viabilidad (PDF) .
  • Annie, Louis (2009). Estimación de la confianza del rendimiento para el resumen automático .
  • Elena, Lloret y Manuel, Palomar (2009). Problemas desafiantes del resumen automático: detección de relevancia y evaluación basada en la calidad .
  • Andrew, Goldberg (2007). Resumen automático .
  • Alrehamy, Hassan (2017). "SemCluster: extracción automática de frases clave sin supervisión mediante la propagación de afinidad". Extracción automática de frases clave . Avances en Computación y Sistemas Inteligentes. 650 . págs. 222-235. doi : 10.1007 / 978-3-319-66939-7_19 . ISBN 978-3-319-66938-0.
  • Endres-Niggemeyer, Brigitte (1998). Resumen de información . ISBN 978-3-540-63735-6.
  • Marcu, Daniel (2000). La teoría y práctica del análisis y resumen del discurso . ISBN 978-0-262-13372-2.
  • Mani, Inderjeet (2001). Resumen automático . ISBN 978-1-58811-060-2.
  • Huff, Jason (2010). AutoSummarize ., Arte conceptual utilizando software de resumen automático en Microsoft Word 2008.
  • Lehmam, Abderrafih (2010). Resumidor esencial: software innovador de resumen de texto automático en veinte idiomas - Biblioteca digital ACM . Riao '10. págs. 216–217., Publicado en Proceeding RIAO'10 Adaptabilidad, personalización y fusión de información heterogénea, CID París, Francia
  • Xiaojin, Zhu, Andrew Goldberg, Jurgen Van Gael y David Andrzejewski (2007). Mejora de la diversidad en la clasificación mediante la absorción de paseos aleatorios (PDF) ., El algoritmo GRASSHOPPER
  • Miranda-Jiménez, Sabino, Gelbukh, Alexander y Sidorov, Grigori (2013). "Resumen de gráficos conceptuales para la tarea de resumen automático". Estructuras conceptuales para la investigación y la educación STEM . Apuntes de conferencias en Ciencias de la Computación. 7735 . págs. 245-253. doi : 10.1007 / 978-3-642-35786-2_18 . ISBN 978-3-642-35785-5., Estructuras conceptuales para la investigación y la educación STEM.