Estructuración de documentos

La estructuración de documentos es una subtarea de la generación de lenguaje natural , que implica decidir el orden y la agrupación (por ejemplo, en párrafos) de oraciones en un texto generado. Está estrechamente relacionado con la tarea NLG de determinación de contenido .

Ejemplo

Supongamos que tenemos cuatro oraciones que queremos incluir en un texto generado.

Lloverá el sábado
Estará soleado el domingo
La temperatura máxima será de 10 ° C el sábado
La temperatura máxima será de 15 ° C el domingo

Hay 24 (4!) Ordenaciones de estos mensajes, incluidos

(1234) Lloverá el sábado. Habrá sol el domingo. La temperatura máxima será de 10 ° C el sábado. La temperatura máxima será de 15 ° C el domingo.
(2341) Habrá sol el domingo. La temperatura máxima será de 10 ° C el sábado. La temperatura máxima será de 15 ° C el domingo. Lloverá el sábado.
(4321) La temperatura máxima será de 15 ° C el domingo. La temperatura máxima será de 10 ° C el sábado. Habrá sol el domingo. Lloverá el sábado.

Algunos de estos pedidos son mejores que otros. Por ejemplo, de los textos que se muestran arriba, los lectores humanos prefieren (1234) sobre (2314) y (4321).

Para cualquier orden, también hay muchas formas en que las oraciones se pueden agrupar en párrafos y estructuras de nivel superior, como secciones. Por ejemplo, hay 8 (2 ** 3) formas en las que las oraciones en (1234) se pueden agrupar en párrafos, incluyendo

(12) (34)

Lloverá el sábado. Habrá sol el domingo.

La temperatura máxima será de 10 ° C el sábado. La temperatura máxima será de 15 ° C el domingo.

(1) (23) (4)

Lloverá el sábado.

Habrá sol el domingo. La temperatura máxima será de 10 ° C el sábado.

La temperatura máxima será de 15 ° C el domingo.

Al igual que con los pedidos, los lectores humanos prefieren algunas agrupaciones sobre otras; por ejemplo, se prefiere (12) (34) sobre (1) (23) (4).

La tarea de estructuración del documento consiste en elegir un orden y agrupación de oraciones que dé como resultado un texto coherente y bien organizado desde la perspectiva del lector.

Algoritmos y modelos

Hay tres enfoques básicos para la estructuración de documentos: esquemas, basados en corpus y heurísticos.

Los esquemas ^[1] son plantillas que especifican explícitamente el orden y la agrupación de frases para un documento (así como la información de determinación del contenido ). Por lo general, se construyen analizando manualmente un corpus de textos escritos por humanos en el género de destino y extrayendo una plantilla de documento de estos textos. Los esquemas funcionan bien en la práctica para textos que son cortos (5 frases o menos) y / o tienen una estructura estandarizada, pero tienen problemas para generar textos que son más largos y no tienen una estructura fija.

Las técnicas de estructuración basadas en corpus utilizan técnicas de análisis de corpus estadístico para construir automáticamente modelos de ordenación y / o agrupación. Estas técnicas son comunes en el resumen automático , donde un programa de computadora genera automáticamente un resumen de un documento textual. ^[2] En principio, podrían aplicarse a texto generado a partir de datos no lingüísticos, pero este trabajo está en su infancia; parte del desafío es que, en general, se espera que los textos generados por los sistemas de generación de lenguaje natural sean de una calidad bastante alta, lo que no siempre es el caso de los textos generados por sistemas de resumen automático.

El enfoque final es la estructuración basada en heurística. Dichos algoritmos realizan la tarea de estructuración basados en reglas heurísticas, que pueden provenir de teorías de retórica, ^[3] modelos psicolingüísticos, ^[4] y / o una combinación de intuición y retroalimentación de experimentos piloto con usuarios potenciales. ^[5] La estructuración basada en heurística es atractiva intelectualmente, pero puede ser difícil lograr que funcione bien en la práctica, en parte porque la heurística a menudo depende de información semántica (cómo las oraciones se relacionan entre sí) que no siempre está disponible. Por otro lado, las reglas heurísticas pueden centrarse en lo que es mejor para los lectores de texto, mientras que los otros enfoques se centran en imitar a los autores (y muchos textos escritos por humanos no están bien estructurados).

Narrativa

Quizás el desafío final de la estructuración de un documento sea generar una buena narrativa, en otras palabras, un texto que comience por establecer la escena y ofrecer una introducción / descripción general; luego describe un conjunto de eventos de manera clara para que los lectores puedan ver fácilmente cómo se relacionan y se vinculan los eventos individuales; y concluye con un resumen / final. Tenga en cuenta que la narrativa en este sentido se aplica tanto a los textos fácticos como a las historias. Los sistemas actuales de NLG no hacen un buen trabajo generando narrativas, y esta es una fuente importante de críticas de los usuarios. ^[6]

Generar buenas narrativas es un desafío para todos los aspectos de NLG, pero el desafío más fundamental es probablemente la estructuración de documentos.

Referencias

^ K McKeown (1985). Generación de texto . Prensa de la Universidad de Cambridge
^ M Lapata (2003). Estructuración probabilística de texto: experimentos con el ordenamiento de oraciones. Actas de ACL-2003 [1]
^ D Scott y C de Souza (1990). Transmitir el mensaje en la generación de texto basada en RST. En Dale, Mellish, Zock (eds) Investigación actual en la generación del lenguaje natural , páginas 47-73
↑ N Karamanis, M Poesio, C Mellish, J Oberlander (2004). Evaluación de métricas de coherencia basadas en el centrado para la estructuración de texto mediante un corpus anotado de forma fiable. Actas de ACL-2004 [2]
^ S Williams y E Reiter. Generación de informes de habilidades básicas para lectores poco calificados. Ingeniería del lenguaje natural 14: 495-535
^ E Reiter, A Gatt, F Portet, M van der Meulen (2008). La importancia de la narrativa y otras lecciones de una evaluación de un sistema NLG que resume los datos clínicos. En Actas de INLG-2008 [3]

[1] K McKeown (1985). Generación de texto . Prensa de la Universidad de Cambridge

[2] M Lapata (2003). Estructuración probabilística de texto: experimentos con el ordenamiento de oraciones. Actas de ACL-2003 [1]

[3] D Scott y C de Souza (1990). Transmitir el mensaje en la generación de texto basada en RST. En Dale, Mellish, Zock (eds) Investigación actual en la generación del lenguaje natural , páginas 47-73

[4] N Karamanis, M Poesio, C Mellish, J Oberlander (2004). Evaluación de métricas de coherencia basadas en el centrado para la estructuración de texto mediante un corpus anotado de forma fiable. Actas de ACL-2004 [2]

[5] S Williams y E Reiter. Generación de informes de habilidades básicas para lectores poco calificados. Ingeniería del lenguaje natural 14: 495-535

[6] E Reiter, A Gatt, F Portet, M van der Meulen (2008). La importancia de la narrativa y otras lecciones de una evaluación de un sistema NLG que resume los datos clínicos. En Actas de INLG-2008 [3]

[1]