La determinación del contenido es la subtarea de la generación de lenguaje natural (NLG) que implica decidir qué información se comunicará en un texto generado. Está muy relacionado con la tarea de estructuración de documentos .
Ejemplo
Considere un sistema NLG que resuma información sobre bebés enfermos. [1] Suponga que este sistema tiene cuatro piezas de información que puede comunicar
- Al bebé se le administra morfina por vía intravenosa.
- La frecuencia cardíaca del bebé muestra bradicardia (caídas temporales).
- La temperatura del bebé es normal.
- El bebe esta llorando
¿Cuál de estos bits de información debería incluirse en los textos generados?
Asuntos
Hay tres cuestiones generales que casi siempre afectan la tarea de determinación de contenido y se pueden ilustrar con el ejemplo anterior.
Quizás el tema más fundamental es el objetivo comunicativo del texto, es decir, su propósito y lector . En el ejemplo anterior, por ejemplo, un médico que quiera tomar una decisión sobre el tratamiento médico probablemente estaría más interesado en las bradicardias de frecuencia cardíaca, mientras que un padre que quisiera saber cómo estaba su hijo probablemente estaría más interesado en el hecho que el bebé estaba recibiendo morfina y estaba llorando.
El segundo problema es el tamaño y el nivel de detalle del texto generado. Por ejemplo, un breve resumen que se envió a un médico como un mensaje de texto SMS de 160 caracteres solo podría mencionar las bradicardias de frecuencia cardíaca, mientras que un resumen más extenso que se imprimió como un documento de varias páginas también podría mencionar el hecho de que el bebé está en un morfina IV.
El problema final es cuán inusual e inesperada es la información. Por ejemplo, ni los médicos ni los padres darían alta prioridad a que se les dijera que la temperatura del bebé es normal, si esperan que este sea el caso.
Independientemente, la determinación del contenido es muy importante para los usuarios; de hecho, en muchos casos, la calidad de la determinación del contenido es el factor más importante (desde la perspectiva del usuario) para determinar la calidad general del texto generado.
Técnicas
Hay tres enfoques básicos para la estructuración de documentos: esquemas (plantillas de contenido), enfoques estadísticos y razonamiento explícito.
Los esquemas [2] son plantillas que especifican explícitamente el contenido de un texto generado (así como la información de estructuración del documento ). Por lo general, se construyen analizando manualmente un corpus de textos escritos por humanos en el género de destino y extrayendo una plantilla de contenido de estos textos. Los esquemas funcionan bien en la práctica en dominios donde el contenido está algo estandarizado, pero funcionan menos en dominios donde el contenido es más fluido (como el ejemplo médico anterior).
Las técnicas estadísticas utilizan técnicas de análisis de corpus estadísticos para determinar automáticamente el contenido de los textos generados. Este trabajo está en su infancia y se ha aplicado principalmente a contextos donde el objetivo comunicativo, el lector, el tamaño y el nivel de detalle son fijos. Por ejemplo, generación de resúmenes de noticias de eventos deportivos. [3] [4]
Los enfoques de razonamiento explícito probablemente han atraído la mayor atención de los investigadores. La idea básica es utilizar técnicas de razonamiento de IA (como reglas basadas en el conocimiento, [1] planificación, [5] detección de patrones, [6] razonamiento basado en casos , [7] etc.) para examinar la información disponible para ser comunicada. (incluyendo cuán inusual / inesperado es), el objetivo comunicativo y el lector, y las características del texto generado (incluido el tamaño de destino), y decidir el contenido óptimo para el texto generado. Se ha explorado una amplia gama de técnicas, pero no hay consenso sobre cuál es la más eficaz.
Referencias
- ↑ a b Portet F, Reiter E, Gatt A, Hunter J, Sripada S, Free Y, Sykes C (2009). "Generación automática de resúmenes textuales a partir de datos de cuidados intensivos neonatales" . Inteligencia artificial . 173 (7–8): 789–816. doi : 10.1016 / j.artint.2008.12.002 .
- ^ K McKeown (1985). Generación de texto . Prensa de la Universidad de Cambridge
- ^ R Barzilay y M Lapata (2005). Selección de contenido colectivo para la generación de concepto a texto. Actas de EMNLP-2005 [1]
- ^ R Perera y P Nand (2014). El papel de los datos vinculados en la selección de contenido. Actas de PRICAI-2014 [2]
- ^ J Moore y C Paris (1993). Planificación de texto para diálogos consultivos: captura de información intencional y retórica utilizando. Lingüística computacional 19: 651-694 [3] Archivado el 30 de septiembre de 2011en la Wayback Machine.
- ^ J Yu, E Reiter, J Hunter, C Mellish (2007). Elegir el contenido de los resúmenes textuales de grandes conjuntos de datos de series de tiempo. Ingeniería del lenguaje natural 13: 25-49
- ^ P Gervás, B Díaz-Agudo, F Peinado, R Hervás (2005) Generación de la trama de la historia basada en CBR. Sistemas basados en el conocimiento 18: 235-242