Generación de lenguaje natural


La generación de lenguaje natural ( NLG ) es un proceso de software que produce una salida de lenguaje natural . Si bien existe un consenso generalizado de que la salida de cualquier proceso NLG es texto, existe cierto desacuerdo sobre si las entradas de un sistema NLG deben ser no lingüísticas. [1] Las aplicaciones comunes de los métodos NLG incluyen la producción de varios informes, por ejemplo, informes meteorológicos [2] e informes de pacientes; [3] pies de imagen; [4] y chatbots .

El NLG automatizado se puede comparar con el proceso que usan los humanos cuando convierten ideas en escritura o habla. Los psicolingüistas prefieren el término producción de lenguaje para este proceso, que también puede describirse en términos matemáticos o modelarse en una computadora para la investigación psicológica. Los sistemas NLG también se pueden comparar con traductores de lenguajes informáticos artificiales, como descompiladores o transpiladores , que también producen código legible por humanos generado a partir de una representación intermedia . Los lenguajes humanos tienden a ser considerablemente más complejos y permiten mucha más ambigüedad y variedad de expresión que los lenguajes de programación, lo que hace que NLG sea más desafiante.

NLG puede verse como complementario a la comprensión del lenguaje natural (NLU): mientras que en la comprensión del lenguaje natural, el sistema necesita desambiguar la oración de entrada para producir el lenguaje de representación de la máquina, en NLG el sistema necesita tomar decisiones sobre cómo poner un representación en palabras. Las consideraciones prácticas en la construcción de sistemas NLU frente a NLG no son simétricas. NLU necesita lidiar con entradas de usuario ambiguas o erróneas, mientras que las ideas que el sistema quiere expresar a través de NLG generalmente se conocen con precisión. NLG necesita elegir una representación textual específica y autoconsistente entre muchas representaciones potenciales, mientras que NLU generalmente intenta producir una representación única y normalizada de la idea expresada. [5]

NLG ha existido desde que se desarrolló ELIZA a mediados de la década de 1960, pero los métodos se utilizaron comercialmente por primera vez en la década de 1990. [6] Las técnicas de NLG van desde sistemas simples basados ​​en plantillas, como una combinación de correspondencia que genera cartas modelo , hasta sistemas que tienen una comprensión compleja de la gramática humana. NLG también se puede lograr mediante el entrenamiento de un modelo estadístico mediante el aprendizaje automático , generalmente en un gran corpus de textos escritos por humanos. [7]

El Pronóstico de polen para Escocia sistema [8] es un ejemplo sencillo de un sistema de NLG simple que podría ser esencialmente una plantilla. Este sistema toma como entrada seis números, que dan niveles de polen previstos en diferentes partes de Escocia. A partir de estos números, el sistema genera un breve resumen textual de los niveles de polen como salida.

Los niveles de polen de pasto para el viernes han aumentado de los niveles moderados a altos de ayer con valores de alrededor de 6 a 7 en la mayor parte del país. Sin embargo, en las zonas del norte, los niveles de polen serán moderados con valores de 4.