Elección léxica

La elección léxica es la subtarea de la generación del lenguaje natural que implica elegir las palabras de contenido (sustantivos, verbos, adjetivos y adverbios) en un texto generado. Las palabras de función (determinantes, por ejemplo) se eligen normalmente durante la realización .

Ejemplos de

El tipo más simple de elección léxica implica mapear un concepto de dominio (quizás representado en una ontología ) a una palabra. Por ejemplo, el concepto Dedo se puede asignar a la palabra dedo .

Una situación más compleja es cuando un concepto de dominio se expresa usando diferentes palabras en diferentes situaciones. Por ejemplo, el concepto de dominio Valor-Cambio se puede expresar de muchas formas.

La temperatura subió : el verbo subió se usa para un cambio de valor en la temperatura que aumenta el valor
La temperatura bajó : el verbo cayó se usa para un cambio de valor en la temperatura que disminuye el valor
La lluvia se hizo más intensa : la frase se volvió más pesada se utiliza para un cambio de valor en la cantidad de precipitación cuando la precipitación es lluvia.

A veces, las palabras pueden comunicar información contextual adicional, por ejemplo

La temperatura se desplomó : el verbo se desplomó se usa para un cambio de valor en la temperatura que disminuye el valor, cuando el cambio es rápido y grande.

La información contextual es especialmente significativa para términos vagos como alto . Por ejemplo, un hombre de 2 m de altura es alto , pero un caballo de 2 m de altura es pequeño .

Perspectiva lingüística

Los módulos de elección léxica deben estar informados por el conocimiento lingüístico de cómo los datos de entrada del sistema se asignan a las palabras. Esta es una cuestión de semántica , pero también está influenciada por factores sintácticos (como los efectos de colocación ) y factores pragmáticos (como el contexto).

Por lo tanto, los sistemas NLG necesitan modelos lingüísticos de cómo se asigna el significado a las palabras en el dominio de destino ( género ) del sistema NLG. El género tiende a ser muy importante; por ejemplo, el verbo veer tiene un significado muy específico en los pronósticos meteorológicos (la dirección del viento cambia en el sentido de las agujas del reloj) que no tiene en el inglés general, y un generador de pronósticos meteorológicos debe ser consciente de este significado específico de género.

En algunos casos, existen grandes diferencias en cómo diferentes personas usan la misma palabra; ^[1] por ejemplo, algunas personas usan tarde para referirse a las 6 p.m. y otras lo usan para significar medianoche. Los psicolingüistas han demostrado que cuando las personas se hablan, están de acuerdo en una interpretación común a través de la alineación léxica; ^[2] esto no es algo que los sistemas NLG puedan hacer todavía.

En última instancia, la elección léxica debe abordar la cuestión fundamental de cómo se relaciona el lenguaje con el mundo no lingüístico. ^[3] Por ejemplo, un sistema que eligiera términos de color como rojo para describir objetos en una imagen digital necesitaría saber qué valores de píxeles RGB podrían describirse generalmente como rojos ; cómo esto fue influenciado por el contexto visual (iluminación, otros objetos en la escena) y lingüístico (otros objetos en discusión); qué connotaciones pragmáticas se asociaron con el rojo (por ejemplo, cuando una manzana se llama roja , se supone que está madura y que tiene el color rojo); Etcétera.

Algoritmos y modelos

Se han desarrollado varios algoritmos y modelos para la elección léxica en la comunidad de investigación, ^[4] por ejemplo, Edmonds desarrolló un modelo para elegir entre casi sinónimos (palabras con significados centrales similares pero connotaciones diferentes). ^[5] Sin embargo, estos algoritmos y modelos no se han utilizado ampliamente en los sistemas NLG aplicados; en cambio, estos sistemas han utilizado a menudo modelos computacionales bastante simples y han invertido esfuerzos de desarrollo en el análisis lingüístico en lugar del desarrollo de algoritmos.

Referencias

^ E Reiter y S Sripada (2002). Variación humana y elección léxica. Lingüística computacional 28: 545-553. [1]
^ S Brennan y H Clark (1996). Pactos conceptuales y elección léxica en la conversación. Revista de psicología experimental: aprendizaje, memoria y cognición 22: 1482-1493
^ D Roy y E Reiter (2005). Conectando el lenguaje al mundo. Inteligencia artificial 167: 1-12.
^ Perera, R. y Nand, P 2015. Un enfoque multiestrategia para Lexicalizar datos abiertos enlazados.
^ P Edmonds y G Hirst (2002). Casi sinonimia y elección léxica. Lingüística computacional 28: 105-144. [2]

[1] E Reiter y S Sripada (2002). Variación humana y elección léxica. Lingüística computacional 28: 545-553. [1]

[2] S Brennan y H Clark (1996). Pactos conceptuales y elección léxica en la conversación. Revista de psicología experimental: aprendizaje, memoria y cognición 22: 1482-1493

[3] D Roy y E Reiter (2005). Conectando el lenguaje al mundo. Inteligencia artificial 167: 1-12.

[4] Perera, R. y Nand, P 2015. Un enfoque multiestrategia para Lexicalizar datos abiertos enlazados.

[5] P Edmonds y G Hirst (2002). Casi sinonimia y elección léxica. Lingüística computacional 28: 105-144. [2]

[1]