Incrustación de palabras

En el procesamiento del lenguaje natural (NLP), la inserción de palabras es un término que se usa para la representación de palabras para el análisis de texto, generalmente en forma de un vector de valor real que codifica el significado de la palabra de tal manera que las palabras que están más cerca en el vector se espera que el espacio tenga un significado similar. ^[1] Las incrustaciones de palabras se pueden obtener utilizando un conjunto de técnicas de aprendizaje de características y modelado del lenguaje donde las palabras o frases del vocabulario se asignan a vectores de números reales . Conceptualmente, implica la incrustación matemática desde el espacio con muchas dimensiones por palabra a un espacio vectorial continuo. con una dimensión mucho menor.

Los métodos para generar este mapeo incluyen redes neuronales , ^[2] reducción de dimensionalidad en la matriz de co-ocurrencia de palabras , ^[3]^[4]^[5] modelos probabilísticos, ^[6] método de base de conocimiento explicable, ^[7] y representación explícita en términos del contexto en el que aparecen las palabras. ^[8]

Se ha demostrado que las incrustaciones de palabras y frases, cuando se utilizan como la representación de entrada subyacente, mejoran el rendimiento en tareas de PNL como el análisis sintáctico ^[9] y el análisis de sentimientos . ^[10]

En lingüística , las incrustaciones de palabras se discutieron en el área de investigación de la semántica distributiva . Su objetivo es cuantificar y categorizar las similitudes semánticas entre elementos lingüísticos en función de sus propiedades de distribución en grandes muestras de datos lingüísticos. La idea subyacente de que "una palabra se caracteriza por la compañía que mantiene" fue popularizada por John Rupert Firth . ^[11]

La noción de un espacio semántico con elementos léxicos (palabras o términos de varias palabras) representados como vectores o incrustaciones se basa en los desafíos computacionales de capturar características distribucionales y usarlas para aplicaciones prácticas para medir la similitud entre palabras, frases o documentos completos. La primera generación de modelos de espacio semántico es el modelo de espacio vectorial para la recuperación de información. ^[12]^[13]^[14] Tales modelos de espacio vectorial para palabras y sus datos de distribución implementados en su forma más simple dan como resultado un espacio vectorial muy escaso de alta dimensionalidad (cf. Maldición de dimensionalidad ). Reducir el número de dimensiones utilizando métodos algebraicos lineales como la descomposición de valores singularesluego condujo a la introducción del análisis semántico latente a fines de la década de 1980 y al enfoque de indexación aleatoria para recopilar contextos de coincidencia de palabras. ^[15]^[16]^[17]^[18]^[19] En 2000 Bengio et al. proporcionó en una serie de artículos los "modelos de lenguaje probabilístico neuronal" para reducir la alta dimensionalidad de las representaciones de palabras en contextos mediante "el aprendizaje de una representación distribuida de palabras". ^[20]^[21]Las incrustaciones de palabras vienen en dos estilos diferentes, uno en el que las palabras se expresan como vectores de palabras concurrentes, y otro en el que las palabras se expresan como vectores de contextos lingüísticos en los que ocurren las palabras; estos diferentes estilos se estudian en (Lavelli et al., 2004). ^[22] Roweis y Saul publicaron en Science cómo utilizar la " incrustación lineal local " (LLE) para descubrir representaciones de estructuras de datos de alta dimensión. ^[23] La mayoría de las técnicas de incrustación de palabras nuevas después de aproximadamente 2005 se basan en una arquitectura de red neuronal en lugar de modelos más probabilísticos y algebraicos, ya que algunos trabajos fundamentales de Yoshua Bengio y sus colegas. ^[24]^[25]

El enfoque ha sido adoptado por muchos grupos de investigación después de que los avances alrededor del año 2010 se hubieran realizado en el trabajo teórico sobre la calidad de los vectores y la velocidad de entrenamiento del modelo y los avances en el hardware permitieron explorar un espacio de parámetros más amplio de manera rentable. En 2013, un equipo de Google dirigido por Tomas Mikolov creó word2vec , un conjunto de herramientas de incrustación de palabras que puede entrenar modelos de espacio vectorial más rápido que los enfoques anteriores. El enfoque de word2vec se ha utilizado ampliamente en la experimentación y fue fundamental para aumentar el interés por las incrustaciones de palabras como tecnología, moviendo la línea de investigación de la investigación especializada a una experimentación más amplia y, finalmente, allanando el camino para la aplicación práctica. ^[26]