Word2vec


Word2vec es una técnica para el procesamiento del lenguaje natural publicada en 2013. El algoritmo word2vec utiliza un modelo de red neuronal para aprender asociaciones de palabras de un gran corpus de texto . Una vez entrenado, dicho modelo puede detectar palabras sinónimas o sugerir palabras adicionales para una oración parcial. Como su nombre lo indica, word2vec representa cada palabra distinta con una lista particular de números llamada vector . Los vectores se eligen cuidadosamente de modo que capturen las cualidades semánticas y sintácticas de las palabras; como tal, una función matemática simple ( similitud de coseno ) puede indicar el nivel de similitud semánticaentre las palabras representadas por esos vectores.

Word2vec es un grupo de modelos relacionados que se utilizan para producir incrustaciones de palabras . Estos modelos son redes neuronales superficiales de dos capas que están entrenadas para reconstruir contextos lingüísticos de palabras. Word2vec toma como entrada un gran corpus de texto y produce un espacio vectorial , normalmente de varios cientos de dimensiones , en el que a cada palabra única del corpus se le asigna un vector correspondiente en el espacio. Los vectores de palabras se colocan en el espacio vectorial de tal manera que las palabras que comparten contextos comunes en el corpus, es decir, que son semántica y sintácticamente similares, se ubican cerca unas de otras en el espacio. [1]Las palabras más disímiles se encuentran más alejadas unas de otras en el espacio. [1]

Word2vec puede utilizar cualquiera de las dos arquitecturas modelo para producir estas representaciones distribuidas de palabras: bolsa de palabras continua (CBOW) o skip-gram continuo . En ambas arquitecturas, word2vec considera tanto las palabras individuales como una ventana deslizante de palabras de contexto que rodean a las palabras individuales a medida que itera sobre todo el corpus. En la arquitectura de bolsa de palabras continua, el modelo predice la palabra actual desde la ventana de palabras de contexto circundantes. El orden de las palabras del contexto no influye en la predicción ( suposición de la bolsa de palabras ). En la arquitectura de salto de gramo continuo, el modelo usa la palabra actual para predecir la ventana circundante de palabras de contexto. [1] [2]La arquitectura skip-gram pesa más las palabras de contexto cercanas que las palabras de contexto más distantes. Según la nota de los autores, [3] CBOW es más rápido mientras que skip-gram hace un mejor trabajo con palabras poco frecuentes.

Word2vec fue creado, patentado [4] y publicado en 2013 por un equipo de investigadores dirigido por Tomas Mikolov en Google en dos artículos. [1] [2] Otros investigadores ayudaron a analizar y explicar el algoritmo. [5] Los vectores incrustados creados con el algoritmo Word2vec tienen algunas ventajas en comparación con los algoritmos anteriores [1] [ se necesita más explicación ] como el análisis semántico latente .

Para 2022, el enfoque de Word2vec se describió como "anticuado", y los modelos de transformadores se consideraron lo último en PNL. [6]

Los resultados del entrenamiento de word2vec pueden ser sensibles a la parametrización . Los siguientes son algunos parámetros importantes en el entrenamiento de word2vec.