La sustitución léxica es la tarea de identificar un sustituto de una palabra en el contexto de una cláusula. Por ejemplo, dado el siguiente texto: "Después del partido , reemplace cualquier déficit de líquidos restante para evitar la deshidratación crónica durante todo el torneo", se podría dar un sustituto del juego .
La sustitución léxica está estrictamente relacionada con la desambiguación del sentido de las palabras (WSD), ya que ambas tienen como objetivo determinar el significado de una palabra. Sin embargo, mientras que WSD consiste en asignar automáticamente el sentido apropiado de un inventario de sentido fijo, la sustitución léxica no impone ninguna restricción sobre qué sustituto elegir como el mejor representante de la palabra en contexto. Al no prescribir el inventario, la sustitución léxica supera el problema de la granularidad de las distinciones de los sentidos y proporciona un campo de juego nivelado para los sistemas automáticos que adquieren automáticamente los sentidos de las palabras (una tarea conocida como inducción del sentido de las palabras ).
Evaluación
Para evaluar los sistemas automáticos de sustitución léxica, se organizó una tarea en el concurso de evaluación Semeval-2007 celebrado en Praga en 2007. También se ha llevado a cabo una tarea Semeval-2010 sobre sustitución léxica translingual.
Modelo de omisión de gramo
El modelo skip-gram toma palabras con significados similares en un espacio vectorial (colección de objetos que se pueden sumar y multiplicar por números) que se encuentran cerca unos de otros en N-dimensiones (lista de elementos). Una variedad de redes neuronales (sistema informático modelado a partir de un cerebro humano) se forman juntas como resultado de los vectores y redes que están relacionados entre sí. Todo esto ocurre en las dimensiones del vocabulario que se ha generado en una red. [1] El modelo se ha utilizado en algoritmos de predicción y automatización de sustitución léxica. Uno de esos algoritmos desarrollado por Oren Melamud, Omer Levy e Ido Dagan utiliza el modelo de omisión de gramática para encontrar un vector para cada palabra y sus sinónimos. Luego, calcula la distancia del coseno entre los vectores para determinar qué palabras serán las mejores sustitutas. [2]
Ejemplo
En una oración como "El perro caminaba a paso rápido" cada palabra tiene un vector específico en relación con la otra. El vector para "The" sería [1,0,0,0,0,0,0] porque el 1 es el vocabulario de la palabra y los 0 son las palabras que rodean ese vocabulario, que crean un vector.
Ver también
Bibliografía
- D. McCarthy, R. Navigli. La tarea de sustitución léxica en inglés . Evaluación y recursos lingüísticos , 43 (2), Springer, 2009, págs. 139-159.
- D. McCarthy, R. Navigli. SemEval-2007 Tarea 10: Tarea de sustitución léxica en inglés . Proc. del Taller Semeval-2007 (SEMEVAL) , en la 45ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2007), Praga, República Checa, 23-24 de junio de 2007, págs. 48-53.
- D. McCarthy. Sustitución léxica como tarea de evaluación WSD . En Actas del taller de ACL sobre desambiguación del sentido de las palabras: Éxitos recientes y direcciones futuras, Filadelfia, EE. UU., 2002, págs. 109-115.
- R. Navigli. Desambiguación del sentido de las palabras: una encuesta , Encuestas de computación de ACM, 41 (2), 2009, págs. 1-69.
Referencias
- ^ Barazza, Leonardo. "¿Cómo funciona Skip-Gram de Word2Vec?" . Convertirse en humano .
- ^ Melamud, Oren; Levy, Omer; Dagan, Ido (5 de junio de 2015). "Un modelo simple de incrustación de palabras para la sustitución léxica" . Actas de NAACL-HLT 201 : 1–7 . Consultado el 16 de abril de 2018 .