discrepancia de vocabulario


La discrepancia de vocabulario es un fenómeno común en el uso de lenguajes naturales, que ocurre cuando diferentes personas nombran la misma cosa o concepto de manera diferente.

Furnas et al. (1987) fueron quizás los primeros en estudiar cuantitativamente el problema del desajuste de vocabulario. [1] Sus resultados muestran que, en promedio, el 80% de las veces diferentes personas (expertos en el mismo campo) nombrarán la misma cosa de manera diferente. Suele haber decenas de posibles nombres que se le pueden atribuir a una misma cosa. Esta investigación motivó el trabajo sobre indexación semántica latente .

El desajuste de vocabulario entre las consultas creadas por el usuario y los documentos relevantes en un corpus provoca el problema de desajuste de términos en la recuperación de información . Zhao y Callan (2010) [2] fueron quizás los primeros en estudiar cuantitativamente el problema del desajuste de vocabulario en un entorno de recuperación. Sus resultados muestran que un término de consulta promedio no aparece en el 30-40% de los documentos que son relevantes para la consulta del usuario. También demostraron que esta probabilidad de desajuste es una probabilidad central en uno de los modelos fundamentales de recuperación probabilística, el modelo de independencia binaria .. Desarrollaron nuevos métodos de predicción de ponderación de términos que pueden conducir a un aumento potencial de la precisión del 50-80 % en la recuperación en comparación con modelos sólidos de recuperación de palabras clave. Investigaciones adicionales a lo largo de la línea muestran que los usuarios expertos pueden usar la expansión de la forma normal conjuntiva booleana para mejorar el rendimiento de recuperación en un 50-300% en comparación con las consultas de palabras clave no expandidas. [3]