El modelo de verosimilitud de consultas es un modelo de lenguaje utilizado en la recuperación de información . Se construye un modelo de lenguaje para cada documento de la colección. Entonces es posible clasificar cada documento por la probabilidad de documentos específicos dada una consulta. Esto se interpreta como la probabilidad de que un documento sea relevante dada una consulta.
Calculando la probabilidad
Usando la regla de Bayes , la probabilidad de un documento , dada una consulta se puede escribir de la siguiente manera:
Dado que la probabilidad de la consulta P (q) es la misma para todos los documentos, esto se puede ignorar. Además, es típico suponer que la probabilidad de documentos es uniforme. Por tanto, P (d) también se ignora.
Luego, los documentos se clasifican según la probabilidad de que una consulta se observe como una muestra aleatoria del modelo de documento. El modelo de lenguaje unigrama multinomial se usa comúnmente para lograr esto. Tenemos:
- , donde el coeficiente multinomial es para la consulta q ,
y es la longitud de consulta q dadas las frecuencias plazo tf en el vocabulario consulta N .
En la práctica, el coeficiente multinomial suele eliminarse del cálculo. La razón es que es una constante para una determinada bolsa de palabras (como todas las palabras de un documento específico). El modelo de lenguajedebe ser el verdadero modelo de lenguaje calculado a partir de la distribución de palabras subyacentes a cada documento recuperado. En la práctica, este modelo de lenguaje es desconocido, por lo que generalmente se aproxima considerando cada término (unigramo) del documento recuperado junto con su probabilidad de aparición. Entonces es la probabilidad de término siendo generado por el modelo de lenguaje de documento . Esta probabilidad se multiplica por todos los términos de la consulta. para obtener un rango por documento en el intervalo . El cálculo se repite para todos los documentos para crear una clasificación de todos los documentos de la colección de documentos.
Referencias
- ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introducción a la recuperación de información, página 241. Cambridge University Press, 2009