Modelo de probabilidad de consulta

El modelo de verosimilitud de consultas es un modelo de lenguaje utilizado en la recuperación de información . Se construye un modelo de lenguaje para cada documento de la colección. Entonces es posible clasificar cada documento por la probabilidad de documentos específicos dada una consulta. Esto se interpreta como la probabilidad de que un documento sea relevante dada una consulta.

Calculando la probabilidad

Usando la regla de Bayes , la probabilidad ${\ Displaystyle P}$ de un documento ${\ Displaystyle d}$ , dada una consulta ${\ Displaystyle q}$ se puede escribir de la siguiente manera:

{\ Displaystyle P (re | q) = {\ frac {P (q | re) P (re)} {P (q)}}}

Dado que la probabilidad de la consulta P (q) es la misma para todos los documentos, esto se puede ignorar. Además, es típico suponer que la probabilidad de documentos es uniforme. Por tanto, P (d) también se ignora.

{\ Displaystyle P (re | q) = P (q | re)}

Luego, los documentos se clasifican según la probabilidad de que una consulta se observe como una muestra aleatoria del modelo de documento. El modelo de lenguaje unigrama multinomial se usa comúnmente para lograr esto. Tenemos:

{\ Displaystyle P (q | M_ {d}) = K_ {q} \ prod _ {t \ in V} P (t | M_ {d}) ^ {tf_ {t, q}}}

, donde el coeficiente multinomial es

{\ Displaystyle K_ {q} = L_ {q}! / (tf_ {t1, q}! tf_ {t2, q}! ... tf_ {tN, q}!)}

para la consulta

q

,

y ${\ Displaystyle L_ {q} = \ sum _ {1 \ leq i \ leq N} tf_ {t_ {i}, q}}$ es la longitud de consulta $q$ dadas las frecuencias plazo $tf$ en el vocabulario consulta $N$ .

En la práctica, el coeficiente multinomial suele eliminarse del cálculo. La razón es que es una constante para una determinada bolsa de palabras (como todas las palabras de un documento específico ${\ Displaystyle d}$ ). El modelo de lenguaje ${\ Displaystyle M_ {d}}$ debe ser el verdadero modelo de lenguaje calculado a partir de la distribución de palabras subyacentes a cada documento recuperado. En la práctica, este modelo de lenguaje es desconocido, por lo que generalmente se aproxima considerando cada término (unigramo) del documento recuperado junto con su probabilidad de aparición. Entonces ${\ Displaystyle P (t | M_ {d})}$ es la probabilidad de término ${\ Displaystyle t}$ siendo generado por el modelo de lenguaje ${\ Displaystyle M_ {d}}$ de documento ${\ Displaystyle d}$ . Esta probabilidad se multiplica por todos los términos de la consulta. ${\ Displaystyle q}$ para obtener un rango por documento ${\ Displaystyle d}$ en el intervalo ${\ Displaystyle [0,1]}$ . El cálculo se repite para todos los documentos para crear una clasificación de todos los documentos de la colección de documentos.

^[1]

Referencias

^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introducción a la recuperación de información, página 241. Cambridge University Press, 2009

[1] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: Introducción a la recuperación de información, página 241. Cambridge University Press, 2009

[1]