Modelo de independencia binaria

El Modelo de Independencia Binaria (BIM) ^[1]^[2] es una técnica de recuperación de información probabilística que hace algunas suposiciones simples para hacer factible la estimación de la probabilidad de similitud entre documentos y consultas.

Definiciones

El supuesto de independencia binaria es que los documentos son vectores binarios . Es decir, solo se registra la presencia o ausencia de términos en los documentos. Los términos se distribuyen de forma independiente en el conjunto de documentos relevantes y también se distribuyen de forma independiente en el conjunto de documentos irrelevantes. La representación es un conjunto ordenado de variables booleanas . Es decir, la representación de un documento o consulta es un vector con un elemento booleano para cada término considerado. Más específicamente, un documento está representado por un vector $d = (x 1, ..., x m)$ donde $x t = 1$ si el término t está presente en el documento d y $x t = 0$ si no lo está. Muchos documentos pueden tener la misma representación vectorial con esta simplificación. Las consultas se representan de forma similar. "Independencia" significa que los términos en el documento se consideran independientemente unos de otros y no se modela ninguna asociación entre términos. Esta suposición es muy limitante, pero se ha demostrado que da resultados suficientemente buenos para muchas situaciones. Esta independencia es la suposición "ingenua" de un clasificador Naive Bayes , donde las propiedades que se implican entre sí se tratan, no obstante, como independientes en aras de la simplicidad. Esta suposición permite que la representación se trate como una instancia de un modelo de espacio vectorial al considerar cada término como un valor de 0 o 1 a lo largo de una dimensión ortogonal a las dimensiones utilizadas para los otros términos.

La probabilidad ${\ Displaystyle P (R | d, q)}$ que un documento es relevante se deriva de la probabilidad de relevancia del vector de términos de ese documento ${\ Displaystyle P (R | x, q)}$ . Al usar la regla de Bayes obtenemos:

{\ Displaystyle P (R | x, q) = {\ frac {P (x | R, q) * P (R | q)} {P (x | q)}}}

dónde ${\ Displaystyle P (x | R = 1, q)}$ y ${\ Displaystyle P (x | R = 0, q)}$ son las probabilidades de recuperar un documento relevante o no relevante, respectivamente. Si es así, entonces la representación de ese documento es x . Las probabilidades exactas no se pueden conocer de antemano, por lo que se deben utilizar estimaciones de estadísticas sobre la colección de documentos.

${\ Displaystyle P (R = 1 | q)}$ y ${\ Displaystyle P (R = 0 | q)}$ indican la probabilidad previa de recuperar un documento relevante o no relevante respectivamente para una consulta q . Si, por ejemplo, supiéramos el porcentaje de documentos relevantes en la colección, podríamos usarlo para estimar estas probabilidades. Dado que un documento es relevante o no relevante para una consulta, tenemos que:

{\ Displaystyle P (R = 1 | x, q) + P (R = 0 | x, q) = 1}

Ponderación de los términos de consulta

Dada una consulta binaria y el producto escalar como función de similitud entre un documento y una consulta, el problema es asignar pesos a los términos en la consulta de manera que la efectividad de la recuperación sea alta. Dejar ${\ Displaystyle p_ {i}}$ y ${\ Displaystyle q_ {i}}$ será la probabilidad de que un documento relevante y un documento irrelevante tengan el $i-$ ^ésimo término respectivamente. Yu y Salton , ^[1] quienes introdujeron BIM por primera vez, proponen que el peso del $i-$ ^ésimo término es una función creciente de ${\ Displaystyle Y_ {i} = {\ frac {p_ {i} * (1-q_ {i})} {(1-p_ {i}) * q_ {i}}}}$ . Por tanto, si ${\ Displaystyle Y_ {i}}$ es más alto que ${\ Displaystyle Y_ {j}}$ , el peso del término $i$ será mayor que el del término $j$ . Yu y Salton ^[1] demostraron que tal asignación de peso a los términos de consulta produce una mejor efectividad de recuperación que si los términos de consulta se ponderan por igual. Robertson y Spärck Jones ^[2] demostraron más tarde que si al $i-$ ^ésimo término se le asigna el peso de ${\ Displaystyle \ log Y_ {i}}$ , entonces se obtiene una efectividad de recuperación óptima bajo el supuesto de independencia binaria.

El modelo de independencia binaria fue introducido por Yu y Salton. ^[1] El nombre Modelo de independencia binaria fue acuñado por Robertson y Spärck Jones. ^[2]

Ver también

Modelo de bolsa de palabras

Otras lecturas

Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008), Introducción a la recuperación de información , Cambridge University Press
Stefan Büttcher; Charles LA Clarke; Gordon V. Cormack (2010), Recuperación de información: implementación y evaluación de motores de búsqueda , MIT Press

Referencias

^ ^a ^b ^c ^d Yu, CT; Salton, G. (1976). "Ponderación de precisión: un método de indexación automático eficaz" (PDF) . Revista de la ACM . 23 : 76. doi : 10.1145 / 321921.321930 . hdl : 1813/7313 .
^ ^a ^b ^c Robertson, SE ; Spärck Jones, K. (1976). "Ponderación por relevancia de los términos de búsqueda". Revista de la Sociedad Estadounidense de Ciencias de la Información . 27 (3): 129. doi : 10.1002 / asi.4630270302 .

[cyu76-1] Yu, CT; Salton, G. (1976). "Ponderación de precisión: un método de indexación automático eficaz" (PDF) . Revista de la ACM . 23 : 76. doi : 10.1145 / 321921.321930 . hdl : 1813/7313 .

[jones77-2] Robertson, SE ; Spärck Jones, K. (1976). "Ponderación por relevancia de los términos de búsqueda". Revista de la Sociedad Estadounidense de Ciencias de la Información . 27 (3): 129. doi : 10.1002 / asi.4630270302 .

[1]