Modelo booleano de recuperación de información

El modelo booleano (estándar) de recuperación de información (BIR) ^[1] es un modelo clásico de recuperación de información (IR) y, al mismo tiempo, el primero y el más adoptado. Es utilizado por muchos sistemas de infrarrojos hasta el día de hoy. ^{[ cita requerida ]} El BIR se basa en la lógica booleana y la teoría de conjuntos clásica en que tanto los documentos que se buscarán como la consulta del usuario se conciben como conjuntos de términos (un modelo de bolsa de palabras ). La recuperación se basa en si los documentos contienen o no los términos de la consulta.

Definiciones

Un término de índice es una palabra o expresión , que puede derivarse , describir o caracterizar un documento, como una palabra clave dada para un artículo de revista. Dejar

{\ Displaystyle T = \ {t_ {1}, t_ {2}, \ \ ldots, \ t_ {m} \}}

ser el conjunto de todos esos términos de índice.

Un documento es cualquier subconjunto de ${\ Displaystyle T}$ . Dejar

{\ Displaystyle D = \ {D_ {1}, \ \ ldots \, D_ {n} \}}

ser el conjunto de todos los documentos.

Una consulta es una expresión booleana ${\ textstyle Q}$ en forma normal:

{\ Displaystyle Q = (W_ {1} \ \ lor \ W_ {2} \ \ lor \ \ cdots) \ land \ \ cdots \ \ land \ (W_ {i} \ \ lor \ W_ {i + 1} \ \ lor \ \ cdots)}

dónde

{\ textstyle W_ {i}}

es cierto para

{\ Displaystyle D_ {j}}

Cuándo

{\ Displaystyle t_ {i} \ en D_ {j}}

. (Equivalentemente,

{\ textstyle Q}

podría expresarse en forma disyuntiva normal .)

Buscamos encontrar el conjunto de documentos que satisfagan ${\ textstyle Q}$ . Esta operación se denomina recuperación y consta de los dos pasos siguientes:

1. Para cada

{\ textstyle W_ {j}}

en

{\ textstyle Q}

, encuentra el set

{\ textstyle S_ {j}}

de documentos que satisfacen

{\ textstyle W_ {j}}

:

{\ Displaystyle S_ {j} = \ {D_ {i} \ mid W_ {j} \}}

2. Entonces, el conjunto de documentos que satisfacen Q viene dado por:

{\ Displaystyle (S_ {1} \ cup S_ {2} \ cup \ cdots) \ cap \ cdots \ cap (S_ {i} \ cup S_ {i + 1} \ cup \ cdots)}

Ejemplo

Sea el conjunto de documentos originales (reales), por ejemplo

{\ Displaystyle O = \ {O_ {1}, \ O_ {2}, \ O_ {3} \}}

dónde

${\ textstyle O_ {1}}$ = "Principio de Bayes: El principio de que, al estimar un parámetro, se debe asumir inicialmente que cada valor posible tiene la misma probabilidad (una distribución previa uniforme)".

${\ textstyle O_ {2}}$ = " Teoría de la decisión bayesiana : Teoría matemática de la toma de decisiones que presume funciones de utilidad y probabilidad, y según la cual el acto a elegir es el acto de Bayes, es decir, el de mayor utilidad subjetiva esperada. poder con el que tomar todas las decisiones, este procedimiento sería la mejor manera de tomar cualquier decisión ".

${\ textstyle O_ {3}}$ = " Epistemología bayesiana : una teoría filosófica que sostiene que el estado epistémico de una proposición (es decir, qué tan bien probada o bien establecida está) se mide mejor mediante una probabilidad y que la forma adecuada de revisar esta probabilidad está dada por la condicionalización bayesiana o similar procedimientos. Un epistemólogo bayesiano usaría la probabilidad para definir y explorar la relación entre conceptos como el estado epistémico, el apoyo o el poder explicativo ".

Deja el set ${\ textstyle T}$ de términos ser:

{\ displaystyle T = \ {t_ {1} = {\ text {principio de Bayes}}, t_ {2} = {\ text {probabilidad}}, t_ {3} = {\ text {toma de decisiones}}, t_ {4} = {\ text {epistemología bayesiana}} \}}

Entonces, el set ${\ textstyle D}$ de documentos es el siguiente:

{\ Displaystyle D = \ {D_ {1}, \ D_ {2}, \ D_ {3} \}}

dónde

{\ Displaystyle {\ begin {alineado} D_ {1} & = \ {{\ text {probabilidad}}, \ {\ text {principio de Bayes}} \} \\ D_ {2} & = \ {{\ text {probabilidad}}, \ {\ text {toma de decisiones}} \} \\ D_ {3} & = \ {{\ text {probabilidad}}, \ {\ text {epistemología bayesiana}} \} \ end {alineado }}}

Deje que la consulta ${\ textstyle Q}$ ser:

{\ Displaystyle Q = {\ text {probabilidad}} \ land {\ text {toma de decisiones}}}

Luego, para recuperar los documentos relevantes:

En primer lugar, los siguientes conjuntos ${\ textstyle S_ {1}}$ y ${\ textstyle S_ {2}}$ de documentos ${\ textstyle D_ {i}}$ se obtienen (recuperados): ${\ Displaystyle {\ begin {alineado} S_ {1} & = \ {D_ {1}, \ D_ {2}, \ D_ {3} \} \\ S_ {2} & = \ {D_ {2} \ } \ end {alineado}}}$
Finalmente, los siguientes documentos ${\ textstyle D_ {i}}$ se recuperan en respuesta a ${\ textstyle Q}$ ${\ Displaystyle Q: \ {D_ {1}, \ D_ {2}, \ D_ {3} \} \ \ cap \ \ {D_ {2} \} \ = \ \ {D_ {2} \}}$

Esto significa que el documento original ${\ textstyle O_ {2}}$ (correspondiente a ${\ textstyle D_ {2}}$ ) es la respuesta a ${\ textstyle Q}$ .

Obviamente, si hay más de un documento con la misma representación, se recuperan todos esos documentos. Dichos documentos son indistinguibles en el BIR (en otras palabras, equivalentes).

Ventajas

Formalismo limpio
Fácil de implementar
Concepto intuitivo

Desventajas

La coincidencia exacta puede recuperar muy pocos o demasiados documentos
Es difícil traducir una consulta a una expresión booleana
Todos los términos se ponderan por igual
Se parece más a la recuperación de datos que a la recuperación de información
Recuperación basada en criterios de decisión binarios sin noción de coincidencia parcial
No se proporciona ninguna clasificación de los documentos (ausencia de una escala de calificación)
La necesidad de información debe traducirse en una expresión booleana, que la mayoría de los usuarios encuentran incómoda
Las consultas booleanas formuladas por los usuarios suelen ser demasiado simplistas.
El modelo con frecuencia devuelve muy pocos o demasiados documentos en respuesta a una consulta de usuario.

Estructuras de datos y algoritmos

Desde un punto de vista matemático puramente formal, el BIR es sencillo. Sin embargo, desde un punto de vista práctico, deben resolverse varios problemas adicionales relacionados con algoritmos y estructuras de datos, como, por ejemplo, la elección de términos (selección manual o automática o ambas), derivación , tablas hash , estructura de archivos invertida. , y así. ^[2]

Conjuntos de hash

Otra posibilidad es utilizar conjuntos hash . Cada documento está representado por una tabla hash que contiene todos los términos de ese documento. Dado que el tamaño de la tabla hash aumenta y disminuye en tiempo real con la adición y eliminación de términos, cada documento ocupará mucho menos espacio en la memoria. Sin embargo, tendrá una desaceleración en el rendimiento porque las operaciones son más complejas que con los vectores de bits . En el peor de los casos, el rendimiento puede degradarse de O ( n ) a O ( n ² ). En el caso medio, la ralentización del rendimiento no será mucho peor que los vectores de bits y el uso del espacio es mucho más eficiente.

Archivo de firma

Cada documento se puede resumir mediante el filtro Bloom que representa el conjunto de palabras de ese documento, almacenado en una cadena de bits de longitud fija, denominada firma. El archivo de firma contiene una cadena de bits de código superpuesta para cada documento de la colección. Cada consulta también se puede resumir mediante un filtro Bloom que representa el conjunto de palabras de la consulta, almacenado en una cadena de bits de la misma longitud fija. La cadena de bits de la consulta se prueba con cada firma. ^[3]^[4]^[5]

El archivo de firma abordado se utiliza en BitFunnel .

Archivo invertido

Un archivo de índice invertido contiene dos partes: un vocabulario que contiene todos los términos utilizados en la colección, y para cada término distinto, un índice invertido que enumera todos los documentos que mencionan ese término. ^[3]^[4]

Referencias

^ Lancaster, FW; Fayen, EG (1973), Recuperación de información en línea , Melville Publishing Co., Los Ángeles, California
^ Wartik, Steven (1992). "Operaciones booleanas". Estructuras y algoritmos de datos de recuperación de información . Prentice-Hall, Inc. ISBN 0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013.
^ ^a ^b Justin Zobel; Alistair Moffat; y Kotagiri Ramamohanarao. "Archivos invertidos versus archivos de firmas para indexación de texto" .
^ ^a ^b Bob Goodwin; et. Alabama. "BitFunnel: revisando firmas para la búsqueda" . 2017.
^ Richard Startin. "Filtros de Bloom y firmas en rodajas de bits" .

Lashkari, AH; Mahdavi, F .; Ghomi, V. (2009), "A Boolean Model in Information Retrieval for Search Engines", 2009 International Conference on Information Management and Engineering , págs. 385–389, doi : 10.1109 / ICIME.2009.101 , ISBN 978-0-7695-3595-1

[1] Lancaster, FW; Fayen, EG (1973), Recuperación de información en línea , Melville Publishing Co., Los Ángeles, California

[wartik-2] Wartik, Steven (1992). "Operaciones booleanas". Estructuras y algoritmos de datos de recuperación de información . Prentice-Hall, Inc. ISBN 0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013.

[zobel-3] Justin Zobel; Alistair Moffat; y Kotagiri Ramamohanarao. "Archivos invertidos versus archivos de firmas para indexación de texto" .

[goodwin-4] Bob Goodwin; et. Alabama. "BitFunnel: revisando firmas para la búsqueda" . 2017.

[5] Richard Startin. "Filtros de Bloom y firmas en rodajas de bits" .

[1]