El modelo booleano (estándar) de recuperación de información (BIR) [1] es un modelo clásico de recuperación de información (IR) y, al mismo tiempo, el primero y el más adoptado. Es utilizado por muchos sistemas de infrarrojos hasta el día de hoy. [ cita requerida ] El BIR se basa en la lógica booleana y la teoría de conjuntos clásica en que tanto los documentos que se buscarán como la consulta del usuario se conciben como conjuntos de términos (un modelo de bolsa de palabras ). La recuperación se basa en si los documentos contienen o no los términos de la consulta.
Definiciones
Un término de índice es una palabra o expresión , que puede derivarse , describir o caracterizar un documento, como una palabra clave dada para un artículo de revista. Dejar
Un documento es cualquier subconjunto de. Dejar
Una consulta es una expresión booleana en forma normal:
Buscamos encontrar el conjunto de documentos que satisfagan . Esta operación se denomina recuperación y consta de los dos pasos siguientes:
- 1. Para cada en , encuentra el set de documentos que satisfacen : 2. Entonces, el conjunto de documentos que satisfacen Q viene dado por:
Ejemplo
Sea el conjunto de documentos originales (reales), por ejemplo
dónde
= "Principio de Bayes: El principio de que, al estimar un parámetro, se debe asumir inicialmente que cada valor posible tiene la misma probabilidad (una distribución previa uniforme)".
= " Teoría de la decisión bayesiana : Teoría matemática de la toma de decisiones que presume funciones de utilidad y probabilidad, y según la cual el acto a elegir es el acto de Bayes, es decir, el de mayor utilidad subjetiva esperada. poder con el que tomar todas las decisiones, este procedimiento sería la mejor manera de tomar cualquier decisión ".
= " Epistemología bayesiana : una teoría filosófica que sostiene que el estado epistémico de una proposición (es decir, qué tan bien probada o bien establecida está) se mide mejor mediante una probabilidad y que la forma adecuada de revisar esta probabilidad está dada por la condicionalización bayesiana o similar procedimientos. Un epistemólogo bayesiano usaría la probabilidad para definir y explorar la relación entre conceptos como el estado epistémico, el apoyo o el poder explicativo ".
Deja el set de términos ser:
Entonces, el set de documentos es el siguiente:
dónde
Deje que la consulta ser:
- En primer lugar, los siguientes conjuntos y de documentos se obtienen (recuperados):
- Finalmente, los siguientes documentos se recuperan en respuesta a
Esto significa que el documento original (correspondiente a ) es la respuesta a .
Obviamente, si hay más de un documento con la misma representación, se recuperan todos esos documentos. Dichos documentos son indistinguibles en el BIR (en otras palabras, equivalentes).
Ventajas
- Formalismo limpio
- Fácil de implementar
- Concepto intuitivo
Desventajas
- La coincidencia exacta puede recuperar muy pocos o demasiados documentos
- Es difícil traducir una consulta a una expresión booleana
- Todos los términos se ponderan por igual
- Se parece más a la recuperación de datos que a la recuperación de información
- Recuperación basada en criterios de decisión binarios sin noción de coincidencia parcial
- No se proporciona ninguna clasificación de los documentos (ausencia de una escala de calificación)
- La necesidad de información debe traducirse en una expresión booleana, que la mayoría de los usuarios encuentran incómoda
- Las consultas booleanas formuladas por los usuarios suelen ser demasiado simplistas.
- El modelo con frecuencia devuelve muy pocos o demasiados documentos en respuesta a una consulta de usuario.
Estructuras de datos y algoritmos
Desde un punto de vista matemático puramente formal, el BIR es sencillo. Sin embargo, desde un punto de vista práctico, deben resolverse varios problemas adicionales relacionados con algoritmos y estructuras de datos, como, por ejemplo, la elección de términos (selección manual o automática o ambas), derivación , tablas hash , estructura de archivos invertida. , y así. [2]
Conjuntos de hash
Otra posibilidad es utilizar conjuntos hash . Cada documento está representado por una tabla hash que contiene todos los términos de ese documento. Dado que el tamaño de la tabla hash aumenta y disminuye en tiempo real con la adición y eliminación de términos, cada documento ocupará mucho menos espacio en la memoria. Sin embargo, tendrá una desaceleración en el rendimiento porque las operaciones son más complejas que con los vectores de bits . En el peor de los casos, el rendimiento puede degradarse de O ( n ) a O ( n 2 ). En el caso medio, la ralentización del rendimiento no será mucho peor que los vectores de bits y el uso del espacio es mucho más eficiente.
Archivo de firma
Cada documento se puede resumir mediante el filtro Bloom que representa el conjunto de palabras de ese documento, almacenado en una cadena de bits de longitud fija, denominada firma. El archivo de firma contiene una cadena de bits de código superpuesta para cada documento de la colección. Cada consulta también se puede resumir mediante un filtro Bloom que representa el conjunto de palabras de la consulta, almacenado en una cadena de bits de la misma longitud fija. La cadena de bits de la consulta se prueba con cada firma. [3] [4] [5]
El archivo de firma abordado se utiliza en BitFunnel .
Archivo invertido
Un archivo de índice invertido contiene dos partes: un vocabulario que contiene todos los términos utilizados en la colección, y para cada término distinto, un índice invertido que enumera todos los documentos que mencionan ese término. [3] [4]
Referencias
- ^ Lancaster, FW; Fayen, EG (1973), Recuperación de información en línea , Melville Publishing Co., Los Ángeles, California
- ^ Wartik, Steven (1992). "Operaciones booleanas". Estructuras y algoritmos de datos de recuperación de información . Prentice-Hall, Inc. ISBN 0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013.
- ^ a b Justin Zobel; Alistair Moffat; y Kotagiri Ramamohanarao. "Archivos invertidos versus archivos de firmas para indexación de texto" .
- ^ a b Bob Goodwin; et. Alabama. "BitFunnel: revisando firmas para la búsqueda" . 2017.
- ^ Richard Startin. "Filtros de Bloom y firmas en rodajas de bits" .
- Lashkari, AH; Mahdavi, F .; Ghomi, V. (2009), "A Boolean Model in Information Retrieval for Search Engines", 2009 International Conference on Information Management and Engineering , págs. 385–389, doi : 10.1109 / ICIME.2009.101 , ISBN 978-0-7695-3595-1