En la recuperación de información , Okapi BM25 ( BM es una abreviatura de mejor coincidencia ) es una función de clasificación utilizada por los motores de búsqueda para estimar la relevancia de los documentos para una consulta de búsqueda determinada. Se basa en el marco de recuperación probabilístico desarrollado en las décadas de 1970 y 1980 por Stephen E. Robertson , Karen Spärck Jones y otros.
El nombre de la función de clasificación real es BM25 . El nombre más completo, Okapi BM25 , incluye el nombre del primer sistema que lo utilizó, que fue el sistema de recuperación de información Okapi, implementado en la City University de Londres en las décadas de 1980 y 1990. BM25 y sus variantes más nuevas, por ejemplo, BM25F (una versión de BM25 que puede tener en cuenta la estructura del documento y el texto de anclaje), representan funciones de recuperación de última generación similares a TF-IDF utilizadas en la recuperación de documentos. [ cita requerida ]
La función de clasificación
BM25 es una función de recuperación de bolsa de palabras que clasifica un conjunto de documentos según los términos de consulta que aparecen en cada documento, independientemente de su proximidad dentro del documento. Es una familia de funciones de puntuación con componentes y parámetros ligeramente diferentes. Una de las instancias más destacadas de la función es la siguiente.
Dada una consulta Q , que contiene palabras clave, la puntuación BM25 de un documento D es:
dónde es la frecuencia del término en el documento D ,es la longitud del documento D en palabras, y avgdl es la longitud promedio del documento en la colección de texto de la que se extraen los documentos.y b son parámetros libres, por lo general elegido, en ausencia de una optimización avanzada, y . [1] es el peso IDF ( frecuencia inversa del documento ) del término de consulta. Por lo general, se calcula como:
donde N es el número total de documentos de la colección, y es el número de documentos que contienen .
Hay varias interpretaciones para IDF y ligeras variaciones en su fórmula. En la derivación BM25 original, el componente IDF se deriva del Modelo de Independencia Binaria .
Interpretación de la teoría de la información de las FDI
Aquí hay una interpretación de la teoría de la información. Suponga un término de consulta aparece en documentos. Luego, un documento elegido al azar contendrá el término con probabilidad (dónde es nuevamente la cardinalidad del conjunto de documentos de la colección). Por lo tanto, el contenido de información del mensaje " contiene " es:
Ahora suponga que tenemos dos términos de consulta y . Si los dos términos aparecen en documentos de forma totalmente independiente entre sí, entonces la probabilidad de ver ambos y en un documento elegido al azar es:
y el contenido de información de tal evento es:
Con una pequeña variación, esto es exactamente lo que expresa el componente IDF de BM25.
Modificaciones
- En los valores extremos del coeficiente b, BM25 se convierte en funciones de clasificación conocidas como BM11 (para) y BM15 (para). [2]
- BM25F [3] [4] es una modificación de BM25 en la que se considera que el documento está compuesto por varios campos (como títulos, texto principal, texto de anclaje) con posiblemente diferentes grados de importancia, saturación de relevancia de término y normalización de longitud.
- BM25 + [5] es una extensión de BM25. BM25 + se desarrolló para abordar una deficiencia del estándar BM25 en el que el componente de la normalización de la frecuencia de los términos por la longitud del documento no tiene un límite inferior adecuado; Como resultado de esta deficiencia, los documentos largos que coinciden con el término de consulta a menudo pueden ser calificados injustamente por BM25 por tener una relevancia similar a los documentos más cortos que no contienen el término de consulta en absoluto. La fórmula de puntuación de BM25 + solo tiene un parámetro libre adicional(un valor predeterminado es 1.0 en ausencia de datos de entrenamiento) en comparación con BM25:
Referencias
- ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introducción a la recuperación de información , Cambridge University Press, 2009, pág. 233.
- ^ "El esquema de ponderación BM25" .
- ^ Hugo Zaragoza, Nick Craswell, Michael Taylor, Suchi Saria y Stephen Robertson. Microsoft Cambridge en TREC-13: Web y pistas HARD. En Actas de TREC-2004.
- ^ Stephen Robertson y Hugo Zaragoza (2009). "El marco de relevancia probabilística: BM25 y más allá" . Fundamentos y tendencias en la recuperación de información . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . doi : 10.1561 / 1500000019 .
- ^ Yuanhua Lv y ChengXiang Zhai. Normalización de frecuencia de término de límite inferior. En Actas de CIKM'2011, páginas 7-16.
Referencias generales
- Stephen E. Robertson; Steve Walker; Susan Jones; Micheline Hancock-Beaulieu y Mike Gatford (noviembre de 1994). Okapi en TREC-3 . Actas de la Tercera Conferencia de Recuperación del Texto (TREC 1994) . Gaithersburg, Estados Unidos.
- Stephen E. Robertson; Steve Walker y Micheline Hancock-Beaulieu (noviembre de 1998). Okapi en TREC-7 . Actas de la Séptima Conferencia de Recuperación del Texto . Gaithersburg, Estados Unidos.
- Spärck Jones, K .; Walker, S .; Robertson, SE (2000). "Un modelo probabilístico de recuperación de información: desarrollo y experimentos comparativos: parte 1". Tratamiento y gestión de la información . 36 (6): 779–808. CiteSeerX 10.1.1.134.6108 . doi : 10.1016 / S0306-4573 (00) 00015-7 .
- Spärck Jones, K .; Walker, S .; Robertson, SE (2000). "Un modelo probabilístico de recuperación de información: desarrollo y experimentos comparativos: parte 2". Tratamiento y gestión de la información . 36 (6): 809–840. doi : 10.1016 / S0306-4573 (00) 00016-9 .
- Stephen Robertson y Hugo Zaragoza (2009). "El marco de relevancia probabilística: BM25 y más allá" . Fundamentos y tendencias en la recuperación de información . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . doi : 10.1561 / 1500000019 .
enlaces externos
- Robertson, Stephen ; Zaragoza, Hugo (2009). El marco de relevancia probabilística: BM25 y más allá (PDF) . NOW Publishers, Inc. ISBN 978-1-60198-308-4.