El algoritmo de Rocchio se basa en un método de retroalimentación de relevancia que se encuentra en los sistemas de recuperación de información que surgieron del Sistema de Recuperación de Información SMART que se desarrolló en 1960-1964. Como muchos otros sistemas de recuperación, el enfoque de retroalimentación de Rocchio se desarrolló utilizando el Modelo de espacio vectorial . El algoritmo se basa en la suposición de que la mayoría de los usuarios tienen una concepción general de qué documentos deben indicarse como relevantes o no relevantes. [1] Por lo tanto, la consulta de búsqueda del usuario se revisa para incluir un porcentaje arbitrario de documentos relevantes y no relevantes como un medio para aumentar el motor de búsqueda.'s recuerdo , y, posiblemente, la precisión también. La cantidad de documentos relevantes y no relevantes permitidos para ingresar una consulta viene dictada por los pesos de las variables a, b, c que se enumeran a continuación en la sección Algoritmo . [1]
Algoritmo
La fórmula y las definiciones de las variables para la retroalimentación de relevancia de Rocchio son las siguientes: [1]
Variable | Valor |
---|---|
Vector de consulta modificado | |
Vector de consulta original | |
Vector de documento relacionado | |
Vector de documento no relacionado | |
Peso de la consulta original | |
Documentos relacionados Peso | |
Peso de documentos no relacionados | |
Conjunto de documentos relacionados | |
Conjunto de documentos no relacionados |
Como se demuestra en la fórmula, los pesos asociados ( a , b , c ) son responsables de dar forma al vector modificado en una dirección más cercana o más alejada de la consulta original, documentos relacionados y documentos no relacionados. En particular, los valores de b y c debe ser incrementado o decrementado proporcionalmente al conjunto de documentos clasificados por el usuario. Si el usuario decide que la consulta modificada no debe contener términos de la consulta original, documentos relacionados o documentos no relacionados, entonces el valor de ponderación correspondiente ( a , b , c ) para la categoría debe establecerse en 0.
En la última parte del algoritmo, las variables , y se presentan como conjuntos de vectores que contienen las coordenadas de documentos relacionados y documentos no relacionados. Aunque y no son vectores en sí mismos, y son los vectores utilizados para iterar a través de los dos conjuntos y formar sumas vectoriales . Estas sumas están normalizadas (divididas) por el tamaño de su respectivo conjunto de documentos (, ).
Para visualizar los cambios que tienen lugar en el vector modificado, consulte la imagen a continuación. [1] A medida que los pesos aumentan o disminuyen para una categoría particular de documentos, las coordenadas del vector modificado comienzan a acercarse o alejarse del centroide de la colección de documentos. Por lo tanto, si se aumenta el peso de los documentos relacionados, las coordenadas de los vectores modificados reflejarán estar más cerca del centroide de los documentos relacionados.
Complejidad del tiempo
Variable | Valor |
---|---|
Conjunto de documentos etiquetados | |
Tokens promedio por documento | |
Conjunto de clases | |
Conjunto de vocabulario / términos | |
Número de tokens en el documento | |
Número de tipos en el documento |
La complejidad del tiempo para entrenar y probar el algoritmo se enumera a continuación y sigue la definición de cada variable . Tenga en cuenta que en la fase de prueba, la complejidad del tiempo se puede reducir al cálculo de la distancia euclidiana entre un centroide de clase y el documento respectivo. Como se muestra:.
Entrenamiento =
Prueba = [1]
Uso
Aunque hay ventajas de clasificar los documentos como no relevantes, una clasificación de documentos relevante dará como resultado que los documentos más precisos estén disponibles para el usuario. Por lo tanto, los valores tradicionales para los pesos del algoritmo ( un , b , c ) en la Clasificación Rocchio son típicamente alrededor de a = 1 , b = 0,8 , y c = 0,1 . Los sistemas modernos de recuperación de información han avanzado hacia la eliminación de los documentos no relacionados estableciendo c = 0 y, por lo tanto, solo contabilizan los documentos relacionados. Aunque no todos los sistemas de recuperación han eliminado la necesidad de documentos no relacionados, la mayoría ha limitado los efectos sobre la consulta modificada al tener en cuenta únicamente los documentos no relacionados más sólidos del conjunto Dnr .
Limitaciones
El algoritmo de Rocchio a menudo no clasifica las clases y relaciones multimodales. Por ejemplo, el país de Birmania pasó a llamarse Myanmar en 1989. Por lo tanto, las dos consultas de "Birmania" y "Myanmar" aparecerán mucho más separadas en el modelo de espacio vectorial , aunque ambas tienen orígenes similares. [1]
Ver también
- Clasificador de centroide más cercano , también conocido como clasificador de Rocchio