Algoritmo HITS


La búsqueda de temas inducida por hipervínculos ( HITS , también conocida como centros y autoridades ) es un algoritmo de análisis de enlaces que califica las páginas web, desarrollado por Jon Kleinberg . La idea detrás de Hubs and Authority surgió de una visión particular de la creación de páginas web cuando Internet se estaba formando originalmente; es decir, ciertas páginas web, conocidas como concentradores, servían como grandes directorios que en realidad no tenían autoridad sobre la información que contenían, pero se usaban como compilaciones de un amplio catálogo de información que dirigía a los usuarios directamente a otras páginas autorizadas. En otras palabras, un buen hub representa una página que apunta a muchas otras páginas, mientras que una buena autoridad representa una página que está vinculada por muchos hubs diferentes.[1]

Por lo tanto, el esquema asigna dos puntajes para cada página: su autoridad, que estima el valor del contenido de la página, y su valor central, que estima el valor de sus enlaces a otras páginas.

Se han utilizado muchos métodos para clasificar la importancia de las revistas científicas. Uno de esos métodos es el factor de impacto de Garfield . Revistas como Science y Nature están llenas de numerosas citas, lo que hace que estas revistas tengan factores de impacto muy altos. Por lo tanto, al comparar dos revistas menos conocidas que han recibido aproximadamente el mismo número de citas, pero una de estas revistas ha recibido muchas citas de Science y Nature , esta revista debe clasificarse más arriba. En otras palabras, es mejor recibir citas de una revista importante que de una sin importancia. [2]

Este fenómeno también se da en Internet . Contar el número de enlaces a una página puede darnos una estimación general de su prominencia en la Web, pero una página con muy pocos enlaces entrantes también puede ser destacada, si dos de estos enlaces provienen de las páginas de inicio de sitios como Yahoo! , Google o MSN . Debido a que estos sitios son de gran importancia pero también son motores de búsqueda , una página puede clasificarse mucho más alto que su relevancia real.

En el algoritmo HITS, el primer paso es recuperar las páginas más relevantes para la consulta de búsqueda. Este conjunto se denomina conjunto raíz y se puede obtener tomando las páginas principales devueltas por un algoritmo de búsqueda basado en texto. Un conjunto base se genera aumentando el conjunto raíz con todas las páginas web que están enlazadas desde él y algunas de las páginas que enlazan con él. Las páginas web en el conjunto base y todos los hipervínculos entre esas páginas forman un subgráfico enfocado. El cálculo de HITS se realiza solo en este subgráfico enfocado . Según Kleinberg, la razón para construir un conjunto base es garantizar que se incluyan la mayoría (o muchas) de las autoridades más fuertes.

Los valores de autoridad y centro se definen en términos de uno al otro en una recurrencia mutua . Un valor de autoridad se calcula como la suma de los valores centrales escalados que apuntan a esa página. Un valor central es la suma de los valores de autoridad escalados de las páginas a las que apunta. Algunas implementaciones también consideran la relevancia de las páginas enlazadas.


Expansión del conjunto raíz en un conjunto base