TrustRank es un algoritmo que realiza análisis de enlaces para separar las páginas web útiles del spam y ayuda a los motores de búsqueda a clasificar las páginas en las SERP (páginas de resultados del motor de búsqueda). Es un proceso semiautomático, lo que significa que necesita ayuda humana para funcionar correctamente. Los motores de búsqueda tienen muchos algoritmos y factores de clasificación diferentes que utilizan al medir la calidad de las páginas web. TrustRank es uno de ellos.
Debido a que la revisión manual de Internet no es práctica y es muy costosa, se introdujo TrustRank para ayudar a lograr esta tarea de manera mucho más rápida y económica. Fue presentado por primera vez por los investigadores Zoltan Gyongyi y Héctor García-Molina de la Universidad de Stanford y Jan Pedersen de Yahoo! en su artículo "Combating Web Spam with TrustRank" en 2004. En la actualidad, este algoritmo forma parte de los principales motores de búsqueda web como Yahoo! y Google. [1]
Uno de los factores más importantes que ayudan a los motores de búsqueda a determinar la calidad de una página web cuando se obtienen resultados son los vínculos de retroceso . Los motores de búsqueda tienen en cuenta el número y la calidad de los vínculos de retroceso cuando asignan un lugar a una determinada página web en las SERP. Muchas páginas web de spam se crean únicamente con la intención de engañar a los motores de búsqueda . Estas páginas, creadas principalmente con fines comerciales, utilizan diversas técnicas para lograr clasificaciones más altas de lo merecido en las páginas de resultados de los motores de búsqueda . Si bien los expertos humanos pueden identificar fácilmente el spam, los motores de búsqueda aún se mejoran a diario para hacerlo sin la ayuda de los humanos.
Un método popular para mejorar las clasificaciones es aumentar la importancia percibida de un documento a través de complejos esquemas de vinculación. El PageRank de Google y otros algoritmos de clasificación de búsqueda han sido sometidos a tal manipulación.
TrustRank busca combatir el spam filtrando la web en función de la confiabilidad. El método requiere seleccionar un pequeño conjunto de páginas iniciales para que las evalúe un experto. Una vez que las páginas semilla de buena reputación se identifican manualmente, un rastreo que se extiende hacia afuera desde el conjunto de semillas busca páginas igualmente confiables y confiables. La confiabilidad de TrustRank disminuye con el aumento de la distancia entre los documentos y el conjunto de semillas.
La lógica también funciona de manera opuesta, que se denomina Rango antimonopolio. Cuanto más cerca esté un sitio de los recursos de spam, es más probable que también sea spam. [2]
Los investigadores que propusieron la metodología TrustRank han continuado perfeccionando su trabajo mediante la evaluación de temas relacionados, como la medición de la masa de spam .
Ver también
Referencias
- ^ 7603350 , Guha, Ramanathan, "Patente de Estados Unidos: 7603350 - Clasificación de resultados de búsqueda basada en la confianza", emitida el 13 de octubre de 2009
- ^ Krishnan, Vijay; Raj, Rashmi. "Detección de correo no deseado en la web con clasificación antimonopolio" (PDF) . Universidad de Stanford . Consultado el 11 de enero de 2015 .
enlaces externos
- Z. Gyöngyi, H. García-Molina, J. Pedersen: Combatir el spam web con TrustRank
- Detección de spam basada en enlaces Yahoo! solicitud de patente asignada mediante TrustRank