Masa de spam


La masa de spam se define como "la medida del impacto del spam de enlaces en la clasificación de una página". El concepto fue desarrollado por Zoltán Gyöngyi y Hector Garcia-Molina de la Universidad de Stanford en asociación con Pavel Berkhin y Jan Pedersen de Yahoo! . Este documento amplía la metodología TrustRank propuesta.

Los investigadores desarrollaron un núcleo bueno y uno malo de documentos web seleccionados a partir de los cuales midieron la masa de spam en una colección de documentos. Se utilizan dos tipos de medidas, masa absoluta y masa relativa , para comparar grupos de documentos. Cuanto más altas sean las medidas de masa, más probable es que los documentos sean equivalentes a spam.

Se utiliza un valor de umbral para identificar grupos de documentos como spam. Si su valor de masa relativa supera el umbral, los documentos se consideran spam. Se aplica un segundo umbral para los valores de PageRank de los documentos seleccionados. Solo los documentos de alto PageRank se etiquetan como spam.

El propósito de la metodología es identificar documentos de spam con valores de PageRank inflados artificialmente.