En informática , SimHash es una técnica para estimar rápidamente qué tan similares son dos conjuntos. El rastreador de Google utiliza el algoritmo para encontrar páginas casi duplicadas. Fue creado por Moses Charikar . En 2021, Google anunció su intención de utilizar también el algoritmo en su sistema FLoC (aprendizaje federado de cohortes) recién creado . [1]
Evaluación y benchmarks
Google realizó una evaluación a gran escala en 2006 [2] para comparar el rendimiento de los algoritmos Minhash y Simhash [3] . En 2007, Google informó sobre el uso de Simhash para la detección de duplicados en el rastreo web [4] y el uso de Minhash y LSH para la personalización de Google News . [5]
Ver también
Referencias
- ↑ Cyphers, Bennett (3 de marzo de 2021). "FLoC de Google es una idea terrible" . Fundación Frontera Electrónica . Consultado el 13 de abril de 2021 .
- ^ Henzinger, Monika (2006), "Encontrar páginas web casi duplicadas: una evaluación a gran escala de algoritmos", Actas de la 29ª Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información , p. 284, doi : 10.1145 / 1148170.1148222 , ISBN 978-1595933690.
- ^ Charikar, Moses S. (2002), "Técnicas de estimación de similitudes a partir de algoritmos de redondeo", Actas del 34º Simposio Anual de ACM sobre Teoría de la Computación , p. 380, doi : 10.1145 / 509907.509965 , ISBN 978-1581134957.
- ^ Gurmeet Singh, Manku; Jain, Arvind; Das Sarma, Anish (2007), "Detección de casi duplicados para rastreo web", Actas de la 16ª Conferencia Internacional sobre World Wide Web (PDF) , p. 141, doi : 10.1145 / 1242572.1242592 , ISBN 9781595936547.
- ^ Das, Abhinandan S .; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam; et al. (2007), "Personalización de noticias de Google: filtrado colaborativo en línea escalable", Actas de la 16ª Conferencia Internacional sobre la World Wide Web , p. 271, doi : 10.1145 / 1242572.1242610 , ISBN 9781595936547.