SimHash

En informática , SimHash es una técnica para estimar rápidamente qué tan similares son dos conjuntos. El rastreador de Google utiliza el algoritmo para encontrar páginas casi duplicadas. Fue creado por Moses Charikar . En 2021, Google anunció su intención de utilizar también el algoritmo en su sistema FLoC (aprendizaje federado de cohortes) recién creado . ^[1]

Evaluación y benchmarks

Google realizó una evaluación a gran escala en 2006 ^[2] para comparar el rendimiento de los algoritmos Minhash y Simhash ^[3] . En 2007, Google informó sobre el uso de Simhash para la detección de duplicados en el rastreo web ^[4] y el uso de Minhash y LSH para la personalización de Google News . ^[5]

Ver también

Referencias

↑ Cyphers, Bennett (3 de marzo de 2021). "FLoC de Google es una idea terrible" . Fundación Frontera Electrónica . Consultado el 13 de abril de 2021 .
^ Henzinger, Monika (2006), "Encontrar páginas web casi duplicadas: una evaluación a gran escala de algoritmos", Actas de la 29ª Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información , p. 284, doi : 10.1145 / 1148170.1148222 , ISBN 978-1595933690.
^ Charikar, Moses S. (2002), "Técnicas de estimación de similitudes a partir de algoritmos de redondeo", Actas del 34º Simposio Anual de ACM sobre Teoría de la Computación , p. 380, doi : 10.1145 / 509907.509965 , ISBN 978-1581134957.
^ Gurmeet Singh, Manku; Jain, Arvind; Das Sarma, Anish (2007), "Detección de casi duplicados para rastreo web", Actas de la 16ª Conferencia Internacional sobre World Wide Web (PDF) , p. 141, doi : 10.1145 / 1242572.1242592 , ISBN 9781595936547.
^ Das, Abhinandan S .; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam; et al. (2007), "Personalización de noticias de Google: filtrado colaborativo en línea escalable", Actas de la 16ª Conferencia Internacional sobre la World Wide Web , p. 271, doi : 10.1145 / 1242572.1242610 , ISBN 9781595936547.

[1] Cyphers, Bennett (3 de marzo de 2021). "FLoC de Google es una idea terrible" . Fundación Frontera Electrónica . Consultado el 13 de abril de 2021 .

[2] Henzinger, Monika (2006), "Encontrar páginas web casi duplicadas: una evaluación a gran escala de algoritmos", Actas de la 29ª Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información , p. 284, doi : 10.1145 / 1148170.1148222 , ISBN 978-1595933690.

[3] Charikar, Moses S. (2002), "Técnicas de estimación de similitudes a partir de algoritmos de redondeo", Actas del 34º Simposio Anual de ACM sobre Teoría de la Computación , p. 380, doi : 10.1145 / 509907.509965 , ISBN 978-1581134957.

[4] Gurmeet Singh, Manku; Jain, Arvind; Das Sarma, Anish (2007), "Detección de casi duplicados para rastreo web", Actas de la 16ª Conferencia Internacional sobre World Wide Web (PDF) , p. 141, doi : 10.1145 / 1242572.1242592 , ISBN 9781595936547.

[5] Das, Abhinandan S .; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam; et al. (2007), "Personalización de noticias de Google: filtrado colaborativo en línea escalable", Actas de la 16ª Conferencia Internacional sobre la World Wide Web , p. 271, doi : 10.1145 / 1242572.1242610 , ISBN 9781595936547.

[1]