Distancia de Google normalizada


La distancia normalizada de Google (NGD) es una medida de similitud semántica derivada del número de resultados devueltos por el motor de búsqueda de Google para un conjunto determinado de palabras clave . [1] Las palabras clave con significados iguales o similares en un sentido del lenguaje natural tienden a estar "cercanas" en unidades de distancia de Google normalizada, mientras que las palabras con significados diferentes tienden a estar más separadas.

donde N es el número total de páginas web buscadas por Google multiplicado por el número promedio de términos de búsqueda únicos que aparecen en las páginas; f ( x ) y f ( y ) son el número de aciertos para los términos de búsqueda x e y , respectivamente; y f ( xy ) es el número de páginas web en las que aparecen tanto x como y .

Si entonces x e y se ven lo más parecidos posible, pero si entonces x e y son muy diferentes. Si los dos términos de búsqueda x e y nunca aparecen juntos en la misma página web, pero aparecen por separado, el NGD entre ellos es infinito. Si ambos términos siempre aparecen juntos, su NGD es cero.

Ejemplo: el 9 de abril de 2013, la búsqueda en Google de "Shakespeare" dio 130 000 000 de visitas; buscar en Google "Macbeth" dio 26.000.000 de visitas; y buscar en Google "Shakespeare Macbeth" dio 20.800.000 visitas. El número de páginas indexadas por Google se estimó por el número de visitas del término de búsqueda "el", que fue de 25.270.000.000 visitas. Suponiendo que hay alrededor de 1000 términos de búsqueda en la página promedio, esto da . Por eso

"Shakespeare" y "Macbeth" son muy parecidos según la semántica relativa proporcionada por Google .

La Distancia de Google Normalizada se deriva de la Distancia de Compresión Normalizada anterior . . [2] [3] Es decir, los objetos se pueden dar literalmente, como el genoma literal de cuatro letras de un ratón, o el texto literal de Macbeth de Shakespeare . La similitud de estos objetos viene dada por el NCD. Para simplificar, consideramos que todo el significado del objeto está representado por el propio objeto literal. Los objetos también se pueden dar por su nombre, como "el genoma de cuatro letras de un ratón" o "el texto de Macbeth de Shakespeare "..' También hay objetos que no se pueden dar literalmente, sino solo por su nombre, y que adquieren su significado a partir de sus contextos en el conocimiento común de la humanidad, como "hogar" o "rojo". .