Distancia de Google normalizada

La distancia normalizada de Google (NGD) es una medida de similitud semántica derivada del número de resultados devueltos por el motor de búsqueda de Google para un conjunto determinado de palabras clave . ^{[1] Las} palabras clave con significados iguales o similares en el sentido del lenguaje natural tienden a estar "cerca" en unidades de Distancia de Google normalizada, mientras que las palabras con significados diferentes tienden a estar más separadas.

En concreto, la Distancia Normalizada de Google (NGD) entre dos términos de búsqueda x e y es

{\ Displaystyle \ operatorname {NGD} (x, y) = {\ frac {\ max \ {\ log f (x), \ log f (y) \} - \ log f (x, y)} {\ log N- \ min \ {\ log f (x), \ log f (y) \}}}}

donde N es el número total de páginas web buscadas por Google multiplicado por el número medio de términos de búsqueda únicos que aparecen en las páginas; f ( x ) y f ( y ) son el número de éxitos para los términos de búsqueda x y y , respectivamente; y f ( x , y ) es el número de páginas web en las que aparecen tanto x como y .

Si el ${\ Displaystyle NGD (x, y) = 0}$ entonces xey se consideran lo más parecidos posible, pero si ${\ Displaystyle NGD (x, y) \ geq 1}$ entonces xey son muy diferentes. Si los dos términos de búsqueda x e y no ocurren al mismo tiempo en la misma página web, pero se producen por separado, el NGD entre ellos es infinita. Si ambos términos siempre ocurren juntos, su NGD es cero.

Ejemplo: el 9 de abril de 2013, buscar en Google "Shakespeare" dio 130.000.000 de visitas; buscar en Google "Macbeth" dio 26.000.000 de visitas; y buscar en Google "Shakespeare Macbeth" dio 20.800.000 visitas. El número de páginas indexadas por Google se estimó por el número de visitas del término de búsqueda "el", que fue de 25.270.000.000 visitas. Suponiendo que hay alrededor de 1,000 términos de búsqueda en la página promedio, esto da ${\ Displaystyle N = 25,270,000,000,000}$ . Por eso

{\ displaystyle NGD (Shakespeare, Macbeth) = (26,95-24,31) / (44,52-24,63) = 0,13}

.

"Shakespeare" y "Macbeth" son muy parecidos según la semántica relativa proporcionada por Google .

Introducción

La distancia de Google normalizada se deriva de la distancia de compresión normalizada anterior . . ^[2]^[3] Es decir, los objetos se pueden dar literalmente, como el genoma literal de cuatro letras de un ratón, o el texto literal de Macbeth de Shakespeare . La similitud de estos objetos viene dada por el NCD. Para simplificar, asumimos que todo el significado del objeto está representado por el objeto literal en sí. Los objetos también se pueden dar por nombre, como "el genoma de cuatro letras de un ratón" o "el texto de Macbeth de Shakespeare ". También hay objetos que no se pueden dar literalmente, sino solo por su nombre, y que adquieren su significado a partir de sus contextos de conocimiento común de fondo en la humanidad, como 'hogar' o 'rojo'. La similitud entre los nombres de los objetos viene dada por la NGD .

Distribución de Google y código de Google

Las probabilidades de los términos de búsqueda de Google, concebidas como las frecuencias de los recuentos de páginas devueltos por Google divididas por el número de páginas indexadas por Google (multiplicado por el número promedio de términos de búsqueda en esas páginas), se aproximan a las frecuencias relativas reales de esos términos de búsqueda como realmente utilizado en la sociedad. Con base en esta premisa, las relaciones representadas por la distancia de Google normalizada capturan aproximadamente las relaciones semánticas verdaderas asumidas que gobiernan los términos de búsqueda. En la NGD se utiliza la World Wide Web y Google. Otros corpus de texto pueden ser Wikipedia , la versión King James de la Biblia o el Oxford English Dictionary junto con los motores de búsqueda adecuados.

Propiedades

Las siguientes propiedades se prueban en: ^[1]

La NGD está aproximadamente entre 0 y ${\ Displaystyle \ infty}$ . Puede ser levemente negativo. Por ejemplo, "rojo rojo" da aproximadamente un 20% más de visitas de Google en la World Wide Web que "rojo". (A mediados de 2013 hubo 4.260.000.000 aciertos para "rojo" y 5.500.000.000 aciertos para "rojo rojo". Actualmente, "rojo rojo" ahora devuelve muchos menos resultados que "rojo"). ${\ Displaystyle NGD (x, y) \ geq 1}$ entonces consideramos que xey son muy diferentes.
La NGD no es una métrica . Al principio, hemos visto que el NGD es cero para xey que no son iguales siempre que xey siempre ocurran juntos en la misma página web. De la fórmula NGD vemos que es simétrica . La propiedad del triángulo no es satisfecha por la NGD. Sin embargo, estos resultados son teóricos. Es difícil encontrar ejemplos prácticos de la World Wide Web utilizando Google que violen la propiedad del triángulo .

Aplicaciones

Las aplicaciones a colores versus números, primos versus no primos y así se dan en, ^[1] así como un experimento masivo aleatorio usando categorías de WordNet . En el caso de primos versus no primos y el experimento de WordNet, el método NGD se aumenta con un clasificador de máquina de vectores de soporte . Los experimentos constan de 25 ejemplos positivos y 25 negativos. El experimento de WordNet consistió en 100 categorías de WordNet aleatorias . El método NGD tuvo una tasa de éxito del 87,25%. Esa es la media es 0.8725 mientras que la desviación estándar fue 0.1169. Estas tasas se refieren a la concordancia con las categorías de WordNet que representan el conocimiento de los investigadores con doctorados que las ingresaron. Es raro ver un acuerdo inferior al 75%.

Referencias

^ ^a ^b ^c La distancia de similitud de Google en ArXiv.org o RL Cilibrasi y PMB Vitanyi, La distancia de similitud de Google, IEEE Trans. Ingeniería de datos y conocimientos, 19: 3 (2007), 370–383 o https://arxiv.org/abs/cs.CL/0412098
^ Agrupación por compresión en ArXiv.org o RL Cilibrasi y PMB Vitanyi, Agrupación por compresión, IEEE Trans. Teoría de la información, 51:12 (2005).
^ "M. Li, X. Chen, X. Li, B. Ma, PMB Vitanyi, La métrica de similitud, IEEE Trans. Inform. Th., 50:12 (2004), 3250-3264". Ieeexplore.ieee.org. 2011-09-27. doi : 10.1109 / TIT.2004.838101 . S2CID 221927 . Cite journal requiere |journal=( ayuda )

Literatura relacionada

R. Allen e Y. Wu, Métricas para el alcance de una colección , JASIST, (2005), 55 (10), 1243-1249
M. Li y PMB Vitanyi, Introducción a la complejidad de Kolmogorov y sus aplicaciones, Springer, 2019, cuarta edición
Búsqueda de significado de Google en Newscientist.com.
J. Polonia y Th. Zeugmann (2006), agrupación de la distancia de Google con vectores propios y programación semidefinita
A. Gupta y T. Oates (2007), Using Ontologies and the Web to Learn Lexical Semantics (Incluye comparación de NGD con otros algoritmos).
Wong, W., Liu, W. y Bennamoun, M. (2007) Algoritmo de hormiga que atraviesa árboles para agrupamiento de términos basado en similitudes sin características. En: Minería de datos y descubrimiento de conocimientos, volumen 15, número 3, páginas 349–381. doi : 10.1007 / s10618-007-0073-y (el uso de NGD para la agrupación de términos)

[CV07-1] La distancia de similitud de Google en ArXiv.org o RL Cilibrasi y PMB Vitanyi, La distancia de similitud de Google, IEEE Trans. Ingeniería de datos y conocimientos, 19: 3 (2007), 370–383 o https://arxiv.org/abs/cs.CL/0412098

[CV04-2] Agrupación por compresión en ArXiv.org o RL Cilibrasi y PMB Vitanyi, Agrupación por compresión, IEEE Trans. Teoría de la información, 51:12 (2005).

[Li04-3] "M. Li, X. Chen, X. Li, B. Ma, PMB Vitanyi, La métrica de similitud, IEEE Trans. Inform. Th., 50:12 (2004), 3250-3264". Ieeexplore.ieee.org. 2011-09-27. doi : 10.1109 / TIT.2004.838101 . S2CID 221927 . Cite journal requiere |journal=( ayuda )

[1] Las