Información mutua puntual de co-ocurrencia de segundo orden

En lingüística computacional , la información mutua puntual de co-ocurrencia de segundo orden es una medida de similitud semántica . Para evaluar el grado de asociación entre dos palabras dadas, utiliza información mutua puntual (PMI) para ordenar listas de palabras vecinas importantes de las dos palabras de destino de un corpus grande .

Historia

El método PMI-IR ^{[ aclaración necesaria ]} utilizó la sintaxis de consulta de búsqueda avanzada de AltaVista para calcular probabilidades . Tenga en cuenta que el operador de búsqueda "CERCA" de AltaVista es un operador esencial en el método PMI-IR. ^{[ cita requerida ]} Sin embargo, ya no está en uso en AltaVista; esto significa que, desde el punto de vista de la implementación, no es posible utilizar el método PMI-IR de la misma forma en nuevos sistemas. En cualquier caso, desde el punto de vista algorítmico, la ventaja de utilizar SOC-PMI es que puede calcular la similitud entre dos palabras que no coexisten con frecuencia, porque coexisten con las mismas palabras vecinas. Por ejemplo, elEl British National Corpus (BNC) se ha utilizado como fuente de frecuencias y contextos.

Metodología

El método considera las palabras que son comunes en ambas listas y agrega sus valores PMI (de la lista opuesta) para calcular la similitud semántica relativa. Definimos la función de información mutua puntual solo para aquellas palabras que tienen ${\ Displaystyle f ^ {b} (t_ {i}, w)> 0}$ ,

{\ Displaystyle f ^ {\ text {pmi}} (t_ {i}, w) = \ log _ {2} {\ frac {f ^ {b} (t_ {i}, w) \ times m} {f ^ {t} (t_ {i}) f ^ {t} (w)}},}

donde ${\ Displaystyle f ^ {t} (t_ {i})}$ nos dice cuántas veces el tipo ${\ Displaystyle t_ {i}}$ apareció en todo el corpus, ${\ Displaystyle f ^ {b} (t_ {i}, w)}$ nos dice cuantas veces palabra ${\ Displaystyle t_ {i}}$ apareció con la palabra ${\ Displaystyle w}$ en una ventana de contexto y ${\ Displaystyle m}$ es el número total de tokens en el corpus. Ahora, por palabra ${\ Displaystyle w}$ , definimos un conjunto de palabras, ${\ Displaystyle X ^ {w}}$ , ordenados en orden descendente por sus valores de PMI con ${\ Displaystyle w}$ y tomé el más alto ${\ Displaystyle \ beta}$ palabras que tienen ${\ Displaystyle f ^ {\ text {pmi}} (t_ {i}, w)> 0}$ .

El conjunto ${\ Displaystyle X ^ {w}}$ , contiene palabras ${\ Displaystyle X_ {i} ^ {w}}$ ,

{\ Displaystyle X ^ {w} = \ {X_ {i} ^ {w} \}}

, donde

{\ Displaystyle i = 1,2, \ ldots, \ beta}

y

{\ Displaystyle f ^ {\ text {pmi}} (X_ {1} ^ {w}, w) \ geq f ^ {\ text {pmi}} (X_ {2} ^ {w}, w) \ geq \ cdots f ^ {\ text {pmi}} (X _ {\ beta -1} ^ {w}, w) \ geq f ^ {\ text {pmi}} (X _ {\ beta} ^ {w}, w)}

Se utiliza una regla empírica para elegir el valor de ${\ Displaystyle \ beta}$ . El ${\ Displaystyle \ beta}$ -La función de suma PMI de una palabra se define con respecto a otra palabra. Por palabra ${\ Displaystyle w_ {1}}$ con respecto a la palabra ${\ Displaystyle w_ {2}}$ es:

{\ Displaystyle f (w_ {1}, w_ {2}, \ beta) = \ sum _ {i = 1} ^ {\ beta} (f ^ {\ text {pmi}} (X_ {i} ^ {w_ {1}}, w_ {2})) ^ {\ gamma}}

donde ${\ Displaystyle f ^ {\ text {pmi}} (X_ {i} ^ {w_ {1}}, w_ {2})> 0}$ que suma todos los valores PMI positivos de palabras en el conjunto ${\ Displaystyle X ^ {w_ {2}}}$ también común a las palabras del conjunto ${\ Displaystyle X ^ {w_ {1}}}$ . En otras palabras, esta función en realidad agrega los valores PMI positivos de todas las palabras semánticamente cercanas de ${\ Displaystyle w_ {2}}$ que también son comunes en ${\ Displaystyle w_ {1}}$ lista de. ${\ Displaystyle \ gamma}$ debe tener un valor mayor que 1. Por lo tanto, el ${\ Displaystyle \ beta}$ -Función de suma de PMI para palabra ${\ Displaystyle w_ {1}}$ con respecto a la palabra ${\ Displaystyle w_ {2}}$ teniendo ${\ Displaystyle \ beta = \ beta _ {1}}$ y el ${\ Displaystyle \ beta}$ -Función de suma de PMI para palabra ${\ Displaystyle w_ {2}}$ con respecto a la palabra ${\ Displaystyle w_ {1}}$ teniendo ${\ Displaystyle \ beta = \ beta _ {2}}$ son

{\ Displaystyle f (w_ {1}, w_ {2}, \ beta _ {1}) = \ sum _ {i = 1} ^ {\ beta _ {1}} (f ^ {\ text {pmi}} (X_ {i} ^ {w_ {1}}, w_ {2})) ^ {\ gamma}}

y

{\ Displaystyle f (w_ {2}, w_ {1}, \ beta _ {2}) = \ sum _ {i = 1} ^ {\ beta _ {2}} (f ^ {\ text {pmi}} (X_ {i} ^ {w_ {2}}, w_ {1})) ^ {\ gamma}}

respectivamente.

Finalmente, la función de similitud semántica de PMI entre las dos palabras, ${\ Displaystyle w_ {1}}$ y ${\ Displaystyle w_ {2}}$ , Se define como

{\ Displaystyle \ mathrm {Sim} (w_ {1}, w_ {2}) = {\ frac {f (w_ {1}, w_ {2}, \ beta _ {1})} {\ beta _ {1 }}} + {\ frac {f (w_ {2}, w_ {1}, \ beta _ {2})} {\ beta _ {2}}}.}

La similitud semántica de la palabra está normalizada, por lo que proporciona una puntuación de similitud entre ${\ Displaystyle 0}$ y ${\ Displaystyle 1}$ inclusive. El algoritmo de normalización de similitud semántica devuelve una puntuación normalizada de similitud entre dos palabras. Toma como argumentos las dos palabras, ${\ Displaystyle r_ {i}}$ y ${\ Displaystyle s_ {j}}$ , y un valor máximo, ${\ Displaystyle \ lambda}$ , que es devuelto por la función de similitud semántica, Sim (). Devuelve una puntuación de similitud entre 0 y 1 inclusive. Por ejemplo, el algoritmo devuelve 0.986 para las palabras cementerio y cementerio con ${\ Displaystyle \ lambda = 20}$ (para el método SOC-PMI).

Referencias

Islam, A. e Inkpen, D. (2008). Similitud de texto semántico usando similitud de palabras basada en corpus y similitud de cadenas . ACM Trans. Knowl. Discov. Data 2, 2 (julio de 2008), 1–25.
Islam, A. e Inkpen, D. (2006). PMI de co-ocurrencia de segundo orden para determinar la similitud semántica de palabras , en Actas de la Conferencia Internacional sobre Recursos y Evaluación del Lenguaje (LREC 2006), Génova, Italia, págs. 1033-1038.