De Wikipedia, la enciclopedia libre
Ir a navegaciónSaltar a buscar

En lingüística computacional , la información mutua puntual de co-ocurrencia de segundo orden es una medida de similitud semántica . Para evaluar el grado de asociación entre dos palabras dadas, utiliza información mutua puntual (PMI) para ordenar listas de palabras vecinas importantes de las dos palabras de destino de un corpus grande .

Historia

El método PMI-IR [ aclaración necesaria ] utilizó la sintaxis de consulta de búsqueda avanzada de AltaVista para calcular probabilidades . Tenga en cuenta que el operador de búsqueda "CERCA" de AltaVista es un operador esencial en el método PMI-IR. [ cita requerida ] Sin embargo, ya no está en uso en AltaVista; esto significa que, desde el punto de vista de la implementación, no es posible utilizar el método PMI-IR de la misma forma en nuevos sistemas. En cualquier caso, desde el punto de vista algorítmico, la ventaja de utilizar SOC-PMI es que puede calcular la similitud entre dos palabras que no coexisten con frecuencia, porque coexisten con las mismas palabras vecinas. Por ejemplo, elEl British National Corpus (BNC) se ha utilizado como fuente de frecuencias y contextos.

Metodología

El método considera las palabras que son comunes en ambas listas y agrega sus valores PMI (de la lista opuesta) para calcular la similitud semántica relativa. Definimos la función de información mutua puntual solo para aquellas palabras que tienen,

donde nos dice cuántas veces el tipo apareció en todo el corpus, nos dice cuantas veces palabra apareció con la palabra en una ventana de contexto y es el número total de tokens en el corpus. Ahora, por palabra, definimos un conjunto de palabras, , ordenados en orden descendente por sus valores de PMI con y tomé el más alto palabras que tienen .

El conjunto , contiene palabras ,

, donde y

Se utiliza una regla empírica para elegir el valor de. El-La función de suma PMI de una palabra se define con respecto a otra palabra. Por palabra con respecto a la palabra es:

donde que suma todos los valores PMI positivos de palabras en el conjunto también común a las palabras del conjunto . En otras palabras, esta función en realidad agrega los valores PMI positivos de todas las palabras semánticamente cercanas de que también son comunes en lista de. debe tener un valor mayor que 1. Por lo tanto, el -Función de suma de PMI para palabra con respecto a la palabra teniendo y el -Función de suma de PMI para palabra con respecto a la palabra teniendo son

y

respectivamente.

Finalmente, la función de similitud semántica de PMI entre las dos palabras, y , Se define como

La similitud semántica de la palabra está normalizada, por lo que proporciona una puntuación de similitud entre y inclusive. El algoritmo de normalización de similitud semántica devuelve una puntuación normalizada de similitud entre dos palabras. Toma como argumentos las dos palabras, y , y un valor máximo, , que es devuelto por la función de similitud semántica, Sim (). Devuelve una puntuación de similitud entre 0 y 1 inclusive. Por ejemplo, el algoritmo devuelve 0.986 para las palabras cementerio y cementerio con (para el método SOC-PMI).

Referencias