La información mutua puntual ( PMI ), [1] o información mutua puntual , es una medida de asociación utilizada en la teoría de la información y la estadística . A diferencia de la información mutua (MI) que se basa en PMI, se refiere a eventos únicos, mientras que MI se refiere al promedio de todos los eventos posibles.
Definición
El PMI de un par de resultados x y y pertenecientes a variables aleatorias discretas X y Y cuantifica la discrepancia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo la independencia . Matemáticamente:
La información mutua (MI) de las variables aleatorias X e Y es el valor esperado del PMI (sobre todos los resultados posibles).
La medida es simétrica (). Puede tomar valores positivos o negativos, pero es cero si X e Y son independientes . Tenga en cuenta que aunque el PMI puede ser negativo o positivo, su resultado esperado sobre todos los eventos conjuntos (IM) es positivo. El PMI se maximiza cuando X e Y están perfectamente asociados (es decir, o ), dando los siguientes límites:
Finalmente, aumentará si está arreglado pero disminuye.
Aquí hay un ejemplo para ilustrar:
X | y | p ( x , y ) |
---|---|---|
0 | 0 | 0,1 |
0 | 1 | 0,7 |
1 | 0 | 0,15 |
1 | 1 | 0,05 |
Usando esta tabla podemos marginar para obtener la siguiente tabla adicional para las distribuciones individuales:
p ( x ) | p ( y ) | |
---|---|---|
0 | 0,8 | 0,25 |
1 | 0,2 | 0,75 |
Con este ejemplo, podemos calcular cuatro valores para . Usando logaritmos de base 2:
pmi (x = 0; y = 0) | = | −1 |
pmi (x = 0; y = 1) | = | 0.222392 |
pmi (x = 1; y = 0) | = | 1.584963 |
pmi (x = 1; y = 1) | = | -1,584963 |
(Para referencia, la información mutua entonces sería 0.2141709)
Similitudes con la información mutua
La información mutua puntual tiene muchas de las mismas relaciones que la información mutua. En particular,
Dónde es la autoinformación , o.
Información mutua puntual normalizada (npmi)
La información mutua puntual se puede normalizar entre [-1, + 1] resultando en -1 (en el límite) para que nunca ocurran juntos, 0 para independencia y +1 para co-ocurrencia completa . [2]
Dónde es la autoinformación conjunta , que se estima como.
Variantes de PMI
Además del npmi mencionado anteriormente, PMI tiene muchas otras variantes interesantes. Se puede encontrar un estudio comparativo de estas variantes en [3]
Regla de cadena para pmi
Al igual que la información mutua , [4] la información mutua puntual sigue la regla de la cadena , es decir,
Esto se prueba fácilmente mediante:
Aplicaciones
En lingüística computacional , PMI se ha utilizado para encontrar colocaciones y asociaciones entre palabras. Por ejemplo, el recuento de ocurrencias y coincidencias de palabras en un corpus de texto se puede utilizar para aproximar las probabilidades y respectivamente. La siguiente tabla muestra los recuentos de pares de palabras que obtienen la mayor y la menor puntuación de PMI en los primeros 50 millones de palabras en Wikipedia (volcado de octubre de 2015) filtrando por 1000 o más co-ocurrencias. La frecuencia de cada recuento se puede obtener dividiendo su valor por 50 000 952. (Nota: el registro natural se utiliza para calcular los valores de PMI en este ejemplo, en lugar del registro base 2)
palabra 1 | palabra 2 | contar palabra 1 | contar palabra 2 | recuento de co-ocurrencias | PMI |
---|---|---|---|---|---|
puerto | rico | 1938 | 1311 | 1159 | 10.0349081703 |
Hong | Kong | 2438 | 2694 | 2205 | 9.72831972408 |
los | angeles | 3501 | 2808 | 2791 | 9.56067615065 |
carbón | dióxido | 4265 | 1353 | 1032 | 9.09852946116 |
premio | laureado | 5131 | 1676 | 1210 | 8.85870710982 |
san | francisco | 5237 | 2477 | 1779 | 8.83305176711 |
nobel | premio | 4098 | 5131 | 2498 | 8.68948811416 |
hielo | hockey | 5607 | 3002 | 1933 | 8.6555759741 |
estrella | emigrar | 8264 | 1594 | 1489 | 8.63974676575 |
carro | conductor | 5578 | 2749 | 1384 | 8.41470768304 |
eso | la | 283891 | 3293296 | 3347 | -1,72037278119 |
están | de | 234458 | 1761436 | 1019 | -2.09254205335 |
esto | la | 199882 | 3293296 | 1211 | -2.38612756961 |
es | de | 565679 | 1761436 | 1562 | -2,54614706831 |
y | de | 1375396 | 1761436 | 2949 | -2,79911817902 |
a | y | 984442 | 1375396 | 1457 | -2,92239510038 |
en | y | 1187652 | 1375396 | 1537 | -3.05660070757 |
a | y | 1025659 | 1375396 | 1286 | -3.08825363041 |
a | en | 1025659 | 1187652 | 1066 | -3.12911348956 |
de | y | 1761436 | 1375396 | 1190 | -3.70663100173 |
Los buenos pares de colocación tienen un PMI alto porque la probabilidad de co-ocurrencia es solo ligeramente menor que las probabilidades de ocurrencia de cada palabra. Por el contrario, un par de palabras cuyas probabilidades de ocurrencia son considerablemente más altas que su probabilidad de ocurrencia conjunta obtiene una pequeña puntuación de PMI.
Referencias
- ^ Iglesia de Kenneth Ward y Patrick Hanks (marzo de 1990). "Normas de asociación de palabras, información mutua y lexicografía" . Computación. Lingüista . 16 (1): 22-29.
- ^ Bouma, Gerlof (2009). "Información mutua normalizada (puntualmente) en la extracción de colocación" (PDF) . Actas de la Conferencia Bienal de GSCL.
- ^ Papel de Francois, Moahmed Nadif. Manejo del impacto de eventos de baja frecuencia en medidas de similitud de palabras basadas en la coincidencia: un estudio de caso de información mutua puntual. Actas de KDIR 2011: KDIR- Conferencia internacional sobre descubrimiento de conocimiento y recuperación de información, París, 26-29 de octubre de 2011
- ^ Paul L. Williams. DINÁMICA DE LA INFORMACIÓN: SU TEORÍA Y APLICACIÓN A SISTEMAS COGNITIVOS ENCARNADOS .
- Fano, RM (1961). "Capitulo 2". Transmisión de información: una teoría estadística de las comunicaciones . MIT Press, Cambridge, MA. ISBN 978-0262561693.
enlaces externos
- Demostración en Rensselaer MSR Server (valores de PMI normalizados entre 0 y 1)