Información mutua puntual

La información mutua puntual ( PMI ), ^[1] o información mutua puntual , es una medida de asociación utilizada en la teoría de la información y la estadística . A diferencia de la información mutua (MI) que se basa en PMI, se refiere a eventos únicos, mientras que MI se refiere al promedio de todos los eventos posibles.

Definición

El PMI de un par de resultados x y y pertenecientes a variables aleatorias discretas X y Y cuantifica la discrepancia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo la independencia . Matemáticamente:

{\ Displaystyle \ operatorname {pmi} (x; y) \ equiv \ log {\ frac {p (x, y)} {p (x) p (y)}} = \ log {\ frac {p (x | y)} {p (x)}} = \ log {\ frac {p (y | x)} {p (y)}}.}

La información mutua (MI) de las variables aleatorias X e Y es el valor esperado del PMI (sobre todos los resultados posibles).

La medida es simétrica ( ${\ Displaystyle \ operatorname {pmi} (x; y) = \ operatorname {pmi} (y; x)}$ ). Puede tomar valores positivos o negativos, pero es cero si X e Y son independientes . Tenga en cuenta que aunque el PMI puede ser negativo o positivo, su resultado esperado sobre todos los eventos conjuntos (IM) es positivo. El PMI se maximiza cuando X e Y están perfectamente asociados (es decir, ${\ Displaystyle p (x | y)}$ o ${\ Displaystyle p (y | x) = 1}$ ), dando los siguientes límites:

{\ Displaystyle - \ infty \ leq \ operatorname {pmi} (x; y) \ leq \ min \ left [- \ log p (x), - \ log p (y) \ right].}

Finalmente, ${\ Displaystyle \ operatorname {pmi} (x; y)}$ aumentará si ${\ Displaystyle p (x | y)}$ está arreglado pero ${\ Displaystyle p (x)}$ disminuye.

Aquí hay un ejemplo para ilustrar:

X	y	p ( x , y )
0	0	0,1
0	1	0,7
1	0	0,15
1	1	0,05

Usando esta tabla podemos marginar para obtener la siguiente tabla adicional para las distribuciones individuales:

	p ( x )	p ( y )
0	0,8	0,25
1	0,2	0,75

Con este ejemplo, podemos calcular cuatro valores para ${\ displaystyle pmi (x; y)}$ . Usando logaritmos de base 2:

pmi (x = 0; y = 0)	=	−1
pmi (x = 0; y = 1)	=	0.222392
pmi (x = 1; y = 0)	=	1.584963
pmi (x = 1; y = 1)	=	-1,584963

(Para referencia, la información mutua ${\ Displaystyle \ operatorname {I} (X; Y)}$ entonces sería 0.2141709)

Similitudes con la información mutua

La información mutua puntual tiene muchas de las mismas relaciones que la información mutua. En particular,

${\ Displaystyle {\ begin {alineado} \ operatorname {pmi} (x; y) & = & h (x) + h (y) -h (x, y) \\ & = & h (x) -h (x \ mediados de y) \\ & = & h (y) -h (y \ mid x) \ end {alineado}}}$

Dónde ${\ Displaystyle h (x)}$ es la autoinformación , o ${\ Displaystyle - \ log _ {2} p (X = x)}$ .

Información mutua puntual normalizada (npmi)

La información mutua puntual se puede normalizar entre [-1, + 1] resultando en -1 (en el límite) para que nunca ocurran juntos, 0 para independencia y +1 para co-ocurrencia completa . ^[2]

${\ Displaystyle \ operatorname {npmi} (x; y) = {\ frac {\ operatorname {pmi} (x; y)} {h (x, y)}}}$

Dónde ${\ Displaystyle h (x, y)}$ es la autoinformación conjunta , que se estima como ${\ Displaystyle - \ log _ {2} p (X = x, Y = y)}$ .

Variantes de PMI

Además del npmi mencionado anteriormente, PMI tiene muchas otras variantes interesantes. Se puede encontrar un estudio comparativo de estas variantes en ^[3]

Regla de cadena para pmi

Al igual que la información mutua , ^[4] la información mutua puntual sigue la regla de la cadena , es decir,

{\ Displaystyle \ operatorname {pmi} (x; yz) = \ operatorname {pmi} (x; y) + \ operatorname {pmi} (x; z | y)}

Esto se prueba fácilmente mediante:

{\ Displaystyle {\ begin {alineado} \ operatorname {pmi} (x; y) + \ operatorname {pmi} (x; z | y) & {} = \ log {\ frac {p (x, y)} { p (x) p (y)}} + \ log {\ frac {p (x, z | y)} {p (x | y) p (z | y)}} \\ & {} = \ log \ izquierda [{\ frac {p (x, y)} {p (x) p (y)}} {\ frac {p (x, z | y)} {p (x | y) p (z | y) }} \ derecha] \\ & {} = \ log {\ frac {p (x | y) p (y) p (x, z | y)} {p (x) p (y) p (x | y ) p (z | y)}} \\ & {} = \ log {\ frac {p (x, yz)} {p (x) p (yz)}} \\ & {} = \ operatorname {pmi} (x; yz) \ end {alineado}}}

Aplicaciones

En lingüística computacional , PMI se ha utilizado para encontrar colocaciones y asociaciones entre palabras. Por ejemplo, el recuento de ocurrencias y coincidencias de palabras en un corpus de texto se puede utilizar para aproximar las probabilidades ${\ Displaystyle p (x)}$ y ${\ Displaystyle p (x, y)}$ respectivamente. La siguiente tabla muestra los recuentos de pares de palabras que obtienen la mayor y la menor puntuación de PMI en los primeros 50 millones de palabras en Wikipedia (volcado de octubre de 2015) filtrando por 1000 o más co-ocurrencias. La frecuencia de cada recuento se puede obtener dividiendo su valor por 50 000 952. (Nota: el registro natural se utiliza para calcular los valores de PMI en este ejemplo, en lugar del registro base 2)

palabra 1	palabra 2	contar palabra 1	contar palabra 2	recuento de co-ocurrencias	PMI
puerto	rico	1938	1311	1159	10.0349081703
Hong	Kong	2438	2694	2205	9.72831972408
los	angeles	3501	2808	2791	9.56067615065
carbón	dióxido	4265	1353	1032	9.09852946116
premio	laureado	5131	1676	1210	8.85870710982
san	francisco	5237	2477	1779	8.83305176711
nobel	premio	4098	5131	2498	8.68948811416
hielo	hockey	5607	3002	1933	8.6555759741
estrella	emigrar	8264	1594	1489	8.63974676575
carro	conductor	5578	2749	1384	8.41470768304
eso	la	283891	3293296	3347	-1,72037278119
están	de	234458	1761436	1019	-2.09254205335
esto	la	199882	3293296	1211	-2.38612756961
es	de	565679	1761436	1562	-2,54614706831
y	de	1375396	1761436	2949	-2,79911817902
a	y	984442	1375396	1457	-2,92239510038
en	y	1187652	1375396	1537	-3.05660070757
a	y	1025659	1375396	1286	-3.08825363041
a	en	1025659	1187652	1066	-3.12911348956
de	y	1761436	1375396	1190	-3.70663100173

Los buenos pares de colocación tienen un PMI alto porque la probabilidad de co-ocurrencia es solo ligeramente menor que las probabilidades de ocurrencia de cada palabra. Por el contrario, un par de palabras cuyas probabilidades de ocurrencia son considerablemente más altas que su probabilidad de ocurrencia conjunta obtiene una pequeña puntuación de PMI.

Referencias

^ Iglesia de Kenneth Ward y Patrick Hanks (marzo de 1990). "Normas de asociación de palabras, información mutua y lexicografía" . Computación. Lingüista . 16 (1): 22-29.
^ Bouma, Gerlof (2009). "Información mutua normalizada (puntualmente) en la extracción de colocación" (PDF) . Actas de la Conferencia Bienal de GSCL.
^ Papel de Francois, Moahmed Nadif. Manejo del impacto de eventos de baja frecuencia en medidas de similitud de palabras basadas en la coincidencia: un estudio de caso de información mutua puntual. Actas de KDIR 2011: KDIR- Conferencia internacional sobre descubrimiento de conocimiento y recuperación de información, París, 26-29 de octubre de 2011
^ Paul L. Williams. DINÁMICA DE LA INFORMACIÓN: SU TEORÍA Y APLICACIÓN A SISTEMAS COGNITIVOS ENCARNADOS .

Fano, RM (1961). "Capitulo 2". Transmisión de información: una teoría estadística de las comunicaciones . MIT Press, Cambridge, MA. ISBN 978-0262561693.

enlaces externos

Demostración en Rensselaer MSR Server (valores de PMI normalizados entre 0 y 1)

[Church1990-1] Iglesia de Kenneth Ward y Patrick Hanks (marzo de 1990). "Normas de asociación de palabras, información mutua y lexicografía" . Computación. Lingüista . 16 (1): 22-29.

[2] Bouma, Gerlof (2009). "Información mutua normalizada (puntualmente) en la extracción de colocación" (PDF) . Actas de la Conferencia Bienal de GSCL.

[3] Papel de Francois, Moahmed Nadif. Manejo del impacto de eventos de baja frecuencia en medidas de similitud de palabras basadas en la coincidencia: un estudio de caso de información mutua puntual. Actas de KDIR 2011: KDIR- Conferencia internacional sobre descubrimiento de conocimiento y recuperación de información, París, 26-29 de octubre de 2011

[4] Paul L. Williams. DINÁMICA DE LA INFORMACIÓN: SU TEORÍA Y APLICACIÓN A SISTEMAS COGNITIVOS ENCARNADOS .

[1]