La desigualdad de Pinsker

En teoría de la información , la desigualdad de Pinsker , que lleva el nombre de su inventor Mark Semenovich Pinsker , es una desigualdad que limita la distancia de variación total (o distancia estadística) en términos de la divergencia Kullback-Leibler . La desigualdad se ajusta a factores constantes. ^[1]

Declaración formal

La desigualdad de Pinsker establece que, si ${\ Displaystyle P}$ y ${\ displaystyle Q}$ son dos distribuciones de probabilidad en un espacio medible ${\ Displaystyle (X, \ Sigma)}$ , luego

{\ Displaystyle \ delta (P, Q) \ leq {\ sqrt {{\ frac {1} {2}} D _ {\ mathrm {KL}} (P \ | Q)}},}

dónde

{\ Displaystyle \ delta (P, Q) = \ sup {\ bigl \ {} | P (A) -Q (A) | {\ big |} A \ in \ Sigma {\ text {es un evento medible}} {\Gran R \}}}

es la distancia de variación total (o distancia estadística) entre ${\ Displaystyle P}$ y ${\ displaystyle Q}$ y

{\ Displaystyle D _ {\ mathrm {KL}} (P \ | Q) = \ operatorname {E} _ {P} \ left (\ log {\ frac {\ mathrm {d} P} {\ mathrm {d} Q }} \ right) = \ int _ {X} \ left (\ log {\ frac {\ mathrm {d} P} {\ mathrm {d} Q}} \ right) \, \ mathrm {d} P}

es la divergencia Kullback-Leibler en nats . Cuando el espacio muestral ${\ Displaystyle X}$ es un conjunto finito, la divergencia Kullback-Leibler viene dada por

{\ Displaystyle D _ {\ mathrm {KL}} (P \ | Q) = \ sum _ {i \ in X} \ left (\ log {\ frac {P (i)} {Q (i)}} \ right )Pi)\!}

Tenga en cuenta que en términos de la norma de variación total ${\ Displaystyle \ | PQ \ |}$ de la medida firmada ${\ displaystyle PQ}$ , La desigualdad de Pinsker difiere de la dada anteriormente por un factor de dos:

{\ Displaystyle \ | PQ \ | \ leq {\ sqrt {2D _ {\ mathrm {KL}} (P \ | Q)}}.}

Una prueba de la desigualdad de Pinsker usa la desigualdad de partición para f -divergencias .

Historia

Pinsker primero demostró la desigualdad con una constante peor. La desigualdad en la forma anterior fue probada de forma independiente por Kullback , Csiszár y Kemperman . ^[2]

Problema inverso

Un inverso preciso de la desigualdad no puede ser válido: para cada ${\ Displaystyle \ varepsilon> 0}$ , hay distribuciones ${\ Displaystyle P _ {\ varepsilon}, Q}$ con ${\ Displaystyle \ delta (P _ {\ varepsilon}, Q) \ leq \ varepsilon}$ pero ${\ Displaystyle D _ {\ mathrm {KL}} (P _ {\ varepsilon} \ | Q) = \ infty}$ . Un ejemplo sencillo lo da el espacio de dos puntos ${\ Displaystyle \ {0,1 \}}$ con ${\ Displaystyle Q (0) = 0, Q (1) = 1}$ y ${\ Displaystyle P _ {\ varepsilon} (0) = \ varepsilon, P _ {\ varepsilon} (1) = 1- \ varepsilon}$ . ^[3]

Sin embargo, una desigualdad inversa se mantiene en espacios finitos ${\ Displaystyle X}$ con una constante en función de ${\ displaystyle Q}$ . ^[4] Más concretamente, se puede demostrar que con la definición ${\ Displaystyle \ alpha _ {Q}: = \ min _ {x \ in X: Q (x)> 0} Q (x)}$ tenemos para cualquier medida ${\ Displaystyle P}$ que es absolutamente continuo para ${\ displaystyle Q}$

{\ Displaystyle {\ frac {1} {2}} D _ {\ mathrm {KL}} (P \ | Q) \ leq {\ frac {1} {\ alpha _ {Q}}} \ delta (P, Q ) ^ {2}.}

Como consecuencia, si ${\ displaystyle Q}$ tiene soporte completo (es decir ${\ Displaystyle Q (x)> 0}$ para todos ${\ Displaystyle x \ in X}$ ), luego

{\ Displaystyle \ delta (P, Q) ^ {2} \ leq {\ frac {1} {2}} D (P \ | Q) \ leq {\ frac {1} {\ alpha _ {Q}}} \ delta (P, Q) ^ {2}.}

Referencias

^ Csiszár, Imre; Körner, János (2011). Teoría de la información: teoremas de codificación para sistemas discretos sin memoria . Prensa de la Universidad de Cambridge. pag. 44. ISBN 9781139499989.
^ Tsybakov, Alexandre (2009). Introducción a la estimación no paramétrica . Saltador. pag. 132 . ISBN 9780387790527.
^ La divergencia se vuelve infinita siempre que una de las dos distribuciones asigna probabilidad cero a un evento mientras que la otra le asigna una probabilidad distinta de cero (no importa cuán pequeña sea); ver por ejemplo Basu, Mitra; Ho, Tin Kam (2006). Complejidad de datos en el reconocimiento de patrones . Saltador. pag. 161. ISBN 9781846281723..
^ ver Lema 4.1 en Götze, Friedrich; Sambale, Holger; Sinulis, Arthur. "Concentración de orden superior para funciones de variables aleatorias débilmente dependientes". arXiv : 1801.06348 .

Otras lecturas

Thomas M. Cover y Joy A. Thomas: Elementos de la teoría de la información , segunda edición, Willey-Interscience, 2006
Nicolo Cesa-Bianchi y Gábor Lugosi: predicción, aprendizaje y juegos , Cambridge University Press, 2006

[1] Csiszár, Imre; Körner, János (2011). Teoría de la información: teoremas de codificación para sistemas discretos sin memoria . Prensa de la Universidad de Cambridge. pag. 44. ISBN 9781139499989.

[2] Tsybakov, Alexandre (2009). Introducción a la estimación no paramétrica . Saltador. pag. 132 . ISBN 9780387790527.

[3] La divergencia se vuelve infinita siempre que una de las dos distribuciones asigna probabilidad cero a un evento mientras que la otra le asigna una probabilidad distinta de cero (no importa cuán pequeña sea); ver por ejemplo Basu, Mitra; Ho, Tin Kam (2006). Complejidad de datos en el reconocimiento de patrones . Saltador. pag. 161. ISBN 9781846281723..

[4] ver Lema 4.1 en Götze, Friedrich; Sambale, Holger; Sinulis, Arthur. "Concentración de orden superior para funciones de variables aleatorias débilmente dependientes". arXiv : 1801.06348 .

[1]