En teoría de la información , la desigualdad de Pinsker , que lleva el nombre de su inventor Mark Semenovich Pinsker , es una desigualdad que limita la distancia de variación total (o distancia estadística) en términos de la divergencia Kullback-Leibler . La desigualdad se ajusta a factores constantes. [1]
Declaración formal
La desigualdad de Pinsker establece que, si y son dos distribuciones de probabilidad en un espacio medible , luego
dónde
es la distancia de variación total (o distancia estadística) entre y y
es la divergencia Kullback-Leibler en nats . Cuando el espacio muestral es un conjunto finito, la divergencia Kullback-Leibler viene dada por
Tenga en cuenta que en términos de la norma de variación total de la medida firmada , La desigualdad de Pinsker difiere de la dada anteriormente por un factor de dos:
Una prueba de la desigualdad de Pinsker usa la desigualdad de partición para f -divergencias .
Historia
Pinsker primero demostró la desigualdad con una constante peor. La desigualdad en la forma anterior fue probada de forma independiente por Kullback , Csiszár y Kemperman . [2]
Problema inverso
Un inverso preciso de la desigualdad no puede ser válido: para cada , hay distribuciones con pero . Un ejemplo sencillo lo da el espacio de dos puntos con y . [3]
Sin embargo, una desigualdad inversa se mantiene en espacios finitos con una constante en función de . [4] Más concretamente, se puede demostrar que con la definición tenemos para cualquier medida que es absolutamente continuo para
Como consecuencia, si tiene soporte completo (es decir para todos ), luego
Referencias
- ^ Csiszár, Imre; Körner, János (2011). Teoría de la información: teoremas de codificación para sistemas discretos sin memoria . Prensa de la Universidad de Cambridge. pag. 44. ISBN 9781139499989.
- ^ Tsybakov, Alexandre (2009). Introducción a la estimación no paramétrica . Saltador. pag. 132 . ISBN 9780387790527.
- ^ La divergencia se vuelve infinita siempre que una de las dos distribuciones asigna probabilidad cero a un evento mientras que la otra le asigna una probabilidad distinta de cero (no importa cuán pequeña sea); ver por ejemplo Basu, Mitra; Ho, Tin Kam (2006). Complejidad de datos en el reconocimiento de patrones . Saltador. pag. 161. ISBN 9781846281723..
- ^ ver Lema 4.1 en Götze, Friedrich; Sambale, Holger; Sinulis, Arthur. "Concentración de orden superior para funciones de variables aleatorias débilmente dependientes". arXiv : 1801.06348 .
Otras lecturas
- Thomas M. Cover y Joy A. Thomas: Elementos de la teoría de la información , segunda edición, Willey-Interscience, 2006
- Nicolo Cesa-Bianchi y Gábor Lugosi: predicción, aprendizaje y juegos , Cambridge University Press, 2006