En teoría de la información , la desigualdad de Gibbs es una declaración sobre la entropía de información de una distribución de probabilidad discreta . Varios otros límites en la entropía de las distribuciones de probabilidad se derivan de la desigualdad de Gibbs, incluida la desigualdad de Fano . Fue presentado por primera vez por J. Willard Gibbs en el siglo XIX.
La desigualdad de Gibbs Suponer que
PAG = { pag 1 , ... , pag norte } {\ Displaystyle P = \ {p_ {1}, \ ldots, p_ {n} \}} es una distribución de probabilidad discreta . Luego, para cualquier otra distribución de probabilidad
Q = { q 1 , ... , q norte } {\ Displaystyle Q = \ {q_ {1}, \ ldots, q_ {n} \}} la siguiente desigualdad entre cantidades positivas (ya que p i y q i están entre cero y uno) se cumple: [1] : 68
- ∑ I = 1 norte pag I Iniciar sesión pag I ≤ - ∑ I = 1 norte pag I Iniciar sesión q I {\ Displaystyle - \ sum _ {i = 1} ^ {n} p_ {i} \ log p_ {i} \ leq - \ sum _ {i = 1} ^ {n} p_ {i} \ log q_ {i }} con igualdad si y solo si
pag I = q I {\ Displaystyle p_ {i} = q_ {i}} por todo i . Dicho en palabras, la entropía de información de una distribución P es menor o igual que su entropía cruzada con cualquier otra distribución Q.
La diferencia entre las dos cantidades es la divergencia o entropía relativa de Kullback-Leibler , por lo que la desigualdad también se puede escribir: [2] : 34
D K L ( PAG ‖ Q ) ≡ ∑ I = 1 norte pag I Iniciar sesión pag I q I ≥ 0. {\ Displaystyle D _ {\ mathrm {KL}} (P \ | Q) \ equiv \ sum _ {i = 1} ^ {n} p_ {i} \ log {\ frac {p_ {i}} {q_ {i }}} \ geq 0.} Tenga en cuenta que el uso de logaritmos en base 2 es opcional y permite referirse a la cantidad en cada lado de la desigualdad como una " sorpresa promedio " medida en bits .
Prueba Para simplificar, probamos el enunciado usando el logaritmo natural (ln), ya que
Iniciar sesión a = en a en 2 , {\ Displaystyle \ log a = {\ frac {\ ln a} {\ ln 2}},} el logaritmo particular que elegimos solo escala la relación.
Dejar que denotan el conjunto de todos para los que p i es distinto de cero. Entonces, dado que para todo x> 0 , con igualdad si y solo si x = 1 , tenemos: I {\displaystyle I} i {\displaystyle i} ln x ≤ x − 1 {\displaystyle \ln x\leq x-1}
− ∑ i ∈ I p i ln q i p i ≥ − ∑ i ∈ I p i ( q i p i − 1 ) {\displaystyle -\sum _{i\in I}p_{i}\ln {\frac {q_{i}}{p_{i}}}\geq -\sum _{i\in I}p_{i}\left({\frac {q_{i}}{p_{i}}}-1\right)} = − ∑ i ∈ I q i + ∑ i ∈ I p i = − ∑ i ∈ I q i + 1 ≥ 0 {\displaystyle =-\sum _{i\in I}q_{i}+\sum _{i\in I}p_{i}=-\sum _{i\in I}q_{i}+1\geq 0} La última desigualdad es una consecuencia de que p i y q i son parte de una distribución de probabilidad. Específicamente, la suma de todos los valores distintos de cero es 1. Sin embargo, algunos q i distintos de cero pueden haber sido excluidos ya que la elección de índices está condicionada a que p i sea distinto de cero. Por tanto, la suma de q i puede ser menor que 1.
Hasta ahora, sobre el conjunto de índices , tenemos: I {\displaystyle I}
− ∑ i ∈ I p i ln q i p i ≥ 0 {\displaystyle -\sum _{i\in I}p_{i}\ln {\frac {q_{i}}{p_{i}}}\geq 0} ,o equivalente
− ∑ i ∈ I p i ln q i ≥ − ∑ i ∈ I p i ln p i {\displaystyle -\sum _{i\in I}p_{i}\ln q_{i}\geq -\sum _{i\in I}p_{i}\ln p_{i}} .Ambas sumas pueden extenderse a todos , es decir, incluidos , recordando que la expresión tiende a 0 cuando tiende a 0 y tiende a cuando tiende a 0. Llegamos a i = 1 , … , n {\displaystyle i=1,\ldots ,n} p i = 0 {\displaystyle p_{i}=0} p ln p {\displaystyle p\ln p} p {\displaystyle p} ( − ln q ) {\displaystyle (-\ln q)} ∞ {\displaystyle \infty } q {\displaystyle q}
− ∑ i = 1 n p i ln q i ≥ − ∑ i = 1 n p i ln p i {\displaystyle -\sum _{i=1}^{n}p_{i}\ln q_{i}\geq -\sum _{i=1}^{n}p_{i}\ln p_{i}} Para que la igualdad se mantenga, necesitamos
q i p i = 1 {\displaystyle {\frac {q_{i}}{p_{i}}}=1} para todos para que la igualdad se mantenga, i ∈ I {\displaystyle i\in I} ln q i p i = q i p i − 1 {\displaystyle \ln {\frac {q_{i}}{p_{i}}}={\frac {q_{i}}{p_{i}}}-1} y lo que significa si , es decir, si . ∑ i ∈ I q i = 1 {\displaystyle \sum _{i\in I}q_{i}=1} q i = 0 {\displaystyle q_{i}=0} i ∉ I {\displaystyle i\notin I} q i = 0 {\displaystyle q_{i}=0} p i = 0 {\displaystyle p_{i}=0} Esto puede suceder si y sólo si para . p i = q i {\displaystyle p_{i}=q_{i}} i = 1 , … , n {\displaystyle i=1,\ldots ,n}
Pruebas alternativas El resultado se puede probar alternativamente utilizando la desigualdad de Jensen , la desigualdad de suma logarítmica o el hecho de que la divergencia de Kullback-Leibler es una forma de divergencia de Bregman . A continuación damos una prueba basada en la desigualdad de Jensen:
Debido a que log es una función cóncava, tenemos que:
∑ i p i log q i p i ≤ log ∑ i p i q i p i = log ∑ i q i ≤ 0 {\displaystyle \sum _{i}p_{i}\log {\frac {q_{i}}{p_{i}}}\leq \log \sum _{i}p_{i}{\frac {q_{i}}{p_{i}}}=\log \sum _{i}q_{i}\leq 0} Donde la primera desigualdad se debe a la desigualdad de Jensen, y la última igualdad se debe a la misma razón dada en la prueba anterior.
Además, dado que es estrictamente cóncavo, por la condición de igualdad de la desigualdad de Jensen obtenemos igualdad cuando log {\displaystyle \log }
q 1 p 1 = q 2 p 2 = ⋯ = q n p n {\displaystyle {\frac {q_{1}}{p_{1}}}={\frac {q_{2}}{p_{2}}}=\cdots ={\frac {q_{n}}{p_{n}}}} y
∑ i q i = 1 {\displaystyle \sum _{i}q_{i}=1} Supongamos que esta razón es , entonces tenemos que σ {\displaystyle \sigma }
1 = ∑ i q i = ∑ i σ p i = σ {\displaystyle 1=\sum _{i}q_{i}=\sum _{i}\sigma p_{i}=\sigma } Donde usamos el hecho de que son distribuciones de probabilidad. Por tanto la igualdad ocurre cuando . p , q {\displaystyle p,q} p = q {\displaystyle p=q}
Corolario La entropía de está limitada por: [1] : 68 P {\displaystyle P}
H ( p 1 , … , p n ) ≤ log n . {\displaystyle H(p_{1},\ldots ,p_{n})\leq \log n.} La prueba es trivial: simplemente se establece para todo i . q i = 1 / n {\displaystyle q_{i}=1/n}
Ver también Referencias ↑ a b Pierre Bremaud (6 de diciembre de 2012). Introducción al modelado probabilístico . Springer Science & Business Media. ISBN 978-1-4612-1046-7 . ^ David JC MacKay. Teoría de la información, Inferencia y Algoritmos de aprendizaje . Prensa de la Universidad de Cambridge. ISBN 978-0-521-64298-9 .