Divergencia de Kullback-Leibler

En estadística matemática , la divergencia Kullback-Leibler, ${\ Displaystyle D _ {\ text {KL}}}$ (también llamada entropía relativa ), es una medida de cómo una distribución de probabilidad es diferente de una segunda distribución de probabilidad de referencia. ^[1]^[2] Las aplicaciones incluyen la caracterización de la entropía relativa (Shannon) en los sistemas de información, la aleatoriedad en series de tiempo continuas y la ganancia de información al comparar modelos estadísticos de inferencia . En contraste con la variación de la información , es una medida asimétrica de distribución y, por lo tanto, no califica como una métrica estadística de dispersión; tampoco satisface la desigualdad del triángulo.. En el caso simple, una entropía relativa de 0 indica que las dos distribuciones en cuestión tienen cantidades idénticas de información. En términos simplificados, es una medida de sorpresa, con diversas aplicaciones como estadística aplicada, mecánica de fluidos , neurociencia y bioinformática .

Introducción y contexto

Considere dos distribuciones de probabilidad ${\ Displaystyle P}$ y ${\ displaystyle Q}$ . Por lo general, ${\ Displaystyle P}$ representa los datos, las observaciones o una distribución de probabilidad medida con precisión. Distribución ${\ displaystyle Q}$ representa en cambio una teoría, un modelo, una descripción o una aproximación de ${\ Displaystyle P}$ . La divergencia Kullback-Leibler se interpreta entonces como la diferencia promedio del número de bits necesarios para codificar muestras de ${\ Displaystyle P}$ usando un código optimizado para ${\ displaystyle Q}$ en lugar de uno optimizado para ${\ Displaystyle P}$ . (Tenga en cuenta que los roles de ${\ Displaystyle P}$ y ${\ displaystyle Q}$ en cambio, se invierten en algunas situaciones en las que es más fácil de calcular, como con el algoritmo de maximización de expectativas (EM) y los cálculos de límite inferior de evidencia (ELBO) ).

Etimología

La entropía relativa fue introducida por Solomon Kullback y Richard Leibler en 1951 como la divergencia dirigida entre dos distribuciones; Kullback prefirió el término información sobre discriminación . ^[3] La divergencia se analiza en el libro de Kullback de 1959, Information Theory and Statistics . ^[2]

Definición

Para distribuciones de probabilidad discretas ${\ Displaystyle P}$ y ${\ displaystyle Q}$ definido en el mismo espacio de probabilidad , ${\ Displaystyle {\ mathcal {X}}}$ , la entropía relativa de ${\ displaystyle Q}$ a ${\ Displaystyle P}$ se define ^[4] como

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) = \ sum _ {x \ in {\ mathcal {X}}} P (x) \ log \ left ({\ frac {P (x) } {Q (x)}} \ derecha).}

que es equivalente a

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) = - \ sum _ {x \ in {\ mathcal {X}}} P (x) \ log \ left ({\ frac {Q (x )} {P (x)}} \ right)}

En otras palabras, es la expectativa de la diferencia logarítmica entre las probabilidades ${\ Displaystyle P}$ y ${\ displaystyle Q}$ , donde la expectativa se toma utilizando las probabilidades ${\ Displaystyle P}$ . La entropía relativa se define solo si para todos ${\ Displaystyle x}$ , ${\ Displaystyle Q (x) = 0}$ implica ${\ Displaystyle P (x) = 0}$ ( continuidad absoluta ). Cuando sea ${\ Displaystyle P (x)}$ es cero la contribución del término correspondiente se interpreta como cero porque

{\ Displaystyle \ lim _ {x \ to 0 ^ {+}} x \ log (x) = 0.}

Para distribuciones ${\ Displaystyle P}$ y ${\ displaystyle Q}$ de una variable aleatoria continua , la entropía relativa se define como la integral: ^[5]^{: p. 55}

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) = \ int _ {- \ infty} ^ {\ infty} p (x) \ log \ left ({\ frac {p (x)} { q (x)}} \ derecha) \, dx}

dónde ${\ Displaystyle p}$ y ${\ Displaystyle q}$ denotar las densidades de probabilidad de ${\ Displaystyle P}$ y ${\ displaystyle Q}$ .

De manera más general, si ${\ Displaystyle P}$ y ${\ displaystyle Q}$ son medidas de probabilidad sobre un conjunto ${\ Displaystyle {\ mathcal {X}}}$ , y ${\ Displaystyle P}$ es absolutamente continuo con respecto a ${\ displaystyle Q}$ , entonces la entropía relativa de ${\ displaystyle Q}$ a ${\ Displaystyle P}$ Se define como

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) = \ int _ {\ mathcal {X}} \ log \ left ({\ frac {dP} {dQ}} \ right) \, dP, }

dónde ${\ Displaystyle {\ frac {dP} {dQ}}}$ es la derivada Radon-Nikodym de ${\ Displaystyle P}$ con respecto a ${\ displaystyle Q}$ y siempre que exista la expresión del lado derecho. De manera equivalente (por la regla de la cadena ), esto se puede escribir como

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) = \ int _ {\ mathcal {X}} \ log \ left ({\ frac {dP} {dQ}} \ right) {\ frac { dP} {dQ}} \, dQ,}

que es la entropía de ${\ displaystyle Q}$ relativo a ${\ Displaystyle P}$ . Continuando en este caso, si ${\ Displaystyle \ mu}$ hay alguna medida en ${\ Displaystyle {\ mathcal {X}}}$ para cual ${\ Displaystyle p = {\ frac {dP} {d \ mu}}}$ y ${\ Displaystyle q = {\ frac {dQ} {d \ mu}}}$ existir (lo que significa que ${\ Displaystyle p}$ y ${\ Displaystyle q}$ son absolutamente continuos con respecto a ${\ Displaystyle \ mu}$ ), entonces la entropía relativa de ${\ displaystyle Q}$ a ${\ Displaystyle P}$ se da como

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) = \ int _ {\ mathcal {X}} p \ log \ left ({\ frac {p} {q}} \ right) \, d \ mu.}

Los logaritmos en estas fórmulas se toman en base 2 si la información se mide en unidades de bits , o en base ${\ Displaystyle e}$ si la información se mide en nats . La mayoría de las fórmulas que involucran entropía relativa se mantienen independientemente de la base del logaritmo.

Existen varias convenciones para referirse a ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ en palabras. A menudo se le conoce como la divergencia entre ${\ Displaystyle P}$ y ${\ displaystyle Q}$ , pero esto no logra transmitir la asimetría fundamental en la relación. A veces, como en este artículo, puede describirse como la divergencia de ${\ Displaystyle P}$ de ${\ displaystyle Q}$ o como la divergencia de ${\ displaystyle Q}$ a ${\ Displaystyle P}$ . Esto refleja la asimetría en la inferencia bayesiana , que se inicia a partir de una previa ${\ displaystyle Q}$ y actualizaciones a la parte posterior ${\ Displaystyle P}$ . Otra forma común de referirse a ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ es como la entropía relativa de ${\ Displaystyle P}$ con respecto a ${\ displaystyle Q}$ .

Ejemplo básico

Kullback ^[2] da el siguiente ejemplo (Tabla 2.1, Ejemplo 2.1). Dejar ${\ Displaystyle P}$ y ${\ displaystyle Q}$ sean las distribuciones que se muestran en la tabla y la figura. ${\ Displaystyle P}$ es la distribución en el lado izquierdo de la figura, una distribución binomial con ${\ Displaystyle N = 2}$ y ${\ Displaystyle p = 0,4}$ . ${\ displaystyle Q}$ es la distribución en el lado derecho de la figura, una distribución uniforme discreta con los tres posibles resultados ${\ Displaystyle x = 0}$ , ${\ Displaystyle 1}$ , o ${\ Displaystyle 2}$ (es decir ${\ Displaystyle {\ mathcal {X}} = \ {0,1,2 \}}$ ), cada uno con probabilidad ${\ Displaystyle p = 1/3}$ .

Two distributions to illustrate relative entropy

X	0	1	2
Distribución P (x)	${\ displaystyle 25/9}$	${\ displaystyle 25/12}$	${\ displaystyle 4/25}$
Distribución Q (x)	${\ Displaystyle 1/3}$	${\ Displaystyle 1/3}$	${\ Displaystyle 1/3}$

Entropías relativas ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ y ${\ Displaystyle D _ {\ text {KL}} (Q \ paralelo P)}$ se calculan de la siguiente manera. Este ejemplo usa el registro natural con base e , designado ${\ Displaystyle \ operatorname {ln}}$ para obtener resultados en nats (ver unidades de información ).

{\ Displaystyle {\ begin {alineado} D _ {\ text {KL}} (P \ paralelo Q) & = \ sum _ {x \ in {\ mathcal {X}}} P (x) \ ln \ left ({ \ frac {P (x)} {Q (x)}} \ right) \\ & = {\ frac {9} {25}} \ ln \ left ({\ frac {9/25} {1/3} } \ right) + {\ frac {12} {25}} \ ln \ left ({\ frac {12/25} {1/3}} \ right) + {\ frac {4} {25}} \ ln \ left ({\ frac {4/25} {1/3}} \ right) \\ & = {\ frac {1} {25}} \ left (32 \ ln (2) +55 \ ln (3) -50 \ ln (5) \ right) \ approx 0.0852996 \ end {alineado}}}

{\ Displaystyle {\ begin {alineado} D _ {\ text {KL}} (Q \ paralelo P) & = \ sum _ {x \ in {\ mathcal {X}}} Q (x) \ ln \ left ({ \ frac {Q (x)} {P (x)}} \ right) \\ & = {\ frac {1} {3}} \ ln \ left ({\ frac {1/3} {9/25} } \ right) + {\ frac {1} {3}} \ ln \ left ({\ frac {1/3} {12/25}} \ right) + {\ frac {1} {3}} \ ln \ left ({\ frac {1/3} {4/25}} \ right) \\ & = {\ frac {1} {3}} \ left (-4 \ ln (2) -6 \ ln (3 ) +6 \ ln (5) \ right) \ approx 0.097455 \ end {alineado}}}

Interpretaciones

La entropía relativa de ${\ displaystyle Q}$ a ${\ Displaystyle P}$ a menudo se denota ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ .

En el contexto del aprendizaje automático , ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ a menudo se denomina ganancia de información lograda si ${\ Displaystyle P}$ se usaría en lugar de ${\ displaystyle Q}$ que se utiliza actualmente. Por analogía con la teoría de la información, se denomina entropía relativa de ${\ Displaystyle P}$ con respecto a ${\ displaystyle Q}$ . En el contexto de la teoría de la codificación , ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ puede construirse midiendo el número esperado de bits adicionales necesarios para codificar muestras de ${\ Displaystyle P}$ usando un código optimizado para ${\ displaystyle Q}$ en lugar del código optimizado para ${\ Displaystyle P}$ .

Expresado en el lenguaje de la inferencia bayesiana , ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ es una medida de la información obtenida al revisar las creencias de uno de la distribución de probabilidad anterior ${\ displaystyle Q}$ a la distribución de probabilidad posterior ${\ Displaystyle P}$ . En otras palabras, es la cantidad de información perdida cuando ${\ displaystyle Q}$ se utiliza para aproximar ${\ Displaystyle P}$ . ^[6] En aplicaciones, ${\ Displaystyle P}$ representa típicamente la distribución "verdadera" de datos, observaciones o una distribución teórica calculada con precisión, mientras que ${\ displaystyle Q}$ representa típicamente una teoría, modelo, descripción o aproximación de ${\ Displaystyle P}$ . Para encontrar una distribución ${\ displaystyle Q}$ que está más cerca de ${\ Displaystyle P}$ , podemos minimizar la divergencia de KL y calcular una proyección de información .

La entropía relativa es un caso especial de una clase más amplia de divergencias estadísticas llamadas f- divergencias , así como la clase de divergencias de Bregman . Es la única divergencia de este tipo sobre probabilidades que es miembro de ambas clases. Aunque a menudo se intuye como una forma de medir la distancia entre distribuciones de probabilidad , la divergencia de Kullback-Leibler no es una verdadera métrica . No obedece a la Desigualdad del Triángulo , y en general ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ no es igual ${\ Displaystyle D _ {\ text {KL}} (Q \ paralelo P)}$ . Sin embargo, su forma infinitesimal , específicamente su hessiana , da un tensor métrico conocido como métrica de información de Fisher .

Arthur Hobson demostró que la entropía relativa es la única medida de diferencia entre distribuciones de probabilidad que satisface algunas propiedades deseadas, que son la extensión canónica de las que aparecen en una caracterización de entropía de uso común . ^[7] En consecuencia, la información mutua es la única medida de dependencia mutua que obedece a ciertas condiciones relacionadas, ya que puede definirse en términos de divergencia Kullback-Leibler .

Motivación

Ilustración de la entropía relativa para dos distribuciones normales . La asimetría típica es claramente visible.

En teoría de la información, el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor ${\ Displaystyle x_ {i}}$ fuera de un conjunto de posibilidades ${\ Displaystyle X}$ puede verse como una representación de una distribución de probabilidad implícita ${\ Displaystyle q (x_ {i}) = 2 ^ {- \ ell _ {i}}}$ encima ${\ Displaystyle X}$ , dónde ${\ Displaystyle \ ell _ {i}}$ es la longitud del código para ${\ Displaystyle x_ {i}}$ en bits. Por lo tanto, la entropía relativa se puede interpretar como la longitud de mensaje adicional esperada por dato que debe comunicarse si un código que es óptimo para una distribución dada (incorrecta) ${\ displaystyle Q}$ se utiliza, en comparación con el uso de un código basado en la distribución real ${\ Displaystyle P}$ .

{\ Displaystyle {\ begin {alineado} D _ {\ text {KL}} (P \ paralelo Q) & = - \ sum _ {x \ in {\ mathcal {X}}} p (x) \ log q (x ) + \ sum _ {x \ in {\ mathcal {X}}} p (x) \ log p (x) \\ & = \ mathrm {H} (P, Q) - \ mathrm {H} (P) \ end {alineado}}}

dónde ${\ Displaystyle \ mathrm {H} (P, Q)}$ es la entropía cruzada de ${\ Displaystyle P}$ y ${\ displaystyle Q}$ , y ${\ Displaystyle \ mathrm {H} (P)}$ es la entropía de ${\ Displaystyle P}$ (que es lo mismo que la entropía cruzada de P consigo mismo).

Entropía relativa ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ se puede pensar en algo así como una medida de qué tan lejos está la distribución Q de la distribución P. La entropía cruzada ${\ Displaystyle H (P, Q)}$ es en sí misma una medida de este tipo, pero tiene el defecto de que ${\ Displaystyle H (P, P) =: H (P)}$ no es cero, entonces restamos ${\ Displaystyle H (P)}$ para hacer ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ de acuerdo más estrechamente con nuestra noción de distancia. (Desafortunadamente, todavía no es simétrico). La entropía relativa se relaciona con la " función de velocidad " en la teoría de las grandes desviaciones . ^[8]^[9]

Propiedades

La entropía relativa siempre es no negativa ,

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) \ geq 0,}

un resultado conocido como desigualdad de Gibbs , con

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}

es igual a cero si y solo si

{\ Displaystyle P = Q}

casi en todas partes . La entropía

{\ Displaystyle \ mathrm {H} (P)}

por lo tanto, establece un valor mínimo para la entropía cruzada

{\ Displaystyle \ mathrm {H} (P, Q)}

, el número esperado de bits necesarios cuando se utiliza un código basado en

{\ displaystyle Q}

en vez de

{\ Displaystyle P}

; y la divergencia Kullback-Leibler, por lo tanto, representa el número esperado de bits adicionales que deben transmitirse para identificar un valor.

{\ Displaystyle x}

trazada desde

{\ Displaystyle X}

, si se utiliza un código correspondiente a la distribución de probabilidad

{\ displaystyle Q}

, en lugar de la distribución "verdadera"

{\ Displaystyle P}

.

La entropía relativa permanece bien definida para distribuciones continuas y, además, es invariante bajo transformaciones de parámetros . Por ejemplo, si una transformación se realiza a partir de una variable ${\ Displaystyle x}$ a variable ${\ Displaystyle y (x)}$ , entonces, desde ${\ Displaystyle P (x) dx = P (y) dy}$ y ${\ Displaystyle Q (x) dx = Q (y) dy}$ la entropía relativa se puede reescribir:

{\ Displaystyle {\ begin {alineado} D _ {\ text {KL}} (P \ paralelo Q) & = \ int _ {x_ {a}} ^ {x_ {b}} P (x) \ log \ left ( {\ frac {P (x)} {Q (x)}} \ right) \, dx \\ [6pt] & = \ int _ {y_ {a}} ^ {y_ {b}} P (y) \ log \ left ({\ frac {P (y) \, {\ frac {dy} {dx}}} {Q (y) \, {\ frac {dy} {dx}}}} \ right) \, dy = \ int _ {y_ {a}} ^ {y_ {b}} P (y) \ log \ left ({\ frac {P (y)} {Q (y)}} \ right) \, dy \ end {alineado}}}

dónde

{\ Displaystyle y_ {a} = y (x_ {a})}

y

{\ Displaystyle y_ {b} = y (x_ {b})}

. Aunque se asumió que la transformación era continua, este no tiene por qué ser así. Esto también muestra que la entropía relativa produce una cantidad dimensionalmente consistente , ya que si

{\ Displaystyle x}

es una variable dimensionada,

{\ Displaystyle P (x)}

y

{\ Displaystyle Q (x)}

también están dimensionados, ya que, por ejemplo,

{\ Displaystyle P (x) dx}

es adimensional. El argumento del término logarítmico es y permanece adimensional, como debe ser. Por lo tanto, puede verse como una cantidad más fundamental que algunas otras propiedades en la teoría de la información ^[10] (como la autoinformación o la entropía de Shannon ), que puede volverse indefinida o negativa para probabilidades no discretas.

La entropía relativa es aditiva para distribuciones independientes de la misma manera que la entropía de Shannon. Si ${\ Displaystyle P_ {1}, P_ {2}}$ son distribuciones independientes, con la distribución conjunta ${\ Displaystyle P (x, y) = P_ {1} (x) P_ {2} (y)}$ , y ${\ Displaystyle Q, Q_ {1}, Q_ {2}}$ igualmente, entonces

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) = D _ {\ text {KL}} (P_ {1} \ paralelo Q_ {1}) + D _ {\ text {KL}} (P_ { 2} \ paralelo Q_ {2}).}

Entropía relativa ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ es convexo en el par de funciones de masa de probabilidad ${\ Displaystyle (p, q)}$ , es decir, si ${\ Displaystyle (p_ {1}, q_ {1})}$ y ${\ Displaystyle (p_ {2}, q_ {2})}$ son dos pares de funciones de masa de probabilidad, entonces
${\ Displaystyle D _ {\ text {KL}} (\ lambda p_ {1} + (1- \ lambda) p_ {2} \ paralelo \ lambda q_ {1} + (1- \ lambda) q_ {2}) \ leq \ lambda D _ {\ text {KL}} (p_ {1} \ paralelo q_ {1}) + (1- \ lambda) D _ {\ text {KL}} (p_ {2} \ paralelo q_ {2}) {\ text {para}} 0 \ leq \ lambda \ leq 1.}$

El siguiente teorema se denomina fórmula de dualidad para inferencia variacional. Explica algunas propiedades importantes de las distribuciones variacionales utilizadas en los métodos bayesianos variacionales . ^[11]

Teorema Considere dos espacios de probabilidad ${\ Displaystyle (\ Theta, {\ mathcal {F}}, P)}$ y ${\ Displaystyle (\ Theta, {\ mathcal {F}}, Q)}$ con ${\ Displaystyle Q \ ll P}$ . Suponga que existe una medida de probabilidad dominante común ${\ Displaystyle \ lambda}$ tal que ${\ Displaystyle P \ ll \ lambda}$ y ${\ Displaystyle Q \ ll \ lambda}$ . Dejar ${\ Displaystyle h}$ denotar cualquier variable aleatoria de valor real en ${\ Displaystyle (\ Theta, {\ mathcal {F}}, P)}$ que satisface ${\ Displaystyle h \ en L_ {1} (P)}$ . Entonces se cumple la siguiente igualdad

{\ Displaystyle \ log E_ {P} [\ exp h] = {\ text {sup}} _ {Q \ ll P} \ {E_ {Q} [h] -D _ {\ text {KL}} (Q \ paralelo P) \}.}

Además, el supremo en el lado derecho se alcanza si y sólo si se mantiene

{\ Displaystyle {\ frac {q (\ theta)} {p (\ theta)}} = {\ frac {\ exp h (\ theta)} {E_ {P} [\ exp h]}},}

casi seguramente con respecto a la medida de probabilidad ${\ displaystyle Q}$ , dónde ${\ Displaystyle p (\ theta) = dP / d \ lambda}$ y ${\ Displaystyle q (\ theta) = dQ / d \ lambda}$ denotar las derivadas Radon-Nikodym de las medidas de probabilidad ${\ Displaystyle P}$ y ${\ displaystyle Q}$ con respecto a ${\ Displaystyle \ lambda}$ , respectivamente.

Ejemplos de

Distribuciones normales multivariadas

Supongamos que tenemos dos distribuciones normales multivariadas , con medias ${\ Displaystyle \ mu _ {0}, \ mu _ {1}}$ y con matrices de covarianza (no singulares) ${\ Displaystyle \ Sigma _ {0}, \ Sigma _ {1}.}$ Si las dos distribuciones tienen la misma dimensión, ${\ Displaystyle k}$ , entonces la entropía relativa entre las distribuciones es la siguiente: ^[12]^{: p. 13}

{\ Displaystyle D _ {\ text {KL}} \ left ({\ mathcal {N}} _ {0} \ paralelo {\ mathcal {N}} _ {1} \ right) = {\ frac {1} {2 }} \ left (\ operatorname {tr} \ left (\ Sigma _ {1} ^ {- 1} \ Sigma _ {0} \ right) + \ left (\ mu _ {1} - \ mu _ {0} \ right) ^ {\ mathsf {T}} \ Sigma _ {1} ^ {- 1} \ left (\ mu _ {1} - \ mu _ {0} \ right) -k + \ ln \ left ({\ frac {\ det \ Sigma _ {1}} {\ det \ Sigma _ {0}}} \ derecha) \ derecha).}

El logaritmo del último término debe tomarse en base e, ya que todos los términos, excepto el último, son logaritmos en base e de expresiones que son factores de la función de densidad o que surgen naturalmente. Por tanto, la ecuación da un resultado medido en nat . Dividiendo toda la expresión anterior por ${\ Displaystyle \ ln (2)}$ produce la divergencia en bits .

Un caso especial, y una cantidad común en la inferencia variacional , es la entropía relativa entre una normal multivariada diagonal y una distribución normal estándar (con media cero y varianza unitaria):

{\ Displaystyle D _ {\ text {KL}} \ left ({\ mathcal {N}} \ left (\ left (\ mu _ {1}, \ ldots, \ mu _ {k} \ right) ^ {\ mathsf {T}}, \ operatorname {diag} \ left (\ sigma _ {1} ^ {2}, \ ldots, \ sigma _ {k} ^ {2} \ right) \ right) \ paralelo {\ mathcal {N }} \ left (\ mathbf {0}, \ mathbf {I} \ right) \ right) = {1 \ over 2} \ sum _ {i = 1} ^ {k} \ left (\ sigma _ {i} ^ {2} + \ mu _ {i} ^ {2} -1- \ ln \ left (\ sigma _ {i} ^ {2} \ right) \ right).}

Relación con las métricas

Uno podría tener la tentación de llamar a la entropía relativa una " métrica de distancia " en el espacio de distribuciones de probabilidad, pero esto no sería correcto ya que no es simétrico , es decir, ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) \ neq D _ {\ text {KL}} (Q \ paralelo P)}$ - tampoco satisface la desigualdad del triángulo . Genera una topología en el espacio de distribuciones de probabilidad . Más concretamente, si ${\ Displaystyle \ {P_ {1}, P_ {2}, \ ldots \}}$ es una secuencia de distribuciones tal que

{\ Displaystyle \ lim _ {n \ to \ infty} D _ {\ text {KL}} (P_ {n} \ paralelo Q) = 0}

entonces se dice que

{\ Displaystyle P_ {n} {\ xrightarrow {D}} Q.}

La desigualdad de Pinsker implica que

{\ displaystyle P_ {n} {\ xrightarrow {D}} P \ Rightarrow P_ {n} {\ xrightarrow {TV}} P,}

donde este último representa la convergencia habitual en la variación total .

Métrica de información de Fisher

La entropía relativa está directamente relacionada con la métrica de información de Fisher . Esto puede hacerse explícito de la siguiente manera. Suponga que las distribuciones de probabilidad ${\ Displaystyle P}$ y ${\ displaystyle Q}$ Ambos están parametrizados por algún parámetro (posiblemente multidimensional) ${\ Displaystyle \ theta}$ . Considere entonces dos valores cercanos de ${\ Displaystyle P = P (\ theta)}$ y ${\ Displaystyle Q = P (\ theta _ {0})}$ para que el parámetro ${\ Displaystyle \ theta}$ difiere solo en una pequeña cantidad del valor del parámetro ${\ Displaystyle \ theta _ {0}}$ . Específicamente, hasta el primer orden uno tiene (usando la convención de suma de Einstein )

{\ Displaystyle P (\ theta) = P (\ theta _ {0}) + \ Delta \ theta _ {j} P_ {j} (\ theta _ {0}) + \ cdots}

con ${\ Displaystyle \ Delta \ theta _ {j} = (\ theta - \ theta _ {0}) _ {j}}$ un pequeño cambio de ${\ Displaystyle \ theta}$ en el ${\ Displaystyle j}$ dirección, y ${\ Displaystyle P_ {j} \ izquierda (\ theta _ {0} \ derecha) = {\ frac {\ parcial P} {\ parcial \ theta _ {j}}} (\ theta _ {0})}$ la tasa de cambio correspondiente en la distribución de probabilidad. Dado que la entropía relativa tiene un mínimo absoluto de 0 para ${\ Displaystyle P = Q}$ , es decir ${\ Displaystyle \ theta = \ theta _ {0}}$ , cambia solo a segundo orden en los pequeños parámetros ${\ Displaystyle \ Delta \ theta _ {j}}$ . Más formalmente, como para cualquier mínimo, las primeras derivadas de la divergencia se desvanecen

{\ estilo de visualización \ izquierda. {\ frac {\ parcial} {\ parcial \ theta _ {j}}} \ derecha | _ {\ theta = \ theta _ {0}} D _ {\ text {KL}} (P ( \ theta) \ paralelo P (\ theta _ {0})) = 0,}

y por la expansión de Taylor uno tiene hasta segundo orden

{\ Displaystyle D _ {\ text {KL}} (P (\ theta) \ P paralelo (\ theta _ {0})) = {\ frac {1} {2}} \ Delta \ theta _ {j} \ Delta \ theta _ {k} g_ {jk} (\ theta _ {0}) + \ cdots}

donde la matriz de Hesse de la divergencia

{\ Displaystyle g_ {jk} (\ theta _ {0}) = \ left. {\ frac {\ parcial ^ {2}} {\ parcial \ theta _ {j} \, \ parcial \ theta _ {k}} } \ right | _ {\ theta = \ theta _ {0}} D _ {\ text {KL}} (P (\ theta) \ paralelo P (\ theta _ {0}))}

debe ser positivo semidefinido . Dejando ${\ Displaystyle \ theta _ {0}}$ variar (y eliminar el subíndice 0) el arpillera ${\ Displaystyle g_ {jk} (\ theta)}$ define una métrica de Riemann (posiblemente degenerada) en el espacio de parámetros $θ$ , denominada métrica de información de Fisher.

Teorema de la métrica de información de Fisher

Cuándo ${\ Displaystyle p _ {(x, \ rho)}}$ cumple las siguientes condiciones de regularidad:

{\ estilo de visualización {\ frac {\ parcial \ log (p)} {\ parcial \ rho}}, {\ frac {\ parcial ^ {2} \ log (p)} {\ parcial \ rho ^ {2}}} , {\ frac {\ parcial ^ {3} \ log (p)} {\ parcial \ rho ^ {3}}}}

existe,

{\ displaystyle {\ begin {alineado} \ left | {\ frac {\ partial p} {\ partial \ rho}} \ right | &

donde $ξ$ es independiente de $ρ$

{\ Displaystyle \ left. \ int _ {x = 0} ^ {\ infty} {\ frac {\ partial p (x, \ rho)} {\ partial \ rho}} \ right | _ {\ rho = 0} \, dx = \ left. \ int _ {x = 0} ^ {\ infty} {\ frac {\ partial ^ {2} p (x, \ rho)} {\ partial \ rho ^ {2}}} \ derecha | _ {\ rho = 0} \, dx = 0}

luego:

{\ Displaystyle {\ mathcal {D}} (p (x, 0) \ paralelo p (x, \ rho)) = {\ frac {c \ rho ^ {2}} {2}} + {\ mathcal {O }} \ left (\ rho ^ {3} \ right) {\ text {as}} \ rho \ to 0.}

Variación de información

Otra métrica de la teoría de la información es la variación de la información , que es aproximadamente una simetrización de la entropía condicional . Es una métrica del conjunto de particiones de un espacio de probabilidad discreto .

Relación con otras cantidades de teoría de la información

Muchas de las otras cantidades de teoría de la información pueden interpretarse como aplicaciones de la entropía relativa a casos específicos.

Autoinformación

La autoinformación , también conocida como el contenido de información de una señal, variable aleatoria o evento, se define como el logaritmo negativo de la probabilidad de que ocurra el resultado dado.

Cuando se aplica a una variable aleatoria discreta , la autoinformación se puede representar como ^{[ cita requerida ]}

{\ Displaystyle \ operatorname {\ operatorname {I}} (m) = D _ {\ text {KL}} \ left (\ delta _ {\ text {im}} \ paralelo \ {p_ {i} \} \ right) ,}

es la entropía relativa de la distribución de probabilidad ${\ Displaystyle P (i)}$ de un delta de Kronecker que representa la certeza de que ${\ Displaystyle i = m}$ - es decir, el número de bits adicionales que deben transmitirse para identificar ${\ Displaystyle i}$ si solo la distribución de probabilidad ${\ Displaystyle P (i)}$ está disponible para el receptor, no el hecho de que ${\ Displaystyle i = m}$ .

Información mutua

La información mutua ,

{\ Displaystyle {\ begin {alineado} \ operatorname {I} (X; Y) & = D _ {\ text {KL}} (P (X, Y) \ paralelo P (X) P (Y)) \\ & = \ nombre de operador {E} _ {X} \ {D _ {\ text {KL}} (P (Y \ mid X) \ paralelo P (Y)) \} \\ & = \ nombre de operador {E} _ {Y} \ {D _ {\ text {KL}} (P (X \ mid Y) \ paralelo P (X)) \} \ end {alineado}}}

es la entropía relativa del producto ${\ Displaystyle P (X) P (Y)}$ de las dos distribuciones de probabilidad marginal de la distribución de probabilidad conjunta ${\ Displaystyle P (X, Y)}$ - es decir, el número esperado de bits adicionales que deben transmitirse para identificar ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ si se codifican utilizando solo sus distribuciones marginales en lugar de la distribución conjunta. De manera equivalente, si la probabilidad conjunta ${\ Displaystyle P (X, Y)}$ se conoce, es el número esperado de bits adicionales que deben enviarse en promedio para identificar ${\ Displaystyle Y}$ si el valor de ${\ Displaystyle X}$ aún no es conocido por el receptor.

Entropía de Shannon

La entropía de Shannon ,

{\ Displaystyle {\ begin {alineado} \ mathrm {H} (X) & = \ operatorname {E} \ left [\ operatorname {I} _ {X} (x) \ right] \\ & = \ log (N ) -D _ {\ text {KL}} \ izquierda (p_ {X} (x) \ paralelo P_ {U} (X) \ derecha) \ end {alineado}}}

es el número de bits que tendrían que transmitirse para identificar ${\ Displaystyle X}$ de ${\ Displaystyle N}$ posibilidades igualmente probables, menos la entropía relativa de la distribución uniforme en las variables aleatorias de ${\ Displaystyle X}$ , ${\ Displaystyle P_ {U} (X)}$ , de la verdadera distribución ${\ Displaystyle P (X)}$ - es decir, menos el número esperado de bits guardados, que habrían tenido que enviarse si el valor de ${\ Displaystyle X}$ fueron codificados de acuerdo con la distribución uniforme ${\ Displaystyle P_ {U} (X)}$ en lugar de la verdadera distribución ${\ Displaystyle P (X)}$ .

Entropía condicional

La entropía condicional ^[13] ,

{\ Displaystyle {\ begin {alineado} \ mathrm {H} (X \ mid Y) & = \ log (N) -D _ {\ text {KL}} (P (X, Y) \ paralelo P_ {U} ( X) P (Y)) \\ & = \ log (N) -D _ {\ text {KL}} (P (X, Y) \ paralelo P (X) P (Y)) - D _ {\ text {KL }} (P (X) \ paralelo P_ {U} (X)) \\ & = \ mathrm {H} (X) - \ operatorname {I} (X; Y) \\ & = \ log (N) - \ operatorname {E} _ {Y} \ left [D _ {\ text {KL}} \ left (P \ left (X \ mid Y \ right) \ paralelo P_ {U} (X) \ right) \ right] \ final {alineado}}}

es el número de bits que tendrían que transmitirse para identificar ${\ Displaystyle X}$ de ${\ Displaystyle N}$ posibilidades igualmente probables, menos la entropía relativa de la distribución del producto ${\ Displaystyle P_ {U} (X) P (Y)}$ de la verdadera distribución conjunta ${\ Displaystyle P (X, Y)}$ - es decir, menos el número esperado de bits guardados que habrían tenido que enviarse si el valor de ${\ Displaystyle X}$ fueron codificados de acuerdo con la distribución uniforme ${\ Displaystyle P_ {U} (X)}$ en lugar de la distribución condicional ${\ Displaystyle P (X | Y)}$ de ${\ Displaystyle X}$ dado ${\ Displaystyle Y}$ .

Entropía cruzada

Cuando tenemos un conjunto de eventos posibles, provenientes de la distribución $p$ , podemos codificarlos (con una compresión de datos sin pérdidas ) usando codificación de entropía . Esto comprime los datos reemplazando cada símbolo de entrada de longitud fija con un código correspondiente único, de longitud variable y sin prefijo (por ejemplo: los eventos (A, B, C) con probabilidades p = (1/2, 1/4, 1/4) se pueden codificar como bits (0, 10, 11)). Si conocemos la distribución $p$ de antemano, podemos idear una codificación que sería óptima (por ejemplo, utilizando la codificación de Huffman ). Lo que significa que los mensajes que codificamos tendrán la longitud más corta en promedio (asumiendo que los eventos codificados se muestrean a partir de $p$ ), que será igual a la Entropía de Shannon de $p$ (denotado como ${\ Displaystyle \ mathrm {H} (p)}$ ). Sin embargo, si usamos una distribución de probabilidad diferente ( $q$ ) al crear el esquema de codificación de entropía, entonces se usará una mayor cantidad de bits (en promedio) para identificar un evento de un conjunto de posibilidades. Este nuevo número (más grande) se mide por la entropía cruzada entre $p$ y $q$ .

La entropía cruzada entre dos distribuciones de probabilidad ( $p$ y $q$ ) mide el número medio de bits de necesarios para identificar un evento desde un conjunto de posibilidades, si se utiliza un esquema de codificación basado en una distribución de probabilidad dada $q$ , en lugar de la distribución "true" $p$ . La entropía cruz por dos distribuciones $p$ y $q$ en el mismo espacio de probabilidad se define así como sigue: ^{[ citación necesaria ]}

{\ Displaystyle \ mathrm {H} (p, q) = \ operatorname {E} _ {p} [- \ log (q)] = \ mathrm {H} (p) + D _ {\ text {KL}} ( p \ paralelo q).}

En este escenario, las entropías relativas se pueden interpretar como el número extra de bits, en promedio, que se necesitan (más allá de ${\ Displaystyle \ mathrm {H} (p)}$ ) para codificar los eventos debido al uso de $q$ para construir el esquema de codificación en lugar de $p$ .

Actualización bayesiana

En las estadísticas bayesianas , la entropía relativa se puede utilizar como una medida de la ganancia de información al pasar de una distribución anterior a una distribución posterior : ${\ Displaystyle p (x) \ ap (x \ mid I)}$ . Si algún hecho nuevo ${\ Displaystyle Y = y}$ se descubre, se puede utilizar para actualizar la distribución posterior para ${\ Displaystyle X}$ de ${\ Displaystyle p (x \ mid I)}$ a una nueva distribución posterior ${\ Displaystyle p (x \ mid y, I)}$ usando el teorema de Bayes :

{\ Displaystyle p (x \ mid y, I) = {\ frac {p (y \ mid x, I) p (x \ mid I)} {p (y \ mid I)}}}

Esta distribución tiene una nueva entropía :

{\ Displaystyle \ mathrm {H} {\ big (} p (x \ mid y, I) {\ big)} = - \ sum _ {x} p (x \ mid y, I) \ log p (x \ a mediados de año, yo),}

que puede ser menor o mayor que la entropía original ${\ Displaystyle \ mathrm {H} (p (x \ mid I))}$ . Sin embargo, desde el punto de vista de la nueva distribución de probabilidad, se puede estimar que haber utilizado el código original basado en ${\ Displaystyle p (x \ mid I)}$ en lugar de un nuevo código basado en ${\ Displaystyle p (x \ mid y, I)}$ habría agregado un número esperado de bits:

{\ Displaystyle D _ {\ text {KL}} {\ big (} p (x \ mid y, I) \ paralelo p (x \ mid I) {\ big)} = \ sum _ {x} p (x \ mid y, I) \ log \ left ({\ frac {p (x \ mid y, I)} {p (x \ mid I)}} \ right)}

a la longitud del mensaje. Por lo tanto, esto representa la cantidad de información útil, o ganancia de información, sobre ${\ Displaystyle X}$ , que se ha aprendido al descubrir ${\ Displaystyle Y = y}$ .

Si otro dato, ${\ Displaystyle Y_ {2} = y_ {2}}$ , entra posteriormente, la distribución de probabilidad para ${\ Displaystyle x}$ se puede actualizar aún más, para dar una nueva mejor conjetura ${\ Displaystyle p (x \ mid y_ {1}, y_ {2}, I)}$ . Si uno vuelve a investigar la ganancia de información por usar ${\ Displaystyle p (x \ mid y_ {1}, I)}$ en vez de ${\ Displaystyle p (x \ mid I)}$ , resulta que puede ser mayor o menor de lo estimado previamente:

{\ Displaystyle \ sum _ {x} p (x \ mid y_ {1}, y_ {2}, I) \ log \ left ({\ frac {p (x \ mid y_ {1}, y_ {2}, I)} {p (x \ mid I)}} \ right)}

puede ser ≤ o> que

{\ Displaystyle \ Displaystyle \ sum _ {x} p (x \ mid y_ {1}, I) \ log \ left ({\ frac {p (x \ mid y_ {1}, I)} {p (x \ mediados de I)}} \ right)}

y entonces la ganancia de información combinada no obedece a la desigualdad del triángulo:

{\ Displaystyle D _ {\ text {KL}} {\ big (} p (x \ mid y_ {1}, y_ {2}, I) \ paralelo p (x \ mid I) {\ big)}}

puede ser <, = o> que

{\ Displaystyle D _ {\ text {KL}} {\ big (} p (x \ mid y_ {1}, y_ {2}, I) \ paralelo p (x \ mid y_ {1}, I) {\ big )} + D _ {\ text {KL}} {\ big (} p (x \ mid y_ {1}, I) \ paralelo p (x \ mid I) {\ big)}}

Todo lo que se puede decir es que, en promedio , promediando usando ${\ Displaystyle p (y_ {2} \ mid y_ {1}, x, I)}$ , los dos lados se promediarán.

Diseño experimental bayesiano

Un objetivo común en el diseño experimental bayesiano es maximizar la entropía relativa esperada entre el anterior y el posterior. ^[14] Cuando los posteriores se aproximan a distribuciones gaussianas, un diseño que maximiza la entropía relativa esperada se denomina d-óptimo de Bayes .

Información sobre discriminación

Entropía relativa ${\ textstyle D _ {\ text {KL}} {\ bigl (} p (x \ mid H_ {1}) \ paralelo p (x \ mid H_ {0}) {\ bigr)}}$ también se puede interpretar como la información de discriminación esperada para ${\ Displaystyle H_ {1}}$ encima ${\ Displaystyle H_ {0}}$ : la información media por muestra para discriminar a favor de una hipótesis ${\ Displaystyle H_ {1}}$ contra una hipótesis ${\ Displaystyle H_ {0}}$ , cuando la hipótesis ${\ Displaystyle H_ {1}}$ es verdad. ^[15] Otro nombre para esta cantidad, que le dio IJ Good , es el peso esperado de la evidencia para ${\ Displaystyle H_ {1}}$ encima ${\ Displaystyle H_ {0}}$ que cabe esperar de cada muestra.

El peso esperado de la evidencia para ${\ Displaystyle H_ {1}}$ encima ${\ Displaystyle H_ {0}}$ no es lo mismo que la ganancia de información esperada por muestra sobre la distribución de probabilidad ${\ Displaystyle p (H)}$ de las hipótesis,

{\ Displaystyle D _ {\ text {KL}} (p (x \ mid H_ {1}) \ paralelo p (x \ mid H_ {0})) \ neq IG = D _ {\ text {KL}} (p ( H \ mid x) \ paralelo p (H \ mid I)).}

Cualquiera de las dos cantidades se puede utilizar como una función de utilidad en el diseño experimental bayesiano, para elegir la siguiente pregunta óptima para investigar: pero en general conducirán a estrategias experimentales bastante diferentes.

En la escala de entropía de la ganancia de información, hay muy poca diferencia entre la certeza cercana y la certeza absoluta; codificar según una certeza cercana requiere apenas más bits que codificar según una certeza absoluta. Por otro lado, en la escala logit implícita por el peso de la evidencia, la diferencia entre los dos es enorme, quizás infinita; esto podría reflejar la diferencia entre estar casi seguro (en un nivel probabilístico) de que, digamos, la hipótesis de Riemann es correcta, en comparación con estar seguro de que es correcta porque uno tiene una prueba matemática. Estas dos escalas diferentes de la función de pérdida de incertidumbre son tanto útil, de acuerdo con lo bien que refleja cada una de las circunstancias particulares del problema en cuestión.

Principio de información mínima sobre discriminación

La idea de la entropía relativa como información discriminatoria llevó a Kullback a proponer el Principio de Información mínima sobre discriminación (MDI): dados nuevos hechos, una nueva distribución ${\ Displaystyle f}$ debe elegirse que sea tan difícil de discriminar de la distribución original ${\ Displaystyle f_ {0}}$ como sea posible; de modo que los nuevos datos produzcan una ganancia de información tan pequeña ${\ Displaystyle D _ {\ text {KL}} (f \ paralelo f_ {0})}$ como sea posible.

Por ejemplo, si uno tuviera una distribución previa ${\ Displaystyle p (x, a)}$ encima ${\ Displaystyle x}$ y ${\ Displaystyle a}$ , y posteriormente aprendió la verdadera distribución de ${\ Displaystyle a}$ estaba ${\ Displaystyle u (a)}$ , entonces la entropía relativa entre la nueva distribución conjunta para ${\ Displaystyle x}$ y ${\ Displaystyle a}$ , ${\ Displaystyle q (x \ mid a) u (a)}$ , y la distribución anterior anterior sería:

{\ Displaystyle D _ {\ text {KL}} (q (x \ mid a) u (a) \ paralelo p (x, a)) = \ operatorname {E} _ {u (a)} \ left \ {D_ {\ text {KL}} (q (x \ mid a) \ paralelo p (x \ mid a)) \ right \} + D _ {\ text {KL}} (u (a) \ paralelo p (a)) ,}

es decir, la suma de la entropía relativa de ${\ Displaystyle p (a)}$ la distribución previa para ${\ Displaystyle a}$ de la distribución actualizada ${\ Displaystyle u (a)}$ , más el valor esperado (usando la distribución de probabilidad ${\ Displaystyle u (a)}$ ) de la entropía relativa de la distribución condicional previa ${\ Displaystyle p (x \ mid a)}$ de la nueva distribución condicional ${\ Displaystyle q (x \ mid a)}$ . (Tenga en cuenta que a menudo el valor esperado posterior se denomina entropía relativa condicional (o divergencia condicional de Kullback-Leibler ) y se denota por ${\ Displaystyle D _ {\ text {KL}} (q (x \ mid a) \ paralelo p (x \ mid a))}$ ^[2]^[13]^{: pág. 22} ) Esto se minimiza si ${\ Displaystyle q (x \ mid a) = p (x \ mid a)}$ sobre todo el apoyo de ${\ Displaystyle u (a)}$ ; y notamos que este resultado incorpora el teorema de Bayes, si la nueva distribución ${\ Displaystyle u (a)}$ es de hecho una función δ que representa la certeza de que ${\ Displaystyle a}$ tiene un valor particular.

MDI puede ser visto como una extensión de Laplace 's Principio de razón insuficiente , y el principio de máxima entropía de ET Jaynes . En particular, es la extensión natural del principio de máxima entropía de distribuciones discretas a continuas, para lo cual la entropía de Shannon deja de ser tan útil (ver entropía diferencial ), pero la entropía relativa sigue siendo igual de relevante.

En la literatura de ingeniería, el MDI a veces se denomina Principio de entropía cruzada mínima (MCE) o Minxent para abreviar. Minimizar la entropía relativa de ${\ Displaystyle m}$ a ${\ Displaystyle p}$ con respecto a ${\ Displaystyle m}$ es equivalente a minimizar la entropía cruzada de ${\ Displaystyle p}$ y ${\ Displaystyle m}$ , desde

{\ Displaystyle \ mathrm {H} (p, m) = \ mathrm {H} (p) + D _ {\ text {KL}} (p \ paralelo m),}

que es apropiado si uno está tratando de elegir una aproximación adecuada a ${\ Displaystyle p}$ . Sin embargo, esto es sólo tan a menudo no la tarea está tratando de lograr. En cambio, con la misma frecuencia ${\ Displaystyle m}$ que es una medida de referencia previa fija, y ${\ Displaystyle p}$ que uno está intentando optimizar minimizando ${\ Displaystyle D _ {\ text {KL}} (p \ paralelo m)}$ sujeto a alguna restricción. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores intentando resolver la inconsistencia redefiniendo la entropía cruzada como ${\ Displaystyle D _ {\ text {KL}} (p \ paralelo m)}$ , en vez de ${\ Displaystyle \ mathrm {H} (p, m)}$ .

Relación con el trabajo disponible

Gráfico de presión versus volumen del trabajo disponible de un mol de gas argón en relación con el ambiente, calculado como

{\ Displaystyle T_ {o}}

multiplicado por la divergencia Kullback-Leibler.

Las sorpresas ^{[16] se} suman donde las probabilidades se multiplican. La sorpresa de un evento de probabilidad ${\ Displaystyle p}$ Se define como ${\ Displaystyle s = k \ ln (1 / p)}$ . Si ${\ Displaystyle k}$ es ${\ Displaystyle \ left \ {1,1 / \ ln 2,1.38 \ times 10 ^ {- 23} \ right \}}$ entonces la sorpresa está en ${\ Displaystyle \ {}$ nats, bits o ${\ Displaystyle J / K \}}$ de modo que, por ejemplo, hay ${\ Displaystyle N}$ trozos de sorpresa por aterrizar todas las "caras" en un lanzamiento de ${\ Displaystyle N}$ monedas

Los estados de mejor estimación (por ejemplo, para los átomos en un gas) se infieren maximizando la sorpresa promedio ${\ Displaystyle S}$ ( entropía ) para un conjunto dado de parámetros de control (como presión ${\ Displaystyle P}$ o volumen ${\ Displaystyle V}$ ). Esta maximización de la entropía restringida , tanto clásica ^[17] como mecánicamente cuántica, ^[18] minimiza la disponibilidad de Gibbs en unidades de entropía ^[19] ${\ Displaystyle A \ equiv -k \ ln (Z)}$ dónde ${\ Displaystyle Z}$ es una función de partición o multiplicidad restringida .

Cuando la temperatura ${\ Displaystyle T}$ es energía libre y fija ${\ Displaystyle T \ times A}$ ) también se minimiza. Así que si ${\ Displaystyle T, V}$ y número de moléculas ${\ Displaystyle N}$ son constantes, la energía libre de Helmholtz ${\ Displaystyle F \ equiv U-TS}$ (dónde ${\ Displaystyle U}$ es energía) se minimiza a medida que un sistema se "equilibra". Si ${\ Displaystyle T}$ y ${\ Displaystyle P}$ se mantienen constantes (por ejemplo, durante los procesos en su cuerpo), la energía libre de Gibbs ${\ Displaystyle G = U + PV-TS}$ se minimiza en su lugar. El cambio de energía libre en estas condiciones es una medida del trabajo disponible que podría realizarse en el proceso. Por tanto, el trabajo disponible para un gas ideal a temperatura constante ${\ Displaystyle T_ {o}}$ y presion ${\ Displaystyle P_ {o}}$ es ${\ Displaystyle W = \ Delta G = NkT_ {o} \ Theta (V / V_ {o})}$ dónde ${\ Displaystyle V_ {o} = NkT_ {o} / P_ {o}}$ y ${\ Displaystyle \ Theta (x) = x-1- \ ln x \ geq 0}$ (ver también la desigualdad de Gibbs ).

De manera más general ^[20], el trabajo disponible en relación con algún ambiente se obtiene multiplicando la temperatura ambiente. ${\ Displaystyle T_ {o}}$ por entropía relativa o sorpresa neta ${\ Displaystyle \ Delta I \ geq 0,}$ definido como el valor medio de ${\ Displaystyle k \ ln (p / p_ {o})}$ dónde ${\ Displaystyle p_ {o}}$ es la probabilidad de un estado dado en condiciones ambientales. Por ejemplo, el trabajo disponible para equilibrar un gas ideal monoatómico con valores ambientales de ${\ Displaystyle V_ {o}}$ y ${\ Displaystyle T_ {o}}$ es así ${\ Displaystyle W = T_ {o} \ Delta I}$ , donde la entropía relativa

{\ Displaystyle \ Delta I = Nk \ left [\ Theta \ left ({\ frac {V} {V_ {o}}} \ right) + {\ frac {3} {2}} \ Theta \ left ({\ frac {T} {T_ {o}}} \ derecha) \ derecha].}

Los contornos resultantes de entropía relativa constante, que se muestran a la derecha para un mol de argón a temperatura y presión estándar, por ejemplo, ponen límites a la conversión de calor a frío como en el aire acondicionado de llama o en el dispositivo sin energía para convertir la ebullición agua a agua helada discutida aquí. ^[21] Así, la entropía relativa mide la disponibilidad termodinámica en bits.

Teoría de la información cuántica

Para matrices de densidad ${\ Displaystyle P}$ y ${\ displaystyle Q}$ en un espacio de Hilbert , la entropía relativa cuántica de ${\ displaystyle Q}$ a ${\ Displaystyle P}$ se define como

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) = \ operatorname {Tr} (P (\ log (P) - \ log (Q))).}

En la ciencia de la información cuántica, el mínimo de ${\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q)}$ sobre todos los estados separables ${\ displaystyle Q}$ También se puede utilizar como medida de enredo en el estado. ${\ Displaystyle P}$ .

Relación entre modelos y realidad

Así como la entropía relativa de "real del ambiente" mide la disponibilidad termodinámica, la entropía relativa de "la realidad de un modelo" también es útil incluso si las únicas pistas que tenemos sobre la realidad son algunas mediciones experimentales. En el primer caso, la entropía relativa describe la distancia al equilibrio o (cuando se multiplica por la temperatura ambiente) la cantidad de trabajo disponible , mientras que en el segundo caso te informa sobre las sorpresas que la realidad tiene bajo la manga o, en otras palabras, cuánto el modelo aún tiene que aprender .

Aunque esta herramienta para evaluar modelos contra sistemas que son accesibles experimentalmente se puede aplicar en cualquier campo, su aplicación para seleccionar un modelo estadístico mediante el criterio de información de Akaike está particularmente bien descrita en artículos ^[22] y un libro ^[23] de Burnham y Anderson. En pocas palabras, la entropía relativa de la realidad de un modelo puede estimarse, dentro de un término aditivo constante, mediante una función de las desviaciones observadas entre los datos y las predicciones del modelo (como la desviación cuadrática media ). Las estimaciones de tal divergencia para modelos que comparten el mismo término aditivo pueden, a su vez, usarse para seleccionar entre modelos.

Cuando se intenta ajustar modelos parametrizados a los datos, existen varios estimadores que intentan minimizar la entropía relativa, como los estimadores de máxima verosimilitud y espaciado máximo . ^{[ cita requerida ]}

Divergencia simétrizada

Los mismos Kullback y Leibler realmente definieron la divergencia como:

{\ Displaystyle D _ {\ text {KL}} (P \ paralelo Q) + D _ {\ text {KL}} (Q \ paralelo P)}

que es simétrico y no negativo. Esta cantidad a veces se ha utilizado para la selección de características en problemas de clasificación , donde ${\ Displaystyle P}$ y ${\ displaystyle Q}$ son los PDF condicionales de una característica en dos clases diferentes. En las industrias de banca y finanzas, esta cantidad se conoce como índice de estabilidad de la población (PSI) y se utiliza para evaluar los cambios distributivos en las características del modelo a lo largo del tiempo.

Se ofrece una alternativa a través del ${\ Displaystyle \ lambda}$ divergencia,

{\ Displaystyle D _ {\ lambda} (P \ paralelo Q) = \ lambda D _ {\ text {KL}} (P \ paralelo \ lambda P + (1- \ lambda) Q) + (1- \ lambda) D _ {\ texto {KL}} (Q \ paralelo \ lambda P + (1- \ lambda) Q),}

que se puede interpretar como la ganancia de información esperada sobre ${\ Displaystyle X}$ de descubrir qué distribución de probabilidad ${\ Displaystyle X}$ se extrae de, ${\ Displaystyle P}$ o ${\ displaystyle Q}$ , si actualmente tienen probabilidades ${\ Displaystyle \ lambda}$ y ${\ Displaystyle 1- \ lambda}$ respectivamente. ^{[ aclaración necesaria ]}^{[ cita necesaria ]}

El valor ${\ Displaystyle \ lambda = 0.5}$ da la divergencia Jensen-Shannon , definida por

{\ Displaystyle D _ {\ text {JS}} = {\ frac {1} {2}} D _ {\ text {KL}} (P \ paralelo M) + {\ frac {1} {2}} D _ {\ texto {KL}} (Q \ paralelo M)}

dónde ${\ Displaystyle M}$ es el promedio de las dos distribuciones,

{\ Displaystyle M = {\ frac {1} {2}} (P + Q).}

${\ Displaystyle D_ {JS}}$ también se puede interpretar como la capacidad de un canal de información ruidoso con dos entradas que dan las distribuciones de salida ${\ Displaystyle P}$ y ${\ displaystyle Q}$ . La divergencia Jensen-Shannon, como todas las f- divergencias, es localmente proporcional a la métrica de información de Fisher . Es similar a la métrica de Hellinger (en el sentido de que induce la misma conexión afín en una variedad estadística ).

Además, la divergencia Jensen-Shannon se puede generalizar utilizando mezclas M estadísticas abstractas que se basan en una media abstracta M. ^[24]^[25]

Relación con otras medidas de probabilidad-distancia

Hay muchas otras medidas importantes de distancia de probabilidad . Algunos de estos están particularmente relacionados con la entropía relativa. Por ejemplo:

La distancia de variación total , ${\ Displaystyle \ delta (p, q)}$ . Esto está conectado a la divergencia a través de la desigualdad de Pinsker : ${\ Displaystyle \ delta (P, Q) \ leq {\ sqrt {{\ frac {1} {2}} D _ {\ text {KL}} (P \ paralelo Q)}}}$
Las divergencias de la familia de Rényi generalizan la entropía relativa. Dependiendo del valor de un determinado parámetro, ${\ Displaystyle \ alpha}$ , se pueden deducir varias desigualdades.

Otras medidas de la distancia notables incluyen la distancia Hellinger , intersección histograma , estadística de Chi-cuadrado , la distancia forma cuadrática , lejos partido , Kolmogorov-Smirnov distancia , y la distancia a motor de la tierra . ^[26]

Diferenciación de datos

Así como la entropía absoluta sirve como base teórica para la compresión de datos , la entropía relativa sirve como base teórica para la diferenciación de datos : la entropía absoluta de un conjunto de datos en este sentido son los datos necesarios para reconstruirlo (tamaño mínimo comprimido), mientras que la entropía relativa de un conjunto de datos de destino, dado un conjunto de datos de origen, son los datos necesarios para reconstruir el destino dado el origen (tamaño mínimo de un parche ).

Ver también

Criterio de información de Akaike
Criterio de información bayesiano
Divergencia de Bregman
Entropía cruzada
Criterio de información de desviación
Valor entrópico en riesgo
Desigualdad de poder de entropía
Distancia Hellinger
Ganancia de información en árboles de decisión
Relación de ganancia de información
Teoría de la información y teoría de la medida
Divergencia Jensen-Shannon
Entropía relativa cuántica
Solomon Kullback y Richard Leibler

Referencias

^ Kullback, S .; Leibler, RA (1951). "Sobre información y suficiencia" . Anales de estadística matemática . 22 (1): 79–86. doi : 10.1214 / aoms / 1177729694 . JSTOR 2236703 . Señor 0039968 .
^ a b c d Kullback, S. (1959), Teoría y estadística de la información , John Wiley & Sons. Reeditado por Dover Publications en 1968; reimpreso en 1978: ISBN 0-8446-5625-9 .
^ Kullback, S. (1987). "Carta al editor: la distancia Kullback-Leibler". El estadístico estadounidense . 41 (4): 340–341. doi : 10.1080 / 00031305.1987.10475510 . JSTOR 2684769 .
^ MacKay, David JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (Primera ed.). Prensa de la Universidad de Cambridge. pag. 34. ISBN 9780521642989.
^ Obispo C. (2006). Reconocimiento de patrones y aprendizaje automático
^ Burnham, KP; Anderson, DR (2002). Selección de modelos e inferencia de modelos múltiples (2ª ed.). Saltador. pag. 51 . ISBN 9780387953649.
^ Hobson, Arthur (1971). Conceptos de mecánica estadística . Nueva York: Gordon y Breach. ISBN 978-0677032405.
^ Sanov, IN (1957). "Sobre la probabilidad de grandes desviaciones de magnitudes aleatorias". Estera. Sbornik . 42 (84): 11–44.
^ Novak SY (2011), Métodos de valor extremo con aplicaciones a las finanzas cap. 14,5 ( Chapman y Hall ). ISBN 978-1-4398-3574-6 .
^ Ver la sección "Entropía diferencial - 4" en lavideo conferencia de Entropía relativa de Sergio Verdú NIPS 2009
^ Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos . arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 .
^ Duchi J., " Derivaciones de álgebra lineal y optimización ".
^ a b Portada, Thomas M .; Thomas, Joy A. (1991), Elementos de la teoría de la información , John Wiley & Sons
^ Chaloner, K .; Verdinelli, I. (1995). "Diseño experimental bayesiano: una revisión" . Ciencia estadística . 10 (3): 273-304. doi : 10.1214 / ss / 1177009939 .
^ Presione, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 14.7.2. Distancia de Kullback-Leibler" . Recetas numéricas: el arte de la informática científica (3ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-0-521-88068-8.
^ Myron Tribus (1961), Termodinámica y termostática (D. Van Nostrand, Nueva York)
^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística" (PDF) . Revisión física . 106 (4): 620–630. Código Bibliográfico : 1957PhRv..106..620J . doi : 10.1103 / physrev.106.620 .
^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística II" (PDF) . Revisión física . 108 (2): 171-190. Código bibliográfico : 1957PhRv..108..171J . doi : 10.1103 / physrev.108.171 .
^ JW Gibbs (1873), "Un método de representación geométrica de las propiedades termodinámicas de las sustancias por medio de superficies", reimpreso en The Collected Works of JW Gibbs, Volume I Thermodynamics , ed. WR Longley y RG Van Name (Nueva York: Longmans, Green, 1931) nota al pie de la página 52.
^ Tribus, M .; McIrvine, CE (1971). "Energía e información". Scientific American . 224 (3): 179–186. Código bibliográfico : 1971SciAm.225c.179T . doi : 10.1038 / scientificamerican0971-179 .
^ Fraundorf, P. (2007). "Raíces térmicas de la complejidad basada en la correlación" . Complejidad . 13 (3): 18-26. arXiv : 1103.2481 . Bibcode : 2008Cmplx..13c..18F . doi : 10.1002 / cplx.20195 . S2CID 20794688 . Archivado desde el original el 13 de agosto de 2011.
^ Burnham, KP; Anderson, DR (2001). "Información de Kullback-Leibler como base para una fuerte inferencia en estudios ecológicos" . Investigación de vida silvestre . 28 (2): 111-119. doi : 10.1071 / WR99107 .
^ Burnham, KP y Anderson DR (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información, segunda edición (Springer Science) ISBN 978-0-387-95364-9 .
^ Nielsen, Frank (2019). "Sobre la simetrización de distancias de Jensen-Shannon basándose en medios abstractos" . Entropía . 21 (5): 485. doi : 10.3390 / e21050485 .
^ Nielsen, Frank (2020). "Sobre una generalización de la divergencia Jensen-Shannon y el centroide Jensen-Shannon" . Entropía . 22 (2): 221. doi : 10.3390 / e22020221 .
^ Rubner, Y .; Tomasi, C .; Guibas, LJ (2000). "La distancia del motor de la tierra como métrica para la recuperación de imágenes". Revista Internacional de Visión por Computador . 40 (2): 99-121. doi : 10.1023 / A: 1026543900054 . S2CID 14106275 .

enlaces externos

Caja de herramientas de estimadores teóricos de la información
Gema de rubí para calcular la divergencia Kullback-Leibler
Tutorial de Jon Shlens sobre la teoría de la divergencia y la verosimilitud de Kullback-Leibler
Código de Matlab para calcular la divergencia de Kullback-Leibler para distribuciones discretas
Sergio Verdú , Entropía relativa , NIPS 2009. Video conferencia de una hora.
Un resumen moderno de las medidas de divergencia info-teóricas

[KullbackLeibler1951-1] Kullback, S .; Leibler, RA (1951). "Sobre información y suficiencia" . Anales de estadística matemática . 22 (1): 79–86. doi : 10.1214 / aoms / 1177729694 . JSTOR 2236703 . Señor 0039968 .

[Kullback1959-2] Kullback, S. (1959), Teoría y estadística de la información , John Wiley & Sons. Reeditado por Dover Publications en 1968; reimpreso en 1978: ISBN 0-8446-5625-9 .

[Kullback1987-3] Kullback, S. (1987). "Carta al editor: la distancia Kullback-Leibler". El estadístico estadounidense . 41 (4): 340–341. doi : 10.1080 / 00031305.1987.10475510 . JSTOR 2684769 .

[MacKey2003-4] MacKay, David JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (Primera ed.). Prensa de la Universidad de Cambridge. pag. 34. ISBN 9780521642989.

[5] Obispo C. (2006). Reconocimiento de patrones y aprendizaje automático

[6] Burnham, KP; Anderson, DR (2002). Selección de modelos e inferencia de modelos múltiples (2ª ed.). Saltador. pag. 51 . ISBN 9780387953649.

[7] Hobson, Arthur (1971). Conceptos de mecánica estadística . Nueva York: Gordon y Breach. ISBN 978-0677032405.

[Sanov-8] Sanov, IN (1957). "Sobre la probabilidad de grandes desviaciones de magnitudes aleatorias". Estera. Sbornik . 42 (84): 11–44.

[Novak-9] Novak SY (2011), Métodos de valor extremo con aplicaciones a las finanzas cap. 14,5 ( Chapman y Hall ). ISBN 978-1-4398-3574-6 .

[VerduLecture-10] Ver la sección "Entropía diferencial - 4" en lavideo conferencia de Entropía relativa de Sergio Verdú NIPS 2009

[11] Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos . arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 .

[12] Duchi J., " Derivaciones de álgebra lineal y optimización ".

[CoverThomas-13] Portada, Thomas M .; Thomas, Joy A. (1991), Elementos de la teoría de la información , John Wiley & Sons

[14] Chaloner, K .; Verdinelli, I. (1995). "Diseño experimental bayesiano: una revisión" . Ciencia estadística . 10 (3): 273-304. doi : 10.1214 / ss / 1177009939 .

[15] Presione, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 14.7.2. Distancia de Kullback-Leibler" . Recetas numéricas: el arte de la informática científica (3ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-0-521-88068-8.

[16] Myron Tribus (1961), Termodinámica y termostática (D. Van Nostrand, Nueva York)

[17] Jaynes, ET (1957). "Teoría de la información y mecánica estadística" (PDF) . Revisión física . 106 (4): 620–630. Código Bibliográfico : 1957PhRv..106..620J . doi : 10.1103 / physrev.106.620 .

[18] Jaynes, ET (1957). "Teoría de la información y mecánica estadística II" (PDF) . Revisión física . 108 (2): 171-190. Código bibliográfico : 1957PhRv..108..171J . doi : 10.1103 / physrev.108.171 .

[19] JW Gibbs (1873), "Un método de representación geométrica de las propiedades termodinámicas de las sustancias por medio de superficies", reimpreso en The Collected Works of JW Gibbs, Volume I Thermodynamics , ed. WR Longley y RG Van Name (Nueva York: Longmans, Green, 1931) nota al pie de la página 52.

[20] Tribus, M .; McIrvine, CE (1971). "Energía e información". Scientific American . 224 (3): 179–186. Código bibliográfico : 1971SciAm.225c.179T . doi : 10.1038 / scientificamerican0971-179 .

[21] Fraundorf, P. (2007). "Raíces térmicas de la complejidad basada en la correlación" . Complejidad . 13 (3): 18-26. arXiv : 1103.2481 . Bibcode : 2008Cmplx..13c..18F . doi : 10.1002 / cplx.20195 . S2CID 20794688 . Archivado desde el original el 13 de agosto de 2011.

[22] Burnham, KP; Anderson, DR (2001). "Información de Kullback-Leibler como base para una fuerte inferencia en estudios ecológicos" . Investigación de vida silvestre . 28 (2): 111-119. doi : 10.1071 / WR99107 .

[23] Burnham, KP y Anderson DR (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información, segunda edición (Springer Science) ISBN 978-0-387-95364-9 .

[Nielsen2019-24] Nielsen, Frank (2019). "Sobre la simetrización de distancias de Jensen-Shannon basándose en medios abstractos" . Entropía . 21 (5): 485. doi : 10.3390 / e21050485 .

[Nielsen2020-25] Nielsen, Frank (2020). "Sobre una generalización de la divergencia Jensen-Shannon y el centroide Jensen-Shannon" . Entropía . 22 (2): 221. doi : 10.3390 / e22020221 .

[earth-26] Rubner, Y .; Tomasi, C .; Guibas, LJ (2000). "La distancia del motor de la tierra como métrica para la recuperación de imágenes". Revista Internacional de Visión por Computador . 40 (2): 99-121. doi : 10.1023 / A: 1026543900054 . S2CID 14106275 .

[1]