En estadística matemática , la divergencia Kullback-Leibler, (también llamada entropía relativa ), es una medida de cómo una distribución de probabilidad es diferente de una segunda distribución de probabilidad de referencia. [1] [2] Las aplicaciones incluyen la caracterización de la entropía relativa (Shannon) en los sistemas de información, la aleatoriedad en series de tiempo continuas y la ganancia de información al comparar modelos estadísticos de inferencia . En contraste con la variación de la información , es una medida asimétrica de distribución y, por lo tanto, no califica como una métrica estadística de dispersión; tampoco satisface la desigualdad del triángulo.. En el caso simple, una entropía relativa de 0 indica que las dos distribuciones en cuestión tienen cantidades idénticas de información. En términos simplificados, es una medida de sorpresa, con diversas aplicaciones como estadística aplicada, mecánica de fluidos , neurociencia y bioinformática .
Introducción y contexto
Considere dos distribuciones de probabilidad y . Por lo general,representa los datos, las observaciones o una distribución de probabilidad medida con precisión. Distribución representa en cambio una teoría, un modelo, una descripción o una aproximación de . La divergencia Kullback-Leibler se interpreta entonces como la diferencia promedio del número de bits necesarios para codificar muestras de usando un código optimizado para en lugar de uno optimizado para . (Tenga en cuenta que los roles de y en cambio, se invierten en algunas situaciones en las que es más fácil de calcular, como con el algoritmo de maximización de expectativas (EM) y los cálculos de límite inferior de evidencia (ELBO) ).
Etimología
La entropía relativa fue introducida por Solomon Kullback y Richard Leibler en 1951 como la divergencia dirigida entre dos distribuciones; Kullback prefirió el término información sobre discriminación . [3] La divergencia se analiza en el libro de Kullback de 1959, Information Theory and Statistics . [2]
Definición
Para distribuciones de probabilidad discretas y definido en el mismo espacio de probabilidad ,, la entropía relativa de a se define [4] como
que es equivalente a
En otras palabras, es la expectativa de la diferencia logarítmica entre las probabilidades y , donde la expectativa se toma utilizando las probabilidades . La entropía relativa se define solo si para todos, implica ( continuidad absoluta ). Cuando sea es cero la contribución del término correspondiente se interpreta como cero porque
Para distribuciones y de una variable aleatoria continua , la entropía relativa se define como la integral: [5] : p. 55
dónde y denotar las densidades de probabilidad de y .
De manera más general, si y son medidas de probabilidad sobre un conjunto, y es absolutamente continuo con respecto a, entonces la entropía relativa de a Se define como
dónde es la derivada Radon-Nikodym de con respecto a y siempre que exista la expresión del lado derecho. De manera equivalente (por la regla de la cadena ), esto se puede escribir como
que es la entropía de relativo a . Continuando en este caso, si hay alguna medida en para cual y existir (lo que significa que y son absolutamente continuos con respecto a ), entonces la entropía relativa de a se da como
Los logaritmos en estas fórmulas se toman en base 2 si la información se mide en unidades de bits , o en basesi la información se mide en nats . La mayoría de las fórmulas que involucran entropía relativa se mantienen independientemente de la base del logaritmo.
Existen varias convenciones para referirse a en palabras. A menudo se le conoce como la divergencia entre y , pero esto no logra transmitir la asimetría fundamental en la relación. A veces, como en este artículo, puede describirse como la divergencia de de o como la divergencia de a . Esto refleja la asimetría en la inferencia bayesiana , que se inicia a partir de una previa y actualizaciones a la parte posterior . Otra forma común de referirse a es como la entropía relativa de con respecto a .
Ejemplo básico
Kullback [2] da el siguiente ejemplo (Tabla 2.1, Ejemplo 2.1). Dejar y sean las distribuciones que se muestran en la tabla y la figura. es la distribución en el lado izquierdo de la figura, una distribución binomial con y . es la distribución en el lado derecho de la figura, una distribución uniforme discreta con los tres posibles resultados , , o (es decir ), cada uno con probabilidad .
X | 0 | 1 | 2 |
---|---|---|---|
Distribución P (x) | |||
Distribución Q (x) |
Entropías relativas y se calculan de la siguiente manera. Este ejemplo usa el registro natural con base e , designadopara obtener resultados en nats (ver unidades de información ).
Interpretaciones
La entropía relativa de a a menudo se denota .
En el contexto del aprendizaje automático ,a menudo se denomina ganancia de información lograda si se usaría en lugar de que se utiliza actualmente. Por analogía con la teoría de la información, se denomina entropía relativa de con respecto a . En el contexto de la teoría de la codificación ,puede construirse midiendo el número esperado de bits adicionales necesarios para codificar muestras de usando un código optimizado para en lugar del código optimizado para .
Expresado en el lenguaje de la inferencia bayesiana ,es una medida de la información obtenida al revisar las creencias de uno de la distribución de probabilidad anterior a la distribución de probabilidad posterior . En otras palabras, es la cantidad de información perdida cuando se utiliza para aproximar . [6] En aplicaciones, representa típicamente la distribución "verdadera" de datos, observaciones o una distribución teórica calculada con precisión, mientras que representa típicamente una teoría, modelo, descripción o aproximación de. Para encontrar una distribución que está más cerca de , podemos minimizar la divergencia de KL y calcular una proyección de información .
La entropía relativa es un caso especial de una clase más amplia de divergencias estadísticas llamadas f- divergencias , así como la clase de divergencias de Bregman . Es la única divergencia de este tipo sobre probabilidades que es miembro de ambas clases. Aunque a menudo se intuye como una forma de medir la distancia entre distribuciones de probabilidad , la divergencia de Kullback-Leibler no es una verdadera métrica . No obedece a la Desigualdad del Triángulo , y en general no es igual . Sin embargo, su forma infinitesimal , específicamente su hessiana , da un tensor métrico conocido como métrica de información de Fisher .
Arthur Hobson demostró que la entropía relativa es la única medida de diferencia entre distribuciones de probabilidad que satisface algunas propiedades deseadas, que son la extensión canónica de las que aparecen en una caracterización de entropía de uso común . [7] En consecuencia, la información mutua es la única medida de dependencia mutua que obedece a ciertas condiciones relacionadas, ya que puede definirse en términos de divergencia Kullback-Leibler .
Motivación
En teoría de la información, el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor fuera de un conjunto de posibilidades puede verse como una representación de una distribución de probabilidad implícita encima , dónde es la longitud del código para en bits. Por lo tanto, la entropía relativa se puede interpretar como la longitud de mensaje adicional esperada por dato que debe comunicarse si un código que es óptimo para una distribución dada (incorrecta) se utiliza, en comparación con el uso de un código basado en la distribución real .
dónde es la entropía cruzada de y , y es la entropía de (que es lo mismo que la entropía cruzada de P consigo mismo).
Entropía relativa se puede pensar en algo así como una medida de qué tan lejos está la distribución Q de la distribución P. La entropía cruzada es en sí misma una medida de este tipo, pero tiene el defecto de que no es cero, entonces restamos para hacer de acuerdo más estrechamente con nuestra noción de distancia. (Desafortunadamente, todavía no es simétrico). La entropía relativa se relaciona con la " función de velocidad " en la teoría de las grandes desviaciones . [8] [9]
Propiedades
- La entropía relativa siempre es no negativa ,
- un resultado conocido como desigualdad de Gibbs , con es igual a cero si y solo sicasi en todas partes . La entropía por lo tanto, establece un valor mínimo para la entropía cruzada , el número esperado de bits necesarios cuando se utiliza un código basado en en vez de ; y la divergencia Kullback-Leibler, por lo tanto, representa el número esperado de bits adicionales que deben transmitirse para identificar un valor. trazada desde , si se utiliza un código correspondiente a la distribución de probabilidad , en lugar de la distribución "verdadera" .
- La entropía relativa permanece bien definida para distribuciones continuas y, además, es invariante bajo transformaciones de parámetros . Por ejemplo, si una transformación se realiza a partir de una variable a variable , entonces, desde y la entropía relativa se puede reescribir:
- dónde y . Aunque se asumió que la transformación era continua, este no tiene por qué ser así. Esto también muestra que la entropía relativa produce una cantidad dimensionalmente consistente , ya que si es una variable dimensionada, y también están dimensionados, ya que, por ejemplo, es adimensional. El argumento del término logarítmico es y permanece adimensional, como debe ser. Por lo tanto, puede verse como una cantidad más fundamental que algunas otras propiedades en la teoría de la información [10] (como la autoinformación o la entropía de Shannon ), que puede volverse indefinida o negativa para probabilidades no discretas.
- La entropía relativa es aditiva para distribuciones independientes de la misma manera que la entropía de Shannon. Si son distribuciones independientes, con la distribución conjunta , y igualmente, entonces
- Entropía relativa es convexo en el par de funciones de masa de probabilidad , es decir, si y son dos pares de funciones de masa de probabilidad, entonces
- El siguiente teorema se denomina fórmula de dualidad para inferencia variacional. Explica algunas propiedades importantes de las distribuciones variacionales utilizadas en los métodos bayesianos variacionales . [11]
Teorema Considere dos espacios de probabilidad y con . Suponga que existe una medida de probabilidad dominante común tal que y . Dejardenotar cualquier variable aleatoria de valor real en que satisface . Entonces se cumple la siguiente igualdad
Además, el supremo en el lado derecho se alcanza si y sólo si se mantiene
casi seguramente con respecto a la medida de probabilidad , dónde y denotar las derivadas Radon-Nikodym de las medidas de probabilidad y con respecto a , respectivamente.
Ejemplos de
Distribuciones normales multivariadas
Supongamos que tenemos dos distribuciones normales multivariadas , con mediasy con matrices de covarianza (no singulares) Si las dos distribuciones tienen la misma dimensión, , entonces la entropía relativa entre las distribuciones es la siguiente: [12] : p. 13
El logaritmo del último término debe tomarse en base e, ya que todos los términos, excepto el último, son logaritmos en base e de expresiones que son factores de la función de densidad o que surgen naturalmente. Por tanto, la ecuación da un resultado medido en nat . Dividiendo toda la expresión anterior porproduce la divergencia en bits .
Un caso especial, y una cantidad común en la inferencia variacional , es la entropía relativa entre una normal multivariada diagonal y una distribución normal estándar (con media cero y varianza unitaria):
Relación con las métricas
Uno podría tener la tentación de llamar a la entropía relativa una " métrica de distancia " en el espacio de distribuciones de probabilidad, pero esto no sería correcto ya que no es simétrico , es decir,- tampoco satisface la desigualdad del triángulo . Genera una topología en el espacio de distribuciones de probabilidad . Más concretamente, si es una secuencia de distribuciones tal que
entonces se dice que
La desigualdad de Pinsker implica que
donde este último representa la convergencia habitual en la variación total .
Métrica de información de Fisher
La entropía relativa está directamente relacionada con la métrica de información de Fisher . Esto puede hacerse explícito de la siguiente manera. Suponga que las distribuciones de probabilidad y Ambos están parametrizados por algún parámetro (posiblemente multidimensional) . Considere entonces dos valores cercanos de y para que el parámetro difiere solo en una pequeña cantidad del valor del parámetro . Específicamente, hasta el primer orden uno tiene (usando la convención de suma de Einstein )
con un pequeño cambio de en el dirección, y la tasa de cambio correspondiente en la distribución de probabilidad. Dado que la entropía relativa tiene un mínimo absoluto de 0 para, es decir , cambia solo a segundo orden en los pequeños parámetros. Más formalmente, como para cualquier mínimo, las primeras derivadas de la divergencia se desvanecen
y por la expansión de Taylor uno tiene hasta segundo orden
donde la matriz de Hesse de la divergencia
debe ser positivo semidefinido . Dejando variar (y eliminar el subíndice 0) el arpillera define una métrica de Riemann (posiblemente degenerada) en el espacio de parámetros θ , denominada métrica de información de Fisher.
Teorema de la métrica de información de Fisher
Cuándo cumple las siguientes condiciones de regularidad:
- existe,
donde ξ es independiente de ρ
luego:
Variación de información
Otra métrica de la teoría de la información es la variación de la información , que es aproximadamente una simetrización de la entropía condicional . Es una métrica del conjunto de particiones de un espacio de probabilidad discreto .
Relación con otras cantidades de teoría de la información
Muchas de las otras cantidades de teoría de la información pueden interpretarse como aplicaciones de la entropía relativa a casos específicos.
Autoinformación
La autoinformación , también conocida como el contenido de información de una señal, variable aleatoria o evento, se define como el logaritmo negativo de la probabilidad de que ocurra el resultado dado.
Cuando se aplica a una variable aleatoria discreta , la autoinformación se puede representar como [ cita requerida ]
es la entropía relativa de la distribución de probabilidad de un delta de Kronecker que representa la certeza de que - es decir, el número de bits adicionales que deben transmitirse para identificar si solo la distribución de probabilidad está disponible para el receptor, no el hecho de que .
Información mutua
La información mutua ,
es la entropía relativa del producto de las dos distribuciones de probabilidad marginal de la distribución de probabilidad conjunta - es decir, el número esperado de bits adicionales que deben transmitirse para identificar y si se codifican utilizando solo sus distribuciones marginales en lugar de la distribución conjunta. De manera equivalente, si la probabilidad conjunta se conoce, es el número esperado de bits adicionales que deben enviarse en promedio para identificar si el valor de aún no es conocido por el receptor.
Entropía de Shannon
La entropía de Shannon ,
es el número de bits que tendrían que transmitirse para identificar de posibilidades igualmente probables, menos la entropía relativa de la distribución uniforme en las variables aleatorias de, , de la verdadera distribución - es decir, menos el número esperado de bits guardados, que habrían tenido que enviarse si el valor de fueron codificados de acuerdo con la distribución uniforme en lugar de la verdadera distribución .
Entropía condicional
La entropía condicional [13] ,
es el número de bits que tendrían que transmitirse para identificar de posibilidades igualmente probables, menos la entropía relativa de la distribución del producto de la verdadera distribución conjunta - es decir, menos el número esperado de bits guardados que habrían tenido que enviarse si el valor de fueron codificados de acuerdo con la distribución uniforme en lugar de la distribución condicional de dado .
Entropía cruzada
Cuando tenemos un conjunto de eventos posibles, provenientes de la distribución p , podemos codificarlos (con una compresión de datos sin pérdidas ) usando codificación de entropía . Esto comprime los datos reemplazando cada símbolo de entrada de longitud fija con un código correspondiente único, de longitud variable y sin prefijo (por ejemplo: los eventos (A, B, C) con probabilidades p = (1/2, 1/4, 1/4) se pueden codificar como bits (0, 10, 11)). Si conocemos la distribución p de antemano, podemos idear una codificación que sería óptima (por ejemplo, utilizando la codificación de Huffman ). Lo que significa que los mensajes que codificamos tendrán la longitud más corta en promedio (asumiendo que los eventos codificados se muestrean a partir de p ), que será igual a la Entropía de Shannon de p (denotado como). Sin embargo, si usamos una distribución de probabilidad diferente ( q ) al crear el esquema de codificación de entropía, entonces se usará una mayor cantidad de bits (en promedio) para identificar un evento de un conjunto de posibilidades. Este nuevo número (más grande) se mide por la entropía cruzada entre p y q .
La entropía cruzada entre dos distribuciones de probabilidad ( p y q ) mide el número medio de bits de necesarios para identificar un evento desde un conjunto de posibilidades, si se utiliza un esquema de codificación basado en una distribución de probabilidad dada q , en lugar de la distribución "true" p . La entropía cruz por dos distribuciones p y q en el mismo espacio de probabilidad se define así como sigue: [ citación necesaria ]
En este escenario, las entropías relativas se pueden interpretar como el número extra de bits, en promedio, que se necesitan (más allá de ) para codificar los eventos debido al uso de q para construir el esquema de codificación en lugar de p .
Actualización bayesiana
En las estadísticas bayesianas , la entropía relativa se puede utilizar como una medida de la ganancia de información al pasar de una distribución anterior a una distribución posterior :. Si algún hecho nuevo se descubre, se puede utilizar para actualizar la distribución posterior para de a una nueva distribución posterior usando el teorema de Bayes :
Esta distribución tiene una nueva entropía :
que puede ser menor o mayor que la entropía original . Sin embargo, desde el punto de vista de la nueva distribución de probabilidad, se puede estimar que haber utilizado el código original basado en en lugar de un nuevo código basado en habría agregado un número esperado de bits:
a la longitud del mensaje. Por lo tanto, esto representa la cantidad de información útil, o ganancia de información, sobre, que se ha aprendido al descubrir .
Si otro dato, , entra posteriormente, la distribución de probabilidad para se puede actualizar aún más, para dar una nueva mejor conjetura . Si uno vuelve a investigar la ganancia de información por usar en vez de , resulta que puede ser mayor o menor de lo estimado previamente:
- puede ser ≤ o> que
y entonces la ganancia de información combinada no obedece a la desigualdad del triángulo:
- puede ser <, = o> que
Todo lo que se puede decir es que, en promedio , promediando usando, los dos lados se promediarán.
Diseño experimental bayesiano
Un objetivo común en el diseño experimental bayesiano es maximizar la entropía relativa esperada entre el anterior y el posterior. [14] Cuando los posteriores se aproximan a distribuciones gaussianas, un diseño que maximiza la entropía relativa esperada se denomina d-óptimo de Bayes .
Información sobre discriminación
Entropía relativa también se puede interpretar como la información de discriminación esperada para encima : la información media por muestra para discriminar a favor de una hipótesis contra una hipótesis , cuando la hipótesis es verdad. [15] Otro nombre para esta cantidad, que le dio IJ Good , es el peso esperado de la evidencia para encima que cabe esperar de cada muestra.
El peso esperado de la evidencia para encima no es lo mismo que la ganancia de información esperada por muestra sobre la distribución de probabilidad de las hipótesis,
Cualquiera de las dos cantidades se puede utilizar como una función de utilidad en el diseño experimental bayesiano, para elegir la siguiente pregunta óptima para investigar: pero en general conducirán a estrategias experimentales bastante diferentes.
En la escala de entropía de la ganancia de información, hay muy poca diferencia entre la certeza cercana y la certeza absoluta; codificar según una certeza cercana requiere apenas más bits que codificar según una certeza absoluta. Por otro lado, en la escala logit implícita por el peso de la evidencia, la diferencia entre los dos es enorme, quizás infinita; esto podría reflejar la diferencia entre estar casi seguro (en un nivel probabilístico) de que, digamos, la hipótesis de Riemann es correcta, en comparación con estar seguro de que es correcta porque uno tiene una prueba matemática. Estas dos escalas diferentes de la función de pérdida de incertidumbre son tanto útil, de acuerdo con lo bien que refleja cada una de las circunstancias particulares del problema en cuestión.
Principio de información mínima sobre discriminación
La idea de la entropía relativa como información discriminatoria llevó a Kullback a proponer el Principio de Información mínima sobre discriminación (MDI): dados nuevos hechos, una nueva distribución debe elegirse que sea tan difícil de discriminar de la distribución original como sea posible; de modo que los nuevos datos produzcan una ganancia de información tan pequeña como sea posible.
Por ejemplo, si uno tuviera una distribución previa encima y , y posteriormente aprendió la verdadera distribución de estaba , entonces la entropía relativa entre la nueva distribución conjunta para y , , y la distribución anterior anterior sería:
es decir, la suma de la entropía relativa de la distribución previa para de la distribución actualizada , más el valor esperado (usando la distribución de probabilidad ) de la entropía relativa de la distribución condicional previa de la nueva distribución condicional . (Tenga en cuenta que a menudo el valor esperado posterior se denomina entropía relativa condicional (o divergencia condicional de Kullback-Leibler ) y se denota por [2] [13] : pág. 22 ) Esto se minimiza si sobre todo el apoyo de ; y notamos que este resultado incorpora el teorema de Bayes, si la nueva distribución es de hecho una función δ que representa la certeza de que tiene un valor particular.
MDI puede ser visto como una extensión de Laplace 's Principio de razón insuficiente , y el principio de máxima entropía de ET Jaynes . En particular, es la extensión natural del principio de máxima entropía de distribuciones discretas a continuas, para lo cual la entropía de Shannon deja de ser tan útil (ver entropía diferencial ), pero la entropía relativa sigue siendo igual de relevante.
En la literatura de ingeniería, el MDI a veces se denomina Principio de entropía cruzada mínima (MCE) o Minxent para abreviar. Minimizar la entropía relativa de a con respecto a es equivalente a minimizar la entropía cruzada de y , desde
que es apropiado si uno está tratando de elegir una aproximación adecuada a . Sin embargo, esto es sólo tan a menudo no la tarea está tratando de lograr. En cambio, con la misma frecuencia que es una medida de referencia previa fija, y que uno está intentando optimizar minimizando sujeto a alguna restricción. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores intentando resolver la inconsistencia redefiniendo la entropía cruzada como, en vez de .
Relación con el trabajo disponible
Las sorpresas [16] se suman donde las probabilidades se multiplican. La sorpresa de un evento de probabilidad Se define como . Si es entonces la sorpresa está en nats, bits o de modo que, por ejemplo, hay trozos de sorpresa por aterrizar todas las "caras" en un lanzamiento de monedas
Los estados de mejor estimación (por ejemplo, para los átomos en un gas) se infieren maximizando la sorpresa promedio ( entropía ) para un conjunto dado de parámetros de control (como presión o volumen ). Esta maximización de la entropía restringida , tanto clásica [17] como mecánicamente cuántica, [18] minimiza la disponibilidad de Gibbs en unidades de entropía [19] dónde es una función de partición o multiplicidad restringida .
Cuando la temperatura es energía libre y fija) también se minimiza. Así que si y número de moléculas son constantes, la energía libre de Helmholtz (dónde es energía) se minimiza a medida que un sistema se "equilibra". Si y se mantienen constantes (por ejemplo, durante los procesos en su cuerpo), la energía libre de Gibbs se minimiza en su lugar. El cambio de energía libre en estas condiciones es una medida del trabajo disponible que podría realizarse en el proceso. Por tanto, el trabajo disponible para un gas ideal a temperatura constante y presion es dónde y (ver también la desigualdad de Gibbs ).
De manera más general [20], el trabajo disponible en relación con algún ambiente se obtiene multiplicando la temperatura ambiente.por entropía relativa o sorpresa neta definido como el valor medio de dónde es la probabilidad de un estado dado en condiciones ambientales. Por ejemplo, el trabajo disponible para equilibrar un gas ideal monoatómico con valores ambientales de y es así , donde la entropía relativa
Los contornos resultantes de entropía relativa constante, que se muestran a la derecha para un mol de argón a temperatura y presión estándar, por ejemplo, ponen límites a la conversión de calor a frío como en el aire acondicionado de llama o en el dispositivo sin energía para convertir la ebullición agua a agua helada discutida aquí. [21] Así, la entropía relativa mide la disponibilidad termodinámica en bits.
Teoría de la información cuántica
Para matrices de densidad y en un espacio de Hilbert , la entropía relativa cuántica de a se define como
En la ciencia de la información cuántica, el mínimo de sobre todos los estados separables También se puede utilizar como medida de enredo en el estado..
Relación entre modelos y realidad
Así como la entropía relativa de "real del ambiente" mide la disponibilidad termodinámica, la entropía relativa de "la realidad de un modelo" también es útil incluso si las únicas pistas que tenemos sobre la realidad son algunas mediciones experimentales. En el primer caso, la entropía relativa describe la distancia al equilibrio o (cuando se multiplica por la temperatura ambiente) la cantidad de trabajo disponible , mientras que en el segundo caso te informa sobre las sorpresas que la realidad tiene bajo la manga o, en otras palabras, cuánto el modelo aún tiene que aprender .
Aunque esta herramienta para evaluar modelos contra sistemas que son accesibles experimentalmente se puede aplicar en cualquier campo, su aplicación para seleccionar un modelo estadístico mediante el criterio de información de Akaike está particularmente bien descrita en artículos [22] y un libro [23] de Burnham y Anderson. En pocas palabras, la entropía relativa de la realidad de un modelo puede estimarse, dentro de un término aditivo constante, mediante una función de las desviaciones observadas entre los datos y las predicciones del modelo (como la desviación cuadrática media ). Las estimaciones de tal divergencia para modelos que comparten el mismo término aditivo pueden, a su vez, usarse para seleccionar entre modelos.
Cuando se intenta ajustar modelos parametrizados a los datos, existen varios estimadores que intentan minimizar la entropía relativa, como los estimadores de máxima verosimilitud y espaciado máximo . [ cita requerida ]
Divergencia simétrizada
Los mismos Kullback y Leibler realmente definieron la divergencia como:
que es simétrico y no negativo. Esta cantidad a veces se ha utilizado para la selección de características en problemas de clasificación , donde y son los PDF condicionales de una característica en dos clases diferentes. En las industrias de banca y finanzas, esta cantidad se conoce como índice de estabilidad de la población (PSI) y se utiliza para evaluar los cambios distributivos en las características del modelo a lo largo del tiempo.
Se ofrece una alternativa a través del divergencia,
que se puede interpretar como la ganancia de información esperada sobre de descubrir qué distribución de probabilidad se extrae de, o , si actualmente tienen probabilidades y respectivamente. [ aclaración necesaria ] [ cita necesaria ]
El valor da la divergencia Jensen-Shannon , definida por
dónde es el promedio de las dos distribuciones,
también se puede interpretar como la capacidad de un canal de información ruidoso con dos entradas que dan las distribuciones de salida y . La divergencia Jensen-Shannon, como todas las f- divergencias, es localmente proporcional a la métrica de información de Fisher . Es similar a la métrica de Hellinger (en el sentido de que induce la misma conexión afín en una variedad estadística ).
Además, la divergencia Jensen-Shannon se puede generalizar utilizando mezclas M estadísticas abstractas que se basan en una media abstracta M. [24] [25]
Relación con otras medidas de probabilidad-distancia
Hay muchas otras medidas importantes de distancia de probabilidad . Algunos de estos están particularmente relacionados con la entropía relativa. Por ejemplo:
- La distancia de variación total ,. Esto está conectado a la divergencia a través de la desigualdad de Pinsker :
- Las divergencias de la familia de Rényi generalizan la entropía relativa. Dependiendo del valor de un determinado parámetro,, se pueden deducir varias desigualdades.
Otras medidas de la distancia notables incluyen la distancia Hellinger , intersección histograma , estadística de Chi-cuadrado , la distancia forma cuadrática , lejos partido , Kolmogorov-Smirnov distancia , y la distancia a motor de la tierra . [26]
Diferenciación de datos
Así como la entropía absoluta sirve como base teórica para la compresión de datos , la entropía relativa sirve como base teórica para la diferenciación de datos : la entropía absoluta de un conjunto de datos en este sentido son los datos necesarios para reconstruirlo (tamaño mínimo comprimido), mientras que la entropía relativa de un conjunto de datos de destino, dado un conjunto de datos de origen, son los datos necesarios para reconstruir el destino dado el origen (tamaño mínimo de un parche ).
Ver también
- Criterio de información de Akaike
- Criterio de información bayesiano
- Divergencia de Bregman
- Entropía cruzada
- Criterio de información de desviación
- Valor entrópico en riesgo
- Desigualdad de poder de entropía
- Distancia Hellinger
- Ganancia de información en árboles de decisión
- Relación de ganancia de información
- Teoría de la información y teoría de la medida
- Divergencia Jensen-Shannon
- Entropía relativa cuántica
- Solomon Kullback y Richard Leibler
Referencias
- ^ Kullback, S .; Leibler, RA (1951). "Sobre información y suficiencia" . Anales de estadística matemática . 22 (1): 79–86. doi : 10.1214 / aoms / 1177729694 . JSTOR 2236703 . Señor 0039968 .
- ^ a b c d Kullback, S. (1959), Teoría y estadística de la información , John Wiley & Sons. Reeditado por Dover Publications en 1968; reimpreso en 1978: ISBN 0-8446-5625-9 .
- ^ Kullback, S. (1987). "Carta al editor: la distancia Kullback-Leibler". El estadístico estadounidense . 41 (4): 340–341. doi : 10.1080 / 00031305.1987.10475510 . JSTOR 2684769 .
- ^ MacKay, David JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (Primera ed.). Prensa de la Universidad de Cambridge. pag. 34. ISBN 9780521642989.
- ^ Obispo C. (2006). Reconocimiento de patrones y aprendizaje automático
- ^ Burnham, KP; Anderson, DR (2002). Selección de modelos e inferencia de modelos múltiples (2ª ed.). Saltador. pag. 51 . ISBN 9780387953649.
- ^ Hobson, Arthur (1971). Conceptos de mecánica estadística . Nueva York: Gordon y Breach. ISBN 978-0677032405.
- ^ Sanov, IN (1957). "Sobre la probabilidad de grandes desviaciones de magnitudes aleatorias". Estera. Sbornik . 42 (84): 11–44.
- ^ Novak SY (2011), Métodos de valor extremo con aplicaciones a las finanzas cap. 14,5 ( Chapman y Hall ). ISBN 978-1-4398-3574-6 .
- ^ Ver la sección "Entropía diferencial - 4" en lavideo conferencia de Entropía relativa de Sergio Verdú NIPS 2009
- ^ Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos . arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 .
- ^ Duchi J., " Derivaciones de álgebra lineal y optimización ".
- ^ a b Portada, Thomas M .; Thomas, Joy A. (1991), Elementos de la teoría de la información , John Wiley & Sons
- ^ Chaloner, K .; Verdinelli, I. (1995). "Diseño experimental bayesiano: una revisión" . Ciencia estadística . 10 (3): 273-304. doi : 10.1214 / ss / 1177009939 .
- ^ Presione, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 14.7.2. Distancia de Kullback-Leibler" . Recetas numéricas: el arte de la informática científica (3ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-0-521-88068-8.
- ^ Myron Tribus (1961), Termodinámica y termostática (D. Van Nostrand, Nueva York)
- ^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística" (PDF) . Revisión física . 106 (4): 620–630. Código Bibliográfico : 1957PhRv..106..620J . doi : 10.1103 / physrev.106.620 .
- ^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística II" (PDF) . Revisión física . 108 (2): 171-190. Código bibliográfico : 1957PhRv..108..171J . doi : 10.1103 / physrev.108.171 .
- ^ JW Gibbs (1873), "Un método de representación geométrica de las propiedades termodinámicas de las sustancias por medio de superficies", reimpreso en The Collected Works of JW Gibbs, Volume I Thermodynamics , ed. WR Longley y RG Van Name (Nueva York: Longmans, Green, 1931) nota al pie de la página 52.
- ^ Tribus, M .; McIrvine, CE (1971). "Energía e información". Scientific American . 224 (3): 179–186. Código bibliográfico : 1971SciAm.225c.179T . doi : 10.1038 / scientificamerican0971-179 .
- ^ Fraundorf, P. (2007). "Raíces térmicas de la complejidad basada en la correlación" . Complejidad . 13 (3): 18-26. arXiv : 1103.2481 . Bibcode : 2008Cmplx..13c..18F . doi : 10.1002 / cplx.20195 . S2CID 20794688 . Archivado desde el original el 13 de agosto de 2011.
- ^ Burnham, KP; Anderson, DR (2001). "Información de Kullback-Leibler como base para una fuerte inferencia en estudios ecológicos" . Investigación de vida silvestre . 28 (2): 111-119. doi : 10.1071 / WR99107 .
- ^ Burnham, KP y Anderson DR (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico de la teoría de la información, segunda edición (Springer Science) ISBN 978-0-387-95364-9 .
- ^ Nielsen, Frank (2019). "Sobre la simetrización de distancias de Jensen-Shannon basándose en medios abstractos" . Entropía . 21 (5): 485. doi : 10.3390 / e21050485 .
- ^ Nielsen, Frank (2020). "Sobre una generalización de la divergencia Jensen-Shannon y el centroide Jensen-Shannon" . Entropía . 22 (2): 221. doi : 10.3390 / e22020221 .
- ^ Rubner, Y .; Tomasi, C .; Guibas, LJ (2000). "La distancia del motor de la tierra como métrica para la recuperación de imágenes". Revista Internacional de Visión por Computador . 40 (2): 99-121. doi : 10.1023 / A: 1026543900054 . S2CID 14106275 .
enlaces externos
- Caja de herramientas de estimadores teóricos de la información
- Gema de rubí para calcular la divergencia Kullback-Leibler
- Tutorial de Jon Shlens sobre la teoría de la divergencia y la verosimilitud de Kullback-Leibler
- Código de Matlab para calcular la divergencia de Kullback-Leibler para distribuciones discretas
- Sergio Verdú , Entropía relativa , NIPS 2009. Video conferencia de una hora.
- Un resumen moderno de las medidas de divergencia info-teóricas