En teoría de la probabilidad , un ƒ -divergence es una función D f ( P || Q ) que mide la diferencia entre dos distribuciones de probabilidad P y Q . Ayuda a la intuición pensar en la divergencia como un promedio, ponderado por la función f , de la razón de probabilidades dada por P y Q [ cita requerida ] .
Estas divergencias fueron introducidas por Alfréd Rényi [1] en el mismo artículo donde introdujo la conocida entropía de Rényi . Demostró que estas divergencias disminuyen en los Procesos de Markov . f -divergences se estudiaron adicionalmente de forma independiente por Csiszár (1963) , Morimoto (1963) y Ali y Silvey (1966) y, a veces se conocen como Csiszár ƒ -divergences, divergencias Csiszár-Morimoto o distancias Ali-Silvey.
Definición
Deje que P y Q sean dos distribuciones de probabilidad más de un Ω espacio de tal manera que P es absolutamente continua con respecto a Q . Entonces, para una función convexa f tal que f (1) = 0, la f -divergencia de P de Q se define como
Si P y Q son ambas absolutamente continua con respecto a una distribución de referencia μ en Ω entonces su densidades de probabilidad p y q satisfacer dP = p dμ y dQ = q dμ . En este caso, la divergencia f se puede escribir como
Las f-divergencias pueden expresarse utilizando series de Taylor y reescribirse utilizando una suma ponderada de distancias de tipo chi ( Nielsen y Nock (2013) ).
Ejemplos de f- divergencias
Muchas divergencias comunes, como la divergencia KL , la distancia Hellinger y la distancia de variación total , son casos especiales de divergencia f , que coinciden con una elección particular de f . La siguiente tabla enumera muchas de las divergencias comunes entre las distribuciones de probabilidad y la función f a la que corresponden (cf. Liese y Vajda (2006) ).
Divergencia | Correspondiente f (t) |
---|---|
KL-divergencia | |
divergencia KL inversa | |
distancia de Hellinger al cuadrado | |
Distancia de variación total | |
Pearson -divergencia | |
Neyman -divergencia (Pearson inverso) | |
α-divergencia | |
Divergencia Jensen-Shannon | |
α-divergencia (otra denominación) |
La función se define hasta el summand , dónde es cualquier constante.
Propiedades
- No negatividad : la ƒ- divergencia es siempre positiva; es cero si las medidas P y Q coinciden. Esto se sigue inmediatamente de la desigualdad de Jensen :
- Monotonicidad : si κ es una probabilidad de transición arbitraria que transforma las medidas P y Q en P κ y Q κ correspondientemente, entonces
- La igualdad aquí es válida si y solo si la transición se induce a partir de una estadística suficiente con respecto a { P , Q }.
- Convexidad conjunta : para cualquier 0 ≤ λ ≤ 1
En particular, la monotonicidad implica que si un proceso de Markov tiene una distribución de probabilidad de equilibrio positiva luego es una función monótona (no creciente) del tiempo, donde la distribución de probabilidad es una solución de las ecuaciones progresivas de Kolmogorov (o ecuación maestra ), que se utiliza para describir la evolución en el tiempo de la distribución de probabilidad en el proceso de Markov. Esto significa que todas las f- divergenciasson las funciones de Lyapunov de las ecuaciones de avance de Kolmogorov. La afirmación inversa también es cierta: si es una función de Lyapunov para todas las cadenas de Markov con equilibrio positivo y es de la forma de traza () luego , para alguna función convexa f . [2] [3] Por ejemplo, las divergencias de Bregman en general no tienen tal propiedad y pueden aumentar en los procesos de Markov. [4]
Interpretación financiera
Un par de distribuciones de probabilidad puede verse como un juego de azar en el que una de las distribuciones define las probabilidades oficiales y la otra contiene las probabilidades reales. El conocimiento de las probabilidades reales permite que un jugador se beneficie del juego. Para una gran clase de jugadores racionales, la tasa de beneficio esperada tiene la misma forma general que la ƒ- divergencia. [5]
Ver también
Referencias
- ^ Rényi, Alfréd (1961). Sobre medidas de entropía e información (PDF) . El 4º Simposio de Berkeley sobre Matemáticas, Estadística y Probabilidad, 1960. Berkeley, CA: University of California Press. págs. 547–561.Eq. (4,20)
- ^ Gorban, Pavel A. (15 de octubre de 2003). "Entropías monotónicamente equivalentes y solución de ecuación de aditividad". Un Physica . 328 (3–4): 380–390. arXiv : cond-mat / 0304131 . doi : 10.1016 / S0378-4371 (03) 00578-8 .
- ^ Amari, Shun'ichi (2009). Leung, CS; Lee, M .; Chan, JH (eds.). Divergencia, Optimización, Geometría . La 16ª Conferencia Internacional sobre Procesamiento de Información Neural (ICONIP 20009), Bangkok, Tailandia, 1 a 5 de diciembre de 2009. Lecture Notes in Computer Science, vol 5863. Berlín, Heidelberg: Springer. págs. 185-193. doi : 10.1007 / 978-3-642-10677-4_21 .
- ^ Gorban, Alexander N. (29 de abril de 2014). "Teorema general H y entropías que violan la segunda ley". Entropía . 16 (5): 2408–2432. arXiv : 1212.6767 . doi : 10.3390 / e16052408 .
- ^ Soklakov, Andrei N. (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi" . Entropía . 22 (8): 860. doi : 10.3390 / e22080860 .
- Csiszár, I. (1963). "Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten". Magiar. Tud. Akad. Estera. Internacional de Kutato Kozl . 8 : 85-108.CS1 maint: ref duplica el valor predeterminado ( enlace )
- Morimoto, T. (1963). "Procesos de Markov y el teorema H". J. Phys. Soc. Jpn . 18 (3): 328–331. Código Bibliográfico : 1963JPSJ ... 18..328M . doi : 10.1143 / JPSJ.18.328 .CS1 maint: ref duplica el valor predeterminado ( enlace )
- Ali, SM; Silvey, SD (1966). "Una clase general de coeficientes de divergencia de una distribución de otra". Revista de la Sociedad Real de Estadística , Serie B . 28 (1): 131-142. JSTOR 2984279 . Señor 0196777 .CS1 maint: ref duplica el valor predeterminado ( enlace )
- Csiszár, I. (1967). "Medidas de tipo información de diferencia de distribuciones de probabilidad y observación indirecta". Studia Scientiarum Mathematicarum Hungarica . 2 : 229–318.
- Csiszár, I .; Shields, P. (2004). "Teoría de la información y estadística: un tutorial" (PDF) . Fundamentos y Tendencias en Teoría de la Información y las Comunicaciones . 1 (4): 417–528. doi : 10.1561 / 0100000004 . Consultado el 8 de abril de 2009 .
- Liese, F .; Vajda, I. (2006). "Sobre divergencias e informaciones en estadística y teoría de la información". Transacciones IEEE sobre teoría de la información . 52 (10): 4394–4412. doi : 10.1109 / TIT.2006.881731 .CS1 maint: ref duplica el valor predeterminado ( enlace )
- Nielsen, F .; Nock, R. (2013). "En las distancias Chi cuadrado y Chi de orden superior para aproximar f-divergencias". Cartas de procesamiento de señales IEEE . 21 : 10-13. arXiv : 1309.3029 . Código bibliográfico : 2014ISPL ... 21 ... 10N . doi : 10.1109 / LSP.2013.2288355 .CS1 maint: ref duplica el valor predeterminado ( enlace )
- Coeurjolly, JF .; Drouilhet, R. (2006). "Divergencias basadas en información normalizada". arXiv : matemáticas / 0604246 .