f- divergencia

En teoría de la probabilidad , un ƒ -divergence es una función D _f ( P || Q ) que mide la diferencia entre dos distribuciones de probabilidad P y Q . Ayuda a la intuición pensar en la divergencia como un promedio, ponderado por la función f , de la razón de probabilidades dada por P y Q ^{[ cita requerida ]} .

Estas divergencias fueron introducidas por Alfréd Rényi ^[1] en el mismo artículo donde introdujo la conocida entropía de Rényi . Demostró que estas divergencias disminuyen en los Procesos de Markov . f -divergences se estudiaron adicionalmente de forma independiente por Csiszár (1963) , Morimoto (1963) y Ali y Silvey (1966) y, a veces se conocen como Csiszár ƒ -divergences, divergencias Csiszár-Morimoto o distancias Ali-Silvey.

Definición

Deje que P y Q sean dos distribuciones de probabilidad más de un Ω espacio de tal manera que P es absolutamente continua con respecto a Q . Entonces, para una función convexa f tal que f (1) = 0, la f -divergencia de P de Q se define como

{\ Displaystyle D_ {f} (P \ paralelo Q) \ equiv \ int _ {\ Omega} f \ left ({\ frac {dP} {dQ}} \ right) \, dQ.}

Si P y Q son ambas absolutamente continua con respecto a una distribución de referencia μ en Ω entonces su densidades de probabilidad p y q satisfacer dP = p dμ y dQ = q dμ . En este caso, la divergencia f se puede escribir como

{\ Displaystyle D_ {f} (P \ paralelo Q) = \ int _ {\ Omega} f \ left ({\ frac {p (x)} {q (x)}} \ right) q (x) \, d \ mu (x).}

Las f-divergencias pueden expresarse utilizando series de Taylor y reescribirse utilizando una suma ponderada de distancias de tipo chi ( Nielsen y Nock (2013) ).

Ejemplos de f- divergencias

Muchas divergencias comunes, como la divergencia KL , la distancia Hellinger y la distancia de variación total , son casos especiales de divergencia f , que coinciden con una elección particular de f . La siguiente tabla enumera muchas de las divergencias comunes entre las distribuciones de probabilidad y la función f a la que corresponden (cf. Liese y Vajda (2006) ).

Divergencia	Correspondiente f (t)
KL-divergencia	${\ Displaystyle t \ log t}$
divergencia KL inversa	${\ Displaystyle - \ log t}$
distancia de Hellinger al cuadrado	${\ Displaystyle ({\ sqrt {t}} - 1) ^ {2}, \, 2 (1 - {\ sqrt {t}})}$
Distancia de variación total	${\ Displaystyle {\ frac {1} {2}} \| t-1 \| \,}$
Pearson ${\ Displaystyle \ chi ^ {2}}$ -divergencia	${\ Displaystyle (t-1) ^ {2}, \, t ^ {2} -1, \, t ^ {2} -t}$
Neyman ${\ Displaystyle \ chi ^ {2}}$ -divergencia (Pearson inverso)	${\ Displaystyle {\ frac {1} {t}} - 1, \, {\ frac {1} {t}} - t}$
α-divergencia	${\ displaystyle {\ begin {cases} {\ frac {4} {1- \ alpha ^ {2}}} {\ big (} 1-t ^ {(1+ \ alpha) / 2} {\ big)} , & {\ text {if}} \ \ alpha \ neq \ pm 1, \\ t \ ln t, & {\ text {if}} \ \ alpha = 1, \\ - \ ln t, & {\ text {if}} \ \ alpha = -1 \ end {cases}}}$
Divergencia Jensen-Shannon	${\ Displaystyle {\ frac {1} {2}} [(t + 1) \ log {\ big (} {\ frac {2} {t + 1}} {\ big)} + t \ log t]}$
α-divergencia (otra denominación)	${\ displaystyle {\ begin {cases} {\ frac {t ^ {\ alpha} -t} {\ alpha (\ alpha -1)}}, & {\ text {if}} \ \ alpha \ neq 0, \ , \ alpha \ neq 1, \\ t \ ln t, & {\ text {if}} \ \ alpha = 1, \\ - \ ln t, & {\ text {if}} \ \ alpha = 0 \ end {casos}}}$

La función ${\ Displaystyle f (t)}$ se define hasta el summand ${\ Displaystyle c (t-1)}$ , dónde ${\ Displaystyle c}$ es cualquier constante.

Propiedades

No negatividad : la ƒ- divergencia es siempre positiva; es cero si las medidas P y Q coinciden. Esto se sigue inmediatamente de la desigualdad de Jensen :
${\ Displaystyle D_ {f} (P \! \ paralelo \! Q) = \ int \! f {\ bigg (} {\ frac {dP} {dQ}} {\ bigg)} dQ \ geq f {\ bigg (} \ int {\ frac {dP} {dQ}} dQ {\ bigg)} = f (1) = 0.}$
Monotonicidad : si κ es una probabilidad de transición arbitraria que transforma las medidas P y Q en P _κ y Q _κ correspondientemente, entonces
${\ Displaystyle D_ {f} (P \! \ paralelo \! Q) \ geq D_ {f} (P _ {\ kappa} \! \ paralelo \! Q _ {\ kappa}).}$
La igualdad aquí es válida si y solo si la transición se induce a partir de una estadística suficiente con respecto a { P , Q }.
Convexidad conjunta : para cualquier 0 ≤ λ ≤ 1
${\ Displaystyle D_ {f} {\ Big (} \ lambda P_ {1} + (1- \ lambda) P_ {2} \ paralelo \ lambda Q_ {1} + (1- \ lambda) Q_ {2} {\ Grande)} \ leq \ lambda D_ {f} (P_ {1} \! \ Paralelo \! Q_ {1}) + (1- \ lambda) D_ {f} (P_ {2} \! \ Paralelo \! Q_ {2}).}$
Esto se sigue de la convexidad del mapeo. ${\ Displaystyle (p, q) \ mapsto qf (p / q)}$ en ${\ Displaystyle \ mathbb {R} _ {+} ^ {2}}$ .

En particular, la monotonicidad implica que si un proceso de Markov tiene una distribución de probabilidad de equilibrio positiva ${\ Displaystyle P ^ {*}}$ luego ${\ Displaystyle D_ {f} (P (t) \ paralelo P ^ {*})}$ es una función monótona (no creciente) del tiempo, donde la distribución de probabilidad ${\ Displaystyle P (t)}$ es una solución de las ecuaciones progresivas de Kolmogorov (o ecuación maestra ), que se utiliza para describir la evolución en el tiempo de la distribución de probabilidad en el proceso de Markov. Esto significa que todas las f- divergencias ${\ Displaystyle D_ {f} (P (t) \ paralelo P ^ {*})}$ son las funciones de Lyapunov de las ecuaciones de avance de Kolmogorov. La afirmación inversa también es cierta: si ${\ Displaystyle H (P)}$ es una función de Lyapunov para todas las cadenas de Markov con equilibrio positivo ${\ Displaystyle P ^ {*}}$ y es de la forma de traza ( ${\ Displaystyle H (P) = \ sum _ {i} f (P_ {i}, P_ {i} ^ {*})}$ ) luego ${\ Displaystyle H (P) = D_ {f} (P (t) \ paralelo P ^ {*})}$ , para alguna función convexa f . ^[2]^[3] Por ejemplo, las divergencias de Bregman en general no tienen tal propiedad y pueden aumentar en los procesos de Markov. ^[4]

Interpretación financiera

Un par de distribuciones de probabilidad puede verse como un juego de azar en el que una de las distribuciones define las probabilidades oficiales y la otra contiene las probabilidades reales. El conocimiento de las probabilidades reales permite que un jugador se beneficie del juego. Para una gran clase de jugadores racionales, la tasa de beneficio esperada tiene la misma forma general que la ƒ- divergencia. ^[5]

Ver también

Referencias

^ Rényi, Alfréd (1961). Sobre medidas de entropía e información (PDF) . El 4º Simposio de Berkeley sobre Matemáticas, Estadística y Probabilidad, 1960. Berkeley, CA: University of California Press. págs. 547–561.Eq. (4,20)
^ Gorban, Pavel A. (15 de octubre de 2003). "Entropías monotónicamente equivalentes y solución de ecuación de aditividad". Un Physica . 328 (3–4): 380–390. arXiv : cond-mat / 0304131 . doi : 10.1016 / S0378-4371 (03) 00578-8 .
^ Amari, Shun'ichi (2009). Leung, CS; Lee, M .; Chan, JH (eds.). Divergencia, Optimización, Geometría . La 16ª Conferencia Internacional sobre Procesamiento de Información Neural (ICONIP 20009), Bangkok, Tailandia, 1 a 5 de diciembre de 2009. Lecture Notes in Computer Science, vol 5863. Berlín, Heidelberg: Springer. págs. 185-193. doi : 10.1007 / 978-3-642-10677-4_21 .
^ Gorban, Alexander N. (29 de abril de 2014). "Teorema general H y entropías que violan la segunda ley". Entropía . 16 (5): 2408–2432. arXiv : 1212.6767 . doi : 10.3390 / e16052408 .
^ Soklakov, Andrei N. (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi" . Entropía . 22 (8): 860. doi : 10.3390 / e22080860 .

Csiszár, I. (1963). "Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten". Magiar. Tud. Akad. Estera. Internacional de Kutato Kozl . 8 : 85-108.CS1 maint: ref duplica el valor predeterminado ( enlace )
Morimoto, T. (1963). "Procesos de Markov y el teorema H". J. Phys. Soc. Jpn . 18 (3): 328–331. Código Bibliográfico : 1963JPSJ ... 18..328M . doi : 10.1143 / JPSJ.18.328 .CS1 maint: ref duplica el valor predeterminado ( enlace )
Ali, SM; Silvey, SD (1966). "Una clase general de coeficientes de divergencia de una distribución de otra". Revista de la Sociedad Real de Estadística , Serie B . 28 (1): 131-142. JSTOR 2984279 . Señor 0196777 .CS1 maint: ref duplica el valor predeterminado ( enlace )
Csiszár, I. (1967). "Medidas de tipo información de diferencia de distribuciones de probabilidad y observación indirecta". Studia Scientiarum Mathematicarum Hungarica . 2 : 229–318.
Csiszár, I .; Shields, P. (2004). "Teoría de la información y estadística: un tutorial" (PDF) . Fundamentos y Tendencias en Teoría de la Información y las Comunicaciones . 1 (4): 417–528. doi : 10.1561 / 0100000004 . Consultado el 8 de abril de 2009 .
Liese, F .; Vajda, I. (2006). "Sobre divergencias e informaciones en estadística y teoría de la información". Transacciones IEEE sobre teoría de la información . 52 (10): 4394–4412. doi : 10.1109 / TIT.2006.881731 .CS1 maint: ref duplica el valor predeterminado ( enlace )
Nielsen, F .; Nock, R. (2013). "En las distancias Chi cuadrado y Chi de orden superior para aproximar f-divergencias". Cartas de procesamiento de señales IEEE . 21 : 10-13. arXiv : 1309.3029 . Código bibliográfico : 2014ISPL ... 21 ... 10N . doi : 10.1109 / LSP.2013.2288355 .CS1 maint: ref duplica el valor predeterminado ( enlace )
Coeurjolly, JF .; Drouilhet, R. (2006). "Divergencias basadas en información normalizada". arXiv : matemáticas / 0604246 .

[1] Rényi, Alfréd (1961). Sobre medidas de entropía e información (PDF) . El 4º Simposio de Berkeley sobre Matemáticas, Estadística y Probabilidad, 1960. Berkeley, CA: University of California Press. págs. 547–561.Eq. (4,20)

[2] Gorban, Pavel A. (15 de octubre de 2003). "Entropías monotónicamente equivalentes y solución de ecuación de aditividad". Un Physica . 328 (3–4): 380–390. arXiv : cond-mat / 0304131 . doi : 10.1016 / S0378-4371 (03) 00578-8 .

[3] Amari, Shun'ichi (2009). Leung, CS; Lee, M .; Chan, JH (eds.). Divergencia, Optimización, Geometría . La 16ª Conferencia Internacional sobre Procesamiento de Información Neural (ICONIP 20009), Bangkok, Tailandia, 1 a 5 de diciembre de 2009. Lecture Notes in Computer Science, vol 5863. Berlín, Heidelberg: Springer. págs. 185-193. doi : 10.1007 / 978-3-642-10677-4_21 .

[4] Gorban, Alexander N. (29 de abril de 2014). "Teorema general H y entropías que violan la segunda ley". Entropía . 16 (5): 2408–2432. arXiv : 1212.6767 . doi : 10.3390 / e16052408 .

[5] Soklakov, Andrei N. (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi" . Entropía . 22 (8): 860. doi : 10.3390 / e22080860 .

[1]