Distancia de variación total de las medidas de probabilidad

En la teoría de la probabilidad , la distancia de variación total es una medida de distancia para distribuciones de probabilidad. Es un ejemplo de métrica de distancia estadística y, a veces, se denomina distancia estadística , diferencia estadística o distancia variacional .

Definición

La distancia de variación total entre dos medidas de probabilidad P y Q en un álgebra sigma ${\ Displaystyle {\ mathcal {F}}}$ de subconjuntos del espacio muestral ${\ Displaystyle \ Omega}$ se define mediante ^[1]

{\ Displaystyle \ delta (P, Q) = \ sup _ {A \ in {\ mathcal {F}}} \ left | P (A) -Q (A) \ right |.}

De manera informal, esta es la mayor diferencia posible entre las probabilidades que las dos distribuciones de probabilidad pueden asignar al mismo evento.

Propiedades

Relación con otras distancias

La distancia de variación total está relacionada con la divergencia Kullback-Leibler por la desigualdad de Pinsker :

{\ Displaystyle \ delta (P, Q) \ leq {\ sqrt {{\ frac {1} {2}} D _ {\ mathrm {KL}} (P \ paralelo Q)}}.}

También se tiene la siguiente desigualdad, debido a Bretagnolle y Huber ^[2] (ver, también, Tsybakov ^[3] ), que tiene la ventaja de proporcionar un límite no vacío incluso cuando ${\ Displaystyle D _ {\ mathrm {KL}} (P \ paralelo Q)> 2}$ :

{\ Displaystyle \ delta (P, Q) \ leq {\ sqrt {1-e ^ {- D _ {\ mathrm {KL}} (P \ paralelo Q)}}}.}

Cuando el conjunto es contable, la distancia de variación total está relacionada con la norma L ¹ por la identidad: ^[4]

{\ Displaystyle \ delta (P, Q) = {\ frac {1} {2}} \ | PQ \ | _ {1} = {\ frac {1} {2}} \ sum _ {\ omega \ in \ Omega} | P (\ omega) -Q (\ omega) |.}

La distancia de variación total está relacionada con la distancia Hellinger ${\ Displaystyle H (P, Q)}$ como sigue: ^[5]

{\ Displaystyle H ^ {2} (P, Q) \ leq \ delta (P, Q) \ leq {\ sqrt {2}} H (P, Q) \ ,.}

Estas desigualdades siguen inmediatamente de las desigualdades entre el 1-norma y el 2-norma .

Conexión con la teoría del transporte

La distancia de variación total (o la mitad de la norma) surge como el costo de transporte óptimo, cuando la función de costo es ${\ Displaystyle c (x, y) = {\ mathbf {1}} _ {x \ neq y}}$ , es decir,

{\ Displaystyle {\ frac {1} {2}} \ | PQ \ | _ {1} = \ delta (P, Q) = \ inf _ {\ pi} \ operatorname {E} _ {\ pi} [{ \ mathbf {1}} _ {x \ neq y}],}

donde la expectativa se toma con respecto a la medida de probabilidad ${\ Displaystyle \ pi}$ en el espacio donde ${\ Displaystyle (x, y)}$ vidas, y el infimum se hace cargo de todos esos ${\ Displaystyle \ pi}$ con marginales ${\ Displaystyle P}$ y ${\ displaystyle Q}$ , respectivamente. ^[6]

Ver también

Referencias

^ Chatterjee, Sourav. "Distancias entre medidas de probabilidad" (PDF) . UC Berkeley. Archivado desde el original (PDF) el 8 de julio de 2008 . Consultado el 21 de junio de 2013 .
↑ Bretagnolle, J .; Huber, C, Estimation des densités: risque minimax , Séminaire de Probabilités, XII (Univ. Strasbourg, Strasbourg, 1976/1977), pp. 342–363, Lecture Notes in Math., 649, Springer, Berlín, 1978, Lema 2.1 (Francés).
^ Tsybakov, Alexandre B., Introducción a la estimación no paramétrica , revisada y ampliada del original francés de 2004. Traducido por Vladimir Zaiats. Springer Series en Estadística. Springer, Nueva York, 2009. xii + 214 págs. ISBN 978-0-387-79051-0 , Ecuación 2.25.
^ David A. Levin, Yuval Peres, Elizabeth L. Wilmer, Cadenas de Markov y tiempos de mezcla , 2do. Rvdo. ed. (AMS, 2017), Proposición 4.2, pág. 48.
^ Harsha, Prahladh (23 de septiembre de 2011). "Apuntes sobre la complejidad de la comunicación" (PDF) .
^ Villani, Cédric (2009). Transporte óptimo, antiguo y nuevo . Grundlehren der mathischen Wissenschaften. 338 . Springer-Verlag Berlín Heidelberg. pag. 10. doi : 10.1007 / 978-3-540-71050-9 . ISBN 978-3-540-71049-3.

Este artículo relacionado con la probabilidad es un fragmento . Puedes ayudar a Wikipedia expandiéndolo .

[Chatterjee2007-1] Chatterjee, Sourav. "Distancias entre medidas de probabilidad" (PDF) . UC Berkeley. Archivado desde el original (PDF) el 8 de julio de 2008 . Consultado el 21 de junio de 2013 .

[2] Bretagnolle, J .; Huber, C, Estimation des densités: risque minimax , Séminaire de Probabilités, XII (Univ. Strasbourg, Strasbourg, 1976/1977), pp. 342–363, Lecture Notes in Math., 649, Springer, Berlín, 1978, Lema 2.1 (Francés).

[3] Tsybakov, Alexandre B., Introducción a la estimación no paramétrica , revisada y ampliada del original francés de 2004. Traducido por Vladimir Zaiats. Springer Series en Estadística. Springer, Nueva York, 2009. xii + 214 págs. ISBN 978-0-387-79051-0 , Ecuación 2.25.

[4] David A. Levin, Yuval Peres, Elizabeth L. Wilmer, Cadenas de Markov y tiempos de mezcla , 2do. Rvdo. ed. (AMS, 2017), Proposición 4.2, pág. 48.

[5] Harsha, Prahladh (23 de septiembre de 2011). "Apuntes sobre la complejidad de la comunicación" (PDF) .

[6] Villani, Cédric (2009). Transporte óptimo, antiguo y nuevo . Grundlehren der mathischen Wissenschaften. 338 . Springer-Verlag Berlín Heidelberg. pag. 10. doi : 10.1007 / 978-3-540-71050-9 . ISBN 978-3-540-71049-3.

[1]