Desigualdad de concentración

En la teoría de la probabilidad , las desigualdades de concentración proporcionan límites sobre cómo una variable aleatoria se desvía de algún valor (normalmente, su valor esperado ). La ley de un gran número de la teoría clásica de la probabilidad establece que las sumas de variables aleatorias independientes están, en condiciones muy suaves, cercanas a su expectativa con una gran probabilidad. Estas sumas son los ejemplos más básicos de variables aleatorias concentradas alrededor de su media . Los resultados recientes muestran que tal comportamiento es compartido por otras funciones de variables aleatorias independientes.

Las desigualdades de concentración se pueden clasificar de acuerdo con la cantidad de información sobre la variable aleatoria que se necesita para usarlas.

La desigualdad de Markov

Dejar ${\ Displaystyle X}$ ser una variable aleatoria que no sea negativa ( casi con seguridad ). Entonces, por cada constante ${\ Displaystyle a> 0}$ ,

{\ Displaystyle \ Pr (X \ geq a) \ leq {\ frac {\ operatorname {E} (X)} {a}}.}

Tenga en cuenta la siguiente extensión de la desigualdad de Markov: si ${\ Displaystyle \ Phi}$ es una función estrictamente creciente y no negativa, entonces

{\ Displaystyle \ Pr (X \ geq a) = \ Pr (\ Phi (X) \ geq \ Phi (a)) \ leq {\ frac {\ operatorname {E} (\ Phi (X))} {\ Phi (a)}}.}

La desigualdad de Chebyshev

La desigualdad de Chebyshev requiere la siguiente información sobre una variable aleatoria ${\ Displaystyle X}$ :

El valor esperado ${\ Displaystyle \ operatorname {E} [X]}$ es finito.
La varianza ${\ Displaystyle \ operatorname {Var} [X] = \ operatorname {E} [(X- \ operatorname {E} [X]) ^ {2}]}$ es finito.

Entonces, por cada constante ${\ Displaystyle a> 0}$ ,

{\ Displaystyle \ Pr (| X- \ operatorname {E} [X] | \ geq a) \ leq {\ frac {\ operatorname {Var} [X]} {a ^ {2}}},}

o equivalente,

{\ Displaystyle \ Pr (| X- \ operatorname {E} [X] | \ geq a \ cdot \ operatorname {Std} [X]) \ leq {\ frac {1} {a ^ {2}}},}

dónde ${\ Displaystyle \ operatorname {Std} [X]}$ es la desviación estándar de ${\ Displaystyle X}$ .

La desigualdad de Chebyshev puede verse como un caso especial de la desigualdad de Markov generalizada aplicada a la variable aleatoria ${\ Displaystyle | X- \ operatorname {E} [X] |}$ con ${\ Displaystyle \ Phi (x) = x ^ {2}}$ .

Desigualdad de Vysochanskij-Petunin

Desigualdad de Paley-Zygmund

La desigualdad de Cantelli

La desigualdad de Gauss

Límites de Chernoff

El límite de Chernoff genérico ^[1]^{: 63–65} requiere solo la función generadora de momento de ${\ Displaystyle X}$ , definido como: ${\ Displaystyle M_ {X} (t): = \ operatorname {E} \! \ left [e ^ {tX} \ right]}$ , siempre que exista. Basado en la desigualdad de Markov, para cada ${\ Displaystyle t> 0}$ :

{\ Displaystyle \ Pr (X \ geq a) \ leq {\ frac {\ operatorname {E} [e ^ {t \ cdot X}]} {e ^ {t \ cdot a}}},}

y por cada ${\ Displaystyle t <0}$ :

{\ Displaystyle \ Pr (X \ leq a) \ leq {\ frac {\ operatorname {E} [e ^ {t \ cdot X}]} {e ^ {t \ cdot a}}}.}

Hay varios límites de Chernoff para diferentes distribuciones y diferentes valores del parámetro ${\ Displaystyle t}$ . Consulte ^[2]^{: 5–7} para obtener una recopilación de más desigualdades de concentración.

Límites en sumas de variables independientes

Dejar ${\ Displaystyle X_ {1}, X_ {2}, \ dots, X_ {n}}$ ser variables aleatorias independientes tales que, para todo i :

{\ Displaystyle a_ {i} \ leq X_ {i} \ leq b_ {i}}

casi seguro .

{\ Displaystyle c_ {i}: = b_ {i} -a_ {i}}

{\ Displaystyle \ forall i: c_ {i} \ leq C}

Dejar ${\ Displaystyle S_ {n}}$ ser su suma, ${\ Displaystyle E_ {n}}$ su valor esperado y ${\ Displaystyle V_ {n}}$ su varianza:

{\ Displaystyle S_ {n}: = \ sum _ {i = 1} ^ {n} X_ {i}}

{\ Displaystyle E_ {n}: = \ operatorname {E} [S_ {n}] = \ sum _ {i = 1} ^ {n} \ operatorname {E} [X_ {i}]}

{\ Displaystyle V_ {n}: = \ operatorname {Var} [S_ {n}] = \ sum _ {i = 1} ^ {n} \ operatorname {Var} [X_ {i}]}

A menudo es interesante acotar la diferencia entre la suma y su valor esperado. Se pueden utilizar varias desigualdades.

1. La desigualdad de Hoeffding dice que:

{\ Displaystyle \ Pr \ left [| S_ {n} -E_ {n} |> t \ right] <2 \ exp \ left (- {\ frac {2t ^ {2}} {\ sum _ {i = 1 } ^ {n} c_ {i} ^ {2}}} \ right) <2 \ exp \ left (- {\ frac {2t ^ {2}} {nC ^ {2}}} \ right)}

2. La variable aleatoria ${\ Displaystyle S_ {n} -E_ {n}}$ es un caso especial de martingala , y ${\ Displaystyle S_ {0} -E_ {0} = 0}$ . Por lo tanto, la forma general de la desigualdad de Azuma también se puede usar y produce un límite similar:

{\ Displaystyle \ Pr \ left [| S_ {n} -E_ {n} |> t \ right] <2 \ exp \ left (- {\ frac {2t ^ {2}} {\ sum _ {i = 1 } ^ {n} c_ {i} ^ {2}}} \ right) <2 \ exp \ left (- {\ frac {2t ^ {2}} {nC ^ {2}}} \ right)}

Esta es una generalización de Hoeffding ya que puede manejar otros tipos de martingalas, así como supermartingales y submartingales . Tenga en cuenta que si se usa la forma más simple de la desigualdad de Azuma, el exponente en el límite es peor por un factor de 4.

3. La función de suma, ${\ Displaystyle S_ {n} = f (X_ {1}, \ dots, X_ {n})}$ , es un caso especial de una función de n variables. Esta función cambia de forma acotada: si se cambia la variable i , el valor de f cambia como máximo ${\ Displaystyle b_ {i} -a_ {i} }>$ . Por lo tanto, la desigualdad de McDiarmid también se puede usar y produce un límite similar:

{\ Displaystyle \ Pr \ left [| S_ {n} -E_ {n} |> t \ right] <2 \ exp \ left (- {\ frac {2t ^ {2}} {\ sum _ {i = 1 } ^ {n} c_ {i} ^ {2}}} \ right) <2 \ exp \ left (- {\ frac {2t ^ {2}} {nC ^ {2}}} \ right)}

Esta es una generalización diferente de la de Hoeffding, ya que puede manejar otras funciones además de la función de suma, siempre que cambien de forma acotada.

4. desigualdad de Bennett ofrece algunas mejoras con respecto Hoeffding es cuando las varianzas de los sumandos son pequeñas en comparación con su casi segura de los límites C . Dice que:

{\ Displaystyle \ Pr \ left [| S_ {n} -E_ {n} |> t \ right] \ leq 2 \ exp \ left [- {\ frac {V_ {n}} {C ^ {2}}} h \ left ({\ frac {Ct} {V_ {n}}} \ right) \ right],}

dónde

{\ Displaystyle h (u) = (1 + u) \ log (1 + u) -u}

5. La primera de las desigualdades de Bernstein dice que:

{\ Displaystyle \ Pr \ left [| S_ {n} -E_ {n} |> t \ right] <2 \ exp \ left (- {\ frac {t ^ {2} / 2} {V_ {n} + C \ cdot t / 3}} \ derecha)}

Esta es una generalización de Hoeffding, ya que puede manejar variables aleatorias no solo con un límite casi seguro, sino con un límite casi seguro y con un límite de varianza.

6. Los límites de Chernoff tienen una forma particularmente simple en el caso de la suma de variables independientes, ya que ${\ Displaystyle \ operatorname {E} [e ^ {t \ cdot S_ {n}}] = \ prod _ {i = 1} ^ {n} {\ operatorname {E} [e ^ {t \ cdot X_ {i }}]}}$ .

Por ejemplo, ^[3] suponga que las variables ${\ Displaystyle X_ {i}}$ satisfacer ${\ Displaystyle X_ {i} \ geq E (X_ {i}) - a_ {i} -M}$ , por ${\ Displaystyle 1 \ leq i \ leq n}$ . Entonces tenemos una desigualdad de cola más baja:

{\ Displaystyle \ Pr [S_ {n} -E_ {n} <- \ lambda] \ leq \ exp \ left (- {\ frac {\ lambda ^ {2}} {2 (V_ {n} + \ sum _ {i = 1} ^ {n} a_ {i} ^ {2} + M \ lambda / 3)}} \ right)}

Si ${\ Displaystyle X_ {i}}$ satisface ${\ Displaystyle X_ {i} \ leq E (X_ {i}) + a_ {i} + M}$ , tenemos desigualdad de cola superior:

{\ Displaystyle \ Pr [S_ {n} -E_ {n}> \ lambda] \ leq \ exp \ left (- {\ frac {\ lambda ^ {2}} {2 (V_ {n} + \ sum _ { i = 1} ^ {n} a_ {i} ^ {2} + M \ lambda / 3)}} \ right)}

Si ${\ Displaystyle X_ {i}}$ son iid, ${\ Displaystyle | X_ {i} | \ leq 1}$ y ${\ Displaystyle \ sigma ^ {2}}$ es la varianza de ${\ Displaystyle X_ {i}}$ , una versión típica de la desigualdad de Chernoff es:

{\ Displaystyle \ Pr [| S_ {n} | \ geq k \ sigma] \ leq 2e ^ {- k ^ {2} / 4n} {\ text {para}} 0 \ leq k \ leq 2 \ sigma.}

7. Se pueden encontrar límites similares en: Distribución de Rademacher # Límites en sumas

Desigualdad Efron-Stein

La desigualdad de Efron-Stein (o desigualdad de influencia, o límite de MG en la varianza) limita la varianza de una función general.

Suponer que ${\ Displaystyle X_ {1} \ dots X_ {n}}$ , ${\ Displaystyle X_ {1} '\ dots X_ {n}'}$ son independientes con ${\ Displaystyle X_ {i} '}$ y ${\ Displaystyle X_ {i}}$ teniendo la misma distribución para todos ${\ Displaystyle i}$ .

Dejar ${\ Displaystyle X = (X_ {1}, \ dots, X_ {n}), X ^ {(i)} = (X_ {1}, \ dots, X_ {i-1}, X_ {i} ', X_ {i + 1}, \ puntos, X_ {n}).}$ Luego

{\ Displaystyle \ mathrm {Var} (f (X)) \ leq {\ frac {1} {2}} \ sum _ {i = 1} ^ {n} E [(f (X) -f (X ^ {(i)})) ^ {2}].}

Desigualdad de Dvoretzky – Kiefer – Wolfowitz

La desigualdad de Dvoretzky-Kiefer-Wolfowitz delimita la diferencia entre la función de distribución acumulativa real y empírica .

Dado un número natural ${\ Displaystyle n}$ , dejar ${\ Displaystyle X_ {1}, X_ {2}, \ dots, X_ {n}}$ Ser variables aleatorias independientes de valor real e idénticamente distribuidas con función de distribución acumulativa F (·). Dejar ${\ Displaystyle F_ {n}}$ denotar la función de distribución empírica asociada definida por

{\ Displaystyle F_ {n} (x) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {\ {X_ {i} \ leq x \ }}, \ qquad x \ in \ mathbb {R}.}

Entonces ${\ Displaystyle F (x)}$ es la probabilidad de que una sola variable aleatoria ${\ Displaystyle X}$ es más pequeña que ${\ Displaystyle x}$ , y ${\ Displaystyle F_ {n} (x)}$ es el número promedio de variables aleatorias que son menores que ${\ Displaystyle x}$ .

Luego

{\ Displaystyle \ Pr \ left (\ sup _ {x \ in \ mathbb {R}} {\ bigl (} F_ {n} (x) -F (x) {\ bigr)}> \ varepsilon \ right) \ leq e ^ {- 2n \ varepsilon ^ {2}} {\ text {para cada}} \ varepsilon \ geq {\ sqrt {{\ tfrac {1} {2n}} \ ln 2}}.}

Desigualdades anti-concentración

Las desigualdades anti-concentración , por otro lado, proporcionan un límite superior sobre cuánto puede concentrarse una variable aleatoria alrededor de una cantidad.

Por ejemplo, Rao y Yehudayoff ^[4] muestran que existen algunos ${\ Displaystyle C> 0}$ tal que, para la mayoría de direcciones del hipercubo ${\ Displaystyle x \ in \ {\ pm 1 \} ^ {n}}$ , lo siguiente es cierto:

{\ Displaystyle \ Pr \ left (\ langle x, Y \ rangle = k \ right) \ leq {\ frac {C} {\ sqrt {n}}},}

dónde ${\ Displaystyle Y}$ se extrae uniformemente de un subconjunto ${\ Displaystyle B \ subseteq \ {\ pm 1 \} ^ {n}}$ de tamaño suficientemente grande.

Estas desigualdades son importantes en varios campos, incluida la complejidad de la comunicación ( por ejemplo , en las pruebas del problema de Hamming de la brecha ^[5] ) y la teoría de grafos . ^[6]

Se puede obtener una desigualdad anti-concentración interesante para sumas ponderadas de variables aleatorias independientes de Rademacher utilizando las desigualdades de Paley-Zygmund y Khintchine . ^[7]

Referencias

^ Mitzenmacher, Michael; Upfal, Eli (2005). Probabilidad y computación: algoritmos aleatorios y análisis probabilístico . Prensa de la Universidad de Cambridge. ISBN 0-521-83540-2.
^ Slagle, NP (2012). "Cien estadísticas y desigualdades de probabilidad" (PDF) .
^ Chung, Fan ; Lu, Linyuan (2010). "Antiguas y nuevas desigualdades de concentración" (PDF) . Gráficos y redes complejas . Sociedad Matemática Estadounidense . Consultado el 14 de agosto de 2018 .
^ Rao, Anup; Yehudayoff, Amir (2018). "Anti-concentración en la mayoría de las direcciones" . Coloquio electrónico sobre complejidad computacional.
^ Sherstov, Alexander A. (2012). "La complejidad de la comunicación de la distancia de Gap Hamming" . Teoría de la Computación .
^ Matthew Kwan; Benny Sudakov; Tuan Tran (2018). "Anticoncentración para estadísticas de subgrafos". Revista de la Sociedad Matemática de Londres . 99 (3): 757–777. arXiv : 1807.05202 . Código bibliográfico : 2018arXiv180705202K . doi : 10.1112 / jlms.12192 . S2CID 54065186 .
^ Veraar, Mark (2009). "Sobre las desigualdades de Khintchine con un peso". arXiv : 0909.2586v1 [ math.PR ].

enlaces externos

Karthik Sridharan, " Una suave introducción a las desigualdades de concentración " - Universidad de Cornell

[MitzenmacherUpfal-1] Mitzenmacher, Michael; Upfal, Eli (2005). Probabilidad y computación: algoritmos aleatorios y análisis probabilístico . Prensa de la Universidad de Cambridge. ISBN 0-521-83540-2.

[OneHundredNPS-2] Slagle, NP (2012). "Cien estadísticas y desigualdades de probabilidad" (PDF) .

[ChungChernoff-3] Chung, Fan ; Lu, Linyuan (2010). "Antiguas y nuevas desigualdades de concentración" (PDF) . Gráficos y redes complejas . Sociedad Matemática Estadounidense . Consultado el 14 de agosto de 2018 .

[RaoYehudayoff-4] Rao, Anup; Yehudayoff, Amir (2018). "Anti-concentración en la mayoría de las direcciones" . Coloquio electrónico sobre complejidad computacional.

[Sherstov-5] Sherstov, Alexander A. (2012). "La complejidad de la comunicación de la distancia de Gap Hamming" . Teoría de la Computación .

[Kwan-6] Matthew Kwan; Benny Sudakov; Tuan Tran (2018). "Anticoncentración para estadísticas de subgrafos". Revista de la Sociedad Matemática de Londres . 99 (3): 757–777. arXiv : 1807.05202 . Código bibliográfico : 2018arXiv180705202K . doi : 10.1112 / jlms.12192 . S2CID 54065186 .

[Veraar-7] Veraar, Mark (2009). "Sobre las desigualdades de Khintchine con un peso". arXiv : 0909.2586v1 [ math.PR ].

[1]