La desigualdad de Hoeffding

En la teoría de la probabilidad , la desigualdad de Hoeffding proporciona un límite superior a la probabilidad de que la suma de las variables aleatorias independientes limitadas se desvíe de su valor esperado en más de una cierta cantidad. La desigualdad de Hoeffding fue probada por Wassily Hoeffding en 1963. ^[1]

La desigualdad de Hoeffding es una generalización del límite de Chernoff , que se aplica sólo a las variables aleatorias de Bernoulli, ^[2] y un caso especial de la desigualdad de Azuma-Hoeffding y la desigualdad de McDiarmid . Es similar, pero incomparable, a la desigualdad de Bernstein , demostrada por Sergei Bernstein en 1923.

Caso especial de variables aleatorias de Bernoulli

La desigualdad de Hoeffding se puede aplicar al importante caso especial de las variables aleatorias de Bernoulli distribuidas de manera idéntica , y así es como la desigualdad se usa a menudo en combinatoria e informática . Consideramos una moneda que muestra cara con probabilidad $py$ cruz con probabilidad $1 -$ $p$ . Lanzamos la moneda $n$ veces. El número esperado de veces que la moneda sale cara es $pn$ . Además, la probabilidad de que la moneda salga cara como máximo $k$ veces se puede cuantificar exactamente mediante la siguiente expresión:

{\ Displaystyle \ operatorname {P} (H (n) \ leq k) = \ sum _ {i = 0} ^ {k} {\ binom {n} {i}} p ^ {i} (1-p) ^ {ni},}

donde $H (n)$ es el número de caras en $n$ lanzamientos de moneda.

Cuando $k = (p - ε) n$ para algunos $ε > 0$ , la desigualdad de Hoeffding limita esta probabilidad por un término que es exponencialmente pequeño en $ε 2 n$ :

{\ Displaystyle \ operatorname {P} (H (n) \ leq (p- \ varepsilon) n) \ leq \ exp \ left (-2 \ varepsilon ^ {2} n \ right).}

De manera similar, cuando $k = (p + ε) n$ para algunos $ε > 0$ , la desigualdad de Hoeffding limita la probabilidad de que veamos al menos $εn$ más lanzamientos que muestren $cara$ de lo que cabría esperar:

{\ Displaystyle \ operatorname {P} (H (n) \ geq (p + \ varepsilon) n) \ leq \ exp \ left (-2 \ varepsilon ^ {2} n \ right).}

Por tanto, la desigualdad de Hoeffding implica que el número de caras que vemos se concentra alrededor de su media, con una cola exponencialmente pequeña.

{\ Displaystyle \ operatorname {P} \ left ((p- \ varepsilon) n \ leq H (n) \ leq (p + \ varepsilon) n \ right) \ geq 1-2 \ exp \ left (-2 \ varepsilon ^ {2} n \ right).}

Por ejemplo, tomando ${\ Displaystyle \ varepsilon = {\ sqrt {\ dfrac {\ ln {n}} {n}}}}$ da:

{\ Displaystyle \ operatorname {P} \ left (| H (n) -pn | \ leq {\ sqrt {n \ ln n}} \ right) \ geq 1-2 \ exp \ left (-2 \ ln n \ derecha) = 1-2 / n ^ {2}.}

Caso general de variables aleatorias acotadas

Deje que $X 1, ..., X n$ ser variables aleatorias independientes delimitadas por el intervalo $[0, 1]$ : $0 \leq X i \leq 1$ . Definimos la media empírica de estas variables por

{\ Displaystyle {\ overline {X}} = {\ frac {1} {n}} (X_ {1} + \ cdots + X_ {n}).}

Una de las desigualdades en el teorema 1 de Hoeffding (1963) establece

{\ Displaystyle {\ begin {alineado} \ operatorname {P} \ left ({\ overline {X}} - \ mathrm {E} \ left [{\ overline {X}} \ right] \ geq t \ right) \ leq e ^ {- 2nt ^ {2}} \ end {alineado}}}

dónde ${\ Displaystyle t \ geq 0}$ .

El teorema 2 de Hoeffding (1963) es una generalización de la desigualdad anterior cuando se sabe que $X i$ están estrictamente limitados por los intervalos $[a i, b i]$ :

{\ Displaystyle {\ begin {alineado} \ operatorname {P} \ left ({\ overline {X}} - \ mathrm {E} \ left [{\ overline {X}} \ right] \ geq t \ right) & \ leq \ exp \ left (- {\ frac {2n ^ {2} t ^ {2}} {\ sum _ {i = 1} ^ {n} (b_ {i} -a_ {i}) ^ {2 }}} \ right) \\\ nombre de operador {P} \ left (\ left | {\ overline {X}} - \ mathrm {E} \ left [{\ overline {X}} \ right] \ right | \ geq t \ right) & \ leq 2 \ exp \ left (- {\ frac {2n ^ {2} t ^ {2}} {\ sum _ {i = 1} ^ {n} (b_ {i} -a_ { i}) ^ {2}}} \ right) \ end {alineado}}}

que son válidos para valores positivos de $t$ . Aquí $E [X]$ es el valor esperado de $X$ . Las desigualdades también se pueden expresar en términos de la suma

{\ Displaystyle S_ {n} = X_ {1} + \ cdots + X_ {n}}

de las variables aleatorias:

{\ Displaystyle \ operatorname {P} (S_ {n} - \ mathrm {E} [S_ {n}] \ geq t) \ leq \ exp \ left (- {\ frac {2t ^ {2}} {\ sum _ {i = 1} ^ {n} (b_ {i} -a_ {i}) ^ {2}}} \ derecha),}

{\ Displaystyle \ operatorname {P} (| S_ {n} - \ mathrm {E} [S_ {n}] | \ geq t) \ leq 2 \ exp \ left (- {\ frac {2t ^ {2}} {\ sum _ {i = 1} ^ {n} (b_ {i} -a_ {i}) ^ {2}}} \ derecha).}

Tenga en cuenta que las desigualdades también se mantienen cuando $X i$ se ha obtenido utilizando un muestreo sin reemplazo; en este caso, las variables aleatorias ya no son independientes. Una prueba de esta afirmación se puede encontrar en el artículo de Hoeffding. Para límites ligeramente mejores en el caso del muestreo sin reemplazo, ver, por ejemplo, el artículo de Serfling (1974) .

Caso general de variables aleatorias subgaussianas

Una variable aleatoria $X$ se llama subgaussiana, ^[3] si

{\ Displaystyle \ mathrm {P} (| X | \ geq t) \ leq 2e ^ {- ct ^ {2}},}

para algunos c> 0. Para una variable aleatoria $X$ , la siguiente norma es finita si y solo si es subgaussiana:

{\ Displaystyle \ Vert X \ Vert _ {\ psi _ {2}}: = \ inf \ left \ {c \ geq 0: \ mathrm {E} \ left (e ^ {X ^ {2} / c ^ { 2}} \ right) \ leq 2 \ right \}.}

Entonces, sean $X 1, ..., X n$ variables aleatorias subgaussianas independientes de media cero, la versión general de la desigualdad de Hoeffding establece que:

{\ Displaystyle \ mathrm {P} \ left (\ left | \ sum _ {i = 1} ^ {n} X_ {i} \ right | \ geq t \ right) \ leq 2 \ exp \ left (- {\ frac {ct ^ {2}} {\ sum _ {i = 1} ^ {n} \ Vert X_ {i} \ Vert _ {\ psi _ {2}} ^ {2}}} \ right),}

donde c > 0 es una constante absoluta. Consulte el teorema 2.6.2 de Vershynin (2018) para obtener más detalles.

Prueba

En esta sección, damos una prueba de la desigualdad de Hoeffding. ^[4] La demostración utiliza el lema de Hoeffding :

Suponga que

X

es una variable aleatoria real tal que

{\ Displaystyle \ textstyle \ operatorname {P} \ left (X \ in \ left [a, b \ right] \ right) = 1}

. Luego

{\ Displaystyle \ mathrm {E} \ left [e ^ {s \ left (X- \ mathrm {E} \ left [X \ right] \ right)} \ right] \ leq \ exp \ left ({\ tfrac { 1} {8}} s ^ {2} (ba) ^ {2} \ right).}

Usando este lema, podemos probar la desigualdad de Hoeffding. Suponga que $X 1, ..., X n$ son $n$ variables aleatorias independientes tales que

{\ Displaystyle \ operatorname {P} \ left (X_ {i} \ in [a_ {i}, b_ {i}] \ right) = 1, \ qquad 1 \ leq i \ leq n.}

Dejar

{\ Displaystyle S_ {n} = X_ {1} + \ cdots + X_ {n}.}

Entonces para $s, t > 0$ , la desigualdad de Markov y la independencia de $X i$ implica:

{\ Displaystyle {\ begin {alineado} \ operatorname {P} \ left (S_ {n} - \ mathrm {E} \ left [S_ {n} \ right] \ geq t \ right) & = \ operatorname {P} \ left (e ^ {s (S_ {n} - \ mathrm {E} \ left [S_ {n} \ right])} \ geq e ^ {st} \ right) \\ & \ leq e ^ {- st } \ mathrm {E} \ left [e ^ {s (S_ {n} - \ mathrm {E} \ left [S_ {n} \ right])} \ right] \\ & = e ^ {- st} \ prod _ {i = 1} ^ {n} \ mathrm {E} \ left [e ^ {s (X_ {i} - \ mathrm {E} \ left [X_ {i} \ right])} \ right] \ \ & \ leq e ^ {- st} \ prod _ {i = 1} ^ {n} e ^ {\ frac {s ^ {2} (b_ {i} -a_ {i}) ^ {2}} { 8}} \\ & = \ exp \ left (-st + {\ tfrac {1} {8}} s ^ {2} \ sum _ {i = 1} ^ {n} (b_ {i} -a_ {i }) ^ {2} \ right) \ end {alineado}}}

Para obtener el mejor límite superior posible, encontramos el mínimo del lado derecho de la última desigualdad en función de $s$ . Definir

{\ Displaystyle {\ begin {cases} g \ colon \ mathbf {R _ {+}} \ to \ mathbf {R} \\ g (s) = - st + {\ frac {s ^ {2}} {8}} \ sum _ {i = 1} ^ {n} (b_ {i} -a_ {i}) ^ {2} \ end {cases}}}

Tenga en cuenta que $g$ es una función cuadrática y alcanza su mínimo en

{\ Displaystyle s = {\ frac {4t} {\ sum _ {i = 1} ^ {n} (b_ {i} -a_ {i}) ^ {2}}}.}

Así obtenemos

{\ Displaystyle \ operatorname {P} \ left (S_ {n} - \ mathrm {E} \ left [S_ {n} \ right] \ geq t \ right) \ leq \ exp \ left (- {\ frac {2t ^ {2}} {\ sum _ {i = 1} ^ {n} (b_ {i} -a_ {i}) ^ {2}}} \ derecha).}

Uso

Intervalos de confianza

La desigualdad de Hoeffding es útil para analizar el número de muestras requeridas necesarias para obtener un intervalo de confianza al resolver la desigualdad en el Teorema 1:

{\ Displaystyle \ operatorname {P} ({\ overline {X}} - \ mathrm {E} [{\ overline {X}}] \ geq t) \ leq e ^ {- 2nt ^ {2}}}

La desigualdad establece que la probabilidad de que los valores estimados y verdaderos difieran en más de $t$ está limitada por e ^{−2 nt ²} . Simétricamente, la desigualdad también es válida para otro lado de la diferencia:

{\ Displaystyle \ operatorname {P} (- {\ overline {X}} + \ mathrm {E} [{\ overline {X}}] \ geq t) \ leq e ^ {- 2nt ^ {2}}}

Sumando ambos, podemos obtener una variante de dos caras de esta desigualdad:

{\ Displaystyle \ operatorname {P} (| {\ overline {X}} - \ mathrm {E} [{\ overline {X}}] | \ geq t) \ leq 2e ^ {- 2nt ^ {2}}}

Esta probabilidad se puede interpretar como el nivel de significancia ${\ Displaystyle \ alpha}$ (probabilidad de cometer un error) para un intervalo de confianza alrededor de ${\ Displaystyle \ mathrm {E} [{\ overline {X}}]}$ de tamaño 2 $t$ :

{\ Displaystyle \ alpha = \ operatorname {P} ({\ overline {X}} \ notin [\ mathrm {E} [{\ overline {X}}] - t, \ mathrm {E} [{\ overline {X }}] + t]) \ leq 2e ^ {- 2nt ^ {2}}}

Resolver lo anterior para $n$ nos da lo siguiente:

{\ Displaystyle n \ geq {\ frac {\ log (2 / \ alpha)} {2t ^ {2}}}}

Por lo tanto, requerimos al menos ${\ Displaystyle \ textstyle {\ frac {\ log (2 / \ alpha)} {2t ^ {2}}}}$ muestras para adquirir ${\ Displaystyle \ textstyle (1- \ alpha)}$ -intervalo de confianza ${\ Displaystyle \ textstyle \ mathrm {E} [{\ overline {X}}] \ pm t}$ .

Por lo tanto, el costo de adquirir el intervalo de confianza es sublineal en términos de nivel de confianza y cuadrático en términos de precisión.

Tenga en cuenta que esta desigualdad es la más conservadora de las tres del Teorema 1, y existen métodos más eficientes para estimar un intervalo de confianza .

Ver también

Desigualdad de concentración : un resumen de los límites de cola de las variables aleatorias.
Lema de Hoeffding
Desigualdades de Bernstein (teoría de la probabilidad)

Notas

^ Hoeffding (1963)
^ Nowak (2009) ; para una prueba más intuitiva, vea esta nota
↑ Kahane (1960)
^ Nowak (2009) ; para una prueba más intuitiva, vea esta nota

Referencias

Serfling, Robert J. (1974). "Desigualdades de probabilidad para la suma en muestreo sin reemplazo" . The Annals of Statistics . 2 (1): 39–48. doi : 10.1214 / aos / 1176342611 . Señor 0420967 .
Hoeffding, Wassily (1963). "Desigualdades de probabilidad para sumas de variables aleatorias acotadas" (PDF) . Revista de la Asociación Estadounidense de Estadística . 58 (301): 13–30. doi : 10.1080 / 01621459.1963.10500830 . JSTOR 2282952 . Señor 0144363 .
Nowak, Robert (2009). "Conferencia 7: Chernoff's Bound y la desigualdad de Hoeffding" (PDF) . ECE 901 (verano de 2009): Apuntes de conferencias sobre teoría del aprendizaje estadístico . Universidad de Wisconsin-Madison . Consultado el 16 de mayo de 2014 .
Vershynin, Roman (2018). Probabilidad de alta dimensión . Prensa de la Universidad de Cambridge. ISBN 9781108415194.
Kahane, JP (1960). "Propriétés locales des fonctions à séries de Fourier aléatoires". Semental. Matemáticas . 19 . págs. 1–25. [1] .

[1] Hoeffding (1963)

[2] Nowak (2009) ; para una prueba más intuitiva, vea esta nota

[3] Kahane (1960)

[4] Nowak (2009) ; para una prueba más intuitiva, vea esta nota

[1]