Convergencia uniforme en probabilidad

La convergencia uniforme en la probabilidad es una forma de convergencia en la probabilidad en la teoría asintótica estadística y la teoría de la probabilidad . Significa que, bajo ciertas condiciones, las frecuencias empíricas de todos los eventos en una cierta familia de eventos convergen a sus probabilidades teóricas . La convergencia uniforme en la probabilidad tiene aplicaciones tanto para la estadística como para el aprendizaje automático como parte de la teoría del aprendizaje estadístico .

La ley de los grandes números dice que, para cada evento individual ${\ Displaystyle A}$ , su frecuencia empírica en una secuencia de ensayos independientes converge (con alta probabilidad) a su probabilidad teórica. Sin embargo, en muchas aplicaciones surge la necesidad de juzgar simultáneamente las probabilidades de eventos de toda una clase. ${\ Displaystyle S}$ de una misma muestra. Además, se requiere que la frecuencia relativa de los eventos converja a la probabilidad de manera uniforme en toda la clase de eventos. ${\ Displaystyle S}$ ^[1] El teorema de convergencia uniforme proporciona una condición suficiente para que se mantenga esta convergencia. Aproximadamente, si la familia de eventos es suficientemente simple (su dimensión VC es suficientemente pequeña), entonces se mantiene la convergencia uniforme.

Definiciones

Para una clase de predicados ${\ Displaystyle H}$ definido en un set ${\ Displaystyle X}$ y un conjunto de muestras ${\ Displaystyle x = (x_ {1}, x_ {2}, \ dots, x_ {m})}$ , dónde ${\ Displaystyle x_ {i} \ in X}$ , la frecuencia empírica de ${\ Displaystyle h \ in H}$ en ${\ Displaystyle x}$ es

{\ Displaystyle {\ widehat {Q}} _ {x} (h) = {\ frac {1} {m}} | \ {i: 1 \ leq i \ leq m, h (x_ {i}) = 1 \} |.}

La probabilidad teórica de ${\ Displaystyle h \ in H}$ Se define como ${\ Displaystyle Q_ {P} (h) = P \ {y \ en X: h (y) = 1 \}.}$

El teorema de convergencia uniforme establece, aproximadamente, que si ${\ Displaystyle H}$ es "simple" y extraemos muestras de forma independiente (con reemplazo) de ${\ Displaystyle X}$ según cualquier distribución ${\ Displaystyle P}$ , entonces, con alta probabilidad , la frecuencia empírica estará cerca de su valor esperado , que es la probabilidad teórica. ^{[ cita requerida ]}

Aquí "simple" significa que la dimensión Vapnik-Chervonenkis de la clase ${\ Displaystyle H}$ es pequeño en relación con el tamaño de la muestra. En otras palabras, una colección suficientemente simple de funciones se comporta aproximadamente de la misma manera en una pequeña muestra aleatoria que en la distribución como un todo.

El teorema de convergencia uniforme fue probado por primera vez por Vapnik y Chervonenkis ^[1] utilizando el concepto de función de crecimiento .

Teorema de convergencia uniforme

El enunciado del teorema de convergencia uniforme es el siguiente: ^[2]

Si ${\ Displaystyle H}$ es un conjunto de ${\ Displaystyle \ {0,1 \}}$ -funciones valoradas definidas en un conjunto ${\ Displaystyle X}$ y ${\ Displaystyle P}$ es una distribución de probabilidad en ${\ Displaystyle X}$ entonces para ${\ Displaystyle \ varepsilon> 0}$ y ${\ Displaystyle m}$ un entero positivo, tenemos:

{\ Displaystyle P ^ {m} \ {| Q_ {P} (h) - {\ widehat {Q_ {x}}} (h) | \ geq \ varepsilon {\ text {para algunos}} h \ in H \ } \ leq 4 \ Pi _ {H} (2 m) e ^ {- \ varepsilon ^ {2} m / 8}.}

donde, para cualquier

{\ Displaystyle x \ in X ^ {m},}

,

{\ Displaystyle Q_ {P} (h) = P \ {(y \ en X: h (y) = 1 \},}

{\ Displaystyle {\ widehat {Q}} _ {x} (h) = {\ frac {1} {m}} | \ {i: 1 \ leq i \ leq m, h (x_ {i}) = 1 \} |}

y

{\ Displaystyle | x | = m}

.

{\ Displaystyle P ^ {m}}

indica que se toma el control de la probabilidad

{\ Displaystyle x}

que consiste en

{\ Displaystyle m}

iid se basa en la distribución

{\ Displaystyle P}

.

{\ Displaystyle \ Pi _ {H}}

se define como: Para cualquier

{\ Displaystyle \ {0,1 \}}

-funciones valoradas

{\ Displaystyle H}

encima

{\ Displaystyle X}

y

{\ Displaystyle D \ subseteq X}

,

{\ Displaystyle \ Pi _ {H} (D) = \ {h \ cap D: h \ in H \}.}

Y para cualquier número natural ${\ Displaystyle m}$ , el número demoledor ${\ Displaystyle \ Pi _ {H} (m)}$ Se define como:

{\ Displaystyle \ Pi _ {H} (m) = \ max | \ {h \ cap D: | D | = m, h \ in H \} |.}

Desde el punto de vista de la teoría del aprendizaje, uno puede considerar ${\ Displaystyle H}$ para ser la clase de concepto / hipótesis definida sobre el conjunto de instancias ${\ Displaystyle X}$ . Antes de entrar en los detalles de la demostración del teorema, enunciaremos el Lema de Sauer que necesitaremos en nuestra demostración.

Lema de Sauer-Shelah

El lema de Sauer-Shelah ^[3] relata el número devastador ${\ Displaystyle \ Pi _ {h} (m)}$ a la dimensión VC.

Lema: ${\ Displaystyle \ Pi _ {H} (m) \ leq \ left ({\ frac {em} {d}} \ right) ^ {d}}$ , dónde ${\ Displaystyle d}$ es la dimensión VC de la clase de concepto ${\ Displaystyle H}$ .

Corolario: ${\ Displaystyle \ Pi _ {H} (m) \ leq m ^ {d}}$ .

Prueba del teorema de convergencia uniforme

^[1] y^[2] son las fuentes de la siguiente prueba. Antes de entrar en los detalles de la demostración del Teorema de convergencia uniforme , presentaremos una descripción general de alto nivel de la demostración.

Simetrización: Transformamos el problema de analizar ${\ Displaystyle | Q_ {P} (h) - {\ widehat {Q}} _ {x} (h) | \ geq \ varepsilon}$ en el problema de analizar ${\ Displaystyle | {\ widehat {Q}} _ {r} (h) - {\ widehat {Q}} _ {s} (h) | \ geq \ varepsilon / 2}$ , dónde ${\ Displaystyle r}$ y ${\ Displaystyle s}$ son iid muestras de tamaño ${\ Displaystyle m}$ dibujado según la distribución ${\ Displaystyle P}$ . Uno puede ver ${\ Displaystyle r}$ como la muestra original de longitud extraída al azar ${\ Displaystyle m}$ , tiempo ${\ Displaystyle s}$ puede pensarse como la muestra de prueba que se utiliza para estimar ${\ Displaystyle Q_ {P} (h)}$ .
Permutación: desde ${\ Displaystyle r}$ y ${\ Displaystyle s}$ se seleccionan de forma idéntica e independiente, por lo que intercambiar elementos entre ellos no cambiará la distribución de probabilidad en ${\ Displaystyle r}$ y ${\ Displaystyle s}$ . Entonces, intentaremos acotar la probabilidad de ${\ Displaystyle | {\ widehat {Q}} _ {r} (h) - {\ widehat {Q}} _ {s} (h) | \ geq \ varepsilon / 2}$ para algunos ${\ Displaystyle h \ in H}$ considerando el efecto de una colección específica de permutaciones de la muestra conjunta ${\ Displaystyle x = r || s}$ . Específicamente, consideramos permutaciones ${\ Displaystyle \ sigma (x)}$ cual intercambio ${\ Displaystyle x_ {i}}$ y ${\ Displaystyle x_ {m + i}}$ en algún subconjunto de ${\ Displaystyle {1,2, ..., m}}$ . El símbolo ${\ Displaystyle r || s}$ significa la concatenación de ${\ Displaystyle r}$ y ${\ Displaystyle s}$ . ^{[ cita requerida ]}
Reducción a una clase finita: ahora podemos restringir la clase de función ${\ Displaystyle H}$ a una muestra conjunta fija y, por tanto, si ${\ Displaystyle H}$ tiene una dimensión VC finita, se reduce al problema a uno que involucra una clase de función finita.

Presentamos los detalles técnicos de la prueba.

Simetrización

Lema: dejar ${\ Displaystyle V = \ {x \ in X ^ {m}: | Q_ {P} (h) - {\ widehat {Q}} _ {x} (h) | \ geq \ varepsilon {\ text {para algunos }} h \ in H \}}$ y

{\ Displaystyle R = \ {(r, s) \ in X ^ {m} \ times X ^ {m}: | {\ widehat {Q_ {r}}} (h) - {\ widehat {Q}} _ {s} (h) | \ geq \ varepsilon / 2 {\ text {para algunos}} h \ in H \}.}

Entonces para ${\ Displaystyle m \ geq {\ frac {2} {\ varepsilon ^ {2}}}}$ , ${\ Displaystyle P ^ {m} (V) \ leq 2P ^ {2m} (R)}$ .

Prueba: por la desigualdad del triángulo,
si ${\ Displaystyle | Q_ {P} (h) - {\ widehat {Q}} _ {r} (h) | \ geq \ varepsilon}$ y ${\ Displaystyle | Q_ {P} (h) - {\ widehat {Q}} _ {s} (h) | \ leq \ varepsilon / 2}$ luego ${\ Displaystyle | {\ widehat {Q}} _ {r} (h) - {\ widehat {Q}} _ {s} (h) | \ geq \ varepsilon / 2}$ .

Por lo tanto,

{\ Displaystyle {\ begin {alineado} & P ^ {2m} (R) \\ [5pt] \ geq {} & P ^ {2m} \ {\ existe h \ en H, | Q_ {P} (h) - { \ widehat {Q}} _ {r} (h) | \ geq \ varepsilon {\ text {y}} | Q_ {P} (h) - {\ widehat {Q}} _ {s} (h) | \ leq \ varepsilon / 2 \} \\ [5pt] = {} & \ int _ {V} P ^ {m} \ {s: \ existe h \ en H, | Q_ {P} (h) - {\ widehat {Q}} _ {r} (h) | \ geq \ varepsilon {\ text {y}} | Q_ {P} (h) - {\ widehat {Q}} _ {s} (h) | \ leq \ varepsilon / 2 \} \, dP ^ {m} (r) \\ [5pt] = {} & A \ end {alineado}}}

desde ${\ Displaystyle r}$ y ${\ Displaystyle s}$ son independientes.

Ahora para ${\ Displaystyle r \ in V}$ arreglar un ${\ Displaystyle h \ in H}$ tal que ${\ Displaystyle | Q_ {P} (h) - {\ widehat {Q}} _ {r} (h) | \ geq \ varepsilon}$ . Para esto ${\ Displaystyle h}$ , mostraremos que

{\ Displaystyle P ^ {m} \ left \ {| Q_ {P} (h) - {\ widehat {Q}} _ {s} (h) | \ leq {\ frac {\ varepsilon} {2}} \ derecha \} \ geq {\ frac {1} {2}}.}

Por lo tanto, para cualquier ${\ Displaystyle r \ in V}$ , ${\ Displaystyle A \ geq {\ frac {P ^ {m} (V)} {2}}}$ y por lo tanto ${\ Displaystyle P ^ {2m} (R) \ geq {\ frac {P ^ {m} (V)} {2}}}$ . Y por eso realizamos el primer paso de nuestra idea de alto nivel.

Darse cuenta, ${\ Displaystyle m \ cdot {\ widehat {Q}} _ {s} (h)}$ es una variable aleatoria binomial con expectativa ${\ Displaystyle m \ cdot Q_ {P} (h)}$ y varianza ${\ Displaystyle m \ cdot Q_ {P} (h) (1-Q_ {P} (h))}$ . Por la desigualdad de Chebyshev obtenemos

{\ Displaystyle P ^ {m} \ left \ {| Q_ {P} (h) - {\ widehat {Q_ {s} (h)}} |> {\ frac {\ varepsilon} {2}} \ right \ } \ leq {\ frac {m \ cdot Q_ {P} (h) (1-Q_ {P} (h))} {(\ varepsilon m / 2) ^ {2}}} \ leq {\ frac {1 } {\ varepsilon ^ {2} m}} \ leq {\ frac {1} {2}}}

para el mencionado límite en ${\ Displaystyle m}$ . Aquí usamos el hecho de que ${\ Displaystyle x (1-x) \ leq 1/4}$ por ${\ Displaystyle x}$ .

Permutaciones

Dejar ${\ Displaystyle \ Gamma _ {m}}$ ser el conjunto de todas las permutaciones de ${\ Displaystyle \ {1,2,3, \ dots, 2m \}}$ que intercambia ${\ Displaystyle i}$ y ${\ Displaystyle m + i}$ ${\ Displaystyle \ forall i}$ en algún subconjunto de ${\ Displaystyle \ {1,2,3, \ ldots, 2m \}}$ .

Lema: dejar ${\ Displaystyle R}$ ser cualquier subconjunto de ${\ Displaystyle X ^ {2m}}$ y ${\ Displaystyle P}$ cualquier distribución de probabilidad en ${\ Displaystyle X}$ . Luego,

{\ Displaystyle P ^ {2m} (R) = E [\ Pr [\ sigma (x) \ in R]] \ leq \ max _ {x \ in X ^ {2m}} (\ Pr [\ sigma (x ) \ en R]),}

donde la expectativa se acabó ${\ Displaystyle x}$ elegido de acuerdo a ${\ Displaystyle P ^ {2m}}$ , y la probabilidad ha terminado ${\ Displaystyle \ sigma}$ elegido uniformemente de ${\ Displaystyle \ Gamma _ {m}}$ .

Prueba: para cualquier ${\ Displaystyle \ sigma \ in \ Gamma _ {m},}$

{\ Displaystyle P ^ {2m} (R) = P ^ {2m} \ {x: \ sigma (x) \ in R \}}

(dado que las permutaciones de coordenadas conservan la distribución del producto ${\ Displaystyle P ^ {2m}}$ .)

{\ Displaystyle {\ begin {alineado} \ por lo tanto P ^ {2m} (R) = {} & \ int _ {X ^ {2m}} 1_ {R} (x) \, dP ^ {2m} (x) \\ [5pt] = {} & {\ frac {1} {| \ Gamma _ {m} |}} \ sum _ {\ sigma \ in \ Gamma _ {m}} \ int _ {X ^ {2m} } 1_ {R} (\ sigma (x)) \, dP ^ {2m} (x) \\ [5pt] = {} & \ int _ {X ^ {2m}} {\ frac {1} {| \ Gamma _ {m} |}} \ sum _ {\ sigma \ in \ Gamma _ {m}} 1_ {R} (\ sigma (x)) \, dP ^ {2m} (x) \\ [5pt] & {\ text {(porque}} | \ Gamma _ {m} | {\ text {es finito)}} \\ [5pt] = {} & \ int _ {X ^ {2m}} \ Pr [\ sigma ( x) \ in R] \, dP ^ {2m} (x) \ quad {\ text {(la expectativa)}} \\ [5pt] \ leq {} & \ max _ {x \ in X ^ {2m} } (\ Pr [\ sigma (x) \ in R]). \ End {alineado}}}

Se garantiza que existe el máximo ya que solo hay un conjunto finito de valores que la probabilidad bajo una permutación aleatoria puede tomar.

Reducción a una clase finita

Lema: Basándose en el lema anterior,

{\ Displaystyle \ max _ {x \ in X ^ {2m}} (\ Pr [\ sigma (x) \ in R]) \ leq 4 \ Pi _ {H} (2m) e ^ {- \ varepsilon ^ { 2} m / 8}}

.

Prueba: definamos ${\ Displaystyle x = (x_ {1}, x_ {2}, \ ldots, x_ {2m})}$ y ${\ Displaystyle t = | H | _ {x} |}$ que es como mucho ${\ Displaystyle \ Pi _ {H} (2 m)}$ . Esto significa que hay funciones ${\ Displaystyle h_ {1}, h_ {2}, \ ldots, h_ {t} \ in H}$ tal que para cualquier ${\ Displaystyle h \ en H, \ existe i}$ Entre ${\ Displaystyle 1}$ y ${\ Displaystyle t}$ con ${\ Displaystyle h_ {i} (x_ {k}) = h (x_ {k})}$ por ${\ Displaystyle 1 \ leq k \ leq 2m.}$

Vemos eso ${\ Displaystyle \ sigma (x) \ in R}$ si para algunos ${\ Displaystyle h}$ en ${\ Displaystyle H}$ satisface, ${\ Displaystyle | {\ frac {1} {m}} | \ {1 \ leq i \ leq m: h (x _ {\ sigma _ {i}}) = 1 \} | - {\ frac {1} { m}} | \ {m + 1 \ leq i \ leq 2m: h (x _ {\ sigma _ {i}}) = 1 \} || \ geq {\ frac {\ varepsilon} {2}}}$ . Por tanto, si definimos ${\ Displaystyle w_ {i} ^ {j} = 1}$ Si ${\ Displaystyle h_ {j} (x_ {i}) = 1}$ y ${\ Displaystyle w_ {i} ^ {j} = 0}$ de lo contrario.

Para ${\ Displaystyle 1 \ leq i \ leq m}$ y ${\ Displaystyle 1 \ leq j \ leq t}$ , tenemos eso ${\ Displaystyle \ sigma (x) \ in R}$ si para algunos ${\ Displaystyle j}$ en ${\ Displaystyle {1, \ ldots, t}}$ satisface ${\ Displaystyle | {\ frac {1} {m}} \ left (\ sum _ {i} w _ {\ sigma (i)} ^ {j} - \ sum _ {i} w _ {\ sigma (m + i )} ^ {j} \ right) | \ geq {\ frac {\ varepsilon} {2}}}$ . Por unión obligada obtenemos

{\ Displaystyle \ Pr [\ sigma (x) \ in R] \ leq t \ cdot \ max \ left (\ Pr [| {\ frac {1} {m}} \ left (\ sum _ {i} w_ { \ sigma _ {i}} ^ {j} - \ sum _ {i} w _ {\ sigma _ {m + i}} ^ {j} \ right) | \ geq {\ frac {\ varepsilon} {2}} ]\derecho)}

{\ Displaystyle \ leq \ Pi _ {H} (2m) \ cdot \ max \ left (\ Pr \ left [\ left | {\ frac {1} {m}} \ left (\ sum _ {i} w_ { \ sigma _ {i}} ^ {j} - \ sum _ {i} w _ {\ sigma _ {m + i}} ^ {j} \ right) \ right | \ geq {\ frac {\ varepsilon} {2 }}\bien bien).}

Dado que, la distribución sobre las permutaciones ${\ Displaystyle \ sigma}$ es uniforme para cada ${\ Displaystyle i}$ , entonces ${\ Displaystyle w _ {\ sigma _ {i}} ^ {j} -w _ {\ sigma _ {m + i}} ^ {j}}$ es igual a ${\ Displaystyle \ pm | w_ {i} ^ {j} -w_ {m + i} ^ {j} |}$ , con igual probabilidad.

Por lo tanto,

{\ Displaystyle \ Pr \ left [\ left | {\ frac {1} {m}} \ left (\ sum _ {i} \ left (w _ {\ sigma _ {i}} ^ {j} -w _ {\ sigma _ {m + i}} ^ {j} \ right) \ right) \ right | \ geq {\ frac {\ varepsilon} {2}} \ right] = \ Pr \ left [\ left | {\ frac { 1} {m}} \ left (\ sum _ {i} | w_ {i} ^ {j} -w_ {m + i} ^ {j} | \ beta _ {i} \ right) \ right | \ geq {\ frac {\ varepsilon} {2}} \ right],}

donde la probabilidad de la derecha ha terminado ${\ Displaystyle \ beta _ {i}}$ y ambas posibilidades son igualmente probables. Por la desigualdad de Hoeffding , esto es como mucho ${\ displaystyle 2e ^ {- m \ varepsilon ^ {2} / 8}}$ .

Finalmente, combinando las tres partes de la demostración obtenemos el Teorema de convergencia uniforme .

Referencias

^ ^a ^b ^c Vapnik, VN; Chervonenkis, A. Ya. (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264. doi : 10.1137 / 1116025 . Esta es una traducción al inglés, por B. Seckler, del periódico ruso: "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Dokl. Akad. Nauk . 181 (4): 781. 1968. La traducción se reprodujo como: Vapnik, VN; Chervonenkis, A. Ya. (2015). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Medidas de complejidad . pag. 11. doi : 10.1007 / 978-3-319-21852-6_3 . ISBN 978-3-319-21851-9.
^ ^a ^b Martin Anthony Peter, l. Bartlett. Aprendizaje de redes neuronales: Fundamentos teóricos, páginas 46–50. Primera edición, 1999. Cambridge University PressISBN 0-521-57353-X
^ Sham Kakade y Ambuj Tewari, CMSC 35900 (primavera de 2008) Teoría del aprendizaje, Conferencia 11

[vc-1] Vapnik, VN; Chervonenkis, A. Ya. (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264. doi : 10.1137 / 1116025 . Esta es una traducción al inglés, por B. Seckler, del periódico ruso: "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Dokl. Akad. Nauk . 181 (4): 781. 1968. La traducción se reprodujo como: Vapnik, VN; Chervonenkis, A. Ya. (2015). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Medidas de complejidad . pag. 11. doi : 10.1007 / 978-3-319-21852-6_3 . ISBN 978-3-319-21851-9.

[books.google.com-2] Martin Anthony Peter, l. Bartlett. Aprendizaje de redes neuronales: Fundamentos teóricos, páginas 46–50. Primera edición, 1999. Cambridge University PressISBN 0-521-57353-X

[3] Sham Kakade y Ambuj Tewari, CMSC 35900 (primavera de 2008) Teoría del aprendizaje, Conferencia 11

[1]