Teorema de Glivenko-Cantelli

En la teoría de la probabilidad , el teorema de Glivenko-Cantelli , que lleva el nombre de Valery Ivanovich Glivenko y Francesco Paolo Cantelli , determina el comportamiento asintótico de la función de distribución empírica a medida que aumenta el número de observaciones independientes e idénticamente distribuidas . ^[1]

Declaración

La convergencia uniforme de medidas empíricas más generales se convierte en una propiedad importante de las clases de funciones o conjuntos de Glivenko-Cantelli . ^[2] Las clases de Glivenko-Cantelli surgen en la teoría de Vapnik-Chervonenkis , con aplicaciones al aprendizaje automático . Las solicitudes se pueden encontrar en la econometría que hacen uso de los M-estimadores .

Asumir que ${\ Displaystyle X_ {1}, X_ {2}, \ dots}$ son variables aleatorias independientes e idénticamente distribuidas en ${\ Displaystyle \ mathbb {R}}$ con función de distribución acumulativa común ${\ Displaystyle F (x)}$ . La función de distribución empírica para ${\ Displaystyle X_ {1}, \ dots, X_ {n}}$ es definido por

{\ Displaystyle F_ {n} (x) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} I _ {[X_ {i}, \ infty)} (x) = { \ frac {1} {n}} \ izquierda | \ izquierda \ {1 \ leq i \ leq n | X_ {i} \ leq x \ derecha \} \ derecha |}

dónde ${\ Displaystyle I_ {C}}$ es la función indicadora del conjunto ${\ Displaystyle C}$ . Por cada (fijo) ${\ Displaystyle x}$ , ${\ Displaystyle F_ {n} (x)}$ es una secuencia de variables aleatorias que convergen para ${\ Displaystyle F (x)}$ casi con seguridad por la fuerte ley de los grandes números , es decir, ${\ Displaystyle F_ {n}}$ converge a ${\ Displaystyle F}$ puntual . Glivenko y Cantelli reforzaron este resultado demostrando una convergencia uniforme de ${\ Displaystyle F_ {n}}$ a ${\ Displaystyle F}$ .

Teorema

{\ Displaystyle \ | F_ {n} -F \ | _ {\ infty} = \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) | \ longrightarrow 0}

casi seguro. ^[3]

Este teorema se origina con Valery Glivenko , ^[4] y Francesco Cantelli , ^[5] en 1933.

Observaciones

Si ${\ Displaystyle X_ {n}}$ es un proceso ergódico estacionario , entonces ${\ Displaystyle F_ {n} (x)}$ converge casi con seguridad a ${\ Displaystyle F (x) = E (1_ {X_ {1} \ leq x})}$ . El teorema de Glivenko-Cantelli da un modo de convergencia más fuerte que este en el caso iid .
Un resultado de convergencia uniforme aún más fuerte para la función de distribución empírica está disponible en la forma de un tipo extendido de ley del logaritmo iterado . ^[6] Consulte las propiedades asintóticas de la función de distribución empírica para este y los resultados relacionados.

Prueba

Para simplificar, considere un caso de variable aleatoria continua ${\ Displaystyle X}$ . Reparar ${\ Displaystyle - \ infty = x_ {0}$ tal que ${\ Displaystyle F (x_ {j}) - F (x_ {j-1}) = {\ frac {1} {m}}}$ por ${\ Displaystyle j = 1, \ dots, m}$ . Ahora para todos ${\ Displaystyle x \ in \ mathbb {R}}$ existe ${\ Displaystyle j \ in \ {1, \ dots, m \}}$ tal que ${\ Displaystyle x \ in [x_ {j-1}, x_ {j}]}$ . Tenga en cuenta que

${\ Displaystyle {\ begin {alineado} F_ {n} (x) -F (x) & \ leq F_ {n} (x_ {j}) - F (x_ {j-1}) = F_ {n} ( x_ {j}) - F (x_ {j}) + 1 / m, \\ F_ {n} (x) -F (x) & \ geq F_ {n} (x_ {j-1}) - F ( x_ {j}) = F_ {n} (x_ {j-1}) - F (x_ {j-1}) - 1 / m. \ end {alineado}}}$

Por lo tanto,

${\ Displaystyle || F_ {n} -F || _ {\ infty} = \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) | \ leq \ max _ {j \ in \ {1, \ dots, m \}} | F_ {n} (x_ {j}) - F (x_ {j}) | + 1 / m.}$

Desde ${\ textstyle \ max _ {j \ in \ {1, \ dots, m \}} | F_ {n} (x_ {j}) - F (x_ {j}) | \ to 0 {\ text {as} }}$ por la ley fuerte de los grandes números, podemos garantizar que para cualquier positivo ${\ textstyle \ epsilon}$ y cualquier entero ${\ textstyle m}$ tal que ${\ textstyle 1 / m <\ epsilon}$ , podemos encontrar ${\ textstyle N}$ tal que para todos ${\ Displaystyle n \ geq N}$ , tenemos ${\ estilo de texto | \ max _ {j \ in \ {1, \ dots, m \}} | F_ {n} (x_ {j}) - F (x_ {j}) | \ leq \ epsilon -1 / m {\ text {as}}}$ . Combinado con el resultado anterior, esto implica además que ${\ textstyle || F_ {n} -F || _ {\ infty} \ leq \ epsilon {\ text {as}}}$ , que es la definición de convergencia casi segura.

Medidas empíricas

Se puede generalizar la función de distribución empírica reemplazando el conjunto ${\ Displaystyle (- \ infty, x]}$ por un conjunto arbitrario C de una clase de conjuntos ${\ Displaystyle {\ mathcal {C}}}$ para obtener una medida empírica indexada por conjuntos ${\ Displaystyle C \ in {\ mathcal {C}}.}$

{\ Displaystyle P_ {n} (C) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} I_ {C} (X_ {i}), C \ in {\ mathcal {C}}}

Dónde ${\ Displaystyle I_ {C} (x)}$ es la función indicadora de cada conjunto ${\ Displaystyle C}$ .

Una mayor generalización es el mapa inducido por ${\ Displaystyle P_ {n}}$ en funciones medibles de valor real f , que viene dada por

{\ Displaystyle f \ mapsto P_ {n} f = \ int _ {S} f \, dP_ {n} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} f ( X_ {i}), f \ in {\ mathcal {F}}.}

Entonces se convierte en una propiedad importante de estas clases que la ley fuerte de los grandes números se mantiene uniformemente en ${\ Displaystyle {\ mathcal {F}}}$ o ${\ Displaystyle {\ mathcal {C}}}$ .

Clase Glivenko-Cantelli

Considere un conjunto ${\ Displaystyle {\ mathcal {S}}}$ con un álgebra sigma de Borel subconjuntos A y una medida de probabilidad P . Para una clase de subconjuntos,

{\ displaystyle {\ mathcal {C}} \ subset \ {C: C {\ mbox {es un subconjunto medible de}} {\ mathcal {S}} \}}

y una clase de funciones

{\ Displaystyle {\ mathcal {F}} \ subset \ {f: {\ mathcal {S}} \ to \ mathbb {R}, f {\ mbox {es medible}} \, \}}

definir variables aleatorias

{\ Displaystyle \ | P_ {n} -P \ | _ {\ mathcal {C}} = \ sup _ {C \ in {\ mathcal {C}}} | P_ {n} (C) -P (C) |}

{\ Displaystyle \ | P_ {n} -P \ | _ {\ mathcal {F}} = \ sup _ {f \ in {\ mathcal {F}}} | P_ {n} f-Pf |}

dónde ${\ Displaystyle P_ {n} (C)}$ es la medida empírica, ${\ Displaystyle P_ {n} f}$ es el mapa correspondiente, y

{\ Displaystyle \ mathbb {E} f = \ int _ {\ mathcal {S}} f \, dP = Pf}

, asumiendo que existe.

Definiciones

Una clase ${\ Displaystyle {\ mathcal {C}}}$ se denomina clase Glivenko-Cantelli (o clase GC ) con respecto a una medida de probabilidad P si alguna de las siguientes afirmaciones equivalentes es verdadera.

1.

{\ Displaystyle \ | P_ {n} -P \ | _ {\ mathcal {C}} \ to 0}

casi seguramente como

{\ Displaystyle n \ to \ infty}

.

2.

{\ Displaystyle \ | P_ {n} -P \ | _ {\ mathcal {C}} \ to 0}

en probabilidad como

{\ Displaystyle n \ to \ infty}

.

3.

{\ Displaystyle \ mathbb {E} \ | P_ {n} -P \ | _ {\ mathcal {C}} \ to 0}

, como

{\ Displaystyle n \ to \ infty}

(convergencia en la media).

Las clases de funciones Glivenko-Cantelli se definen de manera similar.

Una clase se denomina clase universal Glivenko-Cantelli si es una clase GC con respecto a cualquier medida de probabilidad P en ( S , A ).
Una clase se llama uniformemente Glivenko-Cantelli si la convergencia ocurre uniformemente en todas las medidas de probabilidad P en ( S , A ):

{\ Displaystyle \ sup _ {P \ in {\ mathcal {P}} (S, A)} \ mathbb {E} \ | P_ {n} -P \ | _ {\ mathcal {C}} \ to 0; }

{\ Displaystyle \ sup _ {P \ in {\ mathcal {P}} (S, A)} \ mathbb {E} \ | P_ {n} -P \ | _ {\ mathcal {F}} \ a 0. }

Teorema ( Vapnik y Chervonenkis , 1968) ^[7]

Una clase de conjuntos ${\ Displaystyle {\ mathcal {C}}}$ es uniformemente GC si y solo si es una clase Vapnik – Chervonenkis .

Ejemplos de

Dejar ${\ Displaystyle S = \ mathbb {R}}$ y ${\ Displaystyle {\ mathcal {C}} = \ {(- \ infty, t]: t \ in {\ mathbb {R}} \}}$ . El teorema clásico de Glivenko-Cantelli implica que esta clase es una clase GC universal. Además, según el teorema de Kolmogorov ,

{\ Displaystyle \ sup _ {P \ in {\ mathcal {P}} (S, A)} \ | P_ {n} -P \ | _ {\ mathcal {C}} \ sim n ^ {- 1/2 }}

, es decir

{\ Displaystyle {\ mathcal {C}}}

es uniformemente clase Glivenko-Cantelli.

Sea P una medida de probabilidad no atómica en S y ${\ Displaystyle {\ mathcal {C}}}$ ser una clase de todos los subconjuntos finitos en S . Porque ${\ Displaystyle A_ {n} = \ {X_ {1}, \ ldots, X_ {n} \} \ in {\ mathcal {C}}}$ , ${\ Displaystyle P (A_ {n}) = 0}$ , ${\ Displaystyle P_ {n} (A_ {n}) = 1}$ , tenemos eso ${\ Displaystyle \ | P_ {n} -P \ | _ {\ mathcal {C}} = 1}$ y entonces ${\ Displaystyle {\ mathcal {C}}}$ es no una clase de GC con respecto a P .

Ver también

Teorema de Donsker
La desigualdad de Dvoretzky-Kiefer-Wolfowitz - refuerza el teorema de Glivenko-Cantelli al cuantificar la tasa de convergencia.

Referencias

^ Howard G. Tucker (1959). "Una generalización del teorema de Glivenko-Cantelli" . Los Anales de Estadística Matemática . 30 (3): 828–830. doi : 10.1214 / aoms / 1177706212 . JSTOR 2237422 .
^ van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 279 . ISBN 978-0-521-78450-4.
^ van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 265 . ISBN 978-0-521-78450-4.
↑ Glivenko, V. (1933). Sulla determinazione empirica delle leggi di probabilità. Giorn. Ist. Ital. Attuari 4, 92-99.
↑ Cantelli, FP (1933). Sulla determinazione empirica delle leggi di probabilità. Giorn. Ist. Ital. Attuari 4, 421-424.
^ van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 268 . ISBN 978-0-521-78450-4.
^ Vapnik, VN; Chervonenkis, A. Ya (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264–280. doi : 10.1137 / 1116025 .

Otras lecturas

Dudley, RM (1999). Teoremas uniformes del límite central . Prensa de la Universidad de Cambridge. ISBN 0-521-46102-2.
Pitman, EJG (1979). "La función de distribución de la muestra". Alguna teoría básica para la inferencia estadística . Londres: Chapman y Hall. pag. 79–97. ISBN 0-470-26554-X.
Shorack, GR; Wellner, JA (1986). Procesos empíricos con aplicaciones a la estadística . Wiley. ISBN 0-471-86725-X.
van der Vaart, AW ; Wellner, JA (1996). Convergencia débil y procesos empíricos . Saltador. ISBN 0-387-94640-3.
van der Vaart, Aad W .; Wellner, Jon A. (1996). Teoremas de Glivenko-Cantelli . Saltador.
van der Vaart, Aad W .; Wellner, Jon A. (2000). Teoremas de preservación para clases Glivenko-Cantelli y uniformes Glivenko-Cantelli . Saltador.

[1] Howard G. Tucker (1959). "Una generalización del teorema de Glivenko-Cantelli" . Los Anales de Estadística Matemática . 30 (3): 828–830. doi : 10.1214 / aoms / 1177706212 . JSTOR 2237422 .

[2] van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 279 . ISBN 978-0-521-78450-4.

[3] van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 265 . ISBN 978-0-521-78450-4.

[4] Glivenko, V. (1933). Sulla determinazione empirica delle leggi di probabilità. Giorn. Ist. Ital. Attuari 4, 92-99.

[5] Cantelli, FP (1933). Sulla determinazione empirica delle leggi di probabilità. Giorn. Ist. Ital. Attuari 4, 421-424.

[6] van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 268 . ISBN 978-0-521-78450-4.

[7] Vapnik, VN; Chervonenkis, A. Ya (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264–280. doi : 10.1137 / 1116025 .

[1]