Desigualdad de Dvoretzky – Kiefer – Wolfowitz

En la teoría de la probabilidad y la estadística , la desigualdad de Dvoretzky-Kiefer-Wolfowitz-Massart limita qué tan cerca estará una función de distribución determinada empíricamente a la función de distribución de la que se extraen las muestras empíricas. Lleva el nombre de Aryeh Dvoretzky , Jack Kiefer y Jacob Wolfowitz , quienes en 1956 demostraron la desigualdad

El gráfico anterior muestra una aplicación de ejemplo de la desigualdad DKW en la construcción de límites de confianza (en violeta) alrededor de una función de distribución empírica (en azul claro). En este sorteo aleatorio, el verdadero CDF (naranja) está completamente contenido dentro de los límites de DKW.

{\ Displaystyle \ Pr {\ Bigl (} \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) |> \ varepsilon {\ Bigr)} \ leq Ce ^ { -2n \ varepsilon ^ {2}} \ qquad {\ text {para cada}} \ varepsilon> 0.}

con una constante multiplicativa C no especificada delante del exponente del lado derecho. ^[1]

En 1990, Pascal Massart demostró la desigualdad con la constante aguda C = 2, ^[2] confirmando una conjetura de Birnbaum y McCarty. ^[3] En 2021, Michael Naaman probó la versión multivariante de la desigualdad DKW y generalizó el resultado de la rigidez de Massart al caso multivariante, lo que resulta en una constante aguda del doble del número de variables, C = 2k. ^[4]

La desigualdad DKW

Dado un número natural n , sean X ₁ , X ₂ ,…, X _n variables aleatorias independientes de valor real distribuidas de forma idéntica con función de distribución acumulativa F (·). Sea F _n la función de distribución empírica asociada definida por

{\ Displaystyle F_ {n} (x) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {\ {X_ {i} \ leq x \ }}, \ qquad x \ in \ mathbb {R}.}

Entonces ${\ Displaystyle F (x)}$ es la probabilidad de que una sola variable aleatoria ${\ Displaystyle X}$ es más pequeña que ${\ Displaystyle x}$ , y ${\ Displaystyle F_ {n} (x)}$ es la fracción de variables aleatorias que son más pequeñas que ${\ Displaystyle x}$ .

La desigualdad de Dvoretzky – Kiefer – Wolfowitz limita la probabilidad de que la función aleatoria F _n difiera de F en más de una constante dada ε > 0 en cualquier lugar de la línea real. Más precisamente, existe la estimación unilateral

{\ Displaystyle \ Pr {\ Bigl (} \ sup _ {x \ in \ mathbb {R}} {\ bigl (} F_ {n} (x) -F (x) {\ bigr)}> \ varepsilon {\ Bigr)} \ leq e ^ {- 2n \ varepsilon ^ {2}} \ qquad {\ text {para cada}} \ varepsilon \ geq {\ sqrt {{\ tfrac {1} {2n}} \ ln 2}} ,}

lo que también implica una estimación bilateral ^[5]

{\ Displaystyle \ Pr {\ Bigl (} \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) |> \ varepsilon {\ Bigr)} \ leq 2e ^ { -2n \ varepsilon ^ {2}} \ qquad {\ text {para cada}} \ varepsilon> 0.}

Esto refuerza el teorema de Glivenko-Cantelli al cuantificar la tasa de convergencia cuando n tiende a infinito. También estima la probabilidad de cola del estadístico Kolmogorov-Smirnov . Las desigualdades anteriores se derivan del caso en el que F corresponde a la distribución uniforme en [0,1] en vista del hecho ^{[6] de} que F _n tiene las mismas distribuciones que G _n ( F ) donde G _n es la distribución empírica de U ₁ , U ₂ ,…, U _n donde estos son independientes y uniformes (0,1), y teniendo en cuenta que

{\ Displaystyle \ sup _ {x \ in \ mathbb {R}} | F_ {n} (x) -F (x) | \; {\ stackrel {d} {=}} \; \ sup _ {x \ en \ mathbb {R}} | G_ {n} (F (x)) - F (x) | \ leq \ sup _ {0 \ leq t \ leq 1} | G_ {n} (t) -t |, }

con igualdad si y solo si F es continua.

Caso multivariado

En el caso multivariado, X ₁ , X ₂ ,…, X _n es una secuencia iid de vectores k-dimensionales. Si F _n es la CDF empírica multivariante, entonces

{\ Displaystyle \ Pr {\ Bigl (} \ sup _ {t \ in \ mathbb {R} ^ {k}} | F_ {n} (t) -F (t) |> \ varepsilon {\ Bigr)} \ leq (n + 1) ke ^ {- 2n \ varepsilon ^ {2}}}

para todo ε, n, k> 0. El término (n + 1) se puede reemplazar con un 2 para cualquier n suficientemente grande. ^[4]

Construyendo bandas CDF

La desigualdad de Dvoretzky-Kiefer-Wolfowitz es un método para generar límites de confianza basados en CDF y producir una banda de confianza . El propósito de este intervalo de confianza es contener el CDF completo en el nivel de confianza especificado, mientras que los enfoques alternativos intentan alcanzar solo el nivel de confianza en cada punto individual que puede permitir un límite más estricto. Los límites de DKW corren paralelos a la CDF empírica y están igualmente por encima y por debajo. El intervalo de confianza igualmente espaciado alrededor de la CDF empírica permite diferentes tasas de violaciones en todo el soporte de la distribución. En particular, es más común que un CDF esté fuera del límite de CDF estimado utilizando la desigualdad DKW cerca de la mediana de la distribución que cerca de los puntos finales de la distribución.

El intervalo que contiene el verdadero CDF, ${\ Displaystyle F (x)}$ , con probabilidad ${\ Displaystyle 1- \ alpha}$ a menudo se especifica como

{\ Displaystyle F_ {n} (x) - \ varepsilon \ leq F (x) \ leq F_ {n} (x) + \ varepsilon \; {\ text {donde}} \ varepsilon = {\ sqrt {\ frac { \ ln {\ frac {2} {\ alpha}}} {2n}}}}

que es también un caso especial del procedimiento asintótico para el caso multivariado, ^{[4] en el} que se utiliza el siguiente valor crítico

{\ Displaystyle {\ frac {d (\ alpha, k)} {\ sqrt {n}}} = {\ sqrt {\ frac {\ ln {\ frac {2k} {\ alpha}}} {2n}}} }

para la prueba multivariante; se puede reemplazar 2k con k (n + 1) para una prueba que se cumple para todos los n; además, la prueba multivariante descrita por Naamán puede generalizarse para dar cuenta de la heterogeneidad y la dependencia.

Ver también

Desigualdad de concentración : un resumen de los límites en conjuntos de variables aleatorias.

Referencias

^ Dvoretzky, A .; Kiefer, J .; Wolfowitz, J. (1956), "Carácter asintótico minimax de la función de distribución muestral y del estimador multinomial clásico" , Annals of Mathematical Statistics , 27 (3): 642–669, doi : 10.1214 / aoms / 1177728174 , MR 0083864
^ Massart, P. (1990), "La constante estrecha en la desigualdad de Dvoretzky-Kiefer-Wolfowitz" , Annals of Probability , 18 (3): 1269-1283, doi : 10.1214 / aop / 1176990746 , MR 1062069
^ Birnbaum, ZW; McCarty, RC (1958). "Un límite de confianza superior libre de distribución para Pr {Y . Anales de estadística matemática . 29 : 558–562. doi : 10.1214 / aoms / 1177706631 . Señor 0093874 . Zbl 0087.34002 .
^ a b c Naamán, Michael (2021). "Sobre la constante apretada en la desigualdad multivariante de Dvoretzky-Kiefer-Wolfowitz" . Estadísticas y letras de probabilidad . 173 : 1–8 - a través de Science Direct.
^ Kosorok, MR (2008), "Capítulo 11: Resultados adicionales del proceso empírico", Introducción a los procesos empíricos y la inferencia semiparamétrica , Springer, p. 210, ISBN 9780387749778
^ Shorack, GR; Wellner, JA (1986), Procesos empíricos con aplicaciones a la estadística , Wiley, ISBN 0-471-86725-X

[Dvoretzky-1] Dvoretzky, A .; Kiefer, J .; Wolfowitz, J. (1956), "Carácter asintótico minimax de la función de distribución muestral y del estimador multinomial clásico" , Annals of Mathematical Statistics , 27 (3): 642–669, doi : 10.1214 / aoms / 1177728174 , MR 0083864

[Massart-2] Massart, P. (1990), "La constante estrecha en la desigualdad de Dvoretzky-Kiefer-Wolfowitz" , Annals of Probability , 18 (3): 1269-1283, doi : 10.1214 / aop / 1176990746 , MR 1062069

[3] Birnbaum, ZW; McCarty, RC (1958). "Un límite de confianza superior libre de distribución para Pr {Y . Anales de estadística matemática . 29 : 558–562. doi : 10.1214 / aoms / 1177706631 . Señor 0093874 . Zbl 0087.34002 .

[:0-4] Naamán, Michael (2021). "Sobre la constante apretada en la desigualdad multivariante de Dvoretzky-Kiefer-Wolfowitz" . Estadísticas y letras de probabilidad . 173 : 1–8 - a través de Science Direct.

[Kosorok-5] Kosorok, MR (2008), "Capítulo 11: Resultados adicionales del proceso empírico", Introducción a los procesos empíricos y la inferencia semiparamétrica , Springer, p. 210, ISBN 9780387749778

[Shorack-6] Shorack, GR; Wellner, JA (1986), Procesos empíricos con aplicaciones a la estadística , Wiley, ISBN 0-471-86725-X

[1]