Función de distribución empírica

En estadística , una función de distribución empírica (comúnmente también llamada función de distribución acumulativa empírica, eCDF) es la función de distribución asociada con la medida empírica de una muestra . Esta función de distribución acumulativa es una función escalonada que salta $1 / n$ en cada uno de los $n$ puntos de datos. Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.

La función de distribución empírica es una estimación de la función de distribución acumulada que generó los puntos en la muestra. Converge con probabilidad 1 a esa distribución subyacente, según el teorema de Glivenko-Cantelli . Existen varios resultados para cuantificar la tasa de convergencia de la función de distribución empírica con la función de distribución acumulativa subyacente.

Definición

Vamos $(X 1, ..., X n)$ ser independientes, idénticamente distribuidas variables aleatorias reales con el común de la función de distribución acumulada $F (t)$ . Entonces, la función de distribución empírica se define como ^[1]^[2]

{\ displaystyle {\ widehat {F}} _ {n} (t) = {\ frac {{\ mbox {número de elementos en la muestra}} \ leq t} {n}} = {\ frac {1} { n}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} \ leq t},}

dónde ${\ Displaystyle \ mathbf {1} _ {A}}$ es el indicador de evento $A$ . Para una $t$ fija , el indicador ${\ Displaystyle \ mathbf {1} _ {X_ {i} \ leq t}}$ es una variable aleatoria de Bernoulli con parámetro $p = F (t)$ ; por eso ${\ Displaystyle n {\ widehat {F}} _ {n} (t)}$ es una variable aleatoria binomial con media $nF (t)$ y varianza $nF (t) (1 - F (t))$ . Esto implica que ${\ Displaystyle {\ widehat {F}} _ {n} (t)}$ es un estimador insesgado de $F (t)$ .

Sin embargo, en algunos libros de texto, la definición se da como ${\ Displaystyle {\ widehat {F}} _ {n} (t) = {\ frac {1} {n + 1}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} \ leq t}}$ ^[3]^[4]

Significar

La media de la distribución empírica es un estimador insesgado de la media de la distribución de la población.

${\ Displaystyle E_ {n} (X) = {\ frac {1} {n}} \ left (\ sum _ {i = 1} ^ {n} {x_ {i}} \ right)}$

que se denota más comúnmente ${\ displaystyle {\ bar {x}}}$

Diferencia

La varianza de los tiempos de distribución empírica ${\ Displaystyle {\ tfrac {n} {n-1}}}$ es un estimador insesgado de la varianza de la distribución de la población.

${\ displaystyle {\ begin {alineado} \ operatorname {Var} (X) & = \ operatorname {E} \ left [(X- \ operatorname {E} [X]) ^ {2} \ right] \\ [4pt ] & = \ operatorname {E} \ left [(X - {\ bar {x}}) ^ {2} \ right] \\ [4pt] & = {\ frac {1} {n}} \ left (\ suma _ {i = 1} ^ {n} {(x_ {i} - {\ bar {x}}) ^ {2}} \ right) \ end {alineado}}}$

Error medio cuadrado

El error cuadrático medio de la distribución empírica es el siguiente.

${\ Displaystyle {\ begin {alineado} \ operatorname {MSE} & = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (Y_ {i} - {\ hat {Y_ { i}}}) ^ {2} \\ [4pt] & = \ operatorname {Var} _ {\ hat {\ theta}} ({\ hat {\ theta}}) + \ operatorname {Bias} ({\ hat {\ theta}}, \ theta) ^ {2} \ end {alineado}}}$

Dónde ${\ Displaystyle {\ hat {\ theta}}}$ es estimador y ${\ Displaystyle \ theta}$ un parámetro desconocido

Cuantiles

Para cualquier número real ${\ Displaystyle a}$ la notación ${\ Displaystyle \ lceil {a} \ rceil}$ (léase "techo de a") denota el menor número entero mayor o igual a ${\ Displaystyle a}$ . Para cualquier número real a, la notación ${\ Displaystyle \ lfloor {a} \ rfloor}$ (léase "piso de a") denota el mayor número entero menor o igual a ${\ Displaystyle a}$ .

Si ${\ Displaystyle nq}$ no es un número entero, entonces el ${\ Displaystyle q}$ -th cuantil es único y es igual a ${\ Displaystyle x _ {(\ lceil {nq} \ rceil)}}$

Si ${\ Displaystyle nq}$ es un número entero, entonces el ${\ Displaystyle q}$ -th cuantil no es único y es cualquier número real ${\ Displaystyle x}$ tal que

${\ Displaystyle x _ {({nq})}$

Mediana empírica

Si ${\ Displaystyle n}$ es impar, entonces la mediana empírica es el número

${\ Displaystyle {\ tilde {x}} = x _ {(\ lceil {n / 2} \ rceil)}}$

Si ${\ Displaystyle n}$ es par, entonces la mediana empírica es el número

${\ Displaystyle {\ tilde {x}} = {\ frac {x_ {n / 2} + x_ {n / 2 + 1}} {2}}}$

Propiedades asintóticas

Dado que la razón $(n + 1) / n se$ acerca a 1 cuando $n$ va al infinito, las propiedades asintóticas de las dos definiciones que se dan arriba son las mismas.

Por la fuerte ley de los grandes números , el estimador ${\ Displaystyle \ scriptstyle {\ widehat {F}} _ {n} (t)}$ converge a $F (t)$ cuando $n \to \infty$ casi con seguridad , para cada valor de $t$ : ^[1]

{\ Displaystyle {\ widehat {F}} _ {n} (t) \ {\ xrightarrow {\ text {as}}} \ F (t);}

así el estimador ${\ Displaystyle \ scriptstyle {\ widehat {F}} _ {n} (t)}$ es consistente . Esta expresión afirma la convergencia puntual de la función de distribución empírica a la función de distribución acumulativa verdadera. Hay un resultado más fuerte, llamado teorema de Glivenko-Cantelli , que establece que la convergencia ocurre uniformemente sobre $t$ : ^[5]

{\ Displaystyle \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty} \ equiv \ sup _ {t \ in \ mathbb {R}} {\ big |} {\ widehat {F }} _ {n} (t) -F (t) {\ big |} \ {\ xrightarrow {\ text {as}}} \ 0.}

La norma superior en esta expresión se llama el estadístico de Kolmogorov-Smirnov para probar la bondad de ajuste entre la distribución empírica ${\ Displaystyle \ scriptstyle {\ widehat {F}} _ {n} (t)}$ y la supone cierto acumulativo función de distribución $F$ . Aquí se pueden utilizar razonablemente otras funciones normativas en lugar de la sup-norma. Por ejemplo, la norma L ² da lugar al estadístico de Cramér-von Mises .

La distribución asintótica se puede caracterizar además de varias formas diferentes. Primero, el teorema del límite central establece que puntualmente , ${\ Displaystyle \ scriptstyle {\ widehat {F}} _ {n} (t)}$ tiene una distribución asintóticamente normal con el estándar ${\ Displaystyle {\ sqrt {n}}}$ tasa de convergencia: ^[1]

{\ Displaystyle {\ sqrt {n}} {\ big (} {\ widehat {F}} _ {n} (t) -F (t) {\ big)} \ \ {\ xrightarrow {d}} \ \ {\ mathcal {N}} {\ Big (} 0, F (t) {\ big (} 1-F (t) {\ big)} {\ Big)}.}

Este resultado se amplía con el teorema de Donsker , que afirma que el proceso empírico ${\ Displaystyle \ scriptstyle {\ sqrt {n}} ({\ widehat {F}} _ {n} -F)}$ , visto como una función indexada por ${\ Displaystyle \ scriptstyle t \ in \ mathbb {R}}$ , converge en distribución en el espacio Skorokhod ${\ Displaystyle \ scriptstyle D [- \ infty, + \ infty]}$ al proceso gaussiano de media cero ${\ Displaystyle \ scriptstyle G_ {F} = B \ circ F}$ , donde $B$ es el puente browniano estándar . ^[5] La estructura de covarianza de este proceso gaussiano es

{\ Displaystyle \ operatorname {E} [\, G_ {F} (t_ {1}) G_ {F} (t_ {2}) \,] = F (t_ {1} \ wedge t_ {2}) - F (t_ {1}) F (t_ {2}).}

La tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar mediante el resultado conocido como incrustación húngara : ^[6]

{\ Displaystyle \ limsup _ {n \ to \ infty} {\ frac {\ sqrt {n}} {\ ln ^ {2} n}} {\ big \ |} {\ sqrt {n}} ({\ widehat {F}} _ {n} -F) -G_ {F, n} {\ big \ |} _ {\ infty} <\ infty, \ quad {\ text {as}}}

Alternativamente, la tasa de convergencia de ${\ Displaystyle \ scriptstyle {\ sqrt {n}} ({\ widehat {F}} _ {n} -F)}$ también se puede cuantificar en términos del comportamiento asintótico de la sup-norma de esta expresión. Existe un número de resultados en este lugar, por ejemplo, la desigualdad de Dvoretzky-Kiefer-Wolfowitz proporciona probabilidades limitadas en la cola de ${\ Displaystyle \ scriptstyle {\ sqrt {n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty}}$ : ^[6]

{\ Displaystyle \ Pr \! {\ Big (} {\ sqrt {n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty}> z {\ Big)} \ leq 2e ^ {- 2z ^ {2}}.}

De hecho, Kolmogorov ha demostrado que si la función de distribución acumulativa $F$ es continua, entonces la expresión ${\ Displaystyle \ scriptstyle {\ sqrt {n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty}}$ converge en distribución a ${\ Displaystyle \ scriptstyle \ | B \ | _ {\ infty}}$ , Que tiene la distribución de Kolmogorov que no depende de la forma de $F$ .

Otro resultado, que se sigue de la ley del logaritmo iterado , es que ^[6]

{\ Displaystyle \ limsup _ {n \ to \ infty} {\ frac {{\ sqrt {n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty}} {\ sqrt {2 \ ln \ ln n}}} \ leq {\ frac {1} {2}}, \ quad {\ text {as}}}

y

{\ Displaystyle \ liminf _ {n \ to \ infty} {\ sqrt {2n \ ln \ ln n}} \ | {\ widehat {F}} _ {n} -F \ | _ {\ infty} = {\ frac {\ pi} {2}}, \ quad {\ text {as}}}

Intervalos de confianza

Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de distribución normal

Según la desigualdad de Dvoretzky-Kiefer-Wolfowitz, el intervalo que contiene la CDF verdadera, ${\ Displaystyle F (x)}$ , con probabilidad ${\ Displaystyle 1- \ alpha}$ se especifica como

Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de la distribución de Cauchy

${\ Displaystyle F_ {n} (x) - \ varepsilon \ leq F (x) \ leq F_ {n} (x) + \ varepsilon \; {\ text {donde}} \ varepsilon = {\ sqrt {\ frac { \ ln {\ frac {2} {\ alpha}}} {2n}}}.}$

De acuerdo con los límites anteriores, podemos trazar los intervalos de confianza, CDF y CDF empíricos para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas. A continuación se muestra la sintaxis de Statsmodel para trazar la distribución empírica.

Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de distribución triangular

"" " Funciones CDF empíricas " "" import  numpy  as  np from  scipy.interpolate  import  interp1ddef  _conf_set ( F ,  alpha = 0.05 ):  nobs  =  len ( F )  epsilon  =  np . sqrt ( np . log ( 2.0  /  alpha )  /  ( 2  *  nobs ))  inferior  =  np . clip ( F  -  épsilon ,  0 ,  1 )  superior  =  np . clip ( F  +  épsilon ,  0 ,  1 )  volver  inferior ,  superiorclass  StepFunction :  def  __init__ ( self ,  x ,  y ,  ival = 0.0 ,  sorted = False ,  side = "left" ):  if  side . lower ()  no  en  [ "right" ,  "left" ]:  msg  =  "side puede tomar los valores 'right' o 'left'"  subir  ValueError ( msg )  self . lado  =  lado  _x  =  np . asarray ( x )  _y  =  np . asarray ( y )  si  _x . forma  ! =  _y . forma :  msg  =  "xey no tienen la misma forma"  subir  ValueError ( msg )  if  len ( _x . forma )  ! =  1 :  msg  =  "xey deben ser unidimensionales"  subir  ValueError ( msg )  self . x  =  np . r_ [ - np . inf ,  _x ]  self . y  =  np . r_ [ ival ,  _y ]  si  no está  ordenado :  asort  =  np . argsort ( self . x )  self . x  =  np . tomar ( self . x ,  asort ,  0 )  self . y  =  np . tomar ( self . y ,  asort ,  0 )  self . n  =  uno mismo . x . forma [ 0 ] def  __call__ ( self ,  time ):  tind  =  np . searchsorted ( self . x ,  time ,  self . side )  -  1  retorno  self . y [ tind ]clase  ECDF ( StepFunction ):  def  __init__ ( self ,  x ,  side = "right" ):  x  =  np . matriz ( x ,  copia = Verdadero )  x . sort ()  nobs  =  len ( x )  y  =  np . linspace ( 1.0  /  nobs ,  1 ,  nobs )  super ( ECDF ,  self ) . __init__ ( x ,  y ,  side = side ,  sorted = True )def  monotone_fn_inverter ( fn ,  x ,  vectorized = True ,  ** palabras clave ):  x  =  np . asarray ( x )  si está  vectorizado :  y  =  fn ( x ,  ** palabras clave )  else :  y  =  []  para  _x  en  x :  y . añadir ( fn ( _x ,  ** palabras clave ))  y  =  np . matriz ( y )  a  =  np . argsort ( y )  return  interp1d ( y [ a ],  x [ a ])if  __name__  ==  "__main__" :  # TODO: Asegúrese de que todo esté correctamente alineado y  cree una función # de  trazado desde  urllib.request  import  urlopen  import  matplotlib.pyplot  as  plt datos_nerviosos  =  urlopen ( "http://www.statsci.org/data/general/nerve.txt" )  datos_nerviosos  =  np . loadtxt ( datos_nerviosos )  x  =  datos_nerviosos  /  50.0  # Fue en 1/50 segundos  cdf  =  ECDF ( x )  x . sort ()  F  =  cdf ( x )  plt . paso ( x ,  F ,  donde = "publicar" )  inferior ,  superior  =  _conf_set ( F )  plt . paso ( x ,  inferior ,  "r" ,  donde = "publicar" )  plt . paso ( x ,  superior ,  "r" ,  donde = "publicar" )  plt . xlim ( 0 ,  1,5 )  plt . ylim ( 0 ,  1.05 )  plt . vlines ( x ,  0 ,  0.05 )  plt . mostrar ()

Implementación estadística

Una lista no exhaustiva de implementaciones de software de la función de distribución empírica incluye:

En el software R , calculamos una función de distribución acumulativa empírica, con varios métodos para trazar, imprimir y calcular con un objeto "ecdf" de este tipo.
En Mathworks podemos usar la gráfica de función de distribución acumulativa empírica (cdf)
jmp de SAS , la gráfica CDF crea una gráfica de la función de distribución acumulativa empírica.
Minitab , cree un CDF empírico
Mathwave , podemos ajustar la distribución de probabilidad a nuestros datos
Diagrama de datos , podemos trazar un diagrama CDF empírico
Scipy , usando scipy.stats podemos trazar la distribución
Statsmodels , podemos usar statsmodels.distributions.empirical_distribution.ECDF
Matplotlib , podemos usar histogramas para trazar una distribución acumulativa
Seaborn , usando la función seaborn.ecdfplot
Excel , podemos trazar una gráfica CDF empírica

Ver también

Funciones de Càdlàg
Contar datos
Accesorio de distribución
Desigualdad de Dvoretzky – Kiefer – Wolfowitz
Probabilidad empírica
Proceso empírico
Estimación de cuantiles de una muestra
Frecuencia (estadísticas)
Estimador de Kaplan-Meier para procesos censurados
Función de supervivencia

Referencias

↑ a b c van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 265 . ISBN 0-521-78450-6.
^ PlanetMath Archivado el 9 de mayo de 2013 en la Wayback Machine.
^ Coles, S. (2001) Una introducción al modelado estadístico de valores extremos . Springer, pág. 36, definición 2.4. ISBN 978-1-4471-3675-0 .
^ Madsen, HO, Krenk, S., Lind, SC (2006) Métodos de seguridad estructural . Publicaciones de Dover. pag. 148-149. ISBN 0486445976
^ a b van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 266 . ISBN 0-521-78450-6.
^ a b c van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 268 . ISBN 0-521-78450-6.

Otras lecturas

Shorack, GR; Wellner, JA (1986). Procesos empíricos con aplicaciones a la estadística . Nueva York: Wiley. ISBN 0-471-86725-X.

enlaces externos

Medios relacionados con las funciones de distribución empírica en Wikimedia Commons

[vdv265-1] van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 265 . ISBN 0-521-78450-6.

[2] PlanetMath Archivado el 9 de mayo de 2013 en la Wayback Machine.

[3] Coles, S. (2001) Una introducción al modelado estadístico de valores extremos . Springer, pág. 36, definición 2.4. ISBN 978-1-4471-3675-0 .

[4] Madsen, HO, Krenk, S., Lind, SC (2006) Métodos de seguridad estructural . Publicaciones de Dover. pag. 148-149. ISBN 0486445976

[vdv266-5] van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 266 . ISBN 0-521-78450-6.

[vdv268-6] van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 268 . ISBN 0-521-78450-6.

[1]