Función de distribución empírica

En estadística , una función de distribución empírica (comúnmente también llamada función de distribución acumulativa empírica, eCDF) es la función de distribución asociada con la medida empírica de una muestra . Esta función de distribución acumulativa es una función escalonada que salta $1 / n$ en cada uno de los $n$ puntos de datos. Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.

La función de distribución empírica es una estimación de la función de distribución acumulada que generó los puntos en la muestra. Converge con probabilidad 1 a esa distribución subyacente, según el teorema de Glivenko-Cantelli . Existen varios resultados para cuantificar la tasa de convergencia de la función de distribución empírica con la función de distribución acumulativa subyacente.

Definición [ editar ]

Vamos $(X 1, ..., X n)$ ser independientes, idénticamente distribuidas variables aleatorias reales con el común de la función de distribución acumulada $F (t)$ . Entonces, la función de distribución empírica se define como ^[1]^[2]

{\ displaystyle {\ widehat {F}} _ {n} (t) = {\ frac {{\ mbox {número de elementos en la muestra}} \ leq t} {n}} = {\ frac {1} { n}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} \ leq t},}

donde es el indicador de evento $A$ . Para una $t$ fija , el indicador es una variable aleatoria de Bernoulli con parámetro $p$ $=$ $F$ $($ $t$ $)$ ; por tanto, es una variable aleatoria binomial con media $nF$ $($ $t$ $)$ y varianza $nF$ $($ $t$ $) (1 -$ $F$ $($ $t$ $))$ . Esto implica que es un estimador insesgado para $F$ $($ $t$ $)$ . ${\ Displaystyle \ mathbf {1} _ {A}}$ ${\ Displaystyle \ mathbf {1} _ {X_ {i} \ leq t}}$ ${\ Displaystyle n {\ widehat {F}} _ {n} (t)}$ ${\ Displaystyle {\ widehat {F}} _ {n} (t)}$

Sin embargo, en algunos libros de texto, la definición se da como ^[3]^[4] ${\ Displaystyle {\ widehat {F}} _ {n} (t) = {\ frac {1} {n + 1}} \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {X_ {i} \ leq t}}$

Significa [ editar ]

La media de la distribución empírica es un estimador insesgado de la media de la distribución de la población.

${\ Displaystyle E_ {n} (X) = {\ frac {1} {n}} \ left (\ sum _ {i = 1} ^ {n} {x_ {i}} \ right)}$

que se denota más comúnmente ${\ Displaystyle {\ bar {x}}}$

Varianza [ editar ]

La varianza de los tiempos de distribución empírica es un estimador insesgado de la varianza de la distribución de la población. ${\ Displaystyle {\ tfrac {n} {n-1}}}$

${\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[(X-{\bar {x}})^{2}\right]\\[4pt]&={\frac {1}{n}}\left(\sum _{i=1}^{n}{(x_{i}-{\bar {x}})^{2}}\right)\end{aligned}}$

Error cuadrático medio [ editar ]

El error cuadrático medio de la distribución empírica es el siguiente.

${\begin{aligned}\operatorname {MSE} &={\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y_{i}}})^{2}\\[4pt]&=\operatorname {Var} _{\hat {\theta }}({\hat {\theta }})+\operatorname {Bias} ({\hat {\theta }},\theta )^{2}\end{aligned}}$

¿Dónde está el estimador y un parámetro desconocido? ${\hat {\theta }}$ $\theta$

Quantiles [ editar ]

Para cualquier número real, la notación (léase “techo de a”) denota el menor número entero mayor o igual a . Para cualquier número real a, la notación (léase "piso de a") denota el mayor entero menor o igual a . $a$ $\lceil {a}\rceil$ $a$ $\lfloor {a}\rfloor$ $a$

Si no es un número entero, entonces el -ésimo cuantil es único y es igual a $nq$ $q$ $x_{(\lceil {nq}\rceil )}$

Si es un número entero, entonces el -ésimo cuantil no es único y es cualquier número real tal que $nq$ $q$ $x$

$x_{({nq})}<x<x_{({nq+1})}$

Mediana empírica [ editar ]

Si es impar, entonces la mediana empírica es el número $n$

${\tilde {x}}=x_{(\lceil {n/2}\rceil )}$

Si es par, entonces la mediana empírica es el número $n$

${\tilde {x}}={\frac {x_{n/2}+x_{n/2+1}}{2}}$

Propiedades asintóticas [ editar ]

Dado que la razón $(n + 1) / n se$ acerca a 1 cuando $n$ va al infinito, las propiedades asintóticas de las dos definiciones que se dan arriba son las mismas.

Por la ley fuerte de los números grandes , el estimador converge a $F$ $($ $t$ $)$ cuando $n$ $\to \infty$ casi con seguridad , para cada valor de $t$ : ^[1] $\scriptstyle {\widehat {F}}_{n}(t)$

{\widehat {F}}_{n}(t)\ {\xrightarrow {\text{a.s.}}}\ F(t);

por tanto, el estimador es consistente . Esta expresión afirma la convergencia puntual de la función de distribución empírica a la función de distribución acumulativa verdadera. Hay un resultado más fuerte, llamado teorema de Glivenko-Cantelli , que establece que la convergencia ocurre uniformemente sobre $t$ : ^[5] $\scriptstyle {\widehat {F}}_{n}(t)$

\|{\widehat {F}}_{n}-F\|_{\infty }\equiv \sup _{t\in \mathbb {R} }{\big |}{\widehat {F}}_{n}(t)-F(t){\big |}\ {\xrightarrow {\text{a.s.}}}\ 0.

El sup-norma en esta expresión se llama la estadística de Kolmogorov-Smirnov para probar la bondad del ajuste entre la distribución empírica y la verdadera función de distribución acumulativa asumió $F$ . Aquí se pueden utilizar razonablemente otras funciones normativas en lugar de la sup-norma. Por ejemplo, la norma L 2 da lugar al estadístico de Cramér-von Mises . $\scriptstyle {\widehat {F}}_{n}(t)$

La distribución asintótica se puede caracterizar además de varias formas diferentes. Primero, el teorema del límite central establece que puntualmente , tiene una distribución asintóticamente normal con la tasa estándar de convergencia: ^[1] $\scriptstyle {\widehat {F}}_{n}(t)$ ${\sqrt {n}}$

{\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.

Este resultado se amplía con el teorema de Donsker , que afirma que el proceso empírico , visto como una función indexada por , converge en distribución en el espacio de Skorokhod al proceso gaussiano de media cero , donde $B$ es el puente browniano estándar . ^[5] La estructura de covarianza de este proceso gaussiano es $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ $\scriptstyle t\in \mathbb {R}$ $\scriptstyle D[-\infty ,+\infty ]$ $\scriptstyle G_{F}=B\circ F$

\operatorname {E} [\,G_{F}(t_{1})G_{F}(t_{2})\,]=F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).

La tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar mediante el resultado conocido como incrustación húngara : ^[6]

\limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}{\big \|}{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}{\big \|}_{\infty }<\infty ,\quad {\text{a.s.}}

Alternativamente, la tasa de convergencia de también se puede cuantificar en términos del comportamiento asintótico de la norma superior de esta expresión. Existe un número de resultados en este lugar, por ejemplo, la desigualdad de Dvoretzky-Kiefer-Wolfowitz proporciona probabilidades de límite en la cola de : ^[6] $\scriptstyle {\sqrt {n}}({\widehat {F}}_{n}-F)$ $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$

\Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.

De hecho, Kolmogorov ha demostrado que si la función de distribución acumulativa $F$ es continua, entonces la expresión converge en distribución a , que tiene la distribución de Kolmogorov que no depende de la forma de $F$ . $\scriptstyle {\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }$ $\scriptstyle \|B\|_{\infty }$

Otro resultado, que se sigue de la ley del logaritmo iterado , es que ^[6]

\limsup _{n\to \infty }{\frac {{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }}{\sqrt {2\ln \ln n}}}\leq {\frac {1}{2}},\quad {\text{a.s.}}

y

\liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\|{\widehat {F}}_{n}-F\|_{\infty }={\frac {\pi }{2}},\quad {\text{a.s.}}

Intervalos de confianza [ editar ]

Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de distribución normal

Según la desigualdad de Dvoretzky-Kiefer-Wolfowitz, el intervalo que contiene la CDF verdadera , con probabilidad se especifica como $F(x)$ $1-\alpha$

Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de la distribución de Cauchy

$F_{n}(x)-\varepsilon \leq F(x)\leq F_{n}(x)+\varepsilon \;{\text{ where }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.$

De acuerdo con los límites anteriores, podemos trazar los intervalos de confianza, CDF y CDF empíricos para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas. A continuación se muestra la sintaxis de Statsmodel para trazar la distribución empírica.

Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de distribución triangular

"" " Funciones CDF empíricas " "" import  numpy  as  np from  scipy.interpolate  import  interp1ddef  _conf_set ( F ,  alpha = 0.05 ):  nobs  =  len ( F )  epsilon  =  np . sqrt ( np . log ( 2.0  /  alpha )  /  ( 2  *  nobs ))  inferior  =  np . clip ( F  -  épsilon ,  0 ,  1 )  superior  =  np . clip ( F +  epsilon ,  0 ,  1 )  volver  inferior ,  superiorclass  StepFunction :  def  __init__ ( self ,  x ,  y ,  ival = 0.0 ,  sorted = False ,  side = "left" ):  if  side . lower ()  no  en  [ "right" ,  "left" ]:  msg  =  "side puede tomar los valores 'right' o 'left'"  subir  ValueError ( msg )  self . lado  =  lado  _x  = np . asarray ( x )  _y  =  np . asarray ( y )  si  _x . forma  ! =  _y . forma :  msg  =  "xey no tienen la misma forma"  subir  ValueError ( msg )  if  len ( _x . forma )  ! =  1 :  msg  =  "xey deben ser unidimensionales"  subir  ValueError ( msg )  self .x  =  np . r_ [ - np . inf ,  _x ]  self . y  =  np . r_ [ ival ,  _y ]  si  no está  ordenado :  asort  =  np . argsort ( self . x )  self . x  =  np . tomar ( self . x ,  asort ,  0 )  self .y  =  np . tomar ( self . y ,  asort ,  0 )  self . n  =  uno mismo . x . forma [ 0 ] def  __call__ ( self ,  time ):  tind  =  np . searchsorted ( self . x ,  time ,  self . side )  -  1  retorno  self . y [ tind ]clase  ECDF ( StepFunction ):  def  __init__ ( self ,  x ,  side = "right" ):  x  =  np . matriz ( x ,  copia = Verdadero )  x . sort ()  nobs  =  len ( x )  y  =  np . linspace ( 1.0  /  nobs ,  1 ,  nobs )  super ( ECDF,  yo ) . __init__ ( x ,  y ,  side = side ,  sorted = True )def  monotone_fn_inverter ( fn ,  x ,  vectorized = True ,  ** palabras clave ):  x  =  np . asarray ( x )  si está  vectorizado :  y  =  fn ( x ,  ** palabras clave )  else :  y  =  []  para  _x  en  x :  y . append ( fn ( _x ,  ** palabras clave))  y  =  np . matriz ( y )  a  =  np . argsort ( y )  return  interp1d ( y [ a ],  x [ a ])if  __name__  ==  "__main__" :  # TODO: Asegúrese de que todo esté correctamente alineado y  cree una función # de  trazado desde  urllib.request  import  urlopen  import  matplotlib.pyplot  as  plt datos_nerviosos  =  urlopen ( "http://www.statsci.org/data/general/nerve.txt" )  datos_nerviosos  =  np . loadtxt ( datos_nerviosos )  x  =  datos_nerviosos  /  50.0  # Fue en 1/50 segundos  cdf  =  ECDF ( x )  x . sort ()  F  =  cdf ( x )  plt . paso ( x ,  F ,  donde = "publicar" )  inferior , superior  =  _conf_set ( F )  plt . paso ( x ,  inferior ,  "r" ,  donde = "publicar" )  plt . paso ( x ,  superior ,  "r" ,  donde = "publicar" )  plt . xlim ( 0 ,  1,5 )  plt . ylim ( 0 ,  1.05 )  plt . vlines ( x , 0 ,  0,05 )  plt . mostrar ()

Implementación estadística [ editar ]

Una lista no exhaustiva de implementaciones de software de la función de distribución empírica incluye:

En el software R , calculamos una función de distribución acumulativa empírica, con varios métodos para trazar, imprimir y calcular con un objeto "ecdf" de este tipo.
En Mathworks podemos usar la gráfica de función de distribución acumulativa empírica (cdf)
jmp de SAS , la gráfica CDF crea una gráfica de la función de distribución acumulativa empírica.
Minitab , cree un CDF empírico
Mathwave , podemos ajustar la distribución de probabilidad a nuestros datos
Diagrama de datos , podemos trazar un diagrama CDF empírico
Scipy , usando scipy.stats podemos trazar la distribución
Statsmodels , podemos usar statsmodels.distributions.empirical_distribution.ECDF
Matplotlib , podemos usar histogramas para trazar una distribución acumulativa
Seaborn , usando la función seaborn.ecdfplot
Excel , podemos trazar una gráfica CDF empírica

Ver también [ editar ]

Funciones de Càdlàg
Contar datos
Accesorio de distribución
Desigualdad de Dvoretzky – Kiefer – Wolfowitz
Probabilidad empírica
Proceso empírico
Estimación de cuantiles de una muestra
Frecuencia (estadísticas)
Estimador de Kaplan-Meier para procesos censurados
Función de supervivencia

Referencias [ editar ]

↑ a b c van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 265 . ISBN 0-521-78450-6.
^ PlanetMath Archivado el 9 de mayo de 2013 en la Wayback Machine.
^ Coles, S. (2001) Una introducción al modelado estadístico de valores extremos . Springer, pág. 36, definición 2.4. ISBN 978-1-4471-3675-0 .
^ Madsen, HO, Krenk, S., Lind, SC (2006) Métodos de seguridad estructural . Publicaciones de Dover. pag. 148-149. ISBN 0486445976
↑ a b van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 266 . ISBN 0-521-78450-6.
↑ a b c van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 268 . ISBN 0-521-78450-6.

Lectura adicional [ editar ]

Shorack, GR; Wellner, JA (1986). Procesos empíricos con aplicaciones a la estadística . Nueva York: Wiley. ISBN 0-471-86725-X.

Enlaces externos [ editar ]

Medios relacionados con las funciones de distribución empírica en Wikimedia Commons

[vdv265-1] van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 265 . ISBN 0-521-78450-6.

[2] PlanetMath Archivado el 9 de mayo de 2013 en la Wayback Machine.

[3] Coles, S. (2001) Una introducción al modelado estadístico de valores extremos . Springer, pág. 36, definición 2.4. ISBN 978-1-4471-3675-0 .

[4] Madsen, HO, Krenk, S., Lind, SC (2006) Métodos de seguridad estructural . Publicaciones de Dover. pag. 148-149. ISBN 0486445976

[vdv266-5] van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 266 . ISBN 0-521-78450-6.

[vdv268-6] van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 268 . ISBN 0-521-78450-6.

[1]