En estadística , una función de distribución empírica (comúnmente también llamada función de distribución acumulativa empírica, eCDF) es la función de distribución asociada con la medida empírica de una muestra . Esta función de distribución acumulativa es una función escalonada que salta 1 / n en cada uno de los n puntos de datos. Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.
La función de distribución empírica es una estimación de la función de distribución acumulada que generó los puntos en la muestra. Converge con probabilidad 1 a esa distribución subyacente, según el teorema de Glivenko-Cantelli . Existen varios resultados para cuantificar la tasa de convergencia de la función de distribución empírica con la función de distribución acumulativa subyacente.
Definición
Vamos ( X 1 , ..., X n ) ser independientes, idénticamente distribuidas variables aleatorias reales con el común de la función de distribución acumulada F ( t ) . Entonces, la función de distribución empírica se define como [1] [2]
dónde es el indicador de evento A . Para una t fija , el indicadores una variable aleatoria de Bernoulli con parámetro p = F ( t ) ; por esoes una variable aleatoria binomial con media nF ( t ) y varianza nF ( t ) (1 - F ( t )) . Esto implica quees un estimador insesgado de F ( t ) .
Sin embargo, en algunos libros de texto, la definición se da como [3] [4]
Significar
La media de la distribución empírica es un estimador insesgado de la media de la distribución de la población.
que se denota más comúnmente
Diferencia
La varianza de los tiempos de distribución empírica es un estimador insesgado de la varianza de la distribución de la población.
Error medio cuadrado
El error cuadrático medio de la distribución empírica es el siguiente.
Dónde es estimador y un parámetro desconocido
Cuantiles
Para cualquier número real la notación (léase "techo de a") denota el menor número entero mayor o igual a . Para cualquier número real a, la notación (léase "piso de a") denota el mayor número entero menor o igual a .
Si no es un número entero, entonces el -th cuantil es único y es igual a
Si es un número entero, entonces el -th cuantil no es único y es cualquier número real tal que
Mediana empírica
Si es impar, entonces la mediana empírica es el número
Si es par, entonces la mediana empírica es el número
Propiedades asintóticas
Dado que la razón ( n + 1) / n se acerca a 1 cuando n va al infinito, las propiedades asintóticas de las dos definiciones que se dan arriba son las mismas.
Por la fuerte ley de los grandes números , el estimadorconverge a F ( t ) cuando n → ∞ casi con seguridad , para cada valor de t : [1]
así el estimador es consistente . Esta expresión afirma la convergencia puntual de la función de distribución empírica a la función de distribución acumulativa verdadera. Hay un resultado más fuerte, llamado teorema de Glivenko-Cantelli , que establece que la convergencia ocurre uniformemente sobre t : [5]
La norma superior en esta expresión se llama el estadístico de Kolmogorov-Smirnov para probar la bondad de ajuste entre la distribución empíricay la supone cierto acumulativo función de distribución F . Aquí se pueden utilizar razonablemente otras funciones normativas en lugar de la sup-norma. Por ejemplo, la norma L 2 da lugar al estadístico de Cramér-von Mises .
La distribución asintótica se puede caracterizar además de varias formas diferentes. Primero, el teorema del límite central establece que puntualmente , tiene una distribución asintóticamente normal con el estándar tasa de convergencia: [1]
Este resultado se amplía con el teorema de Donsker , que afirma que el proceso empírico , visto como una función indexada por , converge en distribución en el espacio Skorokhod al proceso gaussiano de media cero , donde B es el puente browniano estándar . [5] La estructura de covarianza de este proceso gaussiano es
La tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar mediante el resultado conocido como incrustación húngara : [6]
Alternativamente, la tasa de convergencia de también se puede cuantificar en términos del comportamiento asintótico de la sup-norma de esta expresión. Existe un número de resultados en este lugar, por ejemplo, la desigualdad de Dvoretzky-Kiefer-Wolfowitz proporciona probabilidades limitadas en la cola de: [6]
De hecho, Kolmogorov ha demostrado que si la función de distribución acumulativa F es continua, entonces la expresión converge en distribución a , Que tiene la distribución de Kolmogorov que no depende de la forma de F .
Otro resultado, que se sigue de la ley del logaritmo iterado , es que [6]
y
Intervalos de confianza
Según la desigualdad de Dvoretzky-Kiefer-Wolfowitz, el intervalo que contiene la CDF verdadera,, con probabilidad se especifica como
De acuerdo con los límites anteriores, podemos trazar los intervalos de confianza, CDF y CDF empíricos para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas. A continuación se muestra la sintaxis de Statsmodel para trazar la distribución empírica.
"" " Funciones CDF empíricas " "" import numpy as np from scipy.interpolate import interp1ddef _conf_set ( F , alpha = 0.05 ): nobs = len ( F ) epsilon = np . sqrt ( np . log ( 2.0 / alpha ) / ( 2 * nobs )) inferior = np . clip ( F - épsilon , 0 , 1 ) superior = np . clip ( F + épsilon , 0 , 1 ) volver inferior , superiorclass StepFunction : def __init__ ( self , x , y , ival = 0.0 , sorted = False , side = "left" ): if side . lower () no en [ "right" , "left" ]: msg = "side puede tomar los valores 'right' o 'left'" subir ValueError ( msg ) self . lado = lado _x = np . asarray ( x ) _y = np . asarray ( y ) si _x . forma ! = _y . forma : msg = "xey no tienen la misma forma" subir ValueError ( msg ) if len ( _x . forma ) ! = 1 : msg = "xey deben ser unidimensionales" subir ValueError ( msg ) self . x = np . r_ [ - np . inf , _x ] self . y = np . r_ [ ival , _y ] si no está ordenado : asort = np . argsort ( self . x ) self . x = np . tomar ( self . x , asort , 0 ) self . y = np . tomar ( self . y , asort , 0 ) self . n = uno mismo . x . forma [ 0 ] def __call__ ( self , time ): tind = np . searchsorted ( self . x , time , self . side ) - 1 retorno self . y [ tind ]clase ECDF ( StepFunction ): def __init__ ( self , x , side = "right" ): x = np . matriz ( x , copia = Verdadero ) x . sort () nobs = len ( x ) y = np . linspace ( 1.0 / nobs , 1 , nobs ) super ( ECDF , self ) . __init__ ( x , y , side = side , sorted = True )def monotone_fn_inverter ( fn , x , vectorized = True , ** palabras clave ): x = np . asarray ( x ) si está vectorizado : y = fn ( x , ** palabras clave ) else : y = [] para _x en x : y . añadir ( fn ( _x , ** palabras clave )) y = np . matriz ( y ) a = np . argsort ( y ) return interp1d ( y [ a ], x [ a ])if __name__ == "__main__" : # TODO: Asegúrese de que todo esté correctamente alineado y cree una función # de trazado desde urllib.request import urlopen import matplotlib.pyplot as plt datos_nerviosos = urlopen ( "http://www.statsci.org/data/general/nerve.txt" ) datos_nerviosos = np . loadtxt ( datos_nerviosos ) x = datos_nerviosos / 50.0 # Fue en 1/50 segundos cdf = ECDF ( x ) x . sort () F = cdf ( x ) plt . paso ( x , F , donde = "publicar" ) inferior , superior = _conf_set ( F ) plt . paso ( x , inferior , "r" , donde = "publicar" ) plt . paso ( x , superior , "r" , donde = "publicar" ) plt . xlim ( 0 , 1,5 ) plt . ylim ( 0 , 1.05 ) plt . vlines ( x , 0 , 0.05 ) plt . mostrar ()
Implementación estadística
Una lista no exhaustiva de implementaciones de software de la función de distribución empírica incluye:
- En el software R , calculamos una función de distribución acumulativa empírica, con varios métodos para trazar, imprimir y calcular con un objeto "ecdf" de este tipo.
- En Mathworks podemos usar la gráfica de función de distribución acumulativa empírica (cdf)
- jmp de SAS , la gráfica CDF crea una gráfica de la función de distribución acumulativa empírica.
- Minitab , cree un CDF empírico
- Mathwave , podemos ajustar la distribución de probabilidad a nuestros datos
- Diagrama de datos , podemos trazar un diagrama CDF empírico
- Scipy , usando scipy.stats podemos trazar la distribución
- Statsmodels , podemos usar statsmodels.distributions.empirical_distribution.ECDF
- Matplotlib , podemos usar histogramas para trazar una distribución acumulativa
- Seaborn , usando la función seaborn.ecdfplot
- Excel , podemos trazar una gráfica CDF empírica
Ver también
- Funciones de Càdlàg
- Contar datos
- Accesorio de distribución
- Desigualdad de Dvoretzky – Kiefer – Wolfowitz
- Probabilidad empírica
- Proceso empírico
- Estimación de cuantiles de una muestra
- Frecuencia (estadísticas)
- Estimador de Kaplan-Meier para procesos censurados
- Función de supervivencia
Referencias
- ↑ a b c van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 265 . ISBN 0-521-78450-6.
- ^ PlanetMath Archivado el 9 de mayo de 2013 en la Wayback Machine.
- ^ Coles, S. (2001) Una introducción al modelado estadístico de valores extremos . Springer, pág. 36, definición 2.4. ISBN 978-1-4471-3675-0 .
- ^ Madsen, HO, Krenk, S., Lind, SC (2006) Métodos de seguridad estructural . Publicaciones de Dover. pag. 148-149. ISBN 0486445976
- ^ a b van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 266 . ISBN 0-521-78450-6.
- ^ a b c van der Vaart, AW (1998). Estadística asintótica . Prensa de la Universidad de Cambridge. pag. 268 . ISBN 0-521-78450-6.
Otras lecturas
- Shorack, GR; Wellner, JA (1986). Procesos empíricos con aplicaciones a la estadística . Nueva York: Wiley. ISBN 0-471-86725-X.
enlaces externos
- Medios relacionados con las funciones de distribución empírica en Wikimedia Commons