Rango (estadísticas)

En estadística , el rango de un conjunto de datos es la diferencia entre los valores más grandes y más pequeños. Se le puede dar una idea aproximada de cómo el resultado del conjunto de datos será antes de ver lo que realmente ^[1] diferencia aquí es específico, el rango de un conjunto de datos es el resultado de restar el valor más pequeño del valor más grande.

Sin embargo, en estadística descriptiva , este concepto de rango tiene un significado más complejo. El rango es el tamaño del intervalo más pequeño (estadísticas) que contiene todos los datos y proporciona una indicación de la dispersión estadística . Se mide en las mismas unidades que los datos. Dado que solo depende de dos de las observaciones, es más útil para representar la dispersión de pequeños conjuntos de datos. ^{[2] El} rango resulta ser el más bajo y se restan los números más altos

Para variables aleatorias IID continuas

Para n variables aleatorias continuas independientes e idénticamente distribuidas X ₁ , X ₂ , ..., X _n con función de distribución acumulativa G ( x ) y función de densidad de probabilidad g ( x ). Sea T el rango de una muestra de tamaño n de una población con función de distribución G ( x ).

Distribución

El rango tiene función de distribución acumulativa ^[3]^[4]

{\ Displaystyle F (t) = n \ int _ {- \ infty} ^ {\ infty} g (x) [G (x + t) -G (x)] ^ {n-1} \, {\ text {d}} x.}

Gumbel señala que "la belleza de esta fórmula está completamente empañada por el hecho de que, en general, no podemos expresar G ( x + t ) por G ( x ), y que la integración numérica es larga y tediosa". ^[3]^{: 385}

Si la distribución de cada X _i está limitada a la derecha (o izquierda), entonces la distribución asintótica del rango es igual a la distribución asintótica del valor más grande (más pequeño). Para distribuciones más generales, la distribución asintótica se puede expresar como una función de Bessel . ^[3]

Momentos

El rango medio viene dado por ^[5]

{\ Displaystyle n \ int _ {0} ^ {1} x (G) [G ^ {n-1} - (1-G) ^ {n-1}] \, {\ text {d}} G}

donde x ( G ) es la función inversa. En el caso de que cada uno de los X _i tenga una distribución normal estándar , el rango medio viene dado por ^[6]

{\ Displaystyle \ int _ {- \ infty} ^ {\ infty} (1- (1- \ Phi (x)) ^ {n} - \ Phi (x) ^ {n}) \, {\ text {d }}X.}

Para variables aleatorias continuas no IID

Para n variables aleatorias continuas independientes distribuidas no idénticamente X ₁ , X ₂ , ..., X _n con funciones de distribución acumulativa G ₁ ( x ), G ₂ ( x ), ..., G _n ( x ) y funciones de densidad de probabilidad g ₁ ( x ), g ₂ ( x ), ..., g _n ( x ), el rango tiene función de distribución acumulativa ^[4]

{\ Displaystyle F (t) = \ sum _ {i = 1} ^ {n} \ int _ {- \ infty} ^ {\ infty} g_ {i} (x) \ prod _ {j = 1, j \ neq i} ^ {n} [G_ {j} (x + t) -G_ {j} (x)] \, {\ text {d}} x.}

Para variables aleatorias IID discretas

Para n variables aleatorias discretas independientes e idénticamente distribuidas X ₁ , X ₂ , ..., X _n con función de distribución acumulativa G ( x ) y función de masa de probabilidad g ( x ) el rango de X _i es el rango de una muestra de tamaño n de una población con función de distribución G ( x ). Podemos suponer sin pérdida de generalidad que el soporte de cada X _i es {1,2,3, ..., N } donde N es un número entero positivo o infinito. ^[7]^[8]

Distribución

El rango tiene una función de masa de probabilidad ^[7]^[9]^[10]

{\ Displaystyle f (t) = {\ begin {cases} \ sum _ {x = 1} ^ {N} [g (x)] ^ {n} & t = 0 \\ [6pt] \ sum _ {x = 1} ^ {Nt} \ left ({\ begin {alignedat} {2} & [G (x + t) -G (x-1)] ^ {n} \\ {} - {} & [G (x + t) -G (x)] ^ {n} \\ {} - {} & [G (x + t-1) -G (x-1)] ^ {n} \\ {} + {} & [G (x + t-1) -G (x)] ^ {n} \\\ end {alignedat}} \ right) & t = 1,2,3 \ ldots, N-1. \ End {cases}} }

Ejemplo

Si suponemos que g ( x ) = 1 / N , la distribución uniforme discreta para todo x , entonces encontramos ^[9]^[11]

{\ displaystyle f (t) = {\ begin {cases} {\ frac {1} {N ^ {n-1}}} & t = 0 \\ [4pt] \ sum _ {x = 1} ^ {Nt} \ left (\ left [{\ frac {t + 1} {N}} \ right] ^ {n} -2 \ left [{\ frac {t} {N}} \ right] ^ {n} + \ left [{\ frac {t-1} {N}} \ right] ^ {n} \ right) & t = 1,2,3 \ ldots, N-1. \ end {cases}}}

Derivación

La probabilidad de tener un valor de rango específico, t , se puede determinar sumando las probabilidades de tener dos muestras que difieran en t , y que todas las demás muestras tengan un valor entre los dos extremos. La probabilidad de que una muestra tenga un valor de x es ${\ Displaystyle ng (x)}$ . La probabilidad de que otro tenga un valor t mayor que x es:

{\ Displaystyle (n-1) g (x + t).}

La probabilidad de que todos los demás valores se encuentren entre estos dos extremos es:

{\ Displaystyle \ left (\ int _ {x} ^ {x + t} g (x) \, {\ text {d}} x \ right) ^ {n-2} = \ left (G (x + t ) -G (x) \ derecha) ^ {n-2}.}

Combinando los tres juntos se obtiene:

{\ Displaystyle f (t) = norte (norte-1) \ int _ {- \ infty} ^ {\ infty} g (x) g (x + t) [G (x + t) -G (x)] ^ {n-2} \, {\ text {d}} x}

Cantidades relacionadas

El rango es una función simple del máximo y mínimo de la muestra y estos son ejemplos específicos de estadísticas de pedidos . En particular, el intervalo es una función lineal de estadísticas de orden, que lo pone en el alcance de L-estimación .

Ver también

Referencias

^ George Woodbury (2001). Introducción a la estadística . Aprendizaje Cengage. pag. 74. ISBN 0534377556.
^ Carin Viljoen (2000). Estadística elemental: Vol 2 . Pearson Sudáfrica. págs. 7-27. ISBN 186891075X.
^ ^a ^b ^c EJ Gumbel (1947). "La distribución de la gama" . Los Anales de Estadística Matemática . 18 (3): 384–412. doi : 10.1214 / aoms / 1177730387 . JSTOR 2235736 .
^ a b Tsimashenka, I .; Knottenbelt, W .; Harrison, P. (2012). "Control de la variabilidad en sistemas divididos-fusionados". Técnicas y aplicaciones de modelado analítico y estocástico (PDF) . Apuntes de conferencias en Ciencias de la Computación. 7314 . pag. 165. doi : 10.1007 / 978-3-642-30782-9_12 . ISBN 978-3-642-30781-2.
^ HO Hartley ; HA David (1954). "Límites universales para rango medio y observación extrema" . Los Anales de Estadística Matemática . 25 (1): 85–99. doi : 10.1214 / aoms / 1177728848 . JSTOR 2236514 .
^ LHC Tippett (1925). "Sobre los individuos extremos y la gama de muestras tomadas de una población normal". Biometrika . 17 (3/4): 364–387. doi : 10.1093 / biomet / 17.3-4.364 . JSTOR 2332087 .
^ a b Evans, DL; Leemis, LM; Dibujó, JH (2006). "La distribución de estadísticas de orden para variables aleatorias discretas con aplicaciones para Bootstrapping". INFORMA Revista de Computación . 18 : 19. doi : 10.1287 / ijoc.1040.0105 .
^ Irving W. Burr (1955). "Cálculo de la distribución de muestreo exacta de rangos de una población discreta" . Los Anales de Estadística Matemática . 26 (3): 530–532. doi : 10.1214 / aoms / 1177728500 . JSTOR 2236482 .
^ a b Abdel-Aty, SH (1954). "Variables ordenadas en distribuciones discontinuas". Statistica Neerlandica . 8 (2): 61–82. doi : 10.1111 / j.1467-9574.1954.tb00442.x .
^ Siotani, M. (1956). "Ordenar estadísticas para caso discreto con una aplicación numérica a la distribución binomial". Anales del Instituto de Matemática Estadística . 8 : 95–96. doi : 10.1007 / BF02863574 .
^ Paul R. Rider (1951). "La distribución del rango en muestras de una población rectangular discreta". Revista de la Asociación Estadounidense de Estadística . 46 (255): 375–378. doi : 10.1080 / 01621459.1951.10500796 . JSTOR 2280515 .

[1] George Woodbury (2001). Introducción a la estadística . Aprendizaje Cengage. pag. 74. ISBN 0534377556.

[2] Carin Viljoen (2000). Estadística elemental: Vol 2 . Pearson Sudáfrica. págs. 7-27. ISBN 186891075X.

[gumbel-3] EJ Gumbel (1947). "La distribución de la gama" . Los Anales de Estadística Matemática . 18 (3): 384–412. doi : 10.1214 / aoms / 1177730387 . JSTOR 2235736 .

[tsimashenka-4] Tsimashenka, I .; Knottenbelt, W .; Harrison, P. (2012). "Control de la variabilidad en sistemas divididos-fusionados". Técnicas y aplicaciones de modelado analítico y estocástico (PDF) . Apuntes de conferencias en Ciencias de la Computación. 7314 . pag. 165. doi : 10.1007 / 978-3-642-30782-9_12 . ISBN 978-3-642-30781-2.

[5] HO Hartley ; HA David (1954). "Límites universales para rango medio y observación extrema" . Los Anales de Estadística Matemática . 25 (1): 85–99. doi : 10.1214 / aoms / 1177728848 . JSTOR 2236514 .

[6] LHC Tippett (1925). "Sobre los individuos extremos y la gama de muestras tomadas de una población normal". Biometrika . 17 (3/4): 364–387. doi : 10.1093 / biomet / 17.3-4.364 . JSTOR 2332087 .

[evans-7] Evans, DL; Leemis, LM; Dibujó, JH (2006). "La distribución de estadísticas de orden para variables aleatorias discretas con aplicaciones para Bootstrapping". INFORMA Revista de Computación . 18 : 19. doi : 10.1287 / ijoc.1040.0105 .

[8] Irving W. Burr (1955). "Cálculo de la distribución de muestreo exacta de rangos de una población discreta" . Los Anales de Estadística Matemática . 26 (3): 530–532. doi : 10.1214 / aoms / 1177728500 . JSTOR 2236482 .

[aty-9] Abdel-Aty, SH (1954). "Variables ordenadas en distribuciones discontinuas". Statistica Neerlandica . 8 (2): 61–82. doi : 10.1111 / j.1467-9574.1954.tb00442.x .

[10] Siotani, M. (1956). "Ordenar estadísticas para caso discreto con una aplicación numérica a la distribución binomial". Anales del Instituto de Matemática Estadística . 8 : 95–96. doi : 10.1007 / BF02863574 .

[11] Paul R. Rider (1951). "La distribución del rango en muestras de una población rectangular discreta". Revista de la Asociación Estadounidense de Estadística . 46 (255): 375–378. doi : 10.1080 / 01621459.1951.10500796 . JSTOR 2280515 .

[1]