Distribución de rango estudentizado

En probabilidad y estadística , la distribución de rango estudentizado es la distribución de probabilidad continua del rango estudentizado de una muestra iid de una población distribuida normalmente .

Distribución de rango estudentizado
Función de densidad de probabilidad
Función de distribución acumulativa
Parámetros	k > 1 , el número de grupos ${\ Displaystyle \ nu}$ > 0 , los grados de libertad
Apoyo	${\ Displaystyle q \ in (0, + \ infty)}$
PDF	${\ Displaystyle {\ begin {matrix} f _ {\ text {R}} (q; k, \ nu) = {\ frac {\, {\ sqrt {2 \ pi \,}} \, k \, (k -1) \, \ nu ^ {\ nu / 2} \,} {\ Gamma (\ nu / 2) \, 2 ^ {\ left (\ nu / 2-1 \ right)}}} \ int _ { 0} ^ {\ infty} s ^ {\ nu} \, \ varphi ({\ sqrt {\ nu \,}} \, s) \, \ times \\ [0.5em] \ left [\ int _ {- \ infty} ^ {\ infty} \ varphi (z + q \, s) \, \ varphi (z) \, \ left [\ Phi (z + q \, s) - \ Phi (z) \ right] ^ {k-2} \, \ mathrm {d} z \ right] \, \ mathrm {d} s \ end {matriz}}}$
CDF	${\ Displaystyle {\ begin {matrix} F _ {\ text {R}} (q; k, \ nu) = {\ frac {\, {\ sqrt {2 \ pi \,}} \, k \, \ nu ^ {\ nu / 2} \,} {\, \ Gamma (\ nu / 2) \, 2 ^ {\ left (\ nu / 2-1 \ right)}}} \ int _ {0} ^ {\ infty} s ^ {\ nu -1} \, \ varphi ({\ sqrt {\ nu \,}} \, s) \, \ times \\ [0.5em] \ qquad \ left [\ int _ {- \ infty} ^ {\ infty} \ varphi (z) \, \ left [\ Phi (z + q \, s) - \ Phi (z) \ right] ^ {k-1} \, \ mathrm {d} z \ right] \, \ mathrm {d} s \ end {matriz}}}$

Supongamos que tomamos una muestra de tamaño n de cada una de las k poblaciones con la misma distribución normal N ( μ , σ ² ) y supongamos que ${\ Displaystyle {\ bar {y}} _ {\ min}}$ es la más pequeña de estas medias muestrales y ${\ Displaystyle {\ bar {y}} _ {\ max}}$ es la mayor de estas medias muestrales, y suponga que s ² es la varianza muestral combinada de estas muestras. Entonces, la siguiente estadística tiene una distribución de rango estudentizado.

{\ Displaystyle q = {\ frac {{\ overline {y}} _ {\ max} - {\ overline {y}} _ {\ min}} {s / {\ sqrt {n \,}}}}}

Definición

Función de densidad de probabilidad

Al diferenciar la función de distribución acumulativa con respecto a q se obtiene la función de densidad de probabilidad .

{\ Displaystyle f _ {\ text {R}} (q; k, \ nu) = {\ frac {{\ sqrt {2 \ pi \,}} \, k \, (k-1) \, \ nu ^ {\ nu / 2}} {\ Gamma (\ nu / 2) \, 2 ^ {\ left (\ nu / 2-1 \ right)}}} \ int _ {0} ^ {\ infty} s ^ { \ nu} \, \ varphi ({\ sqrt {\ nu \,}} \, s) \, \ left [\ int _ {- \ infty} ^ {\ infty} \ varphi (z + q \, s) \, \ varphi (z) \, \ left [\ Phi (z + q \, s) - \ Phi (z) \ right] ^ {k-2} \, \ mathrm {d} z \ right] \, \ mathrm {d} s}

Tenga en cuenta que en la parte exterior de la integral, la ecuación

{\ Displaystyle \ varphi ({\ sqrt {\ nu \,}} \, s) \, {\ sqrt {2 \ pi \,}} = e ^ {- \ left (\ nu \, s ^ ​​{2} / 2 \ right)}}

se utilizó para reemplazar un factor exponencial.

Función de distribución acumulativa

La función de distribución acumulativa viene dada por ^[1]

{\ Displaystyle F _ {\ text {R}} (q; k, \ nu) = {\ frac {{\ sqrt {2 \ pi \,}} \, k \, \ nu ^ {\ nu / 2}} {\, ​​\ Gamma (\ nu / 2) \, 2 ^ {(\ nu / 2-1)} \,}} \ int _ {0} ^ {\ infty} s ^ {\ nu -1} \ varphi ({\ sqrt {\ nu \,}} \, s) \ left [\ int _ {- \ infty} ^ {\ infty} \ varphi (z) \ left [\ Phi (z + q \, s) - \ Phi (z) \ right] ^ {k-1} \, \ mathrm {d} z \ right] \, \ mathrm {d} s}

Casos especiales

Si k es 2 o 3, ^[2] la función de distribución de probabilidad de rango estudentizado se puede evaluar directamente, donde ${\ Displaystyle \ varphi (z)}$ es la función de densidad de probabilidad normal estándar y ${\ Displaystyle \ Phi (z)}$ es la función de distribución acumulativa normal estándar.

{\ Displaystyle f_ {R} (q; k = 2) = {\ sqrt {2 \,}} \, \ varphi \ left (\, q / {\ sqrt {2 \,}} \ right)}

{\ Displaystyle f_ {R} (q; k = 3) = 6 {\ sqrt {2 \,}} \, \ varphi \ left (\, q / {\ sqrt {2 \,}} \ right) \ left [\ Phi \ left (q / {\ sqrt {6 \,}} \ right) - {\ tfrac {1} {2}} \ right]}

Cuando los grados de libertad se acercan al infinito, se puede calcular la distribución acumulativa del rango studentizado para cualquier k utilizando la distribución normal estándar.

{\ Displaystyle F_ {R} (q; k) = k \, \ int _ {- \ infty} ^ {\ infty} \ varphi (z) \, {\ Bigl [} \ Phi (z + q) - \ Phi (z) {\ Bigr]} ^ {k-1} \, \ mathrm {d} z = k \, \ int _ {- \ infty} ^ {\ infty} \, {\ Bigl [} \ Phi ( z + q) - \ Phi (z) {\ Bigr]} ^ {k-1} \, \ mathrm {d} \ Phi (z)}

Aplicaciones

En la prueba de rango de Tukey se utilizan valores críticos de la distribución de rango studentizada .

El rango estudentizado se utiliza para calcular los niveles de significancia de los resultados obtenidos mediante la minería de datos , donde uno busca selectivamente diferencias extremas en los datos de la muestra, en lugar de solo muestrear al azar.

La distribución de rango estudentizado tiene aplicaciones para pruebas de hipótesis y procedimientos de comparaciones múltiples . Por ejemplo, la prueba de rangos de Tukey y nueva prueba de rango múltiple de Duncan (MRT), en el que la muestra x ₁ , ..., x _n es una muestra de medio y q es la prueba estadística de base, se puede utilizar como post-hoc análisis para probar entre qué dos grupos significa que hay una diferencia significativa (comparaciones por pares) después de rechazar la hipótesis nula de que todos los grupos son de la misma población (es decir, todas las medias son iguales) mediante el análisis estándar de varianza . ^[3]

Distribuciones relacionadas

Cuando solo se cuestiona la igualdad de las medias de los dos grupos (es decir, si μ ₁ = μ ₂ ), la distribución del rango estudentizado es similar a la distribución t de Student , difiriendo solo en que la primera toma en cuenta el número de medias bajo consideración, y el valor crítico se ajusta en consecuencia. Cuantos más medios se consideren, mayor será el valor crítico. Esto tiene sentido, ya que cuantas más medias haya, mayor será la probabilidad de que al menos algunas diferencias entre pares de medias sean significativamente grandes debido únicamente al azar.

Derivación

La función de distribución de rango studentizado surge de re-escalar el rango de la muestra R por la desviación estándar de la muestra s , ya que el rango studentizado se tabula habitualmente en unidades de desviaciones estándar, con la variable q = R ⁄ s . La derivación comienza con una forma perfectamente general de la función de distribución del rango de muestra, que se aplica a cualquier distribución de datos de muestra.

Con el fin de obtener la distribución en términos de la "studentizados" rango q , cambiaremos variable a partir de R a s y q . Suponiendo que los datos de la muestra se distribuyen normalmente , la desviación estándar s tendrá una distribución $χ$ . Al integrar más sobre s , podemos eliminar s como parámetro y obtener la distribución reescalada en términos de q solo.

Forma general

Para cualquier función de densidad de probabilidad f _X , la densidad de probabilidad de rango f _R es: ^[2]

{\ Displaystyle f_ {R} (r; k) = k \, (k-1) \ int _ {- \ infty} ^ {\ infty} f_ {X} \ left (t + {\ tfrac {1} {2 }} r \ right) f_ {X} \ left (t - {\ tfrac {1} {2}} r \ right) \ left [\ int _ {t - {\ tfrac {1} {2}} r} ^ {t + {\ tfrac {1} {2}} r} f_ {X} (x) \, \ mathrm {d} x \ right] ^ {k-2} \, \ mathrm {d} \, t}

Lo que esto significa es que estamos sumando las probabilidades de que, dado k extractos de una distribución, dos de ellos difieran en r , y los k - 2 restantes caigan todos entre los dos valores extremos. Si cambiamos las variables a u donde ${\ Displaystyle u = t - {\ tfrac {1} {2}} r}$ es el extremo inferior del rango y define F _X como la función de distribución acumulativa de f _X , entonces la ecuación se puede simplificar:

{\ Displaystyle f_ {R} (r; k) = k \, (k-1) \ int _ {- \ infty} ^ {\ infty} f_ {X} (u + r) \, f_ {X} ( u) \, \ left [\, F_ {X} (u + r) -F_ {X} (u) \, \ right] ^ {k-2} \, \ mathrm {d} \, u}

Introducimos una integral similar y notamos que la diferenciación bajo el signo integral da

{\ Displaystyle {\ begin {alineado} {\ frac {\ parcial} {\ parcial r}} & \ left [k \, \ int _ {- \ infty} ^ {\ infty} f_ {X} (u) \ , {\ Bigl [} \, F_ {X} (u + r) -F_ {X} (u) \, {\ Bigr]} ^ {k-1} \, \ mathrm {d} \, u \ right ] \\ [5pt] = {} & k \, (k-1) \ int _ {- \ infty} ^ {\ infty} f_ {X} (u + r) \, f_ {X} (u) \, {\ Bigl [} \, F_ {X} (u + r) -F_ {X} (u) \, {\ Bigr]} ^ {k-2} \, \ mathrm {d} \, u \ end { alineado}}}

que recupera la integral anterior, ^[a] para que la última relación confirme

{\ Displaystyle {\ begin {alineado} F_ {R} (r; k) & = k \ int _ {- \ infty} ^ {\ infty} f_ {X} (u) {\ Bigl [} \, F_ { X} (u + r) -F_ {X} (u) \, {\ Bigr]} ^ {k-1} \, \ mathrm {d} \, u \\ & = k \ int _ {- \ infty } ^ {\ infty} {\ Bigl [} \, F_ {X} (u + r) -F_ {X} (u) \, {\ Bigr]} ^ {k-1} \, \ mathrm {d} \, F_ {X} (u) \ end {alineado}}}

porque para cualquier cdf continuo

{\ Displaystyle {\ frac {\ parcial F_ {R} (r; k)} {\ parcial r}} = f_ {R} (r; k)}

Formulario especial para datos normales

La distribución de rango se usa con mayor frecuencia para los intervalos de confianza alrededor de los promedios de la muestra, que están distribuidos normalmente asintóticamente por el teorema del límite central .

Para crear la distribución de rango studentizada para datos normales, primero cambiamos de las funciones de distribución genéricas f _X y F _X a las funciones de distribución φ y the para la distribución normal estándar , y cambiamos la variable r a s · q , donde q es un factor fijo que vuelve a escalar r mediante el factor de escala s :

{\ Displaystyle f_ {R} (q; k) = s \, k \, (k-1) \ int _ {- \ infty} ^ {\ infty} \ varphi (u + sq) \ varphi (u) \ , \ izquierda [\, \ Phi (u + sq) - \ Phi (u) \ right] ^ {k-2} \, \ mathrm {d} u}

Elija el factor de escala s para que sea la desviación estándar de la muestra, de modo que q se convierta en el número de desviaciones estándar amplio que tiene el rango. Para datos normales, s tiene una distribución chi ^[b] y la función de distribución f _S de la distribución chi viene dada por:

{\ Displaystyle f_ {S} (s; \ nu) \, \ mathrm {d} s = {\ begin {cases} {\ dfrac {\ nu ^ {\ nu / 2} \, s ^ ​​{\ nu -1 } e ^ {- \ nu \, s ^ ​​{2} / 2} \,} {2 ^ {\ left (\ nu / 2-1 \ right)} \ Gamma (\ nu / 2)}} \, \ mathrm {d} s & {\ text {for}} \, 0

Al multiplicar las distribuciones f _R y f _S e integrar para eliminar la dependencia de la desviación estándar s, se obtiene la función de distribución de rango studentizada para datos normales:

{\ Displaystyle f_ {R} (q; k, \ nu) = {\ frac {\ nu ^ {\ nu / 2} \, k \, (k-1)} {2 ^ {\ left (\ nu / 2-1 \ right)} \ Gamma (\ nu / 2)}} \ int _ {0} ^ {\ infty} s ^ {\ nu} e ^ {- \ nu s ^ {2} / 2} \ int _ {- \ infty} ^ {\ infty} \ varphi (u + sq) \, \ varphi (u) \, \ left [\, \ Phi (u + sq) - \ Phi (u) \ right] ^ { k-2} \, \ mathrm {d} u \, \ mathrm {d} s}

dónde

q es el ancho del rango de datos medido en desviaciones estándar,

$ν$ es el número de grados de libertad para determinar la desviación estándar de la muestra, ^[c] y

k es el número de promedios separados que forman los puntos dentro del rango.

La ecuación para el pdf que se muestra en las secciones anteriores proviene del uso

{\ Displaystyle e ^ {- \ nu \, s ^ ​​{2} / 2} = {\ sqrt {2 \ pi \,}} \, \ varphi ({\ sqrt {\ nu \,}} \, s) }

para reemplazar la expresión exponencial en la integral externa.

Notas

^ Técnicamente, la relación solo es cierta para los puntos ${\ Displaystyle u}$ dónde ${\ Displaystyle f_ {X} (u + r)> 0}$ , que se aplica en todas partes para datos normales como se analiza en la siguiente sección, pero no para distribuciones cuyo soporte tiene un límite superior, como datos distribuidos uniformemente .
^ Observe bien la ausencia de "cuadrado": el texto se refiere a la distribución χ , no a la distribución χ 2 .
^ Generalmente ${\ Displaystyle \ nu = n-1}$ , donde n es el número total de todos los puntos de datos utilizados para encontrar los promedios que son los valores en el rango.

Referencias

^ Lund, RE; Lund, JR (1983). "Algoritmo AS 190: Probabilidades y cuantiles superiores para el rango estudentizado". Revista de la Royal Statistical Society . 32 (2): 204–210. JSTOR 2347300 .
^ a b McKay, AT (1933). "Una nota sobre la distribución del rango en muestras de n ". Biometrika . 25 (3): 415–420. doi : 10.2307 / 2332292 . JSTOR 2332292 .
^ Pearson y Hartley (1970, sección 14.2)

Otras lecturas

Pearson, ES ; Hartley, HO (1942). "La probabilidad integral del rango en muestras de N observaciones de una población normal". Biometrika . 32 (3): 301–310. doi : 10.1093 / biomet / 32.3-4.309 . JSTOR 2332134 .
Hartley, HO (1942). "El rango en muestras aleatorias". Biometrika . 32 (3): 334–348. doi : 10.2307 / 2332137 . JSTOR 2332137 .
Dunlap, WP; Powell, RS; Konnerth, TK (1977). "Una función de FORTRAN IV para el cálculo de probabilidades asociadas con la estadística de rango estudentizado" . Instrumentación y métodos de investigación del comportamiento . 9 (4): 373–375. doi : 10.3758 / BF03202264 .

enlaces externos

Tabla de valores críticos para la distribución del rango estudentizado

[4] Técnicamente, la relación solo es cierta para los puntos ${\ Displaystyle u}$ dónde ${\ Displaystyle f_ {X} (u + r)> 0}$ , que se aplica en todas partes para datos normales como se analiza en la siguiente sección, pero no para distribuciones cuyo soporte tiene un límite superior, como datos distribuidos uniformemente .

[5] Observe bien la ausencia de "cuadrado": el texto se refiere a la distribución χ , no a la distribución χ 2 .

[6] Generalmente ${\ Displaystyle \ nu = n-1}$ , donde n es el número total de todos los puntos de datos utilizados para encontrar los promedios que son los valores en el rango.

[lund-1] Lund, RE; Lund, JR (1983). "Algoritmo AS 190: Probabilidades y cuantiles superiores para el rango estudentizado". Revista de la Royal Statistical Society . 32 (2): 204–210. JSTOR 2347300 .

[mckay-2] McKay, AT (1933). "Una nota sobre la distribución del rango en muestras de n ". Biometrika . 25 (3): 415–420. doi : 10.2307 / 2332292 . JSTOR 2332292 .

[3] Pearson y Hartley (1970, sección 14.2)

[1]