Prueba de rango de Tukey

Prueba de rango de Tukey , también conocida como la prueba de Tukey , método de Tukey , prueba de significación honesta de Tukey , o HSD de Tukey ( diferencia honestamente significativa ) de prueba , ^[1] es un solo paso de comparación múltiple de procedimiento y prueba estadística . Puede usarse para encontrar medios que sean significativamente diferentes entre sí.

Nombrado en honor a John Tukey , ^[2] compara todos los posibles pares de medias y se basa en una distribución de rango studentizado ( q ) (esta distribución es similar a la distribución de t de la prueba t . Ver más abajo). ^[3] Las pruebas de Tukey HSD no deben confundirse con las pruebas de diferencia de medias de Tukey (también conocidas como diagrama de Bland-Altman ).

La prueba de Tukey compara los medios de cada tratamiento con los medios de todos los demás tratamientos; es decir, se aplica simultáneamente al conjunto de todas las comparaciones por pares

{\ Displaystyle \ mu _ {i} - \ mu _ {j} \,}

e identifica cualquier diferencia entre dos medias que sea mayor que el error estándar esperado . El coeficiente de confianza para el conjunto , cuando todos los tamaños de muestra son iguales, es exactamente ${\ Displaystyle 1- \ alpha}$ para cualquier ${\ Displaystyle 0 \ leq \ alpha \ leq 1}$ . Para tamaños de muestra desiguales, el coeficiente de confianza es mayor que 1 - α. En otras palabras, el método de Tukey es conservador cuando hay tamaños de muestra desiguales .

Supuestos

Las observaciones que se prueban son independientes dentro y entre los grupos.
Los grupos asociados con cada media en la prueba se distribuyen normalmente .
Existe la misma varianza dentro del grupo entre los grupos asociados con cada media en la prueba ( homogeneidad de varianza ).

La estadística de prueba

La prueba de Tukey se basa en una fórmula muy similar a la de la prueba $t$ . De hecho, la prueba de Tukey es esencialmente una prueba $t$ , excepto que corrige la tasa de error familiar .

La fórmula para la prueba de Tukey es:

{\ Displaystyle q_ {s} = {\ frac {Y_ {A} -Y_ {B}} {SE}},}

donde $Y$ _A es la mayor de las dos medias que se comparan, $Y$ _B es la menor de las dos medias que se comparan y SE es el error estándar de la suma de las medias.

Este valor de $q s$ se puede comparar con un valor de $q$ de la distribución de rango estudentizado . Si el valor de $q s$ es mayor que el valor crítico $q α$ obtenido de la distribución, se dice que las dos medias son significativamente diferentes a nivel ${\ Displaystyle \ alpha: 0 \ leq \ alpha \ leq 1}$ . ^[3]

Dado que la hipótesis nula de la prueba de Tukey establece que todas las medias que se comparan son de la misma población (es decir, $μ$ ₁ = $μ$ ₂ = $μ$ ₃ = ... = $μ k$ ), las medias deben distribuirse normalmente (de acuerdo con el teorema del límite central ). Esto da lugar al supuesto de normalidad de la prueba de Tukey.

La distribución del rango studentizado ( q )

El método de Tukey utiliza la distribución de rango studentizada . Supongamos que tomamos una muestra de tamaño n de cada una de las k poblaciones con la misma distribución normal N ( μ , σ ² ) y supongamos que ${\ Displaystyle {\ bar {y}}}$ _min es la más pequeña de estas medias muestrales y ${\ Displaystyle {\ bar {y}}}$ _max es la mayor de estas medias muestrales, y suponga que S ² es la varianza muestral combinada de estas muestras. Entonces, la siguiente variable aleatoria tiene una distribución de rango Studentizada.

{\ Displaystyle q = {\ frac {{\ overline {y}} _ {\ max} - {\ overline {y}} _ {\ min}} {S {\ sqrt {2 / n}}}}}

Este valor de q es la base del valor crítico de q , basado en tres factores:

α (la tasa de error de Tipo I o la probabilidad de rechazar una verdadera hipótesis nula)
k (el número de poblaciones)
df (el número de grados de libertad ( N - k ) donde N es el número total de observaciones)

La distribución de q se ha tabulado y aparece en muchos libros de texto sobre estadística. En algunas tablas se ha tabulado la distribución de q sin la ${\ Displaystyle {\ sqrt {2}}}$ factor. Para entender qué tabla es, podemos calcular el resultado para k = 2 y compararlo con el resultado de la distribución t de Student con los mismos grados de libertad y el mismo α . Además, R ofrece una función de distribución acumulativa ( ptukey) y una función de cuantiles ( qtukey) para q .

Límites de confianza

Los límites de confianza de Tukey para todas las comparaciones por pares con coeficiente de confianza de al menos 1 - α son

{\ Displaystyle {\ bar {y}} _ {i \ bullet} - {\ bar {y}} _ {j \ bullet} \ pm {\ frac {q _ {\ alpha; k; Nk}} {\ sqrt { 2}}} {\ widehat {\ sigma}} _ {\ varepsilon} {\ sqrt {\ frac {2} {n}}} \ qquad i, j = 1, \ ldots, k \ quad i \ neq j. }

Observe que el estimador puntual y la varianza estimada son los mismos que los de una única comparación por pares. La única diferencia entre los límites de confianza para las comparaciones simultáneas y los de una sola comparación es el múltiplo de la desviación estándar estimada.

También tenga en cuenta que los tamaños de las muestras deben ser iguales cuando se utiliza el enfoque de rango estudentizado. ${\ displaystyle {\ widehat {\ sigma}} _ {\ varepsilon}}$ es la desviación estándar de todo el diseño, no solo la de los dos grupos que se comparan. Es posible trabajar con tamaños de muestra desiguales. En este caso, uno tiene que calcular la desviación estándar estimada para cada comparación por pares tal como lo formalizó Clyde Kramer en 1956, por lo que el procedimiento para tamaños de muestra desiguales a veces se denomina método de Tukey-Kramer, que es el siguiente:

{\ Displaystyle {\ bar {y}} _ {i \ bullet} - {\ bar {y}} _ {j \ bullet} \ pm {\ frac {q _ {\ alpha; k; Nk}} {\ sqrt { 2}}} {\ widehat {\ sigma}} _ {\ varepsilon} {\ sqrt {{\ frac {1} {n}} _ {i} + {\ frac {1} {n}} _ {j} }} \ qquad}

donde n _i y n _j son los tamaños de los grupos i y j respectivamente. También se aplican los grados de libertad para todo el diseño.

Ver también

Notas

^ Lowry, Richard. "ANOVA unidireccional - Muestras independientes" . Vassar.edu . Archivado desde el original el 17 de octubre de 2008 . Consultado el 4 de diciembre de 2008 . También ocasionalmente como "honestamente", vea p. Ej. Morrison, S .; Sosnoff, JJ; Heffernan, KS; Jae, SY; Fernhall, B. (2013). "Envejecimiento, hipertensión y temblor fisiológico: la contribución del impulso cardioballístico a la tremorgénesis en adultos mayores". Revista de Ciencias Neurológicas . 326 (1–2): 68–74. doi : 10.1016 / j.jns.2013.01.016 .
^ Tukey, John (1949). "Comparación de medias individuales en el análisis de varianza". Biometría . 5 (2): 99-114. JSTOR 3001913 .
^ ^a ^b Linton, LR, Harder, LD (2007) Biología 315 - Notas de conferencias de biología cuantitativa. Universidad de Calgary, Calgary, AB

Otras lecturas

Montgomery, Douglas C. (2013). Diseño y Análisis de Experimentos (Octava ed.). Wiley. Sección 3.5.7.

enlaces externos

Manual electrónico de métodos estadísticos de NIST / SEMATECH: método de Tukey

[Vassar-1] Lowry, Richard. "ANOVA unidireccional - Muestras independientes" . Vassar.edu . Archivado desde el original el 17 de octubre de 2008 . Consultado el 4 de diciembre de 2008 . También ocasionalmente como "honestamente", vea p. Ej. Morrison, S .; Sosnoff, JJ; Heffernan, KS; Jae, SY; Fernhall, B. (2013). "Envejecimiento, hipertensión y temblor fisiológico: la contribución del impulso cardioballístico a la tremorgénesis en adultos mayores". Revista de Ciencias Neurológicas . 326 (1–2): 68–74. doi : 10.1016 / j.jns.2013.01.016 .

[2] Tukey, John (1949). "Comparación de medias individuales en el análisis de varianza". Biometría . 5 (2): 99-114. JSTOR 3001913 .

[Calgary-3] Linton, LR, Harder, LD (2007) Biología 315 - Notas de conferencias de biología cuantitativa. Universidad de Calgary, Calgary, AB

[1]