Nueva prueba de rango múltiple de Duncan

En estadística , la nueva prueba de rango múltiple ( MRT ) de Duncan es un procedimiento de comparación múltiple desarrollado por David B. Duncan en 1955. El MRT de Duncan pertenece a la clase general de procedimientos de comparación múltiple que utilizan el estadístico de rango estudentizado q _r para comparar conjuntos de medias.

David B. Duncan desarrolló esta prueba como una modificación del método Student-Newman-Keuls que tendría mayor poder. El MRT de Duncan protege especialmente contra el error de falso negativo (Tipo II) a expensas de tener un mayor riesgo de cometer errores de falso positivo (Tipo I) . La prueba de Duncan se usa comúnmente en agronomía y otras investigaciones agrícolas.

El resultado de la prueba es un conjunto de subconjuntos de medias, donde en cada subconjunto se ha encontrado que las medias no son significativamente diferentes entre sí.

Definición

Supuestos:
1.Una muestra de medias observadas ${\ Displaystyle m_ {1}, m_ {2}, ..., m_ {n}}$ , que se han extraído independientemente de n poblaciones normales con medias "verdaderas", ${\ Displaystyle \ mu _ {1}, \ mu _ {2}, ..., \ mu _ {n}}$ respectivamente.
2.Un error estándar común ${\ Displaystyle \ sigma}$ . Se desconoce este error estándar , pero se dispone de la estimación habitual ${\ Displaystyle s_ {m}}$ , que es independiente de las medias observadas y se basa en varios grados de libertad , denotados por ${\ Displaystyle n_ {2}}$ . (Más precisamente, ${\ Displaystyle S_ {m}}$ , tiene la propiedad de que ${\ Displaystyle {\ frac {n_ {2} \ cdot S_ {m} ^ {2}} {\ sigma _ {m} ^ {2}}}}$ se distribuye como ${\ Displaystyle \ chi ^ {2}}$ con ${\ Displaystyle n_ {2}}$ grados de libertad, independientemente de las medias muestrales).

La definición exacta de la prueba es:

La diferencia entre dos medias cualesquiera en un conjunto de n medias es significativa siempre que el rango de todos y cada uno de los subconjuntos que contienen las medias dadas sea significativo de acuerdo con un ${\ Displaystyle \ alpha _ {p}}$ prueba de rango de nivel donde ${\ Displaystyle \ alpha _ {p} = 1- \ gamma _ {p}}$ , ${\ Displaystyle \ gamma _ {p} = (1- \ alpha) ^ {(p-1)}}$ y ${\ Displaystyle p}$ es el número de medias en el subconjunto en cuestión.

Excepción: La única excepción a esta regla es que ninguna diferencia entre dos medias puede declararse significativa si las dos medias en cuestión están contenidas en un subconjunto de las medias que tiene un rango no significativo.

Procedimiento

El procedimiento consiste en una serie de comparaciones por pares entre medias. Cada comparación se realiza a un nivel de significancia ${\ Displaystyle \ alpha _ {p}}$ , definido por el número de medias que separan las dos medias comparadas ( ${\ Displaystyle \ alpha _ {p}}$ por ${\ Displaystyle p-2}$ medios de separación). Las pruebas se realizan secuencialmente, donde el resultado de una prueba determina qué prueba se realiza a continuación.

Las pruebas se realizan en el siguiente orden: el más grande menos el más pequeño, el más grande menos el segundo más pequeño, hasta el más grande menos el segundo más grande; luego el segundo más grande menos el más pequeño, el segundo más grande menos el segundo más pequeño, y así sucesivamente, terminando con el segundo más pequeño menos el más pequeño.

Con una sola excepción, que se indica a continuación, cada diferencia es significativa si excede el rango significativo más corto correspondiente; de lo contrario, no es significativo. Donde el rango significativo más corto es el rango studentizado significativo , multiplicado por el error estándar. El rango significativo más corto se designará como ${\ Displaystyle R _ {(p, \ alpha)}}$ , dónde ${\ Displaystyle p}$ es la media numérica en el subconjunto. La única excepción a esta regla es que ninguna diferencia entre dos medias puede declararse significativa si las dos medias en cuestión están contenidas en un subconjunto de las medias que tiene un rango no significativo.

Un algoritmo para realizar la prueba es el siguiente:

 1. Clasifique las medias de la muestra, de mayor a menor. 2. Para cada  ${\ Displaystyle m_ {i}}$  media muestral, de mayor a menor, haga lo siguiente: 2.1 para cada media muestral, (denotado  ${\ Displaystyle m_ {j}}$ ), para los más pequeños hasta  ${\ Displaystyle m _ {(i-1)}}$ . 2.1.1 comparar  ${\ Displaystyle m_ {i} -m_ {j}}$  a valor crítico  ${\ Displaystyle \ sigma _ {m} \ cdot R _ {(p, \ alpha)}}$ , ${\ Displaystyle P = ij, \ alpha = \ alpha _ {p}}$  2.1.2 si  ${\ Displaystyle m_ {i} -m_ {j}}$ no excede el valor crítico, el subconjunto ${\ Displaystyle (m_ {j}, m_ {j + 1}, ..., m_ {I})}$ se declara no significativamente diferente : 2.1.2.1 Vaya a la siguiente iteración del bucle 2. 2.1.3 De lo contrario, continúe con el bucle 2.1

Valores criticos

La prueba de rangos múltiples de Duncan utiliza la distribución de rangos estudentizados para determinar valores críticos para las comparaciones entre medias. Tenga en cuenta que las diferentes comparaciones entre medias pueden diferir por sus niveles de significancia, ya que el nivel de significancia está sujeto al tamaño del subconjunto de medias en cuestión.

Denotemos ${\ Displaystyle Q _ {(p, \ nu, \ gamma _ {(p, \ alpha)})}}$ como el ${\ Displaystyle \ gamma _ {\ alpha}}$ cuantil de la distribución de rango estudentizado , con p observaciones, y ${\ Displaystyle \ nu}$ grados de libertad para la segunda muestra (ver rango estudentizado para más información). Denotemos ${\ Displaystyle r _ {(p, \ nu, \ alpha)}}$ como el valor crítico estandarizado, dado por la regla:

Si p = 2
${\ Displaystyle r _ {(p, \ nu, \ alpha)} = Q _ {(p, \ nu, \ gamma _ {(p, \ alpha)})}}$
Demás
${\ Displaystyle r _ {(p, \ nu, \ alpha)} = max (Q _ {(p, \ nu, \ gamma _ {(p, \ alpha)})}, r _ {(p-1, \ nu, \ alpha)})}$

El rango crítico más corto (el valor crítico real de la prueba) se calcula como: ${\ Displaystyle R _ {(} p, \ nu, \ alpha) = \ sigma _ {m} \ cdot r _ {(p, \ nu, \ alpha)}}$ . Para ${\ Displaystyle \ nu}$ -> ∞, existe una tabulación para un valor exacto de Q (ver enlace). Se necesita una advertencia aquí: las notaciones para Q y R no son las mismas en toda la literatura, donde Q se denota a veces como el intervalo significativo más corto y R como el cuantil significativo para la distribución de rango studentizado (el artículo de Duncan de 1955 usa ambas notaciones en diferentes partes).

Ejemplo numérico

Veamos el ejemplo de 5 medios de tratamiento:

Tratos	T1	T2	T3	T4	T5
Medios de tratamiento	9,8	15,4	17,6	21,6	10,8
Rango	5	3	2	1	4

Con un error estándar de ${\ Displaystyle s_ {m} = 1.796}$ , y ${\ Displaystyle \ nu = 20}$ (grados de libertad para estimar el error estándar). Usando una tabulación conocida para Q, se alcanzan los valores de ${\ Displaystyle r _ {(p, \ nu, \ alpha)}}$ :

${\ Displaystyle r _ {(2,20,0.05)} = 2,95}$
${\ Displaystyle r _ {(3,20,0.05)} = 3,10}$
${\ Displaystyle r _ {(4,20,0,05)} = 3,18}$
${\ Displaystyle r _ {(5,20,0,05)} = 3,25}$

Ahora podemos obtener los valores del rango significativo más corto, mediante la fórmula:
${\ Displaystyle R _ {(p, \ nu, \ alpha)} = \ sigma _ {m} * r _ {(p, \ nu, \ alpha)}}$

Alcanzando:

${\ Displaystyle R _ {(2,20,0.05)} = 3,75}$
${\ Displaystyle R _ {(3,20,0.05)} = 3.94}$
${\ Displaystyle R _ {(4,20,0.05)} = 4.04}$
${\ Displaystyle R _ {(5,20,0.05)} = 4.13}$

Luego, se prueban las diferencias observadas entre medias, comenzando con la más grande versus la más pequeña, que se compararía con el rango menos significativo. ${\ Displaystyle R _ {(5,20,0,05)} = 4,13.}$ A continuación, se calcula la diferencia de la más grande y la segunda más pequeña y se compara con la diferencia menos significativa ${\ Displaystyle R _ {(4,20,0.05)} = 4.04}$ .

Si una diferencia observada es mayor que el rango significativo más corto correspondiente, entonces concluimos que el par de medias en cuestión es significativamente diferente. Si una diferencia observada es menor que el rango significativo más corto correspondiente, todas las diferencias que comparten la misma media superior se consideran insignificantes, para evitar contradicciones (las diferencias que comparten la misma media superior son más cortas por construcción).

Para nuestro caso, la comparación arrojará:

${\ Displaystyle 4vs.1: 21,6-9,8 = 11,8> 4,13 (R_ {5})}$
${\ displaystyle 4vs.5: 21,6-10,8 = 10,8> 4,04 (R_ {4})}$
${\ displaystyle 4vs.2: 21,6-15,4 = 6,2> 3,94 (R_ {3})}$
${\ Displaystyle 4vs.3: 21,6-17,6 = 4,0> 3,75 (R_ {2})}$
${\ displaystyle 3vs.1: 17,6-9,8 = 7,8> 4,04 (R_ {4})}$
${\ displaystyle 3vs.5: 17,6-10,8 = 6,8> 3,94 (R_ {3})}$
${\ displaystyle 3vs.2: 17,6-15,4 = 2,2 <3,75 (R_ {2})}$
${\ Displaystyle 2vs.1: 15,4-9,8 = 5,6> 3,94 (R_ {3})}$
${\ displaystyle 2vs.5: 15,4-10,8 = 4,6> 3,75 (R_ {2})}$
${\ Displaystyle 5vs.1: 10,8-9,8 = 1,0 <3,75 (R_ {2})}$

Vemos que existen diferencias significativas entre todos los pares de tratamientos excepto (T3, T2) y (T5, T1). A continuación se muestra un gráfico que subraya aquellas medias que no son significativamente diferentes:
T1 T5 T2 T3 T4

Niveles de protección e importancia basados en grados de libertad

La nueva prueba de rango múltiple propuesta por Duncan hace uso de niveles de protección especiales basados en grados de libertad . Dejar ${\ Displaystyle \ gamma _ {2, \ alpha} = {1- \ alpha}}$ ser el nivel de protección para probar la importancia de una diferencia entre dos medias; es decir, la probabilidad de que no se encuentre una diferencia significativa entre dos medias si las medias de la población son iguales. Duncan razona que uno tiene p-1 grados de libertad para probar la media de rango p y, por lo tanto, uno puede realizar pruebas p-1 independientes, cada una con un nivel de protección ${\ Displaystyle \ gamma _ {2, \ alpha} = {1- \ alpha}}$ . Por tanto, el nivel de protección articular es:

${\ Displaystyle \ gamma _ {p, \ alpha} = \ gamma _ {2, \ alpha} ^ {p-1} = (1- \ alpha) ^ {p-1}}$ dónde ${\ Displaystyle \ alpha _ {p} = 1- \ gamma _ {p}}$

es decir, la probabilidad de que no se encuentren diferencias significativas al realizar pruebas independientes p-1, cada una a nivel de protección ${\ Displaystyle \ gamma _ {2, \ alpha} = {1- \ alpha}}$ , es ${\ Displaystyle \ gamma _ {2, \ alpha} ^ {p-1}}$ , bajo la hipótesis de que todas las p medias poblacionales son iguales. En general: la diferencia entre dos medias cualesquiera en un conjunto de n medias es significativa siempre que el rango de todos y cada uno de los subconjuntos, que contiene las medias dadas, sea significativo de acuerdo con un ${\ Displaystyle \ alpha _ {p}}$ –Prueba de rango de nivel, donde p es el número de medias en el subconjunto en cuestión.

Para ${\ Displaystyle \ alpha = 0.05}$ , el nivel de protección se puede tabular para varios valores de r de la siguiente manera:

	Nivel de protección ${\ Displaystyle: \ gamma _ {p, \ alpha}}$	probabilidad de rechazar falsamente ${\ Displaystyle H_ {0}: \ alpha _ {p}}$
p = 2	0,95	0,05
p = 3	0.903	0,097
p = 4	0,857	0,143
p = 5	0,815	0,185
p = 6	0,774	0,226
p = 7	0,735	0,265

Tenga en cuenta que, aunque este procedimiento utiliza el rango estudentizado , su tasa de error no se basa en experimentos (como el de Tukey) ni en comparaciones. La prueba de rango múltiple de Duncan no controla la tasa de error familiar . Consulte la sección de críticas para obtener más detalles.

Procedimiento de comparación múltiple bayesiano de Duncan

Duncan (1965) también proporcionó el primer procedimiento de comparación múltiple bayesiano, para las comparaciones por pares entre las medias en un diseño unidireccional. Este procedimiento de comparación múltiple es diferente del discutido anteriormente.

El MCP bayesiano de Duncan analiza las diferencias entre las medias de los grupos ordenados, donde las estadísticas en cuestión son una comparación por pares (no se define un equivalente para la propiedad de un subconjunto que tiene una propiedad "significativamente diferente").

Duncan modeló las consecuencias de que dos o más medias sean iguales utilizando funciones de pérdida aditiva dentro y entre las comparaciones por pares . Si se asume la misma función de pérdida en las comparaciones por pares, es necesario especificar solo una constante K, y esto indica la gravedad relativa de los errores de tipo I y tipo II en cada comparación por pares.

Un estudio, realizado por Juliet Popper Shaffer (1998), ha demostrado que el método propuesto por Duncan, modificado para proporcionar un control débil de FWE y utilizando una estimación empírica de la varianza de las medias poblacionales, tiene buenas propiedades tanto desde el punto bayesiano de vista, como método de mínimo riesgo, y desde el punto de vista frecuentista, con buena potencia media.

Además, los resultados indican una similitud considerable tanto en el riesgo como en la potencia media entre el procedimiento modificado de Duncan y el procedimiento de control de la tasa de falsos descubrimientos de Benjamini y Hochberg (1995) , con el mismo control de error familiar débil.

Crítica

La prueba de Duncan ha sido criticada por ser demasiado liberal por muchos estadísticos, incluidos Henry Scheffé y John W. Tukey . Duncan argumentó que un procedimiento más liberal era apropiado porque en la práctica del mundo real la hipótesis nula global H ₀ = "Todas las medias son iguales" es a menudo falsa y, por lo tanto, los estadísticos tradicionales sobreprotegen una hipótesis nula probablemente falsa contra los errores de tipo I. Según Duncan, se deben ajustar los niveles de protección para diferentes comparaciones de p-medias de acuerdo con el problema discutido. El ejemplo discutido por Duncan en su artículo de 1955 es de una comparación de muchas medias (es decir, 100), cuando uno está interesado solo en comparaciones de dos y tres medias, y comparaciones de p-medias generales (decidir si hay alguna diferencia entre p-means) no son de especial interés (si p es 15 o más, por ejemplo). La prueba de rango múltiple de Duncan es muy "liberal" en términos de errores de Tipo I. El siguiente ejemplo ilustrará por qué:

Supongamos que uno está realmente interesado, como sugirió Duncan, solo con la clasificación correcta de subconjuntos de tamaño 4 o menos. Supongamos también que se realiza la comparación simple por pares con un nivel de protección ${\ Displaystyle \ gamma _ {2} = 0,95}$ . Dado un conjunto general de 100 medias, veamos las hipótesis nulas de la prueba:

Existen ${\ Displaystyle 100 \ Choose 2}$ hipótesis nulas para la clasificación correcta de cada 2 medias. El nivel de significancia de cada hipótesis es ${\ Displaystyle 1-0,95 = 0,05}$

Existen ${\ displaystyle 100 \ elige 3}$ hipótesis nulas para la clasificación correcta de cada 3 medias. El nivel de significancia de cada hipótesis es ${\ displaystyle 1- (0,95) ^ {2} = 0,097}$

Existen ${\ displaystyle 100 \ elige 4}$ hipótesis nulas para la clasificación correcta de cada 4 medias. El nivel de significancia de cada hipótesis es ${\ Displaystyle 1- (0,95) ^ {3} = 0,143}$

Como podemos ver, la prueba tiene dos problemas principales, con respecto a los errores de tipo I:

Las pruebas de Duncan se basan en el procedimiento de Newman-Keuls , que no protege la tasa de error familiar (aunque protege el nivel alfa por comparación)
La prueba de Duncan eleva intencionalmente los niveles alfa ( tasa de error tipo I ) en cada paso del procedimiento de Newman-Keuls (niveles de significancia de ${\ Displaystyle \ alpha _ {p} \ geq \ alpha}$ ).

Por lo tanto, se recomienda no utilizar el procedimiento descrito.

Posteriormente, Duncan desarrolló la prueba de Duncan-Waller, que se basa en principios bayesianos. Utiliza el valor obtenido de F para estimar la probabilidad previa de que la hipótesis nula sea cierta.

Diferentes enfoques del problema

Si todavía se desea abordar el problema de encontrar subconjuntos similares de medias de grupo, se encuentran otras soluciones en la literatura.

La prueba de rango de Tukey se usa comúnmente para comparar pares de medias, este procedimiento controla la tasa de error familiar en el sentido fuerte.

Otra solución es realizar la prueba t de Student de todos los pares de medias y luego usar el procedimiento de control FDR (para controlar la proporción esperada de hipótesis nulas rechazadas incorrectamente ).

Otras posibles soluciones, que no incluyen la prueba de hipótesis, pero dan como resultado una partición de subconjuntos, incluyen Clustering y Clustering jerárquico . Estas soluciones difieren del enfoque presentado en este método:

Al basarse en la distancia / densidad, y no en la distribución.
Necesitar un grupo más grande de medios para producir resultados significativos o trabajar con todo el conjunto de datos.

Referencias

Duncan, DB (1955). "Pruebas de rango múltiple y múltiples F". Biometría . 11 : 1–42. doi : 10.2307 / 3001478 .
Shaffer, Juliet Popper (1999). "Un estudio semi-Bayesiano del procedimiento de comparación múltiple bayesiano de Duncan". Revista de Planificación e Inferencia Estadística . 82 (1–2): 197–213. doi : 10.1016 / S0378-3758 (99) 00042-7 .
Berry, Donald A .; Hochberg, Yosef (1999). "Perspectivas bayesianas sobre comparaciones múltiples". Revista de Planificación e Inferencia Estadística . 82 (1–2): 215–227. doi : 10.1016 / S0378-3758 (99) 00044-0 .
Parsad, Rajender. "Procedimientos de comparación múltiple". IASRI, Library Avenue, Nueva Delhi 110012. Cite journal requiere |journal=( ayuda )

Tablas para el uso de rango y rango estudentizado en pruebas de hipótesis

H. Leon Harter, Champaigne, IL; N. Balakrishnan, Universidad McMaster, Hamilton, Ontario, Canadá; Tapa dura - Publicado el 27 de octubre de 1997

enlaces externos

Valores críticos para las pruebas de rango múltiple de Duncan