Análisis de varianza unidireccional de Kruskal-Wallis

La prueba de Kruskal-Wallis por rangos, de Kruskal-Wallis H prueba ^[1] (el nombre de William Kruskal y W. Allen Wallis ), o ANOVA de una vía en filas ^[1] es un no paramétrico método para probar si las muestras se originan a partir la misma distribución. ^[2]^[3]^[4] Se utiliza para comparar dos o más muestras independientes de tamaños de muestra iguales o diferentes. Extiende la prueba U de Mann-Whitney , que se utiliza para comparar solo dos grupos. El equivalente paramétrico de la prueba de Kruskal-Wallis es el análisis de varianza unidireccional (ANOVA).

Una prueba de Kruskal-Wallis significativa indica que al menos una muestra domina estocásticamente a otra muestra. La prueba no identifica dónde ocurre esta dominancia estocástica o para cuántos pares de grupos se obtiene la dominancia estocástica. Para analizar los pares de muestras específicos para la dominancia estocástica, a veces se utilizan la prueba de Dunn, ^[5] pruebas de Mann-Whitney por pares con corrección de Bonferroni , ^[6] o la prueba de Conover-Iman ^[6], más poderosa pero menos conocida .

Dado que es un método no paramétrico, la prueba de Kruskal-Wallis no asume una distribución normal de los residuos, a diferencia del análisis análogo de varianza unidireccional. Si el investigador puede hacer los supuestos de una distribución de forma y escala idéntica para todos los grupos, excepto por cualquier diferencia en las medianas, entonces la hipótesis nula es que las medianas de todos los grupos son iguales, y la hipótesis alternativa es que al menos una mediana de la población de un grupo es diferente de la mediana de la población de al menos otro grupo.

Método

Clasifique todos los datos de todos los grupos juntos; es decir, clasifique los datos de 1 a N ignorando la pertenencia al grupo. Asigne a los valores empatados el promedio de los rangos que hubieran recibido si no hubieran estado empatados.
La estadística de prueba viene dada por:
${\ Displaystyle H = (N-1) {\ frac {\ sum _ {i = 1} ^ {g} n_ {i} ({\ bar {r}} _ {i \ cdot} - {\ bar {r }}) ^ {2}} {\ sum _ {i = 1} ^ {g} \ sum _ {j = 1} ^ {n_ {i}} (r_ {ij} - {\ bar {r}}) ^ {2}}},}$ dónde:
- ${\ Displaystyle N}$ es el número total de observaciones en todos los grupos
- ${\ Displaystyle g}$ es el número de grupos
- ${\ Displaystyle n_ {i}}$ es el número de observaciones en grupo ${\ Displaystyle i}$
- ${\ Displaystyle r_ {ij}}$ es el rango (entre todas las observaciones) de observación ${\ Displaystyle j}$ del grupo ${\ Displaystyle i}$
- ${\ Displaystyle {\ bar {r}} _ {i \ cdot} = {\ frac {\ sum _ {j = 1} ^ {n_ {i}} {r_ {ij}}} {n_ {i}}} }$ es el rango promedio de todas las observaciones en grupo ${\ Displaystyle i}$
- ${\ Displaystyle {\ bar {r}} = {\ tfrac {1} {2}} (N + 1)}$ es el promedio de todos los ${\ Displaystyle r_ {ij}}$ .
Si los datos no contienen vínculos, el denominador de la expresión para ${\ Displaystyle H}$ es exactamente ${\ Displaystyle (N-1) N (N + 1) / 12}$ y ${\ displaystyle {\ bar {r}} = {\ tfrac {N + 1} {2}}}$ . Por lo tanto
${\ Displaystyle {\ begin {alineado} H & = {\ frac {12} {N (N + 1)}} \ sum _ {i = 1} ^ {g} n_ {i} \ left ({\ bar {r }} _ {i \ cdot} - {\ frac {N + 1} {2}} \ right) ^ {2} \\ & = {\ frac {12} {N (N + 1)}} \ sum _ {i = 1} ^ {g} n_ {i} {\ bar {r}} _ {i \ cdot} ^ {2} - \ 3 (N + 1) \ end {alineado}}}$
La última fórmula solo contiene los cuadrados de los rangos promedio.
Una corrección por empates si se usa la fórmula de atajo descrita en el punto anterior se puede hacer dividiendo ${\ Displaystyle H}$ por ${\ Displaystyle 1 - {\ frac {\ sum _ {i = 1} ^ {G} (t_ {i} ^ {3} -t_ {i})} {N ^ {3} -N}}}$ , donde G es el número de agrupaciones de diferentes rangos vinculados, y t _i es el número de valores vinculados dentro del grupo i que están vinculados a un valor particular. Esta corrección generalmente hace poca diferencia en el valor de H a menos que haya un gran número de empates.
Finalmente, la decisión de rechazar o no la hipótesis nula se toma comparando ${\ Displaystyle H}$ a un valor crítico ${\ Displaystyle H_ {c}}$ obtenido de una tabla o un software para un nivel de significancia o alfa dado. Si ${\ Displaystyle H}$ es mayor que ${\ Displaystyle H_ {c}}$ , se rechaza la hipótesis nula. Si es posible (sin empates, muestra no demasiado grande) se debe comparar ${\ Displaystyle H}$ al valor crítico obtenido de la distribución exacta de ${\ Displaystyle H}$ . De lo contrario, la distribución de H puede aproximarse mediante una distribución chi-cuadrado con g-1 grados de libertad. Si algun ${\ Displaystyle n_ {i}}$ Los valores son pequeños (es decir, menos de 5) la distribución de probabilidad exacta de ${\ Displaystyle H}$ puede ser bastante diferente de esta distribución chi-cuadrado . Si se dispone de una tabla de la distribución de probabilidad de chi-cuadrado, el valor crítico de chi-cuadrado, ${\ Displaystyle \ chi _ {\ alpha: g-1} ^ {2}}$ , se puede encontrar ingresando a la tabla en g - 1 grados de libertad y buscando debajo del nivel de significancia o alfa deseado .
Si la estadística no es significativa, entonces no hay evidencia de dominancia estocástica entre las muestras. Sin embargo, si la prueba es significativa, al menos una muestra domina estocásticamente a otra muestra. Por lo tanto, un investigador puede usar contrastes de muestras entre pares de muestras individuales, o pruebas post hoc usando la prueba de Dunn, que (1) emplea correctamente las mismas clasificaciones que la prueba de Kruskal-Wallis, y (2) emplea correctamente la varianza agrupada implícita en el valor nulo hipótesis de la prueba de Kruskal-Wallis para determinar cuáles de los pares de muestras son significativamente diferentes. ^[5] Cuando se realizan pruebas o contrastes de varias muestras, la tasa de error de tipo I tiende a aumentar, lo que genera preocupaciones sobre las comparaciones múltiples .

Tablas de probabilidad exacta

Se requiere una gran cantidad de recursos informáticos para calcular las probabilidades exactas de la prueba de Kruskal-Wallis. El software existente solo proporciona probabilidades exactas para tamaños de muestra inferiores a unos 30 participantes. Estos programas de software se basan en la aproximación asintótica para tamaños de muestra más grandes.

Se encuentran disponibles valores de probabilidad exactos para tamaños de muestra más grandes. Spurrier (2003) publicó tablas de probabilidad exactas para muestras de hasta 45 participantes. ^[7] Meyer y Seaman (2006) produjeron distribuciones de probabilidad exactas para muestras de hasta 105 participantes. ^[8]

Distribución exacta de ${\ Displaystyle H}$

Choi y col. ^[9] hizo una revisión de dos métodos que se habían desarrollado para calcular la distribución exacta de ${\ Displaystyle H}$ , propuso uno nuevo y comparó la distribución exacta con su aproximación chi-cuadrado.

Ver también

Referencias

^ ^a ^b Prueba Kruskal-Wallis H con SPSS Statistics , Laerd Statistics
^ Kruskal; Wallis (1952). "Uso de rangos en el análisis de varianza de un criterio". Revista de la Asociación Estadounidense de Estadística . 47 (260): 583–621. doi : 10.1080 / 01621459.1952.10483441 .
^ Corder, Gregory W .; Capataz, Dale I. (2009). Estadísticas no paramétricas para no estadísticos . Hoboken: John Wiley & Sons. pp. 99 -105. ISBN 9780470454619.
^ Siegel; Castellan (1988). Estadística no paramétrica para las ciencias del comportamiento (Segunda ed.). Nueva York: McGraw – Hill. ISBN 0070573573.
^ ^a ^b Dunn, Olive Jean (1964). "Comparaciones múltiples usando sumas de rango". Tecnometría . 6 (3): 241–252. doi : 10.2307 / 1266041 .
^ ^a ^b Conover, W. Jay; Iman, Ronald L. (1979). "Sobre procedimientos de comparaciones múltiples" (PDF) (Informe). Laboratorio Científico de Los Alamos . Consultado el 28 de octubre de 2016 .
^ Spurrier, JD (2003). "Sobre la distribución nula del estadístico de Kruskal-Wallis". Revista de estadísticas no paramétricas . 15 (6): 685–691. doi : 10.1080 / 10485250310001634719 .
^ Meyer; Seaman (abril de 2006). "Tablas ampliadas de valores críticos para el estadístico H de Kruskal-Wallis". Trabajo presentado en la reunión anual de la American Educational Research Association, San Francisco .Las tablas de valores críticos y las probabilidades exactas de Meyer y Seaman están disponibles para descargar en http://faculty.virginia.edu/kruskal-wallis/ Archivado el 17 de octubre de 2018 en Wayback Machine . Allí también se puede encontrar un artículo que describe su trabajo.
^ Won Choi, Jae Won Lee, Myung-Hoe Huh y Seung-Ho Kang (2003). "Un algoritmo para calcular la distribución exacta de la prueba de Kruskal-Wallis". Comunicaciones en estadística: simulación y computación (32, número 4): 1029–1040. doi : 10.1081 / SAC-120023876 .CS1 maint: varios nombres: lista de autores ( enlace )

Otras lecturas

Daniel, Wayne W. (1990). "Análisis unidireccional de varianza de Kruskal-Wallis por rangos" . Estadística no paramétrica aplicada (2ª ed.). Boston: PWS-Kent. págs. 226-234. ISBN 0-534-91976-6.

enlaces externos

Una versión en línea de la prueba.

[Laerd-1] Prueba Kruskal-Wallis H con SPSS Statistics , Laerd Statistics

[2] Kruskal; Wallis (1952). "Uso de rangos en el análisis de varianza de un criterio". Revista de la Asociación Estadounidense de Estadística . 47 (260): 583–621. doi : 10.1080 / 01621459.1952.10483441 .

[3] Corder, Gregory W .; Capataz, Dale I. (2009). Estadísticas no paramétricas para no estadísticos . Hoboken: John Wiley & Sons. pp. 99 -105. ISBN 9780470454619.

[4] Siegel; Castellan (1988). Estadística no paramétrica para las ciencias del comportamiento (Segunda ed.). Nueva York: McGraw – Hill. ISBN 0070573573.

[Dunn-5] Dunn, Olive Jean (1964). "Comparaciones múltiples usando sumas de rango". Tecnometría . 6 (3): 241–252. doi : 10.2307 / 1266041 .

[Conover-6] Conover, W. Jay; Iman, Ronald L. (1979). "Sobre procedimientos de comparaciones múltiples" (PDF) (Informe). Laboratorio Científico de Los Alamos . Consultado el 28 de octubre de 2016 .

[7] Spurrier, JD (2003). "Sobre la distribución nula del estadístico de Kruskal-Wallis". Revista de estadísticas no paramétricas . 15 (6): 685–691. doi : 10.1080 / 10485250310001634719 .

[8] Meyer; Seaman (abril de 2006). "Tablas ampliadas de valores críticos para el estadístico H de Kruskal-Wallis". Trabajo presentado en la reunión anual de la American Educational Research Association, San Francisco .Las tablas de valores críticos y las probabilidades exactas de Meyer y Seaman están disponibles para descargar en http://faculty.virginia.edu/kruskal-wallis/ Archivado el 17 de octubre de 2018 en Wayback Machine . Allí también se puede encontrar un artículo que describe su trabajo.

[9] Won Choi, Jae Won Lee, Myung-Hoe Huh y Seung-Ho Kang (2003). "Un algoritmo para calcular la distribución exacta de la prueba de Kruskal-Wallis". Comunicaciones en estadística: simulación y computación (32, número 4): 1029–1040. doi : 10.1081 / SAC-120023876 .CS1 maint: varios nombres: lista de autores ( enlace )

[1]