Prueba de tendencias de Jonckheere

En las estadísticas , la tendencia prueba Jonckheere ^[1] (a veces llamado el Jonckheere-Terpstra ^[2] prueba ) es una prueba para un clasificadas hipótesis alternativa dentro de una muestras independientes (entre-participantes) diseño. Es similar a la prueba de Kruskal-Wallis en que la hipótesis nula es que varias muestras independientes son de la misma población. Sin embargo, con la prueba de Kruskal-Wallis no existe un ordenamiento a priori de las poblaciones de las que se extraen las muestras. Cuando hay un ordenamiento a priori , la prueba de Jonckheere tiene más poder estadístico que la prueba de Kruskal-Wallis. La prueba fue desarrollada porAimable Robert Jonckheere , que era psicólogo y estadístico en el University College de Londres .

Las hipótesis nula y alternativa se pueden expresar convenientemente en términos de medianas de población para k poblaciones (donde k > 2). Sea θ _i la mediana poblacional para la i ésima población, la hipótesis nula es:

{\ Displaystyle H_ {0}: \ theta _ {1} = \ theta _ {2} = \ cdots = \ theta _ {k}}

La hipótesis alternativa es que las medianas de la población tienen un orden a priori, por ejemplo:

{\ Displaystyle H_ {A}: \ theta _ {1}}

≤

{\ Displaystyle \ theta _ {2}}

≤

{\ Displaystyle \ cdots}

≤

{\ Displaystyle \ theta _ {k}}

con al menos una desigualdad estricta.

Procedimiento

La prueba puede verse como un caso especial del método más general de correlación de rangos de Maurice Kendall ^[3] y hace uso del estadístico S de Kendall . Esto se puede calcular de dos formas:

El método de 'conteo directo'

Organizar las muestras en el orden previsto
Para cada puntaje a su vez, cuente cuántos puntajes en las muestras a la derecha son mayores que el puntaje en cuestión. Esto es P .
Para cada puntaje a su vez, cuente cuántos puntajes en las muestras a la derecha son más pequeños que el puntaje en cuestión. Esta es Q .
S = P - Q

El método 'náutico'

Convierta los datos en una tabla de contingencia ordenada , con los niveles de la variable independiente aumentando de izquierda a derecha y los valores de la variable dependiente aumentando de arriba hacia abajo.
Para cada entrada de la tabla, cuente todas las demás entradas que se encuentran al 'Sudeste' de la entrada en particular. Esto es P .
Para cada entrada de la tabla, cuente todas las demás entradas que se encuentran al 'Suroeste' de la entrada en particular. Esta es Q .
S = P - Q

Tenga en cuenta que siempre habrá vínculos en la variable independiente (los individuos están 'vinculados' en el sentido de que están en el mismo grupo) pero puede haber vínculos o no en la variable dependiente. Si no hay empates - o los empates ocurren dentro de una muestra particular (lo cual no afecta el valor de la estadística de prueba) - están disponibles tablas exactas de S ; por ejemplo, Jonckheere ^[1] proporcionó tablas seleccionadas para valores de k de 3 a 6 y tamaños de muestras iguales ( m ) de 2 a 5. Leach presentó valores críticos de S para k = 3 con tamaños de muestra que van desde 2,2,1 a 5,5,5. ^[4]

Aproximación normal a S

La distribución normal estándar se puede utilizar para aproximar la distribución de S bajo la hipótesis nula para los casos en los que no se dispone de tablas exactas. La media de la distribución de S siempre será cero, y suponiendo que no haya empates entre los valores en dos (o más) muestras diferentes, la varianza viene dada por

{\ Displaystyle \ operatorname {VAR} (S) = {\ frac {2 (n ^ {3} - \ sum t_ {i} ^ {3}) + 3 (n ^ {2} - \ sum t_ {i}) ^ {2})} {18}}}

Donde n es el número total de puntajes y t _i es el número de puntajes en la i-ésima muestra. La aproximación a la distribución normal estándar se puede mejorar mediante el uso de una corrección de continuidad: S _c = | S | - 1. Por tanto, 1 se resta de un valor S positivo y 1 se suma a un valor S negativo . El equivalente de la puntuación z viene dado por

{\ Displaystyle z = {\ frac {S_ {c}} {\ sqrt {\ operatorname {VAR} (S)}}}}

Corbatas

Si los puntajes están empatados entre los valores en dos (o más) muestras diferentes, no hay una tabla exacta para la distribución S y se debe usar una aproximación a la distribución normal. En este caso, no se aplica ninguna corrección de continuidad al valor de S y la varianza está dada por

{\ Displaystyle {\ begin {alineado} \ operatorname {VAR} (S) = & {\ frac {2 \ left (n ^ {3} - \ sum t_ {i} ^ {3} - \ sum u_ {i} ") ^ {3} \ right) +3 \ left (n ^ {2} - \ sum t_ {i} ^ {2} - \ sum u_ {i} ^ {2} \ right) + 5n} {18}} \ \ & {} + {\ frac {\ left (\ sum t_ {i} ^ {3} -3 \ sum t_ {i} ^ {2} + 2n \ right) \ left (\ sum u_ {i} ^ { 3} -3 \ sum u_ {i} ^ {2} + 2n \ right)} {9n (n-1) (n-2)}} \\ & {} + {\ frac {\ left (\ sum t_ {i} ^ {2} -n \ right) \ left (\ sum u_ {i} ^ {2} -n \ right)} {2n (n-1)}} \ end {alineado}}}

donde t _i es un total marginal de la fila y u _i un total marginal de la columna en la tabla de contingencia. El equivalente de puntuación z viene dado por

{\ Displaystyle z = {\ frac {S} {\ sqrt {\ operatorname {VAR} (S)}}}}

Un ejemplo numérico

En una réplica parcial de un estudio de Loftus y Palmer, los participantes fueron asignados al azar a uno de los tres grupos, y luego se les mostró una película de dos autos chocando entre sí. ^[5] Después de ver la película, a los participantes de un grupo se les hizo la siguiente pregunta: "¿Qué tan rápido iban los autos cuando se contactaban entre sí?" A los participantes de un segundo grupo se les preguntó: "¿Qué tan rápido iban los autos cuando chocaron entre sí?" A los participantes del tercer grupo se les preguntó: "¿Qué tan rápido iban los autos cuando chocaron entre sí?" Loftus y Palmer predijeron que el verbo de acción utilizado (contactado, golpeado, aplastado) influiría en las estimaciones de velocidad en millas por hora (mph), de modo que los verbos de acción que implican una mayor energía conducirían a velocidades estimadas más altas. Se obtuvieron los siguientes resultados (datos simulados):

Contactado	Golpeado	Colocado
10	12	20
12	18	25
14	20	27
dieciséis	22	30
mdn = 13	mdn = 19	mdn = 26

El método de 'conteo directo'

Las muestras ya están en el orden previsto
Para cada puntaje a su vez, cuente cuántos puntajes en las muestras a la derecha son mayores que el puntaje en cuestión para obtener P :

P = 8 + 7 + 7 + 7 + 4 + 4 + 3 + 3 = 43

Para cada puntaje a su vez, cuente cuántos puntajes en las muestras a la derecha son más pequeños que el puntaje en cuestión para obtener Q :

Q = 0 + 0 + 1 + 1 + 0 + 0 + 0 + 1 = 3

S = P - Q = 43 - 3
S = 40

El método 'náutico'

Transmita los datos a una tabla de contingencia ordenada

mph	Contactado	Golpeado	Colocado	Totales ( t _i )
10	1	0	0	1
12	1	1	0	2
14	1	0	0	1
dieciséis	1	0	0	1
18	0	1	0	1
20	0	1	1	2
22	0	1	0	1
25	0	0	1	1
27	0	0	1	1
30	0	0	1	1
Totales ( u _i )	4	4	4	12

Para cada entrada de la tabla, cuente todas las demás entradas que se encuentran al 'Sudeste' de la entrada en particular. Este es P :

P = (1 × 8) + (1 × 7) + (1 × 7) + (1 × 7) + (1 × 4) + (1 × 4) + (1 × 3) + (1 × 3) = 43

Para cada entrada de la tabla, cuente todas las demás entradas que se encuentran al 'Suroeste' de la entrada en particular. Esta es Q :

Q = (1 × 2) + (1 × 1) = 3

S = P - Q = 43 - 3
S = 40

Usando tablas exactas

Cuando los vínculos entre las muestras son pocos (como en este ejemplo), Leach sugirió que ignorar los vínculos y usar tablas exactas proporcionaría un resultado razonablemente preciso. ^[4] Jonckheere sugirió romper los lazos con la hipótesis alternativa y luego usar tablas exactas. ^[1] En el ejemplo actual, donde las puntuaciones empatadas solo aparecen en grupos adyacentes, el valor de S no cambia si los empates se rompen con la hipótesis alternativa. Esto puede verificarse sustituyendo 11 mph en lugar de 12 mph en la muestra del golpe, y 19 mph en lugar de 20 mph en el Smashed y volviendo a calcular la estadística de prueba. De las tablas con k = 3 ym = 4, el valor crítico de S para α = 0.05 es 36 y, por lo tanto, el resultado se declararía estadísticamente significativo en este nivel.

Calcular una aproximación normal estándar

{\ Displaystyle {\ text {As}} n = 12 {\ text {,}} n ^ {2} = 144 {\ text {y}} n ^ {3} = 1728. {\ text {También}}}

{\ Displaystyle sum (t_ {i} ^ {2}) = 16}

{\ Displaystyle sum (t_ {i} ^ {3}) = 24}

{\ Displaystyle sum (u_ {i} ^ {2}) = 48}

{\ Displaystyle sum (u_ {i} ^ {3}) = 192}

La varianza de S es entonces

{\ displaystyle {\ begin {alineado} \ operatorname {VAR} (S) = & {\ frac {2 (1728-24-192) +3 (144-16-48) +60} {18}} \\ & + {\ frac {(24-48 + 24) (192-144 + 24)} {9 \ times 12 \ times 11 \ times 10}} \\ & + {\ frac {(16-12) (48-12 )} {2 \ times 12 \ times 11}} \\ & = 185.212 \ end {alineado}}}

Y z está dado por

{\ Displaystyle z = {\ frac {S} {\ sqrt {\ operatorname {VAR} (S)}}} = {\ frac {40} {\ sqrt {185.212}}} = 2.939}

Para α = 0.05 (unilateral), el valor z crítico es 1.645, por lo que nuevamente el resultado se declararía significativo en este nivel. Una prueba similar para la tendencia en el contexto de diseños de medidas repetidas (dentro-participantes) y con base en el coeficiente de correlación de Spearman fue desarrollado por página . ^[6]

Referencias

↑ ^a ^b ^c Jonckheere, AR (1954). "Una prueba de muestra k libre de distribución contra alternativas ordenadas". Biometrika . 41 : 133-145. doi : 10.2307 / 2333011 .
^ Terpstra, TJ (1952). "La normalidad asintótica y la consistencia de la prueba de Kendall contra la tendencia, cuando hay empates en una clasificación" (PDF) . Indagationes Mathematicae . 14 : 327–333.
^ Kendall, MG (1962). Métodos de correlación de rango (3ª ed.). Londres: Charles Griffin.
^ ^a ^b Leach, C. (1979). Introducción a la estadística: un enfoque no paramétrico para las ciencias sociales . Chichester: John Wiley.
^ Loftus, EF; Palmer, JC (1974). "Reconstrucción de la destrucción del automóvil: un ejemplo de la interacción entre el lenguaje y la memoria". Revista de aprendizaje verbal y comportamiento verbal . 13 : 585–589. doi : 10.1016 / S0022-5371 (74) 80011-3 .
^ Page, EB (1963). "Hipótesis ordenadas para tratamientos múltiples: una prueba de significancia para rangos lineales". Revista de la Asociación Estadounidense de Estadística . 58 (301): 216-30. doi : 10.2307 / 2282965 .

Otras lecturas

Daniel, Wayne W. (1990). "Jonckheere – Terpstra tst para alternativas ordenadas" . Estadística no paramétrica aplicada (2ª ed.). Boston: PWS-Kent. págs. 234-240. ISBN 0-534-91976-6.

[jonck-1] Jonckheere, AR (1954). "Una prueba de muestra k libre de distribución contra alternativas ordenadas". Biometrika . 41 : 133-145. doi : 10.2307 / 2333011 .

[2] Terpstra, TJ (1952). "La normalidad asintótica y la consistencia de la prueba de Kendall contra la tendencia, cuando hay empates en una clasificación" (PDF) . Indagationes Mathematicae . 14 : 327–333.

[3] Kendall, MG (1962). Métodos de correlación de rango (3ª ed.). Londres: Charles Griffin.

[leach-4] Leach, C. (1979). Introducción a la estadística: un enfoque no paramétrico para las ciencias sociales . Chichester: John Wiley.

[5] Loftus, EF; Palmer, JC (1974). "Reconstrucción de la destrucción del automóvil: un ejemplo de la interacción entre el lenguaje y la memoria". Revista de aprendizaje verbal y comportamiento verbal . 13 : 585–589. doi : 10.1016 / S0022-5371 (74) 80011-3 .

[6] Page, EB (1963). "Hipótesis ordenadas para tratamientos múltiples: una prueba de significancia para rangos lineales". Revista de la Asociación Estadounidense de Estadística . 58 (301): 216-30. doi : 10.2307 / 2282965 .

[1]