Prueba de Cochran-Armitage para determinar la tendencia

La prueba de Cochran-Armitage para la tendencia , ^[1]^[2] llamada así por William Cochran y Peter Armitage , se utiliza en el análisis de datos categóricos cuando el objetivo es evaluar la presencia de una asociación entre una variable con dos categorías y una variable ordinal con k categorías. Modifica la prueba de chi-cuadrado de Pearson para incorporar un ordenamiento sospechoso en los efectos de las k categorías de la segunda variable. Por ejemplo, las dosis de un tratamiento se pueden ordenar como 'bajas', 'medias' y 'altas', y podemos sospechar que el beneficio del tratamiento no puede reducirse a medida que aumenta la dosis. La prueba de tendencia se utiliza a menudo comoprueba basada en el genotipo para estudios de asociación genética de casos y controles . ^[3]

Introducción

La prueba de tendencia se aplica cuando los datos toman la forma de una tabla de contingencia de 2 × k . Por ejemplo, si k = 3 tenemos

	B = 1	B = 2	B = 3
A = 1	N ₁₁	N ₁₂	N ₁₃
A = 2	N ₂₁	N ₂₂	N ₂₃

Esta tabla se puede completar con los totales marginales de las dos variables

	B = 1	B = 2	B = 3	Suma
A = 1	N ₁₁	N ₁₂	N ₁₃	R ₁
A = 2	N ₂₁	N ₂₂	N ₂₃	R ₂
Suma	C ₁	C ₂	C ₃	norte

donde R ₁ = N ₁₁ + N ₁₂ + N ₁₃ , y C ₁ = N ₁₁ + N ₂₁ , etc.

La estadística de la prueba de tendencia es

{\ Displaystyle T \ equiv \ sum _ {i = 1} ^ {k} t_ {i} (N_ {1i} R_ {2} -N_ {2i} R_ {1}),}

donde t _i son pesos, y la diferencia N _{1 i} R ₂ - N _{2 i} R ₁ puede verse como la diferencia entre N _{1 i} y N _{2 i} después de volver a ponderar las filas para tener el mismo total.

La hipótesis de no asociación (la hipótesis nula ) se puede expresar como:

{\ Displaystyle \ Pr (A = 1 | B = 1) = \ cdots = \ Pr (A = 1 | B = k).}

Suponiendo que esto se mantenga, entonces, usando la expectativa iterada ,

{\ Displaystyle \ operatorname {E} (T) = \ operatorname {E} \ left (\ operatorname {E} (T | R_ {1}, R_ {2}) \ right) = \ operatorname {E} (0) = 0.}

La varianza se puede calcular por descomposición , dando como resultado

{\ Displaystyle {\ rm {Var}} (T) = {\ frac {R_ {1} R_ {2}} {N}} \ left (\ sum _ {i = 1} ^ {k} t_ {i} ^ {2} C_ {i} (N-C_ {i}) - 2 \ sum _ {i = 1} ^ {k-1} \ sum _ {j = i + 1} ^ {k} t_ {i} t_ {j} C_ {i} C_ {j} \ derecha),}

y como una gran muestra aproximada,

{\ Displaystyle {\ frac {T} {\ sqrt {\ mathrm {Var} (T)}}} \ sim \ mathrm {N} (0,1).}

Las ponderaciones t _i pueden elegirse de modo que la prueba de tendencia sea localmente más potente para detectar tipos particulares de asociaciones. Por ejemplo, si k = 3 y sospechamos que B = 1 y B = 2 tienen frecuencias similares (dentro de cada fila), pero que B = 3 tiene una frecuencia diferente, entonces los pesos t = (1,1,0) deberían ser usado. Si sospechamos una tendencia lineal en las frecuencias, entonces se deben usar los pesos t = (0,1,2). Estos pesos también se utilizan a menudo cuando se sospecha que las frecuencias cambian monótonamente con B , incluso si la tendencia no es necesariamente lineal.

Interpretación y rol

La prueba de tendencia tendrá mayor potencia que la prueba de chi-cuadrado cuando la tendencia sospechada sea correcta, pero se sacrifica la capacidad de detectar tendencias insospechadas. Este es un ejemplo de una técnica general para dirigir las pruebas de hipótesis hacia alternativas limitadas . La prueba de tendencia aprovecha la dirección del efecto sospechado para aumentar la potencia, pero esto no afecta la distribución muestral del estadístico de prueba bajo la hipótesis nula . Por lo tanto, la presunta tendencia en los efectos no es una suposición que deba mantenerse para que los resultados de la prueba sean significativos.

Aplicación a la genética

Supongamos que hay tres posibles genotipos en algún locus , y nos referimos a ellos como aa, Aa y AA. La distribución de los recuentos de genotipos se puede poner en una tabla de contingencia de 2 × 3. Por ejemplo, considere los siguientes datos, en los que las frecuencias de genotipo varían linealmente en los casos y son constantes en los controles:

	Genotipo aa	Genotipo Aa	Genotipo AA	Suma
Control S	20	20	20	60
Casos	10	20	30	60
Suma	30	40	50	120

En aplicaciones de genética, los pesos se seleccionan de acuerdo con el modo de herencia sospechoso . Por ejemplo, para probar si el alelo a es dominante sobre el alelo A, la opción t = (1, 1, 0) es localmente óptima. Para probar si el alelo a es recesivo al alelo A, la elección óptima es t = (0, 1, 1). Para probar si los alelos ay A son codominantes , la elección t = (0, 1, 2) es localmente óptima. En el caso de enfermedades complejas , a menudo se desconoce el modelo genético subyacente. En los estudios de asociación de todo el genoma , a menudo se usa la versión aditiva (o codominante) de la prueba.

En el ejemplo numérico, las estadísticas de prueba estandarizadas para varios vectores de peso son

Pesos	Estadística de prueba estandarizada
1,1,0	1,85
0,1,1	−2,1
0,1,2	−2,3

y la prueba de chi-cuadrado de Pearson da un estadístico de prueba estandarizado de 2. Por lo tanto, obtenemos un nivel de significancia más fuerte si se utilizan las ponderaciones correspondientes a la herencia aditiva (codominante). Tenga en cuenta que para que el nivel de significancia dé un valor p con la interpretación probabilística habitual, las ponderaciones deben especificarse antes de examinar los datos y solo se puede utilizar un conjunto de ponderaciones.

Ver también

Lista de análisis de datos categóricos

Referencias

Agresti, Alan (2002). Análisis de datos categóricos (Segunda ed.). Wiley. ISBN 0-471-36093-7.
Sasieni, P (1997). "De genotipos a genes: duplicar el tamaño de la muestra". Biometría . Sociedad Biométrica Internacional. 53 (4): 1253–61. doi : 10.2307 / 2533494 . JSTOR 2533494 . PMID 9423247 .
statgen.org (2007). "Una derivación de la prueba de tendencia de Armitage para la tabla de genotipos 2 × 3" (PDF) . Consultado el 6 de febrero de 2009 . -

^ Cochran, WG (1954). "Algunos métodos para fortalecer las pruebas comunes de chi-cuadrado". Biometría . Sociedad Biométrica Internacional. 10 (4): 417–451. doi : 10.2307 / 3001616 . JSTOR 3001616 .
^ Armitage, P (1955). "Pruebas de tendencias lineales en proporciones y frecuencias". Biometría . Sociedad Biométrica Internacional. 11 (3): 375–386. doi : 10.2307 / 3001775 . JSTOR 3001775 .
^ Purcell S, Neale B, Todd-Brown K, et al. (Septiembre de 2007). "PLINK: un conjunto de herramientas para la asociación de todo el genoma y análisis de vinculación basados en la población" . Soy. J. Hum. Genet . 81 (3): 559–75. doi : 10.1086 / 519795 . PMC 1950838 . PMID 17701901 .

[1] Cochran, WG (1954). "Algunos métodos para fortalecer las pruebas comunes de chi-cuadrado". Biometría . Sociedad Biométrica Internacional. 10 (4): 417–451. doi : 10.2307 / 3001616 . JSTOR 3001616 .

[2] Armitage, P (1955). "Pruebas de tendencias lineales en proporciones y frecuencias". Biometría . Sociedad Biométrica Internacional. 11 (3): 375–386. doi : 10.2307 / 3001775 . JSTOR 3001775 .

[3] Purcell S, Neale B, Todd-Brown K, et al. (Septiembre de 2007). "PLINK: un conjunto de herramientas para la asociación de todo el genoma y análisis de vinculación basados en la población" . Soy. J. Hum. Genet . 81 (3): 559–75. doi : 10.1086 / 519795 . PMC 1950838 . PMID 17701901 .

[1]