Análisis de varianza bidireccional

En las estadísticas , la de dos vías de análisis de varianza ( ANOVA ) es una extensión de la ANOVA de una vía que examina la influencia de dos diferentes categorías variables independientes en una continua variable dependiente . El ANOVA bidireccional no solo tiene como objetivo evaluar el efecto principal de cada variable independiente, sino también si existe alguna interacción entre ellas.

Historia

En 1925, Ronald Fisher menciona el ANOVA bidireccional en su célebre libro, Métodos estadísticos para investigadores (capítulos 7 y 8). En 1934, Frank Yates publicó los procedimientos para el caso desequilibrado. ^[1] Desde entonces, se ha producido una extensa literatura. El tema fue revisado en 1993 por Yasunori Fujikoshi . ^[2] En 2005, Andrew Gelman propuso un enfoque diferente de ANOVA, visto como un modelo multinivel . ^[3]

Conjunto de datos

Imaginemos un conjunto de datos para el cual una variable dependiente puede estar influenciada por dos factores que son fuentes potenciales de variación. El primer factor tiene ${\ Displaystyle I}$ niveles ( ${\ Displaystyle i \ in \ {1, \ ldots, I \}}$ ) y el segundo tiene ${\ Displaystyle J}$ niveles ( ${\ Displaystyle j \ in \ {1, \ ldots, J \}}$ ) . Cada combinación ${\ Displaystyle (i, j)}$ define un tratamiento , para un total de ${\ Displaystyle I \ times J}$ tratos. Representamos el número de réplicas para tratamiento ${\ Displaystyle (i, j)}$ por ${\ Displaystyle n_ {ij}}$ , y deja ${\ Displaystyle k}$ ser el índice de la réplica en este tratamiento ( ${\ Displaystyle k \ in \ {1, \ ldots, n_ {ij} \}}$ ) .

A partir de estos datos, podemos construir una tabla de contingencia , donde ${\ Displaystyle n_ {i +} = \ sum _ {j = 1} ^ {J} n_ {ij}}$ y ${\ Displaystyle n _ {+ j} = \ sum _ {i = 1} ^ {I} n_ {ij}}$ , y el número total de réplicas es igual a ${\ Displaystyle n = \ sum _ {i, j} n_ {ij} = \ sum _ {i} n_ {i +} = \ sum _ {j} n _ {+ j}}$ .

El diseño experimental está equilibrado si cada tratamiento tiene el mismo número de repeticiones, ${\ Displaystyle K}$ . En tal caso, también se dice que el diseño es ortogonal , lo que permite distinguir completamente los efectos de ambos factores. Por tanto, podemos escribir ${\ Displaystyle \ forall i, j \; n_ {ij} = K}$ , y ${\ Displaystyle \ forall i, j \; n_ {ij} = {\ frac {n_ {i +} \ cdot n _ {+ j}} {n}}}$ .

Modelo

Al observar la variación entre todos ${\ Displaystyle n}$ puntos de datos, por ejemplo a través de un histograma , "la probabilidad puede usarse para describir tal variación". ^[4] Por tanto, denotemos por ${\ Displaystyle Y_ {ijk}}$ la variable aleatoria que observó el valor ${\ Displaystyle y_ {ijk}}$ es el ${\ Displaystyle k}$ -a medida de tratamiento ${\ Displaystyle (i, j)}$ . El ANOVA bidireccional modela todas estas variables como que varían independientemente y normalmente alrededor de una media, ${\ Displaystyle \ mu _ {ij}}$ , con una varianza constante, ${\ Displaystyle \ sigma ^ {2}}$ ( homocedasticidad ):

${\ Displaystyle Y_ {ijk} \, | \, \ mu _ {ij}, \ sigma ^ {2} \; {\ overset {\ mathrm {iid}} {\ sim}} \; {\ mathcal {N} } (\ mu _ {ij}, \ sigma ^ {2})}$ .

Específicamente, la media de la variable de respuesta se modela como una combinación lineal de las variables explicativas:

${\ Displaystyle \ mu _ {ij} = \ mu + \ alpha _ {i} + \ beta _ {j} + \ gamma _ {ij}}$ ,

dónde ${\ Displaystyle \ mu}$ es la gran media, ${\ Displaystyle \ alpha _ {i}}$ es el efecto principal aditivo del nivel ${\ Displaystyle i}$ desde el primer factor ( i -ésima fila en la tabla de contingencia), ${\ Displaystyle \ beta _ {j}}$ es el efecto principal aditivo del nivel ${\ Displaystyle j}$ del segundo factor ( j -ésima columna en la tabla de contingencia) y ${\ Displaystyle \ gamma _ {ij}}$ es el efecto de interacción no aditivo del tratamiento ${\ Displaystyle (i, j)}$ de ambos factores (celda en la fila i y columna j en la tabla de contingencia).

Otra forma equivalente de describir el ANOVA bidireccional es mencionar que, además de la variación explicada por los factores, queda algo de ruido estadístico . Esta cantidad de variación inexplicable se maneja mediante la introducción de una variable aleatoria por punto de datos, ${\ Displaystyle \ epsilon _ {ijk}}$ , llamado error . Estas ${\ Displaystyle n}$ Las variables aleatorias se consideran desviaciones de las medias y se supone que son independientes y están distribuidas normalmente:

${\ Displaystyle Y_ {ijk} = \ mu _ {ij} + \ epsilon _ {ijk} {\ text {with}} \ epsilon _ {ijk} {\ overset {\ mathrm {iid}} {\ sim}} { \ mathcal {N}} (0, \ sigma ^ {2})}$ .

Supuestos

Siguiendo a Gelman y Hill, los supuestos del ANOVA, y más generalmente el modelo lineal general , son, en orden decreciente de importancia: ^[5]

los puntos de datos son relevantes con respecto a la cuestión científica bajo investigación;
la media de la variable de respuesta está influenciada de forma aditiva (si no es el término de interacción) y linealmente por los factores;
los errores son independientes;
los errores tienen la misma varianza;
los errores se distribuyen normalmente.

Estimación de parámetros

Para asegurar la identificabilidad de los parámetros, podemos agregar las siguientes restricciones de "suma a cero":

${\ Displaystyle \ sum _ {i} \ alpha _ {i} = \ sum _ {j} \ beta _ {j} = \ sum _ {i} \ gamma _ {ij} = \ sum _ {j} \ gamma _ {ij} = 0}$

Evaluación de la hipótesis

En el enfoque clásico, la prueba de hipótesis nulas (que los factores no tienen efecto) se logra a través de su importancia, lo que requiere calcular sumas de cuadrados .

Probar si el término de interacción es significativo puede resultar difícil debido al número potencialmente elevado de grados de libertad . ^[6]

Ver también

Análisis de variación
Prueba F ( incluye un ejemplo de ANOVA unidireccional )
Modelo mixto
Análisis de varianza multivariado (MANOVA)
ANOVA unidireccional
ANOVA de medidas repetidas
Prueba de aditividad de Tukey

Notas

^ Yates, Frank (marzo de 1934). "El análisis de múltiples clasificaciones con números desiguales en las diferentes clases". Revista de la Asociación Estadounidense de Estadística . 29 (185): 51–66. doi : 10.1080 / 01621459.1934.10502686 . JSTOR 2278459 .
^ Fujikoshi, Yasunori (1993). "Modelos ANOVA bidireccionales con datos desbalanceados". Matemáticas discretas . 116 (1): 315–334. doi : 10.1016 / 0012-365X (93) 90410-U .
^ Gelman, Andrew (febrero de 2005). "Análisis de varianza? Por qué es más importante que nunca". The Annals of Statistics . 33 (1): 1–53. arXiv : matemáticas / 0508526 . doi : 10.1214 / 009053604000001048 .
^ Kass, Robert E (1 de febrero de 2011). "Inferencia estadística: el panorama general" . Ciencia estadística . 26 (1): 1–9. arXiv : 1106.2895 . doi : 10.1214 / 10-pts337 . PMC 3153074 . PMID 21841892 .
^ Gelman, Andrew; Hill, Jennifer (18 de diciembre de 2006). Análisis de datos mediante regresión y modelos jerárquicos / multinivel . Prensa de la Universidad de Cambridge . págs. 45–46. ISBN 978-0521867061.
^ Yi-An Ko; et al. (Septiembre 2013). "Pruebas novedosas de razón de verosimilitud para el cribado de interacciones gen-gen y gen-entorno con datos de medidas repetidas desequilibradas" . Epidemiología genética . 37 (6): 581–591. doi : 10.1002 / gepi.21744 . PMC 4009698 . PMID 23798480 .

Referencias

George Casella (18 de abril de 2008). Diseño estadístico . Springer Texts in Statistics. Springer . ISBN 978-0-387-75965-4.

[1] Yates, Frank (marzo de 1934). "El análisis de múltiples clasificaciones con números desiguales en las diferentes clases". Revista de la Asociación Estadounidense de Estadística . 29 (185): 51–66. doi : 10.1080 / 01621459.1934.10502686 . JSTOR 2278459 .

[2] Fujikoshi, Yasunori (1993). "Modelos ANOVA bidireccionales con datos desbalanceados". Matemáticas discretas . 116 (1): 315–334. doi : 10.1016 / 0012-365X (93) 90410-U .

[3] Gelman, Andrew (febrero de 2005). "Análisis de varianza? Por qué es más importante que nunca". The Annals of Statistics . 33 (1): 1–53. arXiv : matemáticas / 0508526 . doi : 10.1214 / 009053604000001048 .

[4] Kass, Robert E (1 de febrero de 2011). "Inferencia estadística: el panorama general" . Ciencia estadística . 26 (1): 1–9. arXiv : 1106.2895 . doi : 10.1214 / 10-pts337 . PMC 3153074 . PMID 21841892 .

[5] Gelman, Andrew; Hill, Jennifer (18 de diciembre de 2006). Análisis de datos mediante regresión y modelos jerárquicos / multinivel . Prensa de la Universidad de Cambridge . págs. 45–46. ISBN 978-0521867061.

[6] Yi-An Ko; et al. (Septiembre 2013). "Pruebas novedosas de razón de verosimilitud para el cribado de interacciones gen-gen y gen-entorno con datos de medidas repetidas desequilibradas" . Epidemiología genética . 37 (6): 581–591. doi : 10.1002 / gepi.21744 . PMC 4009698 . PMID 23798480 .

[1]