Cuadrados medios esperados

En estadística , los cuadrados medios esperados (EMS) son los valores esperados de ciertas estadísticas que surgen en particiones de sumas de cuadrados en el análisis de varianza (ANOVA). Se pueden usar para determinar qué estadística debe aparecer en el denominador en una prueba F para probar una hipótesis nula de que un efecto particular está ausente.

Definición

Cuando la suma total corregida de cuadrados en un ANOVA se divide en varios componentes, cada uno atribuido al efecto de una variable predictora particular, cada una de las sumas de cuadrados en esa partición es una variable aleatoria que tiene un valor esperado . Ese valor esperado dividido por el número correspondiente de grados de libertad es el cuadrado medio esperado para esa variable predictora.

Ejemplo

El siguiente ejemplo es de Longitudinal Data Analysis de Donald Hedeker y Robert D. Gibbons. ^[1]

Cada uno de los tratamientos (uno de los cuales puede ser un placebo) se administra a una muestra de (mayúsculas) N pacientes elegidos al azar, en los que determinadas mediciones ${\ textstyle Y_ {hij}}$ se observan en cada uno de (minúsculas) n tiempos especificados, para ${\ textstyle h = 1, \ ldots, s, \ quad i = 1, \ ldots, N_ {h}}$ (por lo tanto, el número de pacientes que reciben diferentes tratamientos puede diferir), y ${\ textstyle j = 1, \ ldots, n.}$ Suponemos que los conjuntos de pacientes que reciben diferentes tratamientos son inconexos, por lo que los pacientes se anidan dentro de los tratamientos y no se cruzan con los tratamientos. Tenemos

{\ Displaystyle Y_ {hij} = \ mu + \ gamma _ {h} + \ tau _ {j} + (\ gamma \ tau) _ {hj} + \ pi _ {i (h)} + \ varepsilon _ { hola}}

dónde

${\ Displaystyle \ mu}$ = gran media, (fijo)
${\ Displaystyle \ gamma _ {h}}$ = efecto del tratamiento ${\ Displaystyle h}$ , (reparado)
${\ Displaystyle \ tau _ {j}}$ = efecto del tiempo ${\ Displaystyle j}$ , (reparado)
${\ Displaystyle (\ gamma \ tau) _ {hj}}$ = efecto de interacción del tratamiento ${\ Displaystyle h}$ y tiempo ${\ Displaystyle j}$ , (reparado)
${\ Displaystyle \ pi _ {i (h)}}$ = efecto de diferencia individual para el paciente ${\ Displaystyle i}$ anidado dentro del tratamiento ${\ Displaystyle h}$ , (aleatorio)
${\ Displaystyle \ varepsilon _ {hij}}$ = error para el paciente ${\ Displaystyle i}$ en tratamiento ${\ Displaystyle h}$ en el momento ${\ Displaystyle j}$ . (aleatorio)
${\ Displaystyle \ sigma _ {\ pi} ^ {2}}$ = varianza del efecto aleatorio de los pacientes anidados dentro de los tratamientos,
${\ Displaystyle \ sigma _ {\ varepsilon}}$ = varianza del error.

La suma total corregida de cuadrados es

{\ Displaystyle \ sum _ {hij} (Y_ {hij} - {\ overline {Y}}) ^ {2} \ quad {\ text {where}} {\ overline {Y}} = {\ frac {1} {n}} \ sum _ {hij} Y_ {hij}.}

La siguiente tabla ANOVA divide la suma de cuadrados (donde ${\ textstyle N = \ sum _ {h} N_ {h}}$ ):

fuente de variabilidad	grados de libertad	suma de cuadrados	cuadrado medio	cuadrado medio esperado
tratamiento	${\ Displaystyle s-1}$	${\ Displaystyle {\ text {SS}} _ {\ text {Tr}} = n \ sum _ {h = 1} ^ {s} N_ {h} ({\ overline {Y}} _ {h \ cdot \ cdot} - {\ overline {Y}} _ {\ cdot \ cdot \ cdot}) ^ {2}}$	${\ Displaystyle {\ dfrac {{\ text {SS}} _ {\ text {Tr}}} {s-1}}}$	${\ Displaystyle \ sigma _ {\ varepsilon} ^ {2} + n \ sigma _ {\ pi} ^ {2} + D _ {\ text {Tr}}}$
hora	${\ Displaystyle n-1}$	${\ Displaystyle {\ text {SS}} _ {\ text {T}} = N \ sum _ {j = 1} ^ {n} ({\ overline {Y}} _ {\ cdot \ cdot j} - { \ overline {Y}} _ {\ cdot \ cdot \ cdot}) ^ {2}}$	${\ Displaystyle {\ dfrac {{\ text {SS}} _ {\ text {T}}} {n-1}}}$	${\ Displaystyle \ sigma _ {\ varepsilon} ^ {2} + D _ {\ text {T}}}$
tratamiento × tiempo	${\ Displaystyle (s-1) (n-1)}$	${\ Displaystyle {\ text {SS}} _ {\ text {Tr T}} = \ sum _ {h = 1} ^ {s} \ sum _ {j = 1} ^ {n} N_ {h} ({ \ overline {Y}} _ {h \ cdot j} - {\ overline {Y}} _ {h \ cdot \ cdot} - {\ overline {Y}} _ {\ cdot \ cdot j} + {\ overline { Y}} _ {\ cdot \ cdot \ cdot}) ^ {2}}$	${\ Displaystyle {\ dfrac {{\ text {SS}} _ {\ text {Tr T}}} {(n-1) (s-1)}}}$	${\ Displaystyle \ sigma _ {\ varepsilon} ^ {2} + D _ {\ text {Tr T}}}$
pacientes dentro de los tratamientos	${\ Displaystyle Ns}$	${\ Displaystyle {\ text {SS}} _ {{\ text {S}} ({\ text {Tr}})} = n \ sum _ {h = 1} ^ {s} \ sum _ {i = 1 } ^ {N_ {h}} ({\ overline {Y}} _ {hola \ cdot} - {\ overline {Y}} _ {h \ cdot \ cdot}) ^ {2}}$	${\ displaystyle {\ dfrac {{\ text {SS}} _ {{\ text {S}} ({\ text {Tr}})}} {Ns}}}$	${\ Displaystyle \ sigma _ {\ varepsilon} ^ {2} + n \ sigma _ {\ pi} ^ {2}}$
error	${\ Displaystyle (Ns) (n-1)}$	${\ Displaystyle {\ text {SS}} _ {\ text {E}} = \ sum _ {h = 1} ^ {s} \ sum _ {i = 1} ^ {N_ {h}} \ sum _ { j = 1} ^ {n} (Y_ {hij} - {\ overline {Y}} _ {h \ cdot j} - {\ overline {Y}} _ {hi \ cdot} + {\ overline {Y}} _ {h \ cdot \ cdot}) ^ {2}}$	${\ Displaystyle {\ dfrac {{\ text {SS}} _ {\ text {E}}} {(Ns) (n-1)}}}$	${\ Displaystyle \ sigma _ {\ varepsilon} ^ {2}}$

Uso en pruebas F

Una hipótesis nula de interés es que no hay diferencia entre los efectos de los diferentes tratamientos, por lo que no hay diferencia entre las medias de los tratamientos. Esto puede expresarse diciendo ${\ textstyle D _ {\ text {Tr}} = 0,}$ (con la notación utilizada en la tabla anterior). Bajo esta hipótesis nula, el cuadrado medio esperado para los efectos de los tratamientos es ${\ textstyle \ sigma _ {\ varepsilon} ^ {2} + n \ sigma _ {\ pi} ^ {2}.}$

El numerador en el estadístico F para probar esta hipótesis es el cuadrado medio debido a las diferencias entre los tratamientos, es decir, es ${\ textstyle \ left. {\ text {SS}} _ {\ text {Tr}} \ right / (s-1).}$ El denominador, sin embargo, no es ${\ textstyle \ left. {\ text {SS}} _ {\ text {E}} \ right / {\ big (} (Ns) (n-1) {\ big)}.}$ La razón es que la siguiente variable aleatoria, aunque bajo la hipótesis nula tiene una distribución F , no es observable (no es una estadística) porque su valor depende de los parámetros no observables. ${\ textstyle \ sigma _ {\ pi} ^ {2}}$ y ${\ textstyle \ sigma _ {\ varepsilon} ^ {2}.}$

{\ displaystyle {\ frac {\ left. {\ frac {{\ text {SS}} _ {\ text {Tr}}} {\ sigma _ {\ varepsilon} ^ {2} + n \ sigma _ {\ pi } ^ {2}}} \ right / (s-1)} {\ left. {\ Frac {{\ text {SS}} _ {\ text {E}}} {\ sigma _ {\ varepsilon} ^ { 2}}} \ right / {\ big (} (Ns) (n-1) {\ big)}}} \ neq {\ frac {{\ text {SS}} _ {\ text {Tr}} / ( s-1)} {{\ text {SS}} _ {\ text {E}} / {\ big (} (Ns) (n-1) {\ big)}}}}

En su lugar, se utiliza como estadística de prueba la siguiente variable aleatoria que no está definida en términos de ${\ textstyle {\ text {SS}} _ {\ text {E}}}$ :

{\ Displaystyle F = {\ frac {\ left. {\ frac {{\ text {SS}} _ {\ text {Tr}}} {\ sigma _ {\ varepsilon} ^ {2} + n \ sigma _ { \ pi} ^ {2}}} \ right / (s-1)} {\ left. {\ frac {{\ text {SS}} _ {{\ text {S}} ({\ text {Tr}} )}} {\ sigma _ {\ varepsilon} ^ {2} + n \ sigma _ {\ pi} ^ {2}}} \ right / (Ns)}} = {\ frac {\ left. {\ text { SS}} _ {\ text {Tr}} \ right / (s-1)} {\ left. {\ Text {SS}} _ {\ text {S (Tr)}} \ right / (Ns)}} }

notas y referencias

^ Donald Hedeker, Robert D. Gibbons. Análisis de datos longitudinales. Wiley Interscience. 2006. págs. 21-24

[1] Donald Hedeker, Robert D. Gibbons. Análisis de datos longitudinales. Wiley Interscience. 2006. págs. 21-24

[1]