Varianza agrupada

En estadística , la varianza combinada (también conocida como varianza combinada , varianza compuesta o varianza general , y escrita ${\ Displaystyle \ sigma ^ {2}}$ ) es un método para estimar la varianza de varias poblaciones diferentes cuando la media de cada población puede ser diferente, pero se puede suponer que la varianza de cada población es la misma. La estimación numérica resultante del uso de este método también se denomina varianza combinada.

Bajo el supuesto de varianzas poblacionales iguales, la varianza muestral combinada proporciona una estimación de varianza de mayor precisión que las varianzas muestrales individuales. Esta mayor precisión puede conducir a un mayor poder estadístico cuando se utiliza en pruebas estadísticas que comparan las poblaciones, como la prueba t .

La raíz cuadrada de un estimador de la varianza combinada se conoce como una desviación estándar combinada (también conocido como desviación combinado estándar , desviación estándar de material compuesto , o desviación estándar global ).

Motivación

En estadística , muchas veces, los datos se recopilan para una variable dependiente , y , sobre un rango de valores para la variable independiente , x . Por ejemplo, la observación del consumo de combustible podría estudiarse en función de la velocidad del motor mientras la carga del motor se mantiene constante. Si, para lograr una pequeña variación en y , se requieren numerosas pruebas repetidas para cada valor de x , el costo de las pruebas puede volverse prohibitivo. Se pueden determinar estimaciones razonables de varianza utilizando el principio de varianza agrupada después de repetir cada prueba en una x particular solo unas pocas veces.

Definición y cálculo

Definición

La varianza combinada es una estimación de la varianza común fija ${\ Displaystyle \ sigma ^ {2}}$ subyacentes a varias poblaciones que tienen diferentes medios.

Cálculo

Si las poblaciones están indexadas ${\ Displaystyle i = 1, \ ldots, k}$ , luego la varianza agrupada ${\ Displaystyle s_ {p} ^ {2}}$ se puede calcular mediante el promedio ponderado

{\ Displaystyle s_ {p} ^ {2} = {\ frac {\ sum _ {i = 1} ^ {k} (n_ {i} -1) s_ {i} ^ {2}} {\ sum _ { i = 1} ^ {k} (n_ {i} -1)}} = {\ frac {(n_ {1} -1) s_ {1} ^ {2} + (n_ {2} -1) s_ { 2} ^ {2} + \ cdots + (n_ {k} -1) s_ {k} ^ {2}} {n_ {1} + n_ {2} + \ cdots + n_ {k} -k}}, }

dónde ${\ Displaystyle n_ {i}}$ es el tamaño de muestra de la población ${\ Displaystyle i}$ y las variaciones de la muestra son

{\ Displaystyle s_ {i} ^ {2}}

=

{\ Displaystyle {\ frac {1} {n_ {i} -1}} \ sum _ {j = 1} ^ {n_ {i}} \ left (y_ {j} - {\ overline {y_ {i}} } \ right) ^ {2}}

.

Uso de ${\ Displaystyle (n_ {i} -1)}$ factores de ponderación en lugar de ${\ Displaystyle n_ {i}}$ proviene de la corrección de Bessel .

Variantes

La estimación de mínimos cuadrados insesgada de ${\ Displaystyle \ sigma ^ {2},}$

{\ Displaystyle s_ {p} ^ {2} = {\ frac {\ sum _ {i = 1} ^ {k} (n_ {i} -1) s_ {i} ^ {2}} {\ sum _ { i = 1} ^ {k} (n_ {i} -1)}},}

y la estimación sesgada de máxima verosimilitud

{\ Displaystyle s_ {p} ^ {2} = {\ frac {\ sum _ {i = 1} ^ {k} (n_ {i} -1) s_ {i} ^ {2}} {\ sum _ { i = 1} ^ {k} n_ {i}}},}

se utilizan en diferentes contextos. ^{[ cita requerida ]} El primero puede dar una ${\ Displaystyle s_ {p} ^ {2}}$ para estimar ${\ Displaystyle \ sigma ^ {2}}$ cuando los dos grupos comparten una variación poblacional igual. Este último puede dar un resultado más eficiente. ${\ Displaystyle s_ {p} ^ {2}}$ para estimar ${\ Displaystyle \ sigma ^ {2}}$ sesgada. Tenga en cuenta que las cantidades ${\ Displaystyle s_ {i} ^ {2}}$ en el lado derecho de ambas ecuaciones están las estimaciones insesgadas.

Ejemplo

Considere el siguiente conjunto de datos para y obtenidos en varios niveles de la variable independiente x .

X	y
1	31, 30, 29
2	42, 41, 40, 39
3	31, 28
4	23, 22, 21, 19, 18
5	21, 20, 19, 18,17

El número de ensayos, la media, la varianza y la desviación estándar se presentan en la siguiente tabla.

X	norte	y _media	s _i²	s _yo
1	3	30,0	1.0	1.0
2	4	40,5	1,67	1,29
3	2	29,5	4.5	2.12
4	5	20,6	4.3	2,07
5	5	19,0	2.5	1,58

Estas estadísticas representan la varianza y la desviación estándar de cada subconjunto de datos en los distintos niveles de x . Si podemos suponer que los mismos fenómenos están generando un error aleatorio en cada nivel de x , los datos anteriores se pueden "agrupar" para expresar una sola estimación de la varianza y la desviación estándar. En cierto sentido, esto sugiere encontrar una varianza media o desviación estándar entre los cinco resultados anteriores. Esta varianza media se calcula ponderando los valores individuales con el tamaño del subconjunto para cada nivel de x . Por lo tanto, la varianza combinada se define por

{\ Displaystyle s_ {P} ^ {2} = {\ frac {(n_ {1} -1) s_ {1} ^ {2} + (n_ {2} -1) s_ {2} ^ {2} + \ cdots + (n_ {k} -1) s_ {k} ^ {2}} {(n_ {1} -1) + (n_ {2} -1) + \ cdots + (n_ {k} -1) }}}

donde n ₁ , n ₂ ,. . ., n _k son los tamaños de los subconjuntos de datos en cada nivel de la variable x , y s ₁² , s ₂² ,. . ., s _k² son sus respectivas variaciones.

Por tanto, la varianza agrupada de los datos que se muestran arriba es:

{\ Displaystyle s_ {p} ^ {2} = 2.764 \,}

Efecto sobre la precisión

La varianza agrupada es una estimación cuando existe una correlación entre conjuntos de datos agrupados o el promedio de los conjuntos de datos no es idéntico. La variación agrupada es menos precisa cuanto más distinta de cero es la correlación o distantes los promedios entre conjuntos de datos.

La variación de datos para conjuntos de datos que no se superponen es:

{\ Displaystyle {\ begin {alineado} \ sigma _ {X} ^ {2} & = {\ frac {\ left (\ sum _ {i} {\ left [(N_ {X_ {i}} - 1) \ " sigma _ {X_ {i}} ^ {2} + N_ {X_ {i}} \ mu _ {X_ {i}} ^ {2} \ right]} - \ left [\ sum _ {i} {N_ { X_ {i}}} \ right] \ mu _ {X} ^ {2} \ right)} {\ sum _ {i} {N_ {X_ {i}} - 1}}} \ end {alineado}}}

Donde la media se define como:

{\ Displaystyle {\ begin {alineado} \ mu _ {X} & = {\ frac {\ left (\ sum _ {i} {N_ {X_ {i}} \ mu _ {X_ {i}}} \ right )} {\ sum _ {i} {N_ {X_ {i}}}}} \ end {alineado}}}

Dada una probabilidad máxima sesgada definida como:

{\ Displaystyle s_ {p} ^ {2} = {\ frac {\ sum _ {i = 1} ^ {k} (n_ {i} -1) s_ {i} ^ {2}} {\ sum _ { i = 1} ^ {k} n_ {i}}},}

Entonces, el error en la estimación de máxima verosimilitud sesgada es:

{\ Displaystyle {\ begin {alineado} Error = s_ {p} ^ {2} - \ sigma _ {X} ^ {2} \\ [3pt] = {\ frac {\ sum _ {i} (N_ {X_ {i}} - 1) s_ {i} ^ {2}} {\ sum _ {i} N_ {X_ {i}}}} - {\ frac {1} {\ sum _ {i} {N_ {X_ {i}} - 1}}} \ left (\ sum _ {i} {\ left [(N_ {X_ {i}} - 1) \ sigma _ {X_ {i}} ^ {2} + N_ {X_ {i}} \ mu _ {X_ {i}} ^ {2} \ right]} - \ left [\ sum _ {i} {N_ {X_ {i}}} \ right] \ mu _ {X} ^ {2} \ right) \ end {alineado}}}

Suponiendo que N es tan grande que:

{\ Displaystyle {\ begin {alineado} \ sum _ {i} N_ {X_ {i}} \ approx \ sum _ {i} {N_ {X_ {i}} - 1} \ end {alineado}}

Entonces el error en la estimación se reduce a:

{\ Displaystyle {\ begin {alineado} E = - {\ frac {\ left (\ sum _ {i} {\ left [N_ {X_ {i}} \ mu _ {X_ {i}} ^ {2} \ " derecha]} - \ izquierda [\ sum _ {i} {N_ {X_ {i}}} \ derecha] \ mu _ {X} ^ {2} \ derecha)} {\ sum _ {i} N_ {X_ { i}}}} \\ [3pt] = \ mu _ {X} ^ {2} - {\ frac {\ sum _ {i} {\ left [N_ {X_ {i}} \ mu _ {X_ {i }} ^ {2} \ right]}} {\ sum _ {i} N_ {X_ {i}}}} \\ [3pt] \ end {alineado}}}

O alternativamente:

{\ Displaystyle {\ begin {alineado} E = \ left [{\ frac {\ sum _ {i} {N_ {X_ {i}} \ mu _ {X_ {i}}}} {\ sum _ {i} {N_ {X_ {i}}}}} \ right] ^ {2} - {\ frac {\ sum _ {i} {\ left [N_ {X_ {i}} \ mu _ {X_ {i}} ^ {2} \ right]}} {\ sum _ {i} N_ {X_ {i}}}} \\ [3pt] = {\ frac {\ left [\ sum _ {i} {N_ {X_ {i} } \ mu _ {X_ {i}}} \ right] ^ {2} - \ sum _ {i} N_ {X_ {i}} \ sum _ {i} {\ left [N_ {X_ {i}} \ mu _ {X_ {i}} ^ {2} \ right]}} {\ left [\ sum _ {i} N_ {X_ {i}} \ right] ^ {2}}} \ end {alineado}}}

Agregación de datos de desviación estándar

En lugar de estimar la desviación estándar combinada, la siguiente es la forma de agregar exactamente la desviación estándar cuando se dispone de más información estadística.

Estadísticas basadas en la población

Las poblaciones de conjuntos, que pueden superponerse, se pueden calcular simplemente de la siguiente manera:

{\ Displaystyle {\ begin {alineado} && N_ {X \ cup Y} & = N_ {X} + N_ {Y} -N_ {X \ cap Y} \\\ end {alineado}}}

Las poblaciones de conjuntos, que no se superponen, se pueden calcular simplemente de la siguiente manera:

{\ displaystyle {\ begin {align} X \ cap Y = \ varnothing & \ Rightarrow & N_ {X \ cap Y} & = 0 \\ & \ Rightarrow & N_ {X \ cup Y} & = N_ {X} + N_ { Y} \ end {alineado}}}

Las desviaciones estándar de subpoblaciones no superpuestas ( X ∩ Y = ∅ ) se pueden agregar de la siguiente manera si se conocen el tamaño (real o relativo entre sí) y las medias de cada una:

{\ Displaystyle {\ begin {alineado} \ mu _ {X \ cup Y} & = {\ frac {N_ {X} \ mu _ {X} + N_ {Y} \ mu _ {Y}} {N_ {X } + N_ {Y}}} \\ [3pt] \ sigma _ {X \ cup Y} & = {\ sqrt {{\ frac {N_ {X} \ sigma _ {X} ^ {2} + N_ {Y } \ sigma _ {Y} ^ {2}} {N_ {X} + N_ {Y}}} + {\ frac {N_ {X} N_ {Y}} {(N_ {X} + N_ {Y}) ^ {2}}} (\ mu _ {X} - \ mu _ {Y}) ^ {2}}} \ end {alineado}}}

Por ejemplo, suponga que se sabe que el hombre estadounidense promedio tiene una altura media de 70 pulgadas con una desviación estándar de tres pulgadas y que la mujer estadounidense promedio tiene una altura media de 65 pulgadas con una desviación estándar de dos pulgadas. Suponga también que el número de hombres, N , es igual al número de mujeres. Entonces, la desviación media y estándar de las alturas de los adultos estadounidenses se podría calcular como

{\ Displaystyle {\ begin {alineado} \ mu & = {\ frac {N \ cdot 70 + N \ cdot 65} {N + N}} = {\ frac {70 + 65} {2}} = 67,5 \\ [3pt] \ sigma & = {\ sqrt {{\ frac {3 ^ {2} + 2 ^ {2}} {2}} + {\ frac {(70-65) ^ {2}} {2 ^ { 2}}}}} = {\ sqrt {12.75}} \ approx 3.57 \ end {alineado}}}

Para el caso más general de M poblaciones no superpuestas, X ₁ a X _M , y la población agregada ${\ Displaystyle \ scriptstyle X \, = \, \ bigcup _ {i} X_ {i}}$ ,

{\ Displaystyle {\ begin {alineado} \ mu _ {X} & = {\ frac {\ sum _ {i} N_ {X_ {i}} \ mu _ {X_ {i}}} {\ sum _ {i } N_ {X_ {i}}}} \\ [3pt] \ sigma _ {X} & = {\ sqrt {{\ frac {\ sum _ {i} N_ {X_ {i}} \ sigma _ {X_ { i}} ^ {2}} {\ sum _ {i} N_ {X_ {i}}}} + {\ frac {\ sum _ {i }>

,

dónde

{\ Displaystyle X_ {i} \ cap X_ {j} = \ varnothing, \ quad \ forall \ i }>

Si el tamaño (real o relativo entre sí), la media y la desviación estándar de dos poblaciones superpuestas se conocen para las poblaciones, así como su intersección, entonces la desviación estándar de la población general aún se puede calcular de la siguiente manera:

{\ Displaystyle {\ begin {alineado} \ mu _ {X \ cup Y} & = {\ frac {1} {N_ {X \ cup Y}}} \ left (N_ {X} \ mu _ {X} + N_ {Y} \ mu _ {Y} -N_ {X \ cap Y} \ mu _ {X \ cap Y} \ right) \\ [3pt] \ sigma _ {X \ cup Y} & = {\ sqrt { {\ frac {1} {N_ {X \ cup Y}}} \ left (N_ {X} [\ sigma _ {X} ^ {2} + \ mu _ {X} ^ {2}] + N_ {Y } [\ sigma _ {Y} ^ {2} + \ mu _ {Y} ^ {2}] - N_ {X \ cap Y} [\ sigma _ {X \ cap Y} ^ {2} + \ mu _ {X \ cap Y} ^ {2}] \ right) - \ mu _ {X \ cup Y} ^ {2}}} \ end {alineado}}}

Si se suman dos o más conjuntos de datos punto por punto, la desviación estándar del resultado se puede calcular si se conoce la desviación estándar de cada conjunto de datos y la covarianza entre cada par de conjuntos de datos:

{\ Displaystyle \ sigma _ {X} = {\ sqrt {\ sum _ {i} {\ sigma _ {X_ {i}} ^ {2}} + 2 \ sum _ {i, j} \ operatorname {cov} (X_ {i}, X_ {j})}}}

Para el caso especial en el que no existe correlación entre ningún par de conjuntos de datos, entonces la relación se reduce a la raíz de la suma de cuadrados:

{\ displaystyle {\ begin {align} & \ operatorname {cov} (X_ {i}, X_ {j}) = 0, \ quad \ forall i

Estadísticas basadas en muestras

Las desviaciones estándar de las submuestras no superpuestas ( X ∩ Y = ∅ ) se pueden agregar de la siguiente manera si se conocen el tamaño real y las medias de cada una:

{\ Displaystyle {\ begin {alineado} \ mu _ {X \ cup Y} & = {\ frac {1} {N_ {X \ cup Y}}} \ left (N_ {X} \ mu _ {X} + N_ {Y} \ mu _ {Y} \ right) \\ [3pt] \ sigma _ {X \ cup Y} & = {\ sqrt {{\ frac {1} {N_ {X \ cup Y} -1} } \ left ([N_ {X} -1] \ sigma _ {X} ^ {2} + N_ {X} \ mu _ {X} ^ {2} + [N_ {Y} -1] \ sigma _ { Y} ^ {2} + N_ {Y} \ mu _ {Y} ^ {2} - [N_ {X} + N_ {Y}] \ mu _ {X \ cup Y} ^ {2} \ right)} } \ end {alineado}}}

Para el caso más general de M conjuntos de datos no superpuestos, X ₁ a X _M , y el conjunto de datos agregados ${\ Displaystyle \ scriptstyle X \, = \, \ bigcup _ {i} X_ {i}}$ ,

{\ Displaystyle {\ begin {alineado} \ mu _ {X} & = {\ frac {1} {\ sum _ {i} {N_ {X_ {i}}}}} \ left (\ sum _ {i} {N_ {X_ {i}} \ mu _ {X_ {i}}} \ right) \\ [3pt] \ sigma _ {X} & = {\ sqrt {{\ frac {1} {\ sum _ {i } {N_ {X_ {i}} - 1}}} \ left (\ sum _ {i} {\ left [(N_ {X_ {i}} - 1) \ sigma _ {X_ {i}} ^ {2 } + N_ {X_ {i}} \ mu _ {X_ {i}} ^ {2} \ right]} - \ left [\ sum _ {i} {N_ {X_ {i}}} \ right] \ mu _ {X} ^ {2} \ right)}} \ end {alineado}}}

dónde

{\ Displaystyle X_ {i} \ cap X_ {j} = \ varnothing, \ quad \ forall i }>

Si se conocen el tamaño, la media y la desviación estándar de dos muestras superpuestas para las muestras, así como su intersección, aún se puede calcular la desviación estándar de la muestra agregada. En general,

{\ Displaystyle {\ begin {alineado} \ mu _ {X \ cup Y} & = {\ frac {1} {N_ {X \ cup Y}}} \ left (N_ {X} \ mu _ {X} + N_ {Y} \ mu _ {Y} -N_ {X \ cap Y} \ mu _ {X \ cap Y} \ right) \\ [3pt] \ sigma _ {X \ cup Y} & = {\ sqrt { \ frac {[N_ {X} -1] \ sigma _ {X} ^ {2} + N_ {X} \ mu _ {X} ^ {2} + [N_ {Y} -1] \ sigma _ {Y } ^ {2} + N_ {Y} \ mu _ {Y} ^ {2} - [N_ {X \ cap Y} -1] \ sigma _ {X \ cap Y} ^ {2} -N_ {X \ cap Y} \ mu _ {X \ cap Y} ^ {2} - [N_ {X} + N_ {Y} -N_ {X \ cap Y}] \ mu _ {X \ cup Y} ^ {2}} {N_ {X \ cup Y} -1}}} \ end {alineado}}}

Ver también

Se utiliza para calcular la d de Cohen (tamaño del efecto)
Matriz de covarianza agrupada
Grado de libertad agrupado
Media agrupada

Referencias

Killeen PR (mayo de 2005). "Una alternativa a las pruebas de significación de hipótesis nula" . Psychol Sci . 16 (5): 345–53. doi : 10.1111 / j.0956-7976.2005.01538.x . PMC 1473027 . PMID 15869691 .

enlaces externos

Libro de oro de la IUPAC: desviación estándar agrupada
[1]
- también refiriéndose a la d de Cohen (en la página 6)