Media muestral y covarianza

La media muestral (o "media empírica") y la covarianza muestral son estadísticas calculadas a partir de una muestra de datos sobre una o más variables aleatorias .

La media de la muestra es el valor promedio (o valor medio ) de una muestra de números tomados de una población de números más grande , donde "población" indica no el número de personas sino la totalidad de los datos relevantes, ya sean recopilados o no. Una muestra de las ventas de 40 empresas de la lista Fortune 500 podría usarse por conveniencia en lugar de considerar la población, las ventas de las 500 empresas. La media muestral se utiliza como estimador de la media poblacional, el valor promedio de toda la población, donde la estimación está más cerca de la media poblacional si la muestra es grande y representativa. La confiabilidad de la media muestral se estima usando el error estándar, que a su vez se calcula utilizando la varianza de la muestra. Si la muestra es aleatoria, el error estándar cae con el tamaño de la muestra y la distribución de la media de la muestra se acerca a la distribución normal a medida que aumenta el tamaño de la muestra.

El término "media de la muestra" también se puede utilizar para referirse a un vector de valores promedio cuando el estadístico está mirando los valores de varias variables en la muestra, por ejemplo, las ventas, las ganancias y los empleados de una muestra de compañías Fortune 500. En este caso, no hay solo una varianza muestral para cada variable, sino una matriz muestral de varianza-covarianza (o simplemente una matriz de covarianza ) que muestra también la relación entre cada par de variables. Esta sería una matriz de 3x3 cuando se consideran 3 variables. La covarianza de la muestra es útil para juzgar la confiabilidad de las medias de la muestra como estimadores y también es útil como una estimación de la matriz de covarianza de la población.

Debido a su facilidad de cálculo y otras características deseables, la media muestral y la covarianza muestral se utilizan ampliamente en estadística para representar la ubicación y dispersión de la distribución de valores en la muestra y para estimar los valores para la población.

Definición de la media muestral

La media de la muestra es el promedio de los valores de una variable en una muestra, que es la suma de esos valores dividida por el número de valores. Usando notación matemática, si se toma una muestra de N observaciones sobre la variable X de la población, la media de la muestra es:

{\ Displaystyle {\ bar {x}} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} x_ {i}.}

Bajo esta definición, si la muestra (1, 4, 1) se toma de la población (1,1,3,4,0,2,1,0), entonces la media muestral es ${\ displaystyle {\ bar {x}} =}$ 1/3 (1 + 4 + 1) = 2, en comparación con la media poblacional de ${\ Displaystyle \ mu =}$ 1/8 (1 + 1 + 3 + 4 + 0 + 2 + 1 + 0) = 12/8 = 1,5. Incluso si una muestra es aleatoria, rara vez es perfectamente representativa, y otras muestras tendrían otras medias muestrales incluso si las muestras fueran todas de la misma población. La muestra (2, 1, 0), por ejemplo, tendría una media muestral de 1.

Si el estadístico está interesado en K variables en lugar de una, y cada observación tiene un valor para cada una de esas K variables, la media muestral general consta de K medias muestrales para variables individuales. Dejar ${\ Displaystyle x_ {ij}}$ ser la i- ^ésima observación extraída independientemente ( i = 1, ..., N ) sobre la j- ^ésima variable aleatoria ( j = 1, ..., K ). Estas observaciones se pueden organizar en N vectores de columna, cada uno con K entradas, con el vector de columna K × 1 que da las i- ^ésimas observaciones de todas las variables denotadas ${\ Displaystyle \ mathbf {x} _ {i}}$ ( i = 1, ..., N ).

El vector de media muestral ${\ Displaystyle \ mathbf {\ bar {x}}}$ es un vector de columna cuyo j- ^ésimo elemento ${\ Displaystyle {\ bar {x}} _ {j}}$ es el valor promedio de las N observaciones de la j- ^ésima variable:

{\ Displaystyle {\ bar {x}} _ {j} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} x_ {ij}, \ quad j = 1, \ ldots , K.}

Por lo tanto, el vector de media muestral contiene el promedio de las observaciones para cada variable y se escribe

{\ Displaystyle \ mathbf {\ bar {x}} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} \ mathbf {x} _ {i} = {\ begin {bmatrix } {\ bar {x}} _ {1} \\\ vdots \\ {\ bar {x}} _ {j} \\\ vdots \\ {\ bar {x}} _ {K} \ end {bmatrix }}}

Definición de covarianza muestral

La muestra de matriz de covarianza es un K -by- K matriz ${\ Displaystyle \ textstyle \ mathbf {Q} = \ left [q_ {jk} \ right]}$ con entradas

{\ Displaystyle q_ {jk} = {\ frac {1} {N-1}} \ sum _ {i = 1} ^ {N} \ left (x_ {ij} - {\ bar {x}} _ {j } \ right) \ left (x_ {ik} - {\ bar {x}} _ {k} \ right),}

dónde ${\ Displaystyle q_ {jk}}$ es una estimación de la covarianza entre la $j-$ ^ésima variable y la $k-$ ^ésima variable de la población subyacente a los datos. En términos de los vectores de observación, la covarianza muestral es

{\ Displaystyle \ mathbf {Q} = {1 \ over {N-1}} \ sum _ {i = 1} ^ {N} (\ mathbf {x} _ {i} .- \ mathbf {\ bar {x }}) (\ mathbf {x} _ {i} .- \ mathbf {\ bar {x}}) ^ {\ mathrm {T}},}

Alternativamente, organizando los vectores de observación como las columnas de una matriz, de modo que

{\ Displaystyle \ mathbf {F} = {\ begin {bmatrix} \ mathbf {x} _ {1} & \ mathbf {x} _ {2} & \ dots & \ mathbf {x} _ {N} \ end { bmatrix}}}

,

que es una matriz de K filas y N columnas. Aquí, la matriz de covarianza de muestra se puede calcular como

{\ Displaystyle \ mathbf {Q} = {\ frac {1} {N-1}} (\ mathbf {F} - \ mathbf {\ bar {x}} \, \ mathbf {1} _ {N} ^ { \ mathrm {T}}) (\ mathbf {F} - \ mathbf {\ bar {x}} \, \ mathbf {1} _ {N} ^ {\ mathrm {T}}) ^ {\ mathrm {T} }}

,

dónde ${\ Displaystyle \ mathbf {1} _ {N}}$ es un vector N por $1$ de unos. Si las observaciones se organizan como filas en lugar de columnas, entonces ${\ Displaystyle \ mathbf {\ bar {x}}}$ ahora es un vector de fila 1 × K y ${\ Displaystyle \ mathbf {M} = \ mathbf {F} ^ {\ mathrm {T}}}$ es una matriz N × K cuya columna j es el vector de N observaciones sobre la variable j , luego aplicando transposiciones en los lugares apropiados se obtiene

{\ Displaystyle \ mathbf {Q} = {\ frac {1} {N-1}} (\ mathbf {M} - \ mathbf {1} _ {N} \ mathbf {{\ bar {x}} ^ {\ mathrm {T}}}) ^ {\ mathrm {T}} (\ mathbf {M} - \ mathbf {1} _ {N} \ mathbf {{\ bar {x}} ^ {\ mathrm {T}}} ).}

Al igual que las matrices de covarianza para vector aleatorio , las matrices de covarianza de muestra son semidefinidas positivas . Para probarlo, tenga en cuenta que para cualquier matriz ${\ Displaystyle \ mathbf {A}}$ la matriz ${\ Displaystyle \ mathbf {A} ^ {T} \ mathbf {A}}$ es positivo semi-definido. Además, una matriz de covarianza es definida positiva si y solo si el rango de la ${\ Displaystyle \ mathbf {x} _ {i} .- \ mathbf {\ bar {x}}}$ vectores es K.

Imparcialidad

La media de la muestra y la matriz de covarianza de la muestra son estimaciones insesgadas de la media y la matriz de covarianza del vector aleatorio. ${\ Displaystyle \ textstyle \ mathbf {X}}$ , un vector de fila cuyo j- ^ésimo elemento ( j = 1, ..., K ) es una de las variables aleatorias. ^[1] La matriz de covarianza de muestra tiene ${\ Displaystyle \ textstyle N-1}$ en el denominador en lugar de ${\ Displaystyle \ textstyle N}$ debido a una variante de la corrección de Bessel : En resumen, la covarianza muestral se basa en la diferencia entre cada observación y la media muestral, pero la media muestral está ligeramente correlacionada con cada observación, ya que se define en términos de todas las observaciones. Si la población media ${\ Displaystyle \ operatorname {E} (\ mathbf {X})}$ se conoce, la estimación análoga insesgada

{\ Displaystyle q_ {jk} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} \ left (x_ {ij} - \ operatorname {E} (X_ {j}) \ derecha) \ left (x_ {ik} - \ operatorname {E} (X_ {k}) \ right),}

usando la media poblacional, tiene ${\ Displaystyle \ textstyle N}$ en el denominador. Este es un ejemplo de por qué en probabilidad y estadística es esencial distinguir entre variables aleatorias (letras mayúsculas) y realizaciones de las variables aleatorias (letras minúsculas).

La estimación de máxima verosimilitud de la covarianza

{\ Displaystyle q_ {jk} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} \ left (x_ {ij} - {\ bar {x}} _ {j} \ derecha) \ left (x_ {ik} - {\ bar {x}} _ {k} \ right)}

para el caso de la distribución gaussiana también tiene N en el denominador. La razón de 1 / N a 1 / ( N - 1) se acerca a 1 para N grande , por lo que la estimación de máxima verosimilitud es aproximadamente igual a la estimación insesgada cuando la muestra es grande.

Varianza de la distribución muestral de la media muestral

Para cada variable aleatoria, la media muestral es un buen estimador de la media poblacional, donde un estimador "bueno" se define como eficiente e insesgado. Por supuesto, es probable que el estimador no sea el valor real de la media poblacional, ya que diferentes muestras extraídas de la misma distribución darán diferentes medias muestrales y, por lo tanto, diferentes estimaciones de la media verdadera. Por tanto, la media muestral es una variable aleatoria , no una constante, y por tanto tiene su propia distribución. Para una muestra aleatoria de N observaciones sobre la j- ^ésima variable aleatoria, la distribución de la media de la muestra en sí tiene una media igual a la media de la población ${\ Displaystyle E (X_ {j})}$ y varianza igual a ${\ Displaystyle \ sigma _ {j} ^ {2} / N}$ , dónde ${\ Displaystyle \ sigma _ {j} ^ {2}}$ es la varianza de la población.

Muestras ponderadas

En una muestra ponderada, cada vector ${\ Displaystyle \ textstyle {\ textbf {x}} _ {i}}$ (a cada conjunto de observaciones individuales en cada una de las K variables aleatorias) se le asigna un peso ${\ Displaystyle \ textstyle w_ {i} \ geq 0}$ . Sin pérdida de generalidad, suponga que los pesos están normalizados :

{\ Displaystyle \ sum _ {i = 1} ^ {N} w_ {i} = 1.}

(Si no es así, divida los pesos por su suma). Entonces el vector de media ponderada ${\ Displaystyle \ textstyle \ mathbf {\ bar {x}}}$ es dado por

{\ Displaystyle \ mathbf {\ bar {x}} = \ sum _ {i = 1} ^ {N} w_ {i} \ mathbf {x} _ {i}.}

y los elementos ${\ Displaystyle q_ {jk}}$ de la matriz de covarianza ponderada ${\ Displaystyle \ textstyle \ mathbf {Q}}$ son ^[2]

{\ Displaystyle q_ {jk} = {\ frac {1} {1- \ sum _ {i = 1} ^ {N} w_ {i} ^ {2}}} \ sum _ {i = 1} ^ {N } w_ {i} \ left (x_ {ij} - {\ bar {x}} _ {j} \ right) \ left (x_ {ik} - {\ bar {x}} _ {k} \ right). }

Si todos los pesos son iguales, ${\ Displaystyle \ textstyle w_ {i} = 1 / N}$ , la media ponderada y la covarianza se reducen a la media muestral y la covarianza mencionadas anteriormente.

Crítica

La media muestral y la covarianza muestral no son estadísticas robustas , lo que significa que son sensibles a valores atípicos . Como la robustez es a menudo un rasgo deseado, particularmente en aplicaciones del mundo real, las alternativas robustas pueden resultar deseables, en particular estadísticas basadas en cuantiles como la mediana de la muestra para la ubicación, ^[3] y el rango intercuartil (IQR) para la dispersión. Otras alternativas incluyen el recorte y la Winsorización , como en la media recortada y la media Winsorizada .

Ver también

Estimación de matrices de covarianza
Matriz de dispersión
Estimación imparcial de la desviación estándar

Referencias

^ Richard Arnold Johnson; Dean W. Wichern (2007). Análisis estadístico multivariado aplicado . Pearson Prentice Hall. ISBN 978-0-13-187715-3. Consultado el 10 de agosto de 2012 .
^ Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth y Fabrice Rossi. Biblioteca científica GNU - Manual de referencia, versión 1.15 , 2011. Sec. 21.7 Muestras ponderadas
^ El Centro Mundial de Preguntas 2006: La media de la muestra , Bart Kosko

[JohnsonWichern2007-1] Richard Arnold Johnson; Dean W. Wichern (2007). Análisis estadístico multivariado aplicado . Pearson Prentice Hall. ISBN 978-0-13-187715-3. Consultado el 10 de agosto de 2012 .

[Galassi-2007-GSL-2] Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth y Fabrice Rossi. Biblioteca científica GNU - Manual de referencia, versión 1.15 , 2011. Sec. 21.7 Muestras ponderadas

[3] El Centro Mundial de Preguntas 2006: La media de la muestra , Bart Kosko

[1]