Estimación de matrices de covarianza


En estadística , a veces no se conoce la matriz de covarianza de una variable aleatoria multivariante, pero debe estimarse . Luego, la estimación de matrices de covarianza se ocupa de la cuestión de cómo aproximar la matriz de covarianza real sobre la base de una muestra de la distribución multivariante . Los casos simples, donde las observaciones están completas, pueden tratarse utilizando la matriz de covarianza de la muestra . La matriz de covarianza de muestra (SCM) es un estimador imparcial y eficiente de la matriz de covarianza si el espacio de matrices de covarianza se ve como un cono convexo extrínseco enRp × p ; _ sin embargo, medido usando la geometría intrínseca de matrices definidas positivas , el SCM es un estimador sesgado e ineficiente. [1] Además, si la variable aleatoria tiene una distribución normal , la matriz de covarianza de la muestra tiene una distribución de Wishart y una versión con una escala ligeramente diferente es la estimación de máxima verosimilitud . Los casos que involucran datos faltantes requieren consideraciones más profundas. Otro problema es la solidez de los valores atípicos , a los que las matrices de covarianza de muestra son muy sensibles. [2] [3][4]

Los análisis estadísticos de datos multivariados a menudo involucran estudios exploratorios de la forma en que las variables cambian entre sí y esto puede ser seguido por modelos estadísticos explícitos que involucran la matriz de covarianza de las variables. Por lo tanto, la estimación de matrices de covarianza directamente a partir de datos observacionales desempeña dos funciones:

Las estimaciones de las matrices de covarianza se requieren en las etapas iniciales del análisis de componentes principales y el análisis factorial , y también están involucradas en las versiones del análisis de regresión que tratan las variables dependientes en un conjunto de datos, junto con la variable independiente como resultado de una muestra aleatoria. .

Dada una muestra que consta de n observaciones independientes x 1 ,..., x n de un vector aleatorio p -dimensional XR p ×1 (un vector columna p ×1), un estimador insesgado de ( p × p ) Matriz de covarianza

donde es la i -ésima observación del vector aleatorio p -dimensional, y el vector

es la media muestral . Esto es cierto independientemente de la distribución de la variable aleatoria X , siempre que, por supuesto, existan las medias teóricas y las covarianzas. La razón por la que el factor n  − 1 en lugar de n es esencialmente la misma que la razón por la que aparece el mismo factor en las estimaciones no sesgadas de las varianzas y las covarianzas de la muestra , que se relaciona con el hecho de que la media no se conoce y se reemplaza por la muestra. media (ver corrección de Bessel ).