En estadística , la matriz de proyección , [1] a veces también llamada matriz de influencia [2] o matriz de sombrero , mapea el vector de valores de respuesta ( valores de variables dependientes) al vector de valores ajustados (o valores predichos). Describe la influencia que tiene cada valor de respuesta en cada valor ajustado. [3] [4] Los elementos diagonales de la matriz de proyección son los apalancamientos , que describen la influencia que tiene cada valor de respuesta en el valor ajustado para esa misma observación.
Descripción general
Si el vector de valores de respuesta se denota por y el vector de valores ajustados por ,
Como se suele pronunciar "y-hat", la matriz de proyección también se denomina matriz de sombrero, ya que "pone un sombrero en". La fórmula para el vector de residuos también se puede expresar de forma compacta utilizando la matriz de proyección:
dónde es la matriz de identidad . La matriza veces se la denomina matriz generadora de residuos . Además, el elemento de la i- ésima fila y la j- ésima columna dees igual a la covarianza entre el j- ésimo valor de respuesta y el i- ésimo valor ajustado, dividido por la varianza del primero:
Por tanto, la matriz de covarianza de los residuos, por propagación de errores , es igual a
- ,
dónde es la matriz de covarianza del vector de error (y, por extensión, también del vector de respuesta). Para el caso de modelos lineales con errores independientes e idénticamente distribuidos en los que, esto se reduce a: [3]
- .
Intuición
De la figura, está claro que el punto más cercano al vector en el espacio de la columna de , es , y es uno en el que podemos dibujar una línea ortogonal al espacio de columna de . Un vector que es ortogonal al espacio columna de una matriz está en el espacio nulo de la matriz transpuesta, por lo que
A partir de ahí, uno reorganiza, así
Por tanto, dado que está en el espacio de columna de , la matriz de proyección, que mapea sobre es solo , o
Modelo lineal
Suponga que deseamos estimar un modelo lineal usando mínimos cuadrados lineales. El modelo se puede escribir como
dónde es una matriz de variables explicativas (la matriz de diseño ), β es un vector de parámetros desconocidos a estimar y ε es el vector de error.
Muchos tipos de modelos y técnicas están sujetos a esta formulación. Algunos ejemplos son mínimos cuadrados lineales , suavizado de splines , regresión splines , regresión local , regresión de kernel y filtrado lineal .
Mínimos cuadrados ordinarios
Cuando los pesos para cada observación son idénticos y los errores no están correlacionados, los parámetros estimados son
por lo que los valores ajustados son
Por lo tanto, la matriz de proyección (y la matriz de sombrero) viene dada por
Mínimos cuadrados ponderados y generalizados
Lo anterior puede generalizarse a los casos en los que los pesos no son idénticos y / o los errores están correlacionados. Suponga que la matriz de covarianza de los errores es Ψ. Entonces desde
- .
la matriz del sombrero es así
y de nuevo se puede ver que , aunque ahora ya no es simétrico.
Propiedades
La matriz de proyección tiene varias propiedades algebraicas útiles. [5] [6] En el lenguaje del álgebra lineal , la matriz de proyección es la proyección ortogonal en el espacio de la columna de la matriz de diseño.. [4] (Tenga en cuenta quees el pseudoinverso de X ). Algunos hechos de la matriz de proyección en esta configuración se resumen a continuación: [4]
- y
- es simétrico, y también lo es .
- es idempotente: , y tambien .
- Si es una matriz n × r con, luego
- Los valores propios deconstan de r unos y n - r ceros, mientras que los valores propios deconstan de n - r unos y r ceros. [7]
- es invariante bajo : por eso .
- es único para ciertos subespacios.
La matriz de proyección correspondiente a un modelo lineal es simétrica e idempotente , es decir,. Sin embargo, este no es siempre el caso; en el suavizado del diagrama de dispersión ponderado localmente (LOESS) , por ejemplo, la matriz del sombrero no es en general simétrica ni idempotente.
Para modelos lineales , la traza de la matriz de proyección es igual al rango de, que es el número de parámetros independientes del modelo lineal. [8] Para otros modelos como LOESS que todavía son lineales en las observaciones, la matriz de proyección se puede utilizar para definir los grados de libertad efectivos del modelo.
Las aplicaciones prácticas de la matriz de proyección en el análisis de regresión incluyen el apalancamiento y la distancia de Cook , que se ocupan de identificar observaciones influyentes , es decir, observaciones que tienen un gran efecto en los resultados de una regresión.
Fórmula en bloque
Suponga que la matriz de diseño se puede descomponer por columnas como . Defina el operador de sombrero o proyección como. De manera similar, defina el operador residual como. Luego, la matriz de proyección se puede descomponer de la siguiente manera: [9]
donde, por ejemplo, y . Hay varias aplicaciones de tal descomposición. En la aplicación clásicaes una columna de todos unos, que permite analizar los efectos de agregar un término de intersección a una regresión. Otro uso es en el modelo de efectos fijos , dondees una gran matriz dispersa de las variables ficticias para los términos de efectos fijos. Se puede usar esta partición para calcular la matriz de sombrero de sin formar explícitamente la matriz , que puede ser demasiado grande para caber en la memoria de la computadora.
Ver también
- Proyección (álgebra lineal)
- Residuos estudentizados
- Grados efectivos de libertad
- Respuesta media y prevista
Referencias
- ^ Basilevsky, Alexander (2005). Álgebra de matrices aplicada en las ciencias estadísticas . Dover. págs. 160-176. ISBN 0-486-44538-0.
- ^ "Asimilación de datos: diagnóstico de la influencia de la observación de un sistema de asimilación de datos" (PDF) . Archivado desde el original (PDF) en 2014-09-03.
- ^ a b Hoaglin, David C .; Welsch, Roy E. (febrero de 1978). "La matriz de sombrero en regresión y ANOVA" (PDF) . El estadístico estadounidense . 32 (1): 17-22. doi : 10.2307 / 2683469 . hdl : 1721,1 / 1920 . JSTOR 2683469 .
- ^ a b c David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge .
- ^ Gans, P. (1992). Ajuste de datos en las ciencias químicas . Wiley. ISBN 0-471-93412-7.
- ^ Draper, NR; Smith, H. (1998). Análisis de regresión aplicado . Wiley. ISBN 0-471-17082-8.
- ^ Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs. 460 –461. ISBN 0-674-00560-0.
- ^ "Prueba de que el rastro de la matriz 'sombrero' en la regresión lineal es el rango de X" . Stack Exchange . 13 de abril de 2017.
- ^ Rao, C. Radhakrishna; Toutenburg, Helge; Shalabh; Heumann, Christian (2008). Modelos lineales y generalizaciones (3ª ed.). Berlín: Springer. págs. 323 . ISBN 978-3-540-74226-5.