Matriz de proyección

En estadística , la matriz de proyección ${\ Displaystyle (\ mathbf {P})}$ , ^{[1] a} veces también llamada matriz de influencia ^[2] o matriz de sombrero ${\ Displaystyle (\ mathbf {H})}$ , mapea el vector de valores de respuesta ( valores de variables dependientes) al vector de valores ajustados (o valores predichos). Describe la influencia que tiene cada valor de respuesta en cada valor ajustado. ^[3]^[4] Los elementos diagonales de la matriz de proyección son los apalancamientos , que describen la influencia que tiene cada valor de respuesta en el valor ajustado para esa misma observación.

Descripción general

Si el vector de valores de respuesta se denota por ${\ Displaystyle \ mathbf {y}}$ y el vector de valores ajustados por ${\ Displaystyle \ mathbf {\ hat {y}}}$ ,

{\ Displaystyle \ mathbf {\ hat {y}} = \ mathbf {P} \ mathbf {y}.}

Como ${\ Displaystyle \ mathbf {\ hat {y}}}$ se suele pronunciar "y-hat", la matriz de proyección ${\ Displaystyle \ mathbf {P}}$ también se denomina matriz de sombrero, ya que "pone un sombrero en ${\ Displaystyle \ mathbf {y}}$ ". La fórmula para el vector de residuos ${\ Displaystyle \ mathbf {r}}$ también se puede expresar de forma compacta utilizando la matriz de proyección:

{\ Displaystyle \ mathbf {r} = \ mathbf {y} - \ mathbf {\ hat {y}} = \ mathbf {y} - \ mathbf {P} \ mathbf {y} = \ left (\ mathbf {I} - \ mathbf {P} \ derecha) \ mathbf {y}.}

dónde ${\ Displaystyle \ mathbf {I}}$ es la matriz de identidad . La matriz ${\ Displaystyle \ mathbf {M} \ equiv \ mathbf {I} - \ mathbf {P}}$ a veces se la denomina matriz generadora de residuos . Además, el elemento de la i- ésima fila y la j- ésima columna de ${\ Displaystyle \ mathbf {P}}$ es igual a la covarianza entre el j- ésimo valor de respuesta y el i- ésimo valor ajustado, dividido por la varianza del primero:

{\ Displaystyle p_ {ij} = {\ frac {\ operatorname {Cov} \ left [{\ hat {y}} _ {i}, y_ {j} \ right]} {\ operatorname {Var} \ left [y_ {j} \ right]}}}

Por tanto, la matriz de covarianza de los residuos ${\ Displaystyle \ mathbf {r}}$ , por propagación de errores , es igual a

{\ Displaystyle \ mathbf {\ Sigma} _ {\ mathbf {r}} = \ left (\ mathbf {I} - \ mathbf {P} \ right) ^ {\ textsf {T}} \ mathbf {\ Sigma} \ izquierda (\ mathbf {I} - \ mathbf {P} \ right)}

,

dónde ${\ Displaystyle \ mathbf {\ Sigma}}$ es la matriz de covarianza del vector de error (y, por extensión, también del vector de respuesta). Para el caso de modelos lineales con errores independientes e idénticamente distribuidos en los que ${\ Displaystyle \ mathbf {\ Sigma} = \ sigma ^ {2} \ mathbf {I}}$ , esto se reduce a: ^[3]

{\ Displaystyle \ mathbf {\ Sigma} _ {\ mathbf {r}} = \ left (\ mathbf {I} - \ mathbf {P} \ right) \ sigma ^ {2}}

.

Intuición

Una matriz,

{\ Displaystyle \ mathbf {A}}

tiene su espacio de columna representado como la línea verde. La proyección de algún vector.

{\ Displaystyle \ mathbf {b}}

en el espacio de la columna de

{\ Displaystyle \ mathbf {A}}

es el vector

{\ Displaystyle \ mathbf {x}}

De la figura, está claro que el punto más cercano al vector ${\ Displaystyle \ mathbf {b}}$ en el espacio de la columna de ${\ Displaystyle \ mathbf {A}}$ , es ${\ Displaystyle \ mathbf {Ax}}$ , y es uno en el que podemos dibujar una línea ortogonal al espacio de columna de ${\ Displaystyle \ mathbf {A}}$ . Un vector que es ortogonal al espacio columna de una matriz está en el espacio nulo de la matriz transpuesta, por lo que

{\ Displaystyle \ mathbf {A} ^ {\ textsf {T}} (\ mathbf {b} - \ mathbf {Ax}) = 0}

A partir de ahí, uno reorganiza, así

{\ displaystyle {\ begin {alineado} && \ mathbf {A} ^ {\ textsf {T}} \ mathbf {b} & - \ mathbf {A} ^ {\ textsf {T}} \ mathbf {Ax} = 0 \\\ Flecha derecha && \ mathbf {A} ^ {\ textsf {T}} \ mathbf {b} & = \ mathbf {A} ^ {\ textsf {T}} \ mathbf {Ax} \\\ Flecha derecha && \ mathbf {x} & = \ left (\ mathbf {A} ^ {\ textsf {T}} \ mathbf {A} \ right) ^ {- 1} \ mathbf {A} ^ {\ textsf {T}} \ mathbf { b} \ end {alineado}}}

Por tanto, dado que ${\ Displaystyle \ mathbf {x}}$ está en el espacio de columna de ${\ Displaystyle \ mathbf {A}}$ , la matriz de proyección, que mapea ${\ Displaystyle \ mathbf {b}}$ sobre ${\ Displaystyle \ mathbf {x}}$ es solo ${\ Displaystyle \ mathbf {Ax}}$ , o ${\ Displaystyle \ mathbf {A} \ left (\ mathbf {A} ^ {\ textsf {T}} \ mathbf {A} \ right) ^ {- 1} \ mathbf {A} ^ {\ textsf {T}} \ mathbf {b}}$

Modelo lineal

Suponga que deseamos estimar un modelo lineal usando mínimos cuadrados lineales. El modelo se puede escribir como

{\ Displaystyle \ mathbf {y} = \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ varepsilon}},}

dónde ${\ Displaystyle \ mathbf {X}}$ es una matriz de variables explicativas (la matriz de diseño ), β es un vector de parámetros desconocidos a estimar y ε es el vector de error.

Muchos tipos de modelos y técnicas están sujetos a esta formulación. Algunos ejemplos son mínimos cuadrados lineales , suavizado de splines , regresión splines , regresión local , regresión de kernel y filtrado lineal .

Mínimos cuadrados ordinarios

Cuando los pesos para cada observación son idénticos y los errores no están correlacionados, los parámetros estimados son

{\ Displaystyle {\ hat {\ boldsymbol {\ beta}}} = \ left (\ mathbf {X} ^ {\ textsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textsf {T}} \ mathbf {y},}

por lo que los valores ajustados son

{\ Displaystyle {\ hat {\ mathbf {y}}} = \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} = \ mathbf {X} \ left (\ mathbf {X} ^ {\ textsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textsf {T}} \ mathbf {y}.}

Por lo tanto, la matriz de proyección (y la matriz de sombrero) viene dada por

{\ Displaystyle \ mathbf {P} \ equiv \ mathbf {X} \ left (\ mathbf {X} ^ {\ textsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textsf {T}}.}

Mínimos cuadrados ponderados y generalizados

Lo anterior puede generalizarse a los casos en los que los pesos no son idénticos y / o los errores están correlacionados. Suponga que la matriz de covarianza de los errores es Ψ. Entonces desde

{\ displaystyle {\ hat {\ mathbf {\ beta}}} _ {\ text {GLS}} = \ left (\ mathbf {X} ^ {\ textsf {T}} \ mathbf {\ Psi} ^ {- 1 } \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textsf {T}} \ mathbf {\ Psi} ^ {- 1} \ mathbf {y}}

.

la matriz del sombrero es así

{\ Displaystyle H = \ mathbf {X} \ left (\ mathbf {X} ^ {\ textsf {T}} \ mathbf {\ Psi} ^ {- 1} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textsf {T}} \ mathbf {\ Psi} ^ {- 1}}

y de nuevo se puede ver que ${\ Displaystyle H ^ {2} = H \ cdot H = H}$ , aunque ahora ya no es simétrico.

Propiedades

La matriz de proyección tiene varias propiedades algebraicas útiles. ^[5]^[6] En el lenguaje del álgebra lineal , la matriz de proyección es la proyección ortogonal en el espacio de la columna de la matriz de diseño. ${\ Displaystyle \ mathbf {X}}$ . ^[4] (Tenga en cuenta que ${\ Displaystyle \ left (\ mathbf {X} ^ {\ textsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ {\ textsf {T}}}$ es el pseudoinverso de X ). Algunos hechos de la matriz de proyección en esta configuración se resumen a continuación: ^[4]

${\ Displaystyle \ mathbf {u} = (\ mathbf {I} - \ mathbf {P}) \ mathbf {y},}$ y ${\ Displaystyle \ mathbf {u} = \ mathbf {y} - \ mathbf {P} \ mathbf {y} \ perp \ mathbf {X}.}$
${\ Displaystyle \ mathbf {P}}$ es simétrico, y también lo es ${\ Displaystyle \ mathbf {M} \ equiv \ mathbf {I} - \ mathbf {P}}$ .
${\ Displaystyle \ mathbf {P}}$ es idempotente: ${\ Displaystyle \ mathbf {P} ^ {2} = \ mathbf {P}}$ , y tambien ${\ Displaystyle \ mathbf {M}}$ .
Si ${\ Displaystyle \ mathbf {X}}$ es una matriz n × r con ${\ Displaystyle \ operatorname {rango} (\ mathbf {X}) = r}$ , luego ${\ Displaystyle \ operatorname {rango} (\ mathbf {P}) = r}$
Los valores propios de ${\ Displaystyle \ mathbf {P}}$ constan de r unos y n - r ceros, mientras que los valores propios de ${\ Displaystyle \ mathbf {M}}$ constan de n - r unos y r ceros. ^[7]
${\ Displaystyle \ mathbf {X}}$ es invariante bajo ${\ Displaystyle \ mathbf {P}}$ : ${\ Displaystyle \ mathbf {PX} = \ mathbf {X},}$ por eso ${\ Displaystyle \ left (\ mathbf {I} - \ mathbf {P} \ right) \ mathbf {X} = \ mathbf {0}}$ .
${\ Displaystyle \ left (\ mathbf {I} - \ mathbf {P} \ right) \ mathbf {P} = \ mathbf {P} \ left (\ mathbf {I} - \ mathbf {P} \ right) = \ mathbf {0}.}$
${\ Displaystyle \ mathbf {P}}$ es único para ciertos subespacios.

La matriz de proyección correspondiente a un modelo lineal es simétrica e idempotente , es decir, ${\ Displaystyle \ mathbf {P} ^ {2} = \ mathbf {P}}$ . Sin embargo, este no es siempre el caso; en el suavizado del diagrama de dispersión ponderado localmente (LOESS) , por ejemplo, la matriz del sombrero no es en general simétrica ni idempotente.

Para modelos lineales , la traza de la matriz de proyección es igual al rango de ${\ Displaystyle \ mathbf {X}}$ , que es el número de parámetros independientes del modelo lineal. ^[8] Para otros modelos como LOESS que todavía son lineales en las observaciones ${\ Displaystyle \ mathbf {y}}$ , la matriz de proyección se puede utilizar para definir los grados de libertad efectivos del modelo.

Las aplicaciones prácticas de la matriz de proyección en el análisis de regresión incluyen el apalancamiento y la distancia de Cook , que se ocupan de identificar observaciones influyentes , es decir, observaciones que tienen un gran efecto en los resultados de una regresión.

Fórmula en bloque

Suponga que la matriz de diseño ${\ Displaystyle X}$ se puede descomponer por columnas como ${\ Displaystyle X = {\ begin {bmatrix} A&B \ end {bmatrix}}}$ . Defina el operador de sombrero o proyección como ${\ Displaystyle P \ {X \} = X \ left (X ^ {\ textsf {T}} X \ right) ^ {- 1} X ^ {\ textsf {T}}}$ . De manera similar, defina el operador residual como ${\ Displaystyle M \ {X \} = IP \ {X \}}$ . Luego, la matriz de proyección se puede descomponer de la siguiente manera: ^[9]

{\ Displaystyle P \ {X \} = P \ {A \} + P \ {M \ {A \} B \},}

donde, por ejemplo, ${\ Displaystyle P \ {A \} = A \ left (A ^ {\ textsf {T}} A \ right) ^ {- 1} A ^ {\ textsf {T}}}$ y ${\ Displaystyle M \ {A \} = IP \ {A \}}$ . Hay varias aplicaciones de tal descomposición. En la aplicación clásica ${\ Displaystyle A}$ es una columna de todos unos, que permite analizar los efectos de agregar un término de intersección a una regresión. Otro uso es en el modelo de efectos fijos , donde ${\ Displaystyle A}$ es una gran matriz dispersa de las variables ficticias para los términos de efectos fijos. Se puede usar esta partición para calcular la matriz de sombrero de ${\ Displaystyle X}$ sin formar explícitamente la matriz ${\ Displaystyle X}$ , que puede ser demasiado grande para caber en la memoria de la computadora.

Ver también

Proyección (álgebra lineal)
Residuos estudentizados
Grados efectivos de libertad
Respuesta media y prevista

Referencias

^ Basilevsky, Alexander (2005). Álgebra de matrices aplicada en las ciencias estadísticas . Dover. págs. 160-176. ISBN 0-486-44538-0.
^ "Asimilación de datos: diagnóstico de la influencia de la observación de un sistema de asimilación de datos" (PDF) . Archivado desde el original (PDF) en 2014-09-03.
^ a b Hoaglin, David C .; Welsch, Roy E. (febrero de 1978). "La matriz de sombrero en regresión y ANOVA" (PDF) . El estadístico estadounidense . 32 (1): 17-22. doi : 10.2307 / 2683469 . hdl : 1721,1 / 1920 . JSTOR 2683469 .
^ a b c David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge .
^ Gans, P. (1992). Ajuste de datos en las ciencias químicas . Wiley. ISBN 0-471-93412-7.
^ Draper, NR; Smith, H. (1998). Análisis de regresión aplicado . Wiley. ISBN 0-471-17082-8.
^ Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs. 460 –461. ISBN 0-674-00560-0.
^ "Prueba de que el rastro de la matriz 'sombrero' en la regresión lineal es el rango de X" . Stack Exchange . 13 de abril de 2017.
^ Rao, C. Radhakrishna; Toutenburg, Helge; Shalabh; Heumann, Christian (2008). Modelos lineales y generalizaciones (3ª ed.). Berlín: Springer. págs. 323 . ISBN 978-3-540-74226-5.

[1] Basilevsky, Alexander (2005). Álgebra de matrices aplicada en las ciencias estadísticas . Dover. págs. 160-176. ISBN 0-486-44538-0.

[2] "Asimilación de datos: diagnóstico de la influencia de la observación de un sistema de asimilación de datos" (PDF) . Archivado desde el original (PDF) en 2014-09-03.

[Hoaglin1977-3] Hoaglin, David C .; Welsch, Roy E. (febrero de 1978). "La matriz de sombrero en regresión y ANOVA" (PDF) . El estadístico estadounidense . 32 (1): 17-22. doi : 10.2307 / 2683469 . hdl : 1721,1 / 1920 . JSTOR 2683469 .

[Freedman09-4] David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge .

[5] Gans, P. (1992). Ajuste de datos en las ciencias químicas . Wiley. ISBN 0-471-93412-7.

[6] Draper, NR; Smith, H. (1998). Análisis de regresión aplicado . Wiley. ISBN 0-471-17082-8.

[7] Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs. 460 –461. ISBN 0-674-00560-0.

[8] "Prueba de que el rastro de la matriz 'sombrero' en la regresión lineal es el rango de X" . Stack Exchange . 13 de abril de 2017.

[9] Rao, C. Radhakrishna; Toutenburg, Helge; Shalabh; Heumann, Christian (2008). Modelos lineales y generalizaciones (3ª ed.). Berlín: Springer. págs. 323 . ISBN 978-3-540-74226-5.

[1] a