Apalancamiento (estadísticas)

En estadística y en particular en análisis de regresión , el apalancamiento es una medida de qué tan lejos están los valores de las variables independientes de una observación de los de las otras observaciones.

Los puntos de alto apalancamiento son aquellas observaciones, si las hay, realizadas en valores extremos o periféricos de las variables independientes, de modo que la falta de observaciones vecinas significa que el modelo de regresión ajustado pasará cerca de esa observación en particular. ^[1]

Definición

En el modelo de regresión lineal , la puntuación de apalancamiento para la i -ésima observación se define como:

{\ Displaystyle h_ {ii} = \ left [\ mathbf {H} \ right] _ {ii},}

el i -ésimo elemento diagonal de la matriz de proyección ${\ Displaystyle \ mathbf {H} = \ mathbf {X} \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {X} \ right) ^ {- 1} \ mathbf {X} ^ { \ mathsf {T}}}$ , dónde ${\ Displaystyle \ mathbf {X}}$ es la matriz de diseño (cuyas filas corresponden a las observaciones y cuyas columnas corresponden a las variables independientes o explicativas).

Interpretación

El puntaje de apalancamiento también se conoce como la auto-sensibilidad o auto-influencia de la observación, ^[2] debido a la ecuación

{\ Displaystyle h_ {ii} = {\ frac {\ parcial {\ widehat {y \,}} _ {i}} {\ parcial y_ {i}}},}

que establece que el apalancamiento de la i -ésima observación es igual a la derivada parcial del i -ésimo valor dependiente ajustado ${\ Displaystyle {\ widehat {y \,}} _ {i}}$ con respecto al i -ésimo valor dependiente medido ${\ Displaystyle y_ {i}}$ . Esta derivada parcial describe el grado en que el i -ésimo valor medido influye en el i -ésimo valor ajustado. Tenga en cuenta que este apalancamiento depende de los valores de las variables explicativas (x-) de todas las observaciones, pero no de ninguno de los valores de las variables dependientes (y-).

La ecuacion ${\ Displaystyle h_ {ii} = {\ frac {\ parcial {\ widehat {y \,}} _ {i}} {\ parcial y_ {i}}}}$ se deduce directamente del cálculo de los valores ajustados a través de la matriz hat como ${\ Displaystyle {\ mathbf {\ widehat {y}}} = {\ mathbf {H}} {\ mathbf {y}}}$ ; es decir, el apalancamiento es un elemento diagonal de la matriz del sombrero:

{\ Displaystyle h_ {ii} = \ mathbf {H} (i, i).}

Límites de apalancamiento

{\ Displaystyle 0 \ leq h_ {ii} \ leq 1.}

Prueba

Primero, tenga en cuenta que H es una matriz idempotente : ${\ Displaystyle H ^ {2} = X (X ^ {\ top} X) ^ {- 1} X ^ {\ top} X (X ^ {\ top} X) ^ {- 1} X ^ {\ top } = XI (X ^ {\ top} X) ^ {- 1} X ^ {\ top} = H.}$ Además, observe que ${\ Displaystyle H}$ es simétrico (es decir: ${\ Displaystyle h_ {ij} = h_ {ji}}$ ). Entonces, al igualar el elemento ii de H con el de H ² , tenemos

{\ Displaystyle h_ {ii} = h_ {ii} ^ {2} + \ sum _ {j \ neq i} h_ {ij} ^ {2} \ geq 0}

y

{\ Displaystyle h_ {ii} \ geq h_ {ii} ^ {2} \ implica h_ {ii} \ leq 1.}

Relación con las funciones de influencia

En un contexto de regresión, combinamos funciones de apalancamiento e influencia para calcular el grado en que los coeficientes estimados cambiarían si elimináramos un solo punto de datos. Denota apalancamiento ${\ Displaystyle h_ {ii} \ equiv x_ {i} '(X'X) ^ {- 1} x_ {i}}$ y la regresión residual ${\ Displaystyle {\ hat {e}} _ {i} \ equiv y_ {i} -x_ {i} '\ beta}$ , se puede comparar el coeficiente estimado ${\ Displaystyle {\ hat {\ beta}}}$ al coeficiente estimado de dejar uno fuera ${\ Displaystyle {\ hat {\ beta}} ^ {(- i)}}$ utilizando la fórmula ^[3]^[4]

{\ Displaystyle {\ hat {\ beta}} - {\ hat {\ beta}} ^ {(- i)} = {\ frac {(X'X) ^ {- 1} x_ {i} '{\ hat {e}} _ {i}} {1-h_ {ii}}}}

Young (2019) usa una versión de esta fórmula después de residualizar los controles. ^[5]

Para obtener intuición de esta fórmula, tenga en cuenta que el vector k-por-1 ${\ Displaystyle {\ frac {\ parcial {\ hat {\ beta}}} {\ parcial y_ {i}}} = (X'X) ^ {- 1} x_ {i}}$ captura el potencial de una observación para afectar los parámetros de regresión y, por lo tanto, ${\ Displaystyle (X'X) ^ {- 1} x_ {i} {\ hat {e}} _ {i}}$ captura la influencia real de las desviaciones de esas observaciones de su valor ajustado en los parámetros de regresión. La fórmula luego se divide por ${\ Displaystyle (1-h_ {ii})}$ para tener en cuenta el hecho de que eliminamos la observación en lugar de ajustar su valor, lo que refleja el hecho de que la eliminación cambia más la distribución de covariables cuando se aplica a observaciones de alto apalancamiento (es decir, con valores de covariables atípicos).

Surgen fórmulas similares cuando se aplican fórmulas generales para funciones de influencias estadísticas en el contexto de regresión. ^[6]^[7]

Efecto sobre la varianza residual

Si estamos en un entorno de mínimos cuadrados ordinarios con X fijos y errores de regresión homoscedástica ${\ Displaystyle \ varepsilon _ {i},}$

{\ Displaystyle Y = X \ beta + \ varepsilon; \ \ \ operatorname {Var} (\ varepsilon) = \ sigma ^ {2} I}

entonces el i- ésimo residuo de regresión

{\ Displaystyle e_ {i} = Y_ {i} - {\ widehat {Y}} _ {i}}

tiene varianza

{\ Displaystyle \ operatorname {Var} (e_ {i}) = (1-h_ {ii}) \ sigma ^ {2}}

En otras palabras, la puntuación de apalancamiento de una observación determina el grado de ruido en la predicción errónea del modelo de esa observación, con un apalancamiento más alto que conduce a menos ruido.

Prueba

Primero, tenga en cuenta que ${\ Displaystyle IH}$ es idempotente y simétrico, y ${\ Displaystyle {\ widehat {Y}} = HY}$ . Esto da

{\ Displaystyle \ operatorname {Var} (e) = \ operatorname {Var} ((IH) Y) = (IH) \ operatorname {Var} (Y) (IH) ^ {\ top} = \ sigma ^ {2} (IH) ^ {2} = \ sigma ^ {2} (IH).}

Por lo tanto ${\ Displaystyle \ operatorname {Var} (e_ {i}) = (1-h_ {ii}) \ sigma ^ {2}.}$

Residuos estudentizados

El residuo estudentizado correspondiente , el residual ajustado por su varianza residual estimada específica de la observación, es entonces

{\ Displaystyle t_ {i} = {e_ {i} \ over {\ widehat {\ sigma}} {\ sqrt {1-h_ {ii} \}}}}

dónde ${\ Displaystyle {\ widehat {\ sigma}}}$ es una estimación apropiada de ${\ Displaystyle \ sigma.}$

Conceptos relacionados

Apalancamiento parcial

El apalancamiento parcial es una medida de la contribución de las variables independientes individuales al apalancamiento total de cada observación. Los paquetes informáticos modernos para el análisis estadístico incluyen, como parte de sus facilidades para el análisis de regresión, varias medidas cuantitativas para identificar observaciones influyentes , incluida una medida de cómo una variable independiente contribuye al apalancamiento total de un dato.

Distancia de Mahalanobis

El apalancamiento está estrechamente relacionado con la distancia de Mahalanobis ^[8] (ver prueba ^[9] ).

Específicamente, para algunas matrices ${\ Displaystyle X_ {n, p}}$ la distancia de Mahalanobis al cuadrado de algún vector de fila ${\ Displaystyle {\ vec {x_ {i}}} = X_ {i, \ cdot}}$ del vector de la media ${\ displaystyle {\ hat {\ mu}} = {\ bar {X}}}$ , de longitud ${\ Displaystyle p}$ , y con la matriz de covarianza estimada ${\ Displaystyle S = \ operatorname {cov} (X)}$ es:

{\ Displaystyle D ^ {2} ({\ vec {x_ {i}}}) = ({\ vec {x_ {i}}} - {\ hat {\ mu}}) ^ {T} S ^ {- 1} ({\ vec {x_ {i}}} - {\ hat {\ mu}})}

Esto está relacionado con el apalancamiento ${\ Displaystyle h_ {ii}}$ de la matriz del sombrero de ${\ Displaystyle X_ {n, p}}$ después de agregarle un vector de columna de unos. La relación entre los dos es:

{\ Displaystyle D ^ {2} ({\ vec {x_ {i}}}) = (n-1) (h_ {ii} - {\ tfrac {1} {n}})}

La relación entre el apalancamiento y la distancia de Mahalanobis nos permite descomponer el apalancamiento en componentes significativos para poder investigar analíticamente algunas fuentes de alto apalancamiento. ^[10]

Implementaciones de software

Muchos programas y paquetes de estadísticas, como R , Python , etc., incluyen implementaciones de Leverage.

Idioma / Programa	Función	Notas
R	`hat(x, intercept = TRUE)` o `hatvalues(model, ...)`	Ver [1]

Ver también

Matriz de proyección - cuyas principales entradas diagonales son las ventajas de las observaciones
Distancia de Mahalanobis - una medida ( escalada ) de apalancamiento de un datum
Distancia de Cook : una medida de los cambios en los coeficientes de regresión cuando se elimina una observación
DFFITS
Valor atípico : observaciones con valores extremos de Y
Grados de libertad (estadísticas) , la suma de las puntuaciones de apalancamiento

Referencias

^ Everitt, BS (2002). Diccionario de Estadística de Cambridge . Prensa de la Universidad de Cambridge. ISBN 0-521-81099-X.
^ Cardinali, C. (junio de 2013). "Asimilación de datos: diagnóstico de la influencia de la observación de un sistema de asimilación de datos" (PDF) .
^ Miller, Rupert G. (septiembre de 1974). "Una navaja desequilibrada" . Annals of Statistics . 2 (5): 880–891. doi : 10.1214 / aos / 1176342811 . ISSN 0090-5364 .
^ Hiyashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 21.
^ Joven, Alwyn (2019). "Canalización de Fisher: pruebas de aleatorización y la insignificancia estadística de resultados experimentales aparentemente significativos" . The Quarterly Journal of Economics . 134 : 567.
^ Chatterjee, Samprit; Hadi, Ali S. (agosto de 1986). "Observaciones influyentes, puntos de alto apalancamiento y valores atípicos en regresión lineal" . Ciencia estadística . 1 (3): 379–393. doi : 10.1214 / ss / 1177013622 . ISSN 0883-4237 .
^ "Regresión - Funciones de influencia y MCO" . Validación cruzada . Consultado el 6 de diciembre de 2020 .
^ Weiner, Irving B .; Schinka, John A .; Velicer, Wayne F. (23 de octubre de 2012). Manual de psicología, métodos de investigación en psicología . John Wiley e hijos. ISBN 978-1-118-28203-8.
^ ¿ Demuestre la relación entre la distancia de Mahalanobis y el apalancamiento?
^ Kim, MG (2004). "Fuentes de alto apalancamiento en el modelo de regresión lineal (Journal of Applied Mathematics and Computing, Vol 16, 509-513)". arXiv : 2006.04024 [ math.ST ].

[1] Everitt, BS (2002). Diccionario de Estadística de Cambridge . Prensa de la Universidad de Cambridge. ISBN 0-521-81099-X.

[2] Cardinali, C. (junio de 2013). "Asimilación de datos: diagnóstico de la influencia de la observación de un sistema de asimilación de datos" (PDF) .

[3] Miller, Rupert G. (septiembre de 1974). "Una navaja desequilibrada" . Annals of Statistics . 2 (5): 880–891. doi : 10.1214 / aos / 1176342811 . ISSN 0090-5364 .

[4] Hiyashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 21.

[5] Joven, Alwyn (2019). "Canalización de Fisher: pruebas de aleatorización y la insignificancia estadística de resultados experimentales aparentemente significativos" . The Quarterly Journal of Economics . 134 : 567.

[6] Chatterjee, Samprit; Hadi, Ali S. (agosto de 1986). "Observaciones influyentes, puntos de alto apalancamiento y valores atípicos en regresión lineal" . Ciencia estadística . 1 (3): 379–393. doi : 10.1214 / ss / 1177013622 . ISSN 0883-4237 .

[7] "Regresión - Funciones de influencia y MCO" . Validación cruzada . Consultado el 6 de diciembre de 2020 .

[8] Weiner, Irving B .; Schinka, John A .; Velicer, Wayne F. (23 de octubre de 2012). Manual de psicología, métodos de investigación en psicología . John Wiley e hijos. ISBN 978-1-118-28203-8.

[9] ^ ¿ Demuestre la relación entre la distancia de Mahalanobis y el apalancamiento?

[10] Kim, MG (2004). "Fuentes de alto apalancamiento en el modelo de regresión lineal (Journal of Applied Mathematics and Computing, Vol 16, 509-513)". arXiv : 2006.04024 [ math.ST ].

[1]