En estadística y en particular en análisis de regresión , el apalancamiento es una medida de qué tan lejos están los valores de las variables independientes de una observación de los de las otras observaciones.
Los puntos de alto apalancamiento son aquellas observaciones, si las hay, realizadas en valores extremos o periféricos de las variables independientes, de modo que la falta de observaciones vecinas significa que el modelo de regresión ajustado pasará cerca de esa observación en particular. [1]
Definición
En el modelo de regresión lineal , la puntuación de apalancamiento para la i -ésima observación se define como:
el i -ésimo elemento diagonal de la matriz de proyección , dónde es la matriz de diseño (cuyas filas corresponden a las observaciones y cuyas columnas corresponden a las variables independientes o explicativas).
Interpretación
El puntaje de apalancamiento también se conoce como la auto-sensibilidad o auto-influencia de la observación, [2] debido a la ecuación
que establece que el apalancamiento de la i -ésima observación es igual a la derivada parcial del i -ésimo valor dependiente ajustadocon respecto al i -ésimo valor dependiente medido. Esta derivada parcial describe el grado en que el i -ésimo valor medido influye en el i -ésimo valor ajustado. Tenga en cuenta que este apalancamiento depende de los valores de las variables explicativas (x-) de todas las observaciones, pero no de ninguno de los valores de las variables dependientes (y-).
La ecuacion se deduce directamente del cálculo de los valores ajustados a través de la matriz hat como; es decir, el apalancamiento es un elemento diagonal de la matriz del sombrero:
Límites de apalancamiento
Prueba
Primero, tenga en cuenta que H es una matriz idempotente : Además, observe que es simétrico (es decir: ). Entonces, al igualar el elemento ii de H con el de H 2 , tenemos
y
Relación con las funciones de influencia
En un contexto de regresión, combinamos funciones de apalancamiento e influencia para calcular el grado en que los coeficientes estimados cambiarían si elimináramos un solo punto de datos. Denota apalancamiento y la regresión residual , se puede comparar el coeficiente estimado al coeficiente estimado de dejar uno fuera utilizando la fórmula [3] [4]
Young (2019) usa una versión de esta fórmula después de residualizar los controles. [5]
Para obtener intuición de esta fórmula, tenga en cuenta que el vector k-por-1 captura el potencial de una observación para afectar los parámetros de regresión y, por lo tanto, captura la influencia real de las desviaciones de esas observaciones de su valor ajustado en los parámetros de regresión. La fórmula luego se divide por para tener en cuenta el hecho de que eliminamos la observación en lugar de ajustar su valor, lo que refleja el hecho de que la eliminación cambia más la distribución de covariables cuando se aplica a observaciones de alto apalancamiento (es decir, con valores de covariables atípicos).
Surgen fórmulas similares cuando se aplican fórmulas generales para funciones de influencias estadísticas en el contexto de regresión. [6] [7]
Efecto sobre la varianza residual
Si estamos en un entorno de mínimos cuadrados ordinarios con X fijos y errores de regresión homoscedástica
entonces el i- ésimo residuo de regresión
tiene varianza
En otras palabras, la puntuación de apalancamiento de una observación determina el grado de ruido en la predicción errónea del modelo de esa observación, con un apalancamiento más alto que conduce a menos ruido.
Prueba
Primero, tenga en cuenta que es idempotente y simétrico, y . Esto da
Por lo tanto
Residuos estudentizados
El residuo estudentizado correspondiente , el residual ajustado por su varianza residual estimada específica de la observación, es entonces
dónde es una estimación apropiada de
Conceptos relacionados
Apalancamiento parcial
El apalancamiento parcial es una medida de la contribución de las variables independientes individuales al apalancamiento total de cada observación. Los paquetes informáticos modernos para el análisis estadístico incluyen, como parte de sus facilidades para el análisis de regresión, varias medidas cuantitativas para identificar observaciones influyentes , incluida una medida de cómo una variable independiente contribuye al apalancamiento total de un dato.
Distancia de Mahalanobis
El apalancamiento está estrechamente relacionado con la distancia de Mahalanobis [8] (ver prueba [9] ).
Específicamente, para algunas matrices la distancia de Mahalanobis al cuadrado de algún vector de fila del vector de la media , de longitud , y con la matriz de covarianza estimada es:
Esto está relacionado con el apalancamiento de la matriz del sombrero de después de agregarle un vector de columna de unos. La relación entre los dos es:
La relación entre el apalancamiento y la distancia de Mahalanobis nos permite descomponer el apalancamiento en componentes significativos para poder investigar analíticamente algunas fuentes de alto apalancamiento. [10]
Implementaciones de software
Muchos programas y paquetes de estadísticas, como R , Python , etc., incluyen implementaciones de Leverage.
Idioma / Programa | Función | Notas |
---|---|---|
R | hat(x, intercept = TRUE) o hatvalues(model, ...) | Ver [1] |
Ver también
- Matriz de proyección - cuyas principales entradas diagonales son las ventajas de las observaciones
- Distancia de Mahalanobis - una medida ( escalada ) de apalancamiento de un datum
- Distancia de Cook : una medida de los cambios en los coeficientes de regresión cuando se elimina una observación
- DFFITS
- Valor atípico : observaciones con valores extremos de Y
- Grados de libertad (estadísticas) , la suma de las puntuaciones de apalancamiento
Referencias
- ^ Everitt, BS (2002). Diccionario de Estadística de Cambridge . Prensa de la Universidad de Cambridge. ISBN 0-521-81099-X.
- ^ Cardinali, C. (junio de 2013). "Asimilación de datos: diagnóstico de la influencia de la observación de un sistema de asimilación de datos" (PDF) .
- ^ Miller, Rupert G. (septiembre de 1974). "Una navaja desequilibrada" . Annals of Statistics . 2 (5): 880–891. doi : 10.1214 / aos / 1176342811 . ISSN 0090-5364 .
- ^ Hiyashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 21.
- ^ Joven, Alwyn (2019). "Canalización de Fisher: pruebas de aleatorización y la insignificancia estadística de resultados experimentales aparentemente significativos" . The Quarterly Journal of Economics . 134 : 567.
- ^ Chatterjee, Samprit; Hadi, Ali S. (agosto de 1986). "Observaciones influyentes, puntos de alto apalancamiento y valores atípicos en regresión lineal" . Ciencia estadística . 1 (3): 379–393. doi : 10.1214 / ss / 1177013622 . ISSN 0883-4237 .
- ^ "Regresión - Funciones de influencia y MCO" . Validación cruzada . Consultado el 6 de diciembre de 2020 .
- ^ Weiner, Irving B .; Schinka, John A .; Velicer, Wayne F. (23 de octubre de 2012). Manual de psicología, métodos de investigación en psicología . John Wiley e hijos. ISBN 978-1-118-28203-8.
- ^ ¿ Demuestre la relación entre la distancia de Mahalanobis y el apalancamiento?
- ^ Kim, MG (2004). "Fuentes de alto apalancamiento en el modelo de regresión lineal (Journal of Applied Mathematics and Computing, Vol 16, 509-513)". arXiv : 2006.04024 [ math.ST ].