Apalancamiento (estadísticas)


En estadística y en particular en análisis de regresión , el apalancamiento es una medida de qué tan lejos están los valores de las variables independientes de una observación de los de las otras observaciones. Los puntos de alto apalancamiento , si los hay, son valores atípicos con respecto a las variables independientes . Es decir, los puntos de alto apalancamiento no tienen puntos vecinos en el espacio, donde es el número de variables independientes en un modelo de regresión. Esto hace que el modelo ajustado probablemente pase cerca de una observación de alto apalancamiento. [1]Por lo tanto, los puntos de alto apalancamiento tienen el potencial de causar grandes cambios en las estimaciones de los parámetros cuando se eliminan, es decir, para ser puntos de influencia . Aunque un punto influyente normalmente tendrá un apalancamiento alto, un punto de apalancamiento alto no es necesariamente un punto influyente. El apalancamiento se define típicamente como los elementos diagonales de la matriz del sombrero .

Considere la regresión lineal modelo , . Es decir, donde, es la matriz de diseño cuyas filas corresponden a las observaciones y cuyas columnas corresponden a las variables independientes o explicativas. La puntuación de apalancamiento para la observación independiente se da como: