En estadística , el factor de inflación de la varianza ( VIF ) es la razón ( cociente ) de la varianza de estimar algún parámetro en un modelo que incluye muchos otros términos (parámetros) por la varianza de un modelo construido usando solo un término. [1] Cuantifica la severidad de la multicolinealidad en un análisis de regresión de mínimos cuadrados ordinarios . Proporciona un índice que mide cuánto aumenta la varianza (el cuadrado de la desviación estándar de la estimación ) de un coeficiente de regresión estimado debido a la colinealidad. Daniel Cuthbertafirma haber inventado el concepto detrás del factor de variación de la inflación, pero no se le ocurrió el nombre. [2]
Definición
Considere el siguiente modelo lineal con k variables independientes:
- Y = β 0 + β 1 X 1 + β 2 X 2 + ... + β k X k + ε .
El error estándar de la estimación de β j es la raíz cuadrada del elemento diagonal j + 1 de s 2 ( X ′ X ) −1 , donde s es la raíz del error cuadrático medio (RMSE) (tenga en cuenta que RMSE 2 es un estimador de la verdadera varianza del término de error,); X es la matriz de diseño de regresión , una matriz tal que X i , j +1 es el valor de la j- ésima variable independiente para el i- ésimo caso u observación, y tal que X i , 1 , el vector predictor asociado con el término de intersección , es igual a 1 para todo i . Resulta que el cuadrado de este error estándar, la varianza estimada de la estimación de β j , se puede expresar de manera equivalente como: [3] [4]
donde R j 2 es el múltiplo de R 2 para la regresión de X j en las otras covariables (una regresión que no involucra la variable de respuesta Y ). Esta identidad separa las influencias de varios factores distintos sobre la varianza de la estimación del coeficiente:
- s 2 : una mayor dispersión en los datos alrededor de la superficie de regresión conduce a una varianza proporcionalmente mayor en las estimaciones de coeficientes
- n : un tamaño de muestra mayor da como resultado una varianza proporcionalmente menor en las estimaciones de coeficientes
- : una mayor variabilidad en una covariable particular conduce a una varianza proporcionalmente menor en la estimación del coeficiente correspondiente
El término restante, 1 / (1 - R j 2 ) es el VIF. Refleja todos los demás factores que influyen en la incertidumbre en las estimaciones de coeficientes. El VIF es igual a 1 cuando el vector X j es ortogonal a cada columna de la matriz de diseño para la regresión de X j en las otras covariables. Por el contrario, el VIF es mayor que 1 cuando el vector X j no es ortogonal a todas las columnas de la matriz de diseño para la regresión de X j en las otras covariables. Finalmente, tenga en cuenta que el VIF es invariante al escalado de las variables (es decir, podríamos escalar cada variable X j por una constante c j sin cambiar el VIF).
Ahora deja , y sin perder la generalidad, reordenamos las columnas de X para establecer la primera columna como
- .
Al usar el complemento de Schur , el elemento de la primera fila y la primera columna de es,
Entonces nosotros tenemos,
Aquí es el coeficiente de regresión de la variable dependiente sobre covariable . es la suma de cuadrados residual correspondiente .
Cálculo y análisis
Podemos calcular k VIF diferentes (uno para cada X i ) en tres pasos:
Paso uno
Primero, ejecutamos una regresión de mínimos cuadrados ordinaria que tiene X i en función de todas las demás variables explicativas en la primera ecuación.
Si i = 1, por ejemplo, la ecuación sería
dónde es una constante ye es el término de error .
Segundo paso
Luego, calcule el factor VIF para con la siguiente fórmula:
donde R 2 i es el coeficiente de determinación de la ecuación de regresión en el paso uno, con en el lado izquierdo, y todas las demás variables predictoras (todas las otras variables X) en el lado derecho.
Paso tres
Analice la magnitud de la multicolinealidad considerando el tamaño de la. Una regla general es que sientonces la multicolinealidad es alta [5] (también se usa comúnmente un límite de 5 [6] ).
En cambio, algún software calcula la tolerancia, que es solo el recíproco del VIF. La elección de cuál usar es una cuestión de preferencia personal.
Interpretación
La raíz cuadrada del factor de inflación de la varianza indica cuánto más aumenta el error estándar en comparación con si esa variable tuviera una correlación 0 con otras variables predictoras en el modelo.
Ejemplo
Si el factor de inflación de la varianza de una variable de predicción fuera 5,27 (√5,27 = 2,3), esto significa que el error estándar para el coeficiente de esa variable de predicción es 2,3 veces mayor que si esa variable de predicción tuviera una correlación 0 con las otras variables de predicción.
Implementación
vif
función en el paquete R del cocheols_vif_tol
función en el paquete olsrr RPROC REG
en Sistema SASvariance_inflation_factor
función en el paquete statsmodels Pythonestat vif
en Stata- Complemento r.vif para GRASS GIS
Referencias
- ^ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). Una introducción al aprendizaje estadístico (8ª ed.). Springer Science + Business Media Nueva York. ISBN 978-1-4614-7138-7.
- ^ Estornudo, Ron (1981). Orígenes del factor de inflación de la varianza según lo recordado por Cuthbert Daniel (Informe técnico). Asociados de estornudos.
- ^ Rawlings, John O .; Pantula, Sastry G .; Dickey, David A. (1998). Análisis de regresión aplicado: una herramienta de investigación (Segunda ed.). Nueva York: Springer. págs. 372 , 373. ISBN 0387227539. OCLC 54851769 .
- ^ Lejos, Julian J. (2002). Regresión práctica y Anova usando R (PDF) . págs. 117, 118.
- ^ Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4ª ed.). McGraw-Hill Irwin.
- ^ Sheather, Simon (2009). Un enfoque moderno a la regresión con R . Nueva York, NY: Springer. ISBN 978-0-387-09607-0.
Otras lecturas
- Allison, PD (1999). Regresión múltiple: una introducción . Thousand Oaks, CA: Pine Forge Press. pag. 142.
- Cabello, JF; Anderson, R .; Tatham, RL; Negro, WC (2006). Análisis de datos multivariados . Upper Saddle River, Nueva Jersey: Prentice Hall.
- Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4ª ed.). McGraw-Hill Irwin.
- Longnecker, MT; Ott, RL (2004). Un primer curso de métodos estadísticos . Thomson Brooks / Cole. pag. 615.
- Marquardt, DW (1970). "Inversiones generalizadas, regresión de crestas, estimación lineal sesgada y estimación no lineal". Tecnometría . 12 (3): 591–612 [págs. 605-7]. doi : 10.1080 / 00401706.1970.10488699 .
- Studenmund, AH (2006). Uso de la econometría: una guía práctica (5ª ed.). Pearson International. págs. 258-259.
- Zuur, AF; Ieno, EN; Elphick, CS (2010). "Un protocolo de exploración de datos para evitar problemas estadísticos habituales". Métodos en ecología y evolución . 1 : 3-14. doi : 10.1111 / j.2041-210X.2009.00001.x .
Ver también
- Efecto de diseño