Factor de inflación de la varianza

En estadística , el factor de inflación de la varianza ( VIF ) es la razón ( cociente ) de la varianza de estimar algún parámetro en un modelo que incluye muchos otros términos (parámetros) por la varianza de un modelo construido usando solo un término. ^[1] Cuantifica la severidad de la multicolinealidad en un análisis de regresión de mínimos cuadrados ordinarios . Proporciona un índice que mide cuánto aumenta la varianza (el cuadrado de la desviación estándar de la estimación ) de un coeficiente de regresión estimado debido a la colinealidad. Daniel Cuthbertafirma haber inventado el concepto detrás del factor de variación de la inflación, pero no se le ocurrió el nombre. ^[2]

Definición

Considere el siguiente modelo lineal con k variables independientes:

Y = β ₀ + β ₁X ₁ + β ₂X ₂ + ... + β _k X _k + ε .

El error estándar de la estimación de β _j es la raíz cuadrada del elemento diagonal j + 1 de s ² ( X ′ X ) ⁻¹ , donde s es la raíz del error cuadrático medio (RMSE) (tenga en cuenta que RMSE ² es un estimador de la verdadera varianza del término de error, ${\ Displaystyle \ sigma ^ {2}}$ ); X es la matriz de diseño de regresión , una matriz tal que X _{i , j +1} es el valor de la j- ^ésima variable independiente para el i- ^ésimo caso u observación, y tal que X _{i , 1} , el vector predictor asociado con el término de intersección , es igual a 1 para todo i . Resulta que el cuadrado de este error estándar, la varianza estimada de la estimación de β _j , se puede expresar de manera equivalente como: ^[3]^[4]

{\ displaystyle {\ widehat {\ operatorname {var}}} ({\ hat {\ beta}} _ {j}) = {\ frac {s ^ {2}} {(n-1) {\ widehat {\ nombre de operador {var}}} (X_ {j})}} \ cdot {\ frac {1} {1-R_ {j} ^ {2}}},}

donde R _j² es el múltiplo de R ² para la regresión de X _j en las otras covariables (una regresión que no involucra la variable de respuesta Y ). Esta identidad separa las influencias de varios factores distintos sobre la varianza de la estimación del coeficiente:

s ² : una mayor dispersión en los datos alrededor de la superficie de regresión conduce a una varianza proporcionalmente mayor en las estimaciones de coeficientes
n : un tamaño de muestra mayor da como resultado una varianza proporcionalmente menor en las estimaciones de coeficientes
${\ Displaystyle {\ widehat {\ operatorname {var}}} (X_ {j})}$ : una mayor variabilidad en una covariable particular conduce a una varianza proporcionalmente menor en la estimación del coeficiente correspondiente

El término restante, 1 / (1 - R _j² ) es el VIF. Refleja todos los demás factores que influyen en la incertidumbre en las estimaciones de coeficientes. El VIF es igual a 1 cuando el vector X _j es ortogonal a cada columna de la matriz de diseño para la regresión de X _j en las otras covariables. Por el contrario, el VIF es mayor que 1 cuando el vector X _j no es ortogonal a todas las columnas de la matriz de diseño para la regresión de X _j en las otras covariables. Finalmente, tenga en cuenta que el VIF es invariante al escalado de las variables (es decir, podríamos escalar cada variable X _j por una constante c _j sin cambiar el VIF).

{\ Displaystyle {\ widehat {\ operatorname {var}}} ({\ hat {\ beta}} _ {j}) = s ^ {2} [(X ^ {T} X) ^ {- 1}] _ {jj}}

Ahora deja ${\ Displaystyle r = X ^ {T} X}$ , y sin perder la generalidad, reordenamos las columnas de X para establecer la primera columna como ${\ Displaystyle X_ {j}}$

{\ displaystyle r ^ {- 1} = {\ begin {bmatrix} r_ {j, j} & r_ {j, -j} \\ r _ {- j, j} & r _ {- j, -j} \ end {bmatrix }} ^ {- 1}}

{\ Displaystyle r_ {j, j} = X_ {j} ^ {T} X_ {j}, r_ {j, -j} = X_ {j} ^ {T} X _ {- j}, r _ {- j, j} = X _ {- j} ^ {T} X_ {j}, r _ {- j, -j} = X _ {- j} ^ {T} X _ {- j}}

.

Al usar el complemento de Schur , el elemento de la primera fila y la primera columna de ${\ displaystyle r ^ {- 1}}$ es,

{\ Displaystyle r_ {1,1} ^ {- 1} = [r_ {j, j} -r_ {j, -j} r _ {- j, -j} ^ {- 1} r _ {- j, j} ] ^ {- 1}}

Entonces nosotros tenemos,

{\ Displaystyle {\ begin {alineado} & {\ widehat {\ operatorname {var}}} ({\ hat {\ beta}} _ {j}) = s ^ {2} [(X ^ {T} X) ^ {- 1}] _ {jj} = s ^ {2} r_ {1,1} ^ {- 1} \\ = {} & s ^ {2} [X_ {j} ^ {T} X_ {j} -X_ {j} ^ {T} X _ {- j} (X _ {- j} ^ {T} X _ {- j}) ^ {- 1} X _ {- j} ^ {T} X_ {j}] ^ {-1} \\ = {} & s ^ {2} [X_ {j} ^ {T} X_ {j} -X_ {j} ^ {T} X _ {- j} (X _ {- j} ^ {T } X _ {- j}) ^ {- 1} (X _ {- j} ^ {T} X _ {- j}) (X _ {- j} ^ {T} X _ {- j}) ^ {- 1} X_ {-j} ^ {T} X_ {j}] ^ {- 1} \\ = {} & s ^ {2} [X_ {j} ^ {T} X_ {j} - {\ hat {\ beta}} _ {* j} ^ {T} (X _ {- j} ^ {T} X _ {- j}) {\ hat {\ beta}} _ {* j}] ^ {- 1} \\ = {} & s ^ {2} {\ frac {1} {\ mathrm {RSS} _ {j}}} \\ = {} & {\ frac {s ^ {2}} {(n-1) {\ widehat {\ operatorname {var}}} (X_ {j})}} \ cdot {\ frac {1} {1-R_ {j} ^ {2}}} \ end {alineado}}}

Aquí ${\ Displaystyle {\ hat {\ beta}} _ {* j}}$ es el coeficiente de regresión de la variable dependiente ${\ Displaystyle X_ {j}}$ sobre covariable ${\ Displaystyle X _ {- j}}$ . ${\ Displaystyle \ mathrm {RSS} _ {j}}$ es la suma de cuadrados residual correspondiente .

Cálculo y análisis

Podemos calcular k VIF diferentes (uno para cada X _i ) en tres pasos:

Paso uno

Primero, ejecutamos una regresión de mínimos cuadrados ordinaria que tiene X _i en función de todas las demás variables explicativas en la primera ecuación.
Si i = 1, por ejemplo, la ecuación sería

{\ Displaystyle X_ {1} = \ alpha _ {0} + \ alpha _ {2} X_ {2} + \ alpha _ {3} X_ {3} + \ cdots + \ alpha _ {k} X_ {k} + e}

dónde ${\ Displaystyle \ alpha _ {0}}$ es una constante ye es el término de error .

Segundo paso

Luego, calcule el factor VIF para ${\ Displaystyle {\ hat {\ beta}} _ {i}}$ con la siguiente fórmula:

{\ Displaystyle \ mathrm {VIF} _ {i} = {\ frac {1} {1-R_ {i} ^ {2}}}}

donde R ²_i es el coeficiente de determinación de la ecuación de regresión en el paso uno, con ${\ Displaystyle X_ {i}}$ en el lado izquierdo, y todas las demás variables predictoras (todas las otras variables X) en el lado derecho.

Paso tres

Analice la magnitud de la multicolinealidad considerando el tamaño de la ${\ Displaystyle \ operatorname {VIF} ({\ hat {\ beta}} _ {i})}$ . Una regla general es que si ${\ Displaystyle \ operatorname {VIF} ({\ hat {\ beta}} _ {i})> 10}$ entonces la multicolinealidad es alta ^[5] (también se usa comúnmente un límite de 5 ^[6] ).

En cambio, algún software calcula la tolerancia, que es solo el recíproco del VIF. La elección de cuál usar es una cuestión de preferencia personal.

Interpretación

La raíz cuadrada del factor de inflación de la varianza indica cuánto más aumenta el error estándar en comparación con si esa variable tuviera una correlación 0 con otras variables predictoras en el modelo.

Ejemplo
Si el factor de inflación de la varianza de una variable de predicción fuera 5,27 (√5,27 = 2,3), esto significa que el error estándar para el coeficiente de esa variable de predicción es 2,3 veces mayor que si esa variable de predicción tuviera una correlación 0 con las otras variables de predicción.

Implementación

viffunción en el paquete R del coche
ols_vif_tolfunción en el paquete olsrr R
PROC REGen Sistema SAS
variance_inflation_factorfunción en el paquete statsmodels Python
estat vifen Stata
Complemento r.vif para GRASS GIS

Referencias

^ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). Una introducción al aprendizaje estadístico (8ª ed.). Springer Science + Business Media Nueva York. ISBN 978-1-4614-7138-7.
^ Estornudo, Ron (1981). Orígenes del factor de inflación de la varianza según lo recordado por Cuthbert Daniel (Informe técnico). Asociados de estornudos.
^ Rawlings, John O .; Pantula, Sastry G .; Dickey, David A. (1998). Análisis de regresión aplicado: una herramienta de investigación (Segunda ed.). Nueva York: Springer. págs. 372 , 373. ISBN 0387227539. OCLC 54851769 .
^ Lejos, Julian J. (2002). Regresión práctica y Anova usando R (PDF) . págs. 117, 118.
^ Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4ª ed.). McGraw-Hill Irwin.
^ Sheather, Simon (2009). Un enfoque moderno a la regresión con R . Nueva York, NY: Springer. ISBN 978-0-387-09607-0.

Otras lecturas

Allison, PD (1999). Regresión múltiple: una introducción . Thousand Oaks, CA: Pine Forge Press. pag. 142.
Cabello, JF; Anderson, R .; Tatham, RL; Negro, WC (2006). Análisis de datos multivariados . Upper Saddle River, Nueva Jersey: Prentice Hall.
Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4ª ed.). McGraw-Hill Irwin.
Longnecker, MT; Ott, RL (2004). Un primer curso de métodos estadísticos . Thomson Brooks / Cole. pag. 615.
Marquardt, DW (1970). "Inversiones generalizadas, regresión de crestas, estimación lineal sesgada y estimación no lineal". Tecnometría . 12 (3): 591–612 [págs. 605-7]. doi : 10.1080 / 00401706.1970.10488699 .
Studenmund, AH (2006). Uso de la econometría: una guía práctica (5ª ed.). Pearson International. págs. 258-259.
Zuur, AF; Ieno, EN; Elphick, CS (2010). "Un protocolo de exploración de datos para evitar problemas estadísticos habituales". Métodos en ecología y evolución . 1 : 3-14. doi : 10.1111 / j.2041-210X.2009.00001.x .

Ver también

Efecto de diseño

[1] James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2017). Una introducción al aprendizaje estadístico (8ª ed.). Springer Science + Business Media Nueva York. ISBN 978-1-4614-7138-7.

[2] Estornudo, Ron (1981). Orígenes del factor de inflación de la varianza según lo recordado por Cuthbert Daniel (Informe técnico). Asociados de estornudos.

[3] Rawlings, John O .; Pantula, Sastry G .; Dickey, David A. (1998). Análisis de regresión aplicado: una herramienta de investigación (Segunda ed.). Nueva York: Springer. págs. 372 , 373. ISBN 0387227539. OCLC 54851769 .

[4] Lejos, Julian J. (2002). Regresión práctica y Anova usando R (PDF) . págs. 117, 118.

[5] Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Modelos de regresión lineal aplicados (4ª ed.). McGraw-Hill Irwin.

[Sheather_2009_p.-6] Sheather, Simon (2009). Un enfoque moderno a la regresión con R . Nueva York, NY: Springer. ISBN 978-0-387-09607-0.

[1]