Sesgo de variable omitida


En estadística , el sesgo de variables omitidas ( OVB ) ocurre cuando un modelo estadístico omite una o más variables relevantes. El sesgo da como resultado que el modelo atribuya el efecto de las variables faltantes a las que se incluyeron.

Más específicamente, OVB es el sesgo que aparece en las estimaciones de parámetros en un análisis de regresión , cuando la especificación asumida es incorrecta en cuanto omite una variable independiente que es determinante de la variable dependiente y se correlaciona con una o más de las variables independientes incluidas. variables.

con parámetros a, b, c , variable dependiente y , variables independientes x y z , y término de error u . Deseamos conocer el efecto de x en sí mismo sobre y (es decir, deseamos obtener una estimación de b ).

Si se realiza una regresión de y solo sobre x , esta última ecuación es lo que se estima, y ​​el coeficiente de regresión sobre x es en realidad una estimación de ( b  +  cf ), dando no simplemente una estimación del efecto directo deseado de x sobre y (que es b ), sino de su suma con el efecto indirecto (el efecto f de x sobre z multiplicado por el efecto c de z sobre y ). Por lo tanto, al omitir la variable z de la regresión, hemos estimado la derivada totalde y con respecto a x en lugar de su derivada parcial con respecto a  x . Estos difieren si tanto c como f son distintos de cero.

La dirección y extensión de la polarización están contenidos en cf , ya que el efecto buscado es b pero las estimaciones de regresión b + cf . La extensión de la polarización es el valor absoluto de cf , y la dirección de sesgo es hacia arriba (hacia un valor más positivo o menos negativo) si cf > 0 (si la dirección de la correlación entre y y z es la misma que entre x y z ), y es hacia abajo de otra manera.

Recopilamos las observaciones de todas las variables subindicadas i = 1, ..., n , y las apilamos una debajo de la otra, para obtener la matriz X y los vectores Y , Z y U :