Corrección de Heckman

La corrección de Heckman es una técnica estadística para corregir el sesgo de muestras seleccionadas de forma no aleatoria o de otras variables dependientes truncadas incidentalmente , un problema generalizado en las ciencias sociales cuantitativas cuando se utilizan datos de observación . ^[1] Conceptualmente, esto se logra modelando explícitamente la probabilidad de muestreo individual de cada observación (la llamada ecuación de selección) junto con la expectativa condicional de la variable dependiente (la llamada ecuación de resultado). La función de verosimilitud resultante es matemáticamente similar al modelo tobit.para las variables dependientes censuradas , una conexión trazada por primera vez por James Heckman en 1974. ^[2] Heckman también desarrolló un enfoque de función de control de dos pasos para estimar este modelo, ^[3] que evita la carga computacional de tener que estimar ambas ecuaciones conjuntamente , aunque a costa de la ineficiencia . ^[4] Heckman recibió el Premio Nobel de Ciencias Económicas en 2000 por su trabajo en este campo. ^[5]

Método

Los análisis estadísticos basados en muestras seleccionadas de forma no aleatoria pueden llevar a conclusiones erróneas. La corrección de Heckman, un enfoque estadístico de dos pasos, ofrece un medio de corrección para muestras seleccionadas de forma no aleatoria.

Heckman discutió el sesgo de usar muestras seleccionadas no aleatorias para estimar las relaciones de comportamiento como un error de especificación. Sugiere un método de estimación de dos etapas para corregir el sesgo. La corrección utiliza una idea de función de control y es fácil de implementar. La corrección de Heckman implica un supuesto de normalidad , proporciona una prueba para el sesgo de selección de la muestra y una fórmula para el modelo corregido por el sesgo.

Suponga que un investigador desea estimar los determinantes de las ofertas salariales, pero tiene acceso a las observaciones salariales solo para aquellos que trabajan. Dado que las personas que trabajan se seleccionan de forma no aleatoria de la población, estimar los determinantes de los salarios de la subpoblación que trabaja puede introducir sesgos. La corrección de Heckman se realiza en dos etapas.

En la primera etapa, el investigador formula un modelo, basado en la teoría económica , para la probabilidad de trabajar. La especificación canónica de esta relación es una regresión probit de la forma

{\ Displaystyle \ operatorname {Prob} (D = 1 | Z) = \ Phi (Z \ gamma),}

donde D indica empleo ( D = 1 si el entrevistado está empleado y D = 0 en caso contrario), Z es un vector de variables explicativas, ${\ Displaystyle \ gamma}$ es un vector de parámetros desconocidos y Φ es la función de distribución acumulativa de la distribución normal estándar . La estimación del modelo arroja resultados que pueden usarse para predecir esta probabilidad de empleo para cada individuo.

En la segunda etapa, el investigador corrige la autoselección incorporando una transformación de estas probabilidades individuales predichas como una variable explicativa adicional. La ecuación salarial se puede especificar,

{\ Displaystyle w ^ {*} = X \ beta + u}

dónde ${\ Displaystyle w ^ {*}}$ denota una oferta salarial subyacente, que no se observa si el encuestado no trabaja. La expectativa condicional de salario dado que la persona trabaja es entonces

{\ Displaystyle E [w | X, D = 1] = X \ beta + E [u | X, D = 1].}

Bajo el supuesto de que los términos de error son conjuntamente normales , tenemos

{\ Displaystyle E [w | X, D = 1] = X \ beta + \ rho \ sigma _ {u} \ lambda (Z \ gamma),}

donde ρ es la correlación entre los determinantes no observados de la propensión a trabajar ${\ Displaystyle \ varepsilon}$ y determinantes no observados de las ofertas salariales u , σ _u es la desviación estándar de ${\ Displaystyle u}$ , y ${\ Displaystyle \ lambda}$ es la razón de molinos inversa evaluada en ${\ Displaystyle Z \ gamma}$ . Esta ecuación demuestra la percepción de Heckman de que la selección de la muestra puede verse como una forma de sesgo de variables omitidas , como condicional tanto en X como en ${\ Displaystyle \ lambda}$ es como si la muestra se seleccionara al azar. La ecuación salarial se puede estimar reemplazando ${\ Displaystyle \ gamma}$ con estimaciones Probit desde la primera etapa, construyendo el ${\ Displaystyle \ lambda}$ término, e incluirlo como una variable explicativa adicional en la estimación de regresión lineal de la ecuación salarial. Desde ${\ Displaystyle \ sigma _ {u}> 0}$ , el coeficiente de ${\ Displaystyle \ lambda}$ solo puede ser cero si ${\ Displaystyle \ rho = 0}$ , entonces probando el nulo que el coeficiente en ${\ Displaystyle \ lambda}$ es cero equivale a probar la selectividad de la muestra.

Los logros de Heckman han generado un gran número de aplicaciones empíricas en economía y en otras ciencias sociales. Posteriormente, Heckman y otros han generalizado el método original. ^[6]

Inferencia estadística

La corrección de Heckman es un estimador M de dos pasos donde la matriz de covarianza generada por la estimación de MCO de la segunda etapa es inconsistente. ^[7] Se pueden generar errores estándar correctos y otras estadísticas a partir de una aproximación asintótica o mediante un remuestreo, como mediante un bootstrap . ^[8]

Desventajas

El estimador de dos pasos discutido anteriormente es un estimador de máxima verosimilitud de información limitada (LIML). En la teoría asintótica y en muestras finitas, como lo demuestran las simulaciones de Monte Carlo, el estimador de información completa (FIML) exhibe mejores propiedades estadísticas. Sin embargo, el estimador FIML es más difícil de implementar computacionalmente. ^[9]
El modelo canónico asume que los errores son conjuntamente normales. Si ese supuesto falla, el estimador es generalmente inconsistente y puede proporcionar inferencias engañosas en muestras pequeñas. ^[10] En tales casos, se pueden utilizar alternativas semiparamétricas y otras alternativas sólidas. ^[11]
El modelo obtiene una identificación formal a partir del supuesto de normalidad cuando las mismas covariables aparecen en la ecuación de selección y la ecuación de interés, pero la identificación será tenue a menos que haya muchas observaciones en las colas donde hay una no linealidad sustancial en la razón de Mills inversa. Generalmente, se requiere una restricción de exclusión para generar estimaciones creíbles: debe haber al menos una variable que aparezca con un coeficiente distinto de cero en la ecuación de selección pero no aparezca en la ecuación de interés, esencialmente un instrumento . Si no se dispone de dicha variable, puede resultar difícil corregir la selectividad del muestreo. ^[9]

Implementaciones en paquetes de estadísticas

R : Los procedimientos de tipo Heckman están disponibles como parte del sampleSelectionpaquete. ^[12]^[13]
Stata : el comando heckmanproporciona el modelo de selección de Heckman. ^[14]^[15]

Ver también

Emparejamiento de puntaje de propensión
Modelo Roy

Referencias

^ Winship, Christopher; Mare, Robert D. (1992). "Modelos para el sesgo de selección de la muestra". Revista anual de sociología . 18 : 327–350. doi : 10.1146 / annurev.so.18.080192.001551 .
^ Heckman, James (1974). "Precios sombra, salarios de mercado y oferta laboral". Econometrica . 42 (4): 679–694. doi : 10.2307 / 1913937 .
^ Heckman, James (1976). "La estructura común de modelos estadísticos de truncamiento, selección de muestra y variables dependientes limitadas y un estimador simple para tales modelos" . Anales de medición económica y social . 5 (4): 475–492.
^ Nawata, Kazumitsu (1994). "Estimación de modelos de sesgo de selección de muestra por el estimador de máxima verosimilitud y el estimador de dos pasos de Heckman". Cartas económicas . 45 (1): 33–40. doi : 10.1016 / 0165-1765 (94) 90053-1 .
^ Uchitelle, Louis (12 de octubre de 2000). "2 estadounidenses ganan el Nobel de economía" . New York Times .
^ Lee, Lung-Fei (2001). "Autoselección". En Baltagi, B. (ed.). Un compañero de la econometría teórica . Oxford: Blackwell. págs. 383–409. doi : 10.1002 / 9780470996249.ch19 . ISBN 9780470996249.
^ Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs. 368 –372. ISBN 0-674-00560-0.
^ Cameron, A. Colin ; Trivedi, Pravin K. (2005). "Estimación m secuencial de dos pasos" . Microeconometría: métodos y aplicaciones . Nueva York: Cambridge University Press. págs. 200–202. ISBN 0-521-84805-9.
^ a b Puhani, P. (2000). "La corrección de Heckman para la selección de muestras y su crítica". Revista de encuestas económicas . 14 (1): 53–68. doi : 10.1111 / 1467-6419.00104 .
^ Goldberger, A. (1983). "Sesgo de selección anormal" . En Karlin, Samuel ; Amemiya, Takeshi ; Goodman, Leo (eds.). Estudios en Econometría, Series Temporales y Estadística Multivariante . Nueva York: Academic Press. págs. 67–84 . ISBN 0-12-398750-4.
^ Newey, Whitney; Powell, J .; Walker, James R. (1990). "Estimación semiparamétrica de modelos de selección: algunos resultados empíricos". American Economic Review . 80 (2): 324-28. JSTOR 2006593 .
^ Toomet, O .; Henningsen, A. (2008). "Modelos de selección de muestra en R: paquete sampleSelection" . Revista de software estadístico . 27 (7): 1–23. doi : 10.18637 / jss.v027.i07 .
^ "sampleSelection: modelos de selección de muestra" . Proyecto R . 3 de mayo de 2019.
^ "Heckman - modelo de selección de Heckman" (PDF) . Stata Manual .
^ Cameron, A. Colin; Trivedi, Pravin K. (2010). Microeconometrics Using Stata (Ed. Revisada). College Station: Stata Press. págs. 556–562. ISBN 978-1-59718-073-3.

Otras lecturas

Achen, Christopher H. (1986). "Estimación de los efectos del tratamiento en cuasiexperimentos: el caso de los datos censurados" . El análisis estadístico de cuasiexperimentos . Berkeley: Prensa de la Universidad de California. págs. 97-137. ISBN 0-520-04723-0.
Breen, Richard (1996). Modelos de regresión: datos censurados, seleccionados de muestra o truncados . Thousand Oaks: Sage. págs. 33–48. ISBN 0-8039-5710-6.
Fu, Vincent Kang; Winship, Christopher ; Mare, Robert D. (2004). "Modelos de sesgo de selección de muestra". En Hardy, Melissa; Bryman, Alan (eds.). Manual de análisis de datos . Londres: Sage. págs. 409–430. doi : 10.4135 / 9781848608184.n18 . ISBN 0-7619-6652-8.
Greene, William H. (2012). "Truncamiento incidental y selección de muestras". Análisis econométrico (Séptima ed.). Boston: Pearson. págs. 912-27. ISBN 978-0-273-75356-8.
Vella, Francis (1998). "Estimación de modelos con sesgo de selección de la muestra: una encuesta". Revista de Recursos Humanos . 33 (1): 127-169. doi : 10.2307 / 146317 . JSTOR 146317 .

enlaces externos

Hechos del premio Nobel Heckman.

[1] Winship, Christopher; Mare, Robert D. (1992). "Modelos para el sesgo de selección de la muestra". Revista anual de sociología . 18 : 327–350. doi : 10.1146 / annurev.so.18.080192.001551 .

[2] Heckman, James (1974). "Precios sombra, salarios de mercado y oferta laboral". Econometrica . 42 (4): 679–694. doi : 10.2307 / 1913937 .

[3] Heckman, James (1976). "La estructura común de modelos estadísticos de truncamiento, selección de muestra y variables dependientes limitadas y un estimador simple para tales modelos" . Anales de medición económica y social . 5 (4): 475–492.

[4] Nawata, Kazumitsu (1994). "Estimación de modelos de sesgo de selección de muestra por el estimador de máxima verosimilitud y el estimador de dos pasos de Heckman". Cartas económicas . 45 (1): 33–40. doi : 10.1016 / 0165-1765 (94) 90053-1 .

[5] Uchitelle, Louis (12 de octubre de 2000). "2 estadounidenses ganan el Nobel de economía" . New York Times .

[6] Lee, Lung-Fei (2001). "Autoselección". En Baltagi, B. (ed.). Un compañero de la econometría teórica . Oxford: Blackwell. págs. 383–409. doi : 10.1002 / 9780470996249.ch19 . ISBN 9780470996249.

[7] Amemiya, Takeshi (1985). Econometría avanzada . Cambridge: Prensa de la Universidad de Harvard. págs. 368 –372. ISBN 0-674-00560-0.

[8] Cameron, A. Colin ; Trivedi, Pravin K. (2005). "Estimación m secuencial de dos pasos" . Microeconometría: métodos y aplicaciones . Nueva York: Cambridge University Press. págs. 200–202. ISBN 0-521-84805-9.

[puhani-9] Puhani, P. (2000). "La corrección de Heckman para la selección de muestras y su crítica". Revista de encuestas económicas . 14 (1): 53–68. doi : 10.1111 / 1467-6419.00104 .

[10] Goldberger, A. (1983). "Sesgo de selección anormal" . En Karlin, Samuel ; Amemiya, Takeshi ; Goodman, Leo (eds.). Estudios en Econometría, Series Temporales y Estadística Multivariante . Nueva York: Academic Press. págs. 67–84 . ISBN 0-12-398750-4.

[11] Newey, Whitney; Powell, J .; Walker, James R. (1990). "Estimación semiparamétrica de modelos de selección: algunos resultados empíricos". American Economic Review . 80 (2): 324-28. JSTOR 2006593 .

[12] Toomet, O .; Henningsen, A. (2008). "Modelos de selección de muestra en R: paquete sampleSelection" . Revista de software estadístico . 27 (7): 1–23. doi : 10.18637 / jss.v027.i07 .

[13] "sampleSelection: modelos de selección de muestra" . Proyecto R . 3 de mayo de 2019.

[14] "Heckman - modelo de selección de Heckman" (PDF) . Stata Manual .

[15] Cameron, A. Colin; Trivedi, Pravin K. (2010). Microeconometrics Using Stata (Ed. Revisada). College Station: Stata Press. págs. 556–562. ISBN 978-1-59718-073-3.

[1]