Errores estándar agrupados


De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

Los errores estándar agrupados son medidas que estiman el error estándar de un parámetro de regresión en entornos donde las observaciones pueden subdividirse en grupos de menor tamaño ("agrupaciones") y donde la asignación de muestreo y / o tratamiento se correlaciona dentro de cada grupo. [1] [2] Los errores estándar agrupados se utilizan ampliamente en una variedad de entornos econométricos aplicados, incluidas diferencias en diferencias [3] o experimentos. [4] De forma análoga a cómo los errores estándar de Huber-White son consistentes en presencia de heterocedasticidad y Newey-Westlos errores estándar son consistentes en presencia de autocorrelación modelada con precisión, los errores estándar agrupados (o "Liang-Zeger" [5] ) son consistentes en presencia de muestreo basado en grupos o asignación de tratamiento. Los errores estándar agrupados a menudo se justifican por una posible correlación en el modelado de residuos dentro de cada grupo; mientras que trabajos recientes sugieren que esta no es la justificación precisa detrás de la agrupación, [6] puede ser útil desde el punto de vista pedagógico .

Motivación intuitiva

Los errores estándar agrupados suelen ser útiles cuando el tratamiento se asigna a nivel de grupo en lugar de a nivel individual. Por ejemplo, suponga que un investigador educativo quiere descubrir si una nueva técnica de enseñanza mejora las calificaciones de los estudiantes en las pruebas. Por lo tanto, asigna maestros en las aulas "tratadas" para que prueben esta nueva técnica, sin afectar las aulas de "control". Al analizar sus resultados, es posible que desee mantener los datos a nivel de estudiante (por ejemplo, para controlar las características observables a nivel de estudiante). Sin embargo, al estimar el error estándar o el intervalo de confianza de su modelo estadístico, se da cuenta de que la clásica o incluso la heterocedasticidad-robustaLos errores estándar son inapropiados porque los puntajes de las pruebas de los estudiantes dentro de cada clase no se distribuyen de forma independiente. En cambio, los estudiantes en clases con mejores maestros tienen puntajes de prueba especialmente altos (independientemente de si reciben el tratamiento experimental), mientras que los estudiantes en clases con peores maestros tienen puntajes de prueba especialmente bajos. La investigadora puede agrupar sus errores estándar al nivel de un aula para dar cuenta de este aspecto de su experimento. [7]

Si bien este ejemplo es muy específico, surgen problemas similares en una amplia variedad de entornos. Por ejemplo, en muchas configuraciones de datos de panel (como diferencias en diferencias ), la agrupación a menudo ofrece una forma simple y efectiva de contabilizar la no independencia entre períodos dentro de cada unidad (a veces denominada "autocorrelación en residuos"). [3] Otra justificación común y lógicamente distinta para la agrupación surge cuando una población completa no se puede muestrear al azar, por lo que en su lugar se muestrean los conglomerados y luego las unidades se aleatorizan dentro del conglomerado. En este caso, los errores estándar agrupados explican la incertidumbre generada por el hecho de que el investigador no observa grandes partes de la población de interés. [8]

Motivación matemática

Una ilustración matemática útil proviene del caso de la agrupación unidireccional en un modelo de mínimos cuadrados ordinarios (MCO). Considere un modelo simple con N observaciones que se subdividen en C grupos. Sea un vector de resultados, una matriz de covariables, un vector de parámetros desconocidos y un vector de residuos inexplicables:

Como es estándar con los modelos OLS, minimizamos la suma de los residuos cuadrados para obtener una estimación :

A partir de ahí, podemos derivar el estimador clásico de "sándwich":

Denotar produce una forma potencialmente más familiar

Si bien se puede desarrollar un estimador enchufable definiendo y dejando , este estimador completamente flexible no convergerá en como . Dadas las suposiciones que un profesional considera razonables, diferentes tipos de errores estándar resuelven este problema de diferentes maneras. Por ejemplo, los errores estándar homocedásticos clásicos suponen que es diagonal con elementos idénticos , lo que simplifica la expresión para . Los errores estándar de Huber-White suponen que es diagonal pero que el valor de la diagonal varía, mientras que otros tipos de errores estándar (p. Ej., Newey-West, SE de Moulton, SE espacial de Conley) imponen otras restricciones en la forma de esta matriz para reducir el número de parámetros que el profesional necesita estimar.

Los errores estándar agrupados asumen que es una diagonal de bloque de acuerdo con los grupos de la muestra, con valores no restringidos en cada bloque pero ceros en el resto. En este caso, se puede definir y como los análogos dentro del bloque de y y derivar el siguiente hecho matemático:

Al construir matrices enchufables , se puede formar un estimador que sea consistente a medida que aumenta el número de conglomerados . Si bien no se ha demostrado estadísticamente que un número específico de conglomerados sea suficiente, los profesionales a menudo citan un número en el rango de 30 a 50 y se sienten cómodos usando errores estándar agrupados cuando el número de conglomerados excede ese umbral.

Referencias

  1. ^ Cameron, A. Colin ; Miller, Douglas L. (31 de marzo de 2015). "Una guía para profesionales de la inferencia robusta de clústeres" . Revista de Recursos Humanos . 50 (2): 317–372. doi : 10.3368 / jhr.50.2.317 . ISSN  0022-166X . S2CID  1296789 .
  2. ^ "SON 212" . Fiona Burlig . Consultado el 5 de julio de 2020 .
  3. ^ a b Bertrand, Marianne ; Duflo, Esther ; Mullainathan, Sendhil (1 de febrero de 2004). "¿Cuánto debemos confiar en las estimaciones de diferencias en diferencias?" . The Quarterly Journal of Economics . 119 (1): 249–275. doi : 10.1162 / 003355304772839588 . hdl : 1721,1 / 63690 . ISSN 0033-5533 . S2CID 470667 .  
  4. Yixin Tang (11 de septiembre de 2019). "Análisis de experimentos de Switchback por Cluster Robust Standard Error para evitar resultados falsos positivos" . Blog de ingeniería de DoorDash . Consultado el 5 de julio de 2020 .
  5. ^ Liang, Kung-Yee; Zeger, Scott L. (1 de abril de 1986). "Análisis de datos longitudinales mediante modelos lineales generalizados" . Biometrika . 73 (1): 13-22. doi : 10.1093 / biomet / 73.1.13 . ISSN 0006-3444 . 
  6. ^ Abadie, Alberto ; Atento, Susan ; Imbens, Guido ; Wooldridge, Jeffrey (24 de octubre de 2017). "¿Cuándo debe ajustar los errores estándar para la agrupación en clústeres?". arXiv : 1710.02926 [ math.ST ].
  7. ^ "ERRORES ESTÁNDAR AGRUPADOS" . Blog de teoría económica . 2016 . Consultado el 28 de septiembre de 2021 .
  8. ^ "¿Cuándo debe agrupar los errores estándar? Nueva sabiduría del oráculo de la econometría" . blogs.worldbank.org . Consultado el 5 de julio de 2020 .
Obtenido de " https://en.wikipedia.org/w/index.php?title=Clustered_standard_errors&oldid=1046964233 "