De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
Gráfica con datos aleatorios que muestran heterocedasticidad

En estadística , un vector de variables aleatorias es heterocedástico (o heterocedástico ; [a] del griego antiguo hetero "diferente" y skedasis "dispersión") si la variabilidad de la perturbación aleatoria es diferente entre los elementos del vector. Aquí, la variabilidad podría cuantificarse mediante la varianza o cualquier otra medida de dispersión estadística . Por tanto, la heterocedasticidad es la ausencia de homocedasticidad . Un ejemplo típico es el conjunto de observaciones de ingresos en diferentes ciudades.

La existencia de heterocedasticidad es una preocupación importante en el análisis de regresión y el análisis de varianza , ya que invalida las pruebas estadísticas de significancia que asumen que todos los errores de modelado tienen la misma varianza. Si bien el estimador de mínimos cuadrados ordinarios sigue siendo insesgado en presencia de heterocedasticidad, es ineficiente y , en su lugar, deben utilizarse mínimos cuadrados generalizados . [5] [6]

Debido a que la heterocedasticidad se refiere a las expectativas del segundo momento de los errores, su presencia se conoce como especificación errónea de segundo orden. [7]

El econométrico Robert Engle ganó el Premio Nobel de Economía 2003 por sus estudios sobre análisis de regresión en presencia de heterocedasticidad, lo que llevó a su formulación de la técnica de modelado de heterocedasticidad condicional autorregresiva (ARCH). [8]

Definición [ editar ]

Considere la ecuación de regresión donde la variable aleatoria dependiente es igual a la variable determinista multiplicada por el coeficiente más un término de perturbación aleatoria que tiene una media de cero. Las perturbaciones son homocedásticas si la varianza de es una constante ; de lo contrario, son heterocedásticos. En particular, las perturbaciones son heterocedásticas si la varianza de depende de i o del valor de . Una forma en que podrían ser heterocedásticos es si (un ejemplo de una función escedástica ), por lo que la varianza es proporcional al valor de x.

De manera más general, si la matriz de varianza-covarianza de la perturbación a través de i tiene una diagonal no constante, la perturbación es heterocedástica. [9] Las siguientes matrices son covarianzas cuando solo hay tres observaciones a lo largo del tiempo. La alteración en la matriz A es homocedástica; este es el caso simple en el que MCO es el mejor estimador lineal insesgado. Las perturbaciones en las matrices B y C son heterocedásticas. En la matriz B, la varianza varía en el tiempo y aumenta constantemente a lo largo del tiempo; en la matriz C, la varianza depende del valor de x. La perturbación en la matriz D es homocedástica porque las varianzas diagonales son constantes, aunque las covarianzas fuera de la diagonal son distintas de cero y los mínimos cuadrados ordinarios son ineficientes por una razón diferente: la correlación en serie.

Consecuencias [ editar ]

Uno de los supuestos del modelo de regresión lineal clásico es que no existe heterocedasticidad. Romper este supuesto significa que el teorema de Gauss-Markov no se aplica, lo que significa que los estimadores MCO no son los mejores estimadores lineales insesgados (AZUL) y su varianza no es la más baja de todos los demás estimadores insesgados. La heterocedasticidad nocausar que las estimaciones de coeficientes de mínimos cuadrados ordinarios estén sesgadas, aunque puede causar que las estimaciones de mínimos cuadrados ordinarios de la varianza (y, por lo tanto, errores estándar) de los coeficientes estén sesgadas, posiblemente por encima o por debajo de la verdadera varianza de la población. Por lo tanto, el análisis de regresión que utiliza datos heterocedásticos seguirá proporcionando una estimación no sesgada de la relación entre la variable predictora y el resultado, pero los errores estándar y, por lo tanto, las inferencias obtenidas del análisis de datos son sospechosos. Los errores estándar sesgados conducen a inferencias sesgadas, por lo que los resultados de las pruebas de hipótesis posiblemente sean incorrectos. Por ejemplo, si MCO se realiza en un conjunto de datos heterocedásticos, lo que produce una estimación de error estándar sesgada, un investigador podría no rechazar una hipótesis nula con una significancia determinada.nivel, cuando esa hipótesis nula en realidad no era característica de la población real (cometiendo un error de tipo II ).

Bajo ciertos supuestos, el estimador de MCO tiene una distribución asintótica normal cuando está correctamente normalizado y centrado (incluso cuando los datos no provienen de una distribución normal ). Este resultado se utiliza para justificar el uso de una distribución normal, o una distribución de chi cuadrado (según cómo se calcule la estadística de prueba ), al realizar una prueba de hipótesis . Esto se mantiene incluso bajo heterocedasticidad. Más precisamente, el estimador MCO en presencia de heterocedasticidad es asintóticamente normal, cuando está debidamente normalizado y centrado, con una matriz de varianza-covarianza que difiere del caso de homocedasticidad. En 1980, White propuso un estimador consistentepara la matriz de varianza-covarianza de la distribución asintótica del estimador MCO. [3] Esto valida el uso de pruebas de hipótesis utilizando estimadores MCO y el estimador de varianza-covarianza de White bajo heterocedasticidad.

La heterocedasticidad también es un problema práctico importante que se encuentra en los problemas de ANOVA . [10] La prueba F todavía se puede utilizar en algunas circunstancias. [11]

Sin embargo, se ha dicho que los estudiantes de econometría no deberían reaccionar de forma exagerada a la heterocedasticidad. [4] Un autor escribió, "vale la pena corregir la variación desigual del error sólo cuando el problema es grave". [12] Además, otra advertencia estaba en la forma, "la heterocedasticidad nunca ha sido una razón para descartar un buen modelo". [4] [13] Con el advenimiento de errores estándar consistentes con heterocedasticidad que permiten la inferencia sin especificar el segundo momento condicional del término de error, probar la homocedasticidad condicional no es tan importante como en el pasado. [ cita requerida ]

Sin embargo, para cualquier modelo no lineal (por ejemplo, modelos Logit y Probit ), la heterocedasticidad tiene consecuencias más graves: las estimaciones de máxima verosimilitud (MLE) de los parámetros estarán sesgadas, así como inconsistentes (a menos que la función de verosimilitud se modifique correctamente tener en cuenta la forma precisa de heterocedasticidad). [14] Sin embargo, en el contexto de los modelos de elección binaria ( Logit o Probit ), la heterocedasticidad solo dará como resultado un efecto de escala positivo en la media asintótica del MLE mal especificado (es decir, el modelo que ignora la heterocedasticidad). [15]Como resultado, las predicciones que se basan en el MLE especificado incorrectamente seguirán siendo correctas. Además, los MLE de Probit y Logit mal especificados tendrán una distribución asintóticamente normal lo que permite realizar las pruebas de significancia habituales (con la matriz de varianza-covarianza adecuada). Sin embargo, con respecto a la prueba de hipótesis general, como señaló Greene , “simplemente calcular una matriz de covarianza robusta para un estimador que de otro modo sería inconsistente no le da redención. En consecuencia, la virtud de una matriz de covarianza robusta en este entorno no está clara ". [dieciséis]

Detección [ editar ]

Valor absoluto de residuos para datos heterocedásticos de primer orden simulados

Existen varios métodos para probar la presencia de heterocedasticidad. Aunque las pruebas de heterocedasticidad entre grupos pueden considerarse formalmente como un caso especial de prueba dentro de modelos de regresión, algunas pruebas tienen estructuras específicas para este caso.

Pruebas en regresión
  • Prueba de Levene
  • Prueba de Goldfeld-Quandt
  • Prueba de estacionamiento [17]
  • Prueba de Glejser [18] [19]
  • Prueba de Brown-Forsythe
  • Prueba de Harrison-McCabe
  • Prueba de Breusch-Pagan
  • Prueba de blanco [3]
  • Prueba de Cook-Weisberg
Pruebas para datos agrupados
  • Prueba F de igualdad de varianzas
  • Prueba C de Cochran
  • Prueba de Hartley

Estas pruebas consisten en un estadístico de prueba (una expresión matemática que produce un valor numérico en función de los datos), una hipótesis que se va a probar (la hipótesis nula ), una hipótesis alternativa y un enunciado sobre la distribución del estadístico bajo la hipótesis nula.

Muchos libros de introducción a la estadística y la econometría, por razones pedagógicas, presentan estas pruebas bajo el supuesto de que los datos disponibles provienen de una distribución normal. Un gran error es pensar que esta suposición es necesaria. La mayoría de los métodos de detección de heterocedasticidad descritos anteriormente se pueden modificar para su uso incluso cuando los datos no provienen de una distribución normal. En muchos casos, esta suposición se puede relajar, produciendo un procedimiento de prueba basado en la misma estadística de prueba o similar pero con la distribución bajo la hipótesis nula evaluada por rutas alternativas: por ejemplo, usando distribuciones asintóticas que se pueden obtener de la teoría asintótica , [ cita requerida ] o usandoremuestreo .

Correcciones [ editar ]

Hay cuatro correcciones comunes para la heterocedasticidad. Ellos son:

  • Ver datos logaritmizados . Las series no logaritmizadas que crecen exponencialmente a menudo parecen tener una variabilidad creciente a medida que la serie aumenta con el tiempo. Sin embargo, la variabilidad en términos porcentuales puede ser bastante estable.
  • Utilice una especificación diferente para el modelo (diferentes variables X , o quizás transformaciones no lineales de las X variables).
  • Aplicar una ponderada de mínimos cuadrados método de estimación, en la que se aplica OLS a valores transformados o ponderados de X y Y . Los pesos varían según las observaciones, generalmente dependiendo de las variaciones de error cambiantes. En una variación, los pesos están directamente relacionados con la magnitud de la variable dependiente, y esto corresponde a la regresión porcentual de mínimos cuadrados. [20]
  • Los errores estándar consistentes con heterocedasticidad (HCSE), aunque todavía sesgados, mejoran las estimaciones de MCO. [3] HCSE es un estimador consistente de errores estándar en modelos de regresión con heterocedasticidad. Este método corrige la heterocedasticidad sin alterar los valores de los coeficientes. Este método puede ser superior al OLS regular porque si hay heterocedasticidad lo corrige, sin embargo, si los datos son homocedásticos, los errores estándar son equivalentes a los errores estándar convencionales estimados por OLS. Se han propuesto varias modificaciones del método de White para calcular errores estándar consistentes con heterocedasticidad como correcciones con propiedades de muestra finitas superiores.
  • Utilice MINQUE o incluso los estimadores habituales (para muestras independientes con observaciones cada una), cuyas pérdidas de eficiencia no son sustanciales cuando el número de observaciones por muestra es grande ( ), especialmente para un número pequeño de muestras independientes. [21]

Ejemplos [ editar ]

La heterocedasticidad a menudo ocurre cuando hay una gran diferencia entre los tamaños de las observaciones.

  • Un ejemplo clásico de heterocedasticidad es el de ingresos frente a gastos en comidas. A medida que aumentan los ingresos, aumentará la variabilidad del consumo de alimentos. Una persona más pobre gastará una cantidad bastante constante comiendo siempre alimentos baratos; una persona más rica puede ocasionalmente comprar comida barata y otras veces comer comidas caras. Aquellos con mayores ingresos muestran una mayor variabilidad en el consumo de alimentos.
  • Imagina que estás viendo un cohete despegar cerca y midiendo la distancia que ha viajado una vez por segundo. En los primeros segundos, sus medidas pueden ser precisas al centímetro más cercano, digamos. Sin embargo, 5 minutos más tarde, cuando el cohete retrocede hacia el espacio, la precisión de sus mediciones puede ser buena solo a 100 m, debido al aumento de la distancia, la distorsión atmosférica y una variedad de otros factores. Los datos que recopile exhibirán heterocedasticidad.

Caso multivariado [ editar ]

El estudio de la heterocedasticidad se ha generalizado al caso multivariado, que se ocupa de las covarianzas de las observaciones vectoriales en lugar de la varianza de las observaciones escalares. Una versión de esto es utilizar matrices de covarianza como medida multivariante de dispersión. Varios autores han considerado las pruebas en este contexto, tanto para situaciones de regresión como de datos agrupados. [22] [23] La prueba de Bartlett de heterocedasticidad entre datos agrupados, que se utiliza con mayor frecuencia en el caso univariante, también se ha extendido para el caso multivariante, pero solo existe una solución manejable para 2 grupos. [24] Existen aproximaciones para más de dos grupos, y ambos se denominan prueba M de Box .

Notas [ editar ]

  1. ^ Las grafías homos k edasticity y heteros k edasticity también se utilizan con frecuencia. Karl Pearson usó la palabra por primera vez en 1905 con una c . [1] J. Huston McCulloch argumentó que debería haber una 'k' en el medio de la palabra y no una 'c'. Su argumento era que la palabra se había construido en inglés directamente a partir de raíces griegas en lugar de ingresar al idioma inglés indirectamente a través del francés. [2] Mientras que el influyente artículo de 1980 de Halbert White utilizó la heteroscedasticidad ortográfica, la heteroscedasticidad ortográficaEs más común. Ambos son aceptables. [3] [4]

Referencias [ editar ]

  1. ^ Pearson, Karl (1905). "Contribuciones matemáticas a la teoría de la evolución. XIV. Sobre la teoría general de correlación sesgada y regresión no lineal". Memorias de investigación de Draper's Company: Serie biométrica . II .
  2. McCulloch ", J. Huston (marzo de 1985)." Miscellanea: On Heteros * edasticity ". Econometrica . 53 (2): 483. JSTOR 1911250.  
  3. ↑ a b c d White, Halbert (1980). "Un estimador de matriz de covarianza coherente con heterocedasticidad y una prueba directa de heterocedasticidad". Econometrica . 48 (4): 817–838. CiteSeerX 10.1.1.11.7646 . doi : 10.2307 / 1912934 . JSTOR 1912934 .   
  4. ^ a b c Gujarati, DN; Porter, DC (2009). Econometría básica (Quinta ed.). Boston: McGraw-Hill Irwin. pag. 400. ISBN  9780073375779.
  5. ^ Goldberger, Arthur S. (1964). Teoría econométrica . Nueva York: John Wiley & Sons. págs.  238–243 .
  6. ^ Johnston, J. (1972). Métodos econométricos . Nueva York: McGraw-Hill. págs. 214-221.
  7. ^ Long, J. Scott ; Trivedi, Pravin K. (1993). "Algunas pruebas de especificación para el modelo de regresión lineal". En Bollen, Kenneth A .; Long, J. Scott (eds.). Prueba de modelos de ecuaciones estructurales . Londres: Sage. págs. 66-110. ISBN 978-0-8039-4506-7.
  8. ^ Engle, Robert F. (julio de 1982). "Heteroscedasticidad condicional autorregresiva con estimaciones de la varianza de la inflación del Reino Unido". Econometrica . 50 (4): 987–1007. doi : 10.2307 / 1912773 . ISSN 0012-9682 . JSTOR 1912773 .  
  9. Peter Kennedy, A Guide to Econometrics , 5ª edición, p. 137.
  10. ^ Jinadasa, Gamage; Weerahandi, Sam (1998). "Rendimiento de tamaño de algunas pruebas en anova unidireccional". Comunicaciones en Estadística - Simulación y Computación . 27 (3): 625. doi : 10.1080 / 03610919808813500 .
  11. ^ Bathke, A (2004). "La prueba ANOVA F todavía se puede utilizar en algunos diseños equilibrados con variaciones desiguales y datos no normales". Revista de Planificación e Inferencia Estadística . 126 (2): 413–422. doi : 10.1016 / j.jspi.2003.09.010 .
  12. ^ Fox, J. (1997). Análisis de regresión aplicado, modelos lineales y métodos relacionados . California: Publicaciones Sage. pag. 306. (Citado en Gujarati et al.2009, p. 400)
  13. ^ Mankiw, NG (1990). "Un curso de actualización rápida en macroeconomía" . Revista de Literatura Económica . 28 (4): 1645–1660 [pág. 1648]. doi : 10.3386 / w3256 . JSTOR 2727441 . 
  14. ^ Giles, Dave (8 de mayo de 2013). "Errores estándar robustos para modelos no lineales" . Beat Econometrics .
  15. ^ Ginker, T .; Lieberman, O. (2017). "Robustez de los modelos de elección binaria a la heterocedasticidad condicional". Cartas económicas . 150 : 130-134. doi : 10.1016 / j.econlet.2016.11.024 .
  16. ^ Greene, William H. (2012). "Estimación e inferencia en modelos de elección binaria" . Análisis econométrico (Séptima ed.). Boston: Educación de Pearson. págs. 730–755 [pág. 733]. ISBN 978-0-273-75356-8.
  17. RE Park (1966). "Estimación con términos de error heterocedásticos". Econometrica . 34 (4): 888. doi : 10.2307 / 1910108 . JSTOR 1910108 . 
  18. ^ Glejser, H. (1969). "Una nueva prueba de heterocedasticidad". Revista de la Asociación Estadounidense de Estadística . 64 (325): 316–323. doi : 10.1080 / 01621459.1969.10500976 .
  19. ^ Machado, José AF; Silva, JMC Santos (2000). "Revisión de la prueba de Glejser". Revista de Econometría . 97 (1): 189-202. doi : 10.1016 / S0304-4076 (00) 00016-6 .
  20. ^ Tofallis, C (2008). "Regresión porcentual de mínimos cuadrados". Revista de métodos estadísticos aplicados modernos . 7 : 526–534. doi : 10.2139 / ssrn.1406472 . SSRN 1406472 . 
  21. ^ JNK Rao (marzo de 1973). "Sobre la estimación de varianzas heterocedásticas". Biometría . 29 (1): 11-24. doi : 10.2307 / 2529672 . JSTOR 2529672 . 
  22. ^ Holgersson, HET; Shukur, G. (2004). "Prueba de heterocedasticidad multivariante". Revista de Computación y Simulación Estadística . 74 (12): 879. doi : 10.1080 / 00949650410001646979 . hdl : 2077/24416 . S2CID 121576769 . 
  23. ^ Gupta, AK; Tang, J. (1984). "Distribución de estadística de razón de verosimilitud para probar la igualdad de matrices de covarianza de modelos gaussianos multivariados". Biometrika . 71 (3): 555–559. doi : 10.1093 / biomet / 71.3.555 . JSTOR 2336564 . 
  24. d'Agostino, RB; Russell, HK (2005). "Prueba de Bartlett multivariante". Enciclopedia de bioestadística . doi : 10.1002 / 0470011815.b2a13048 . ISBN 978-0470849071.

Lectura adicional [ editar ]

La mayoría de los libros de texto de estadística incluirán al menos algún material sobre heterocedasticidad. Algunos ejemplos son:

  • Asteriou, Dimitros; Hall, Stephen G. (2011). Econometría aplicada (Segunda ed.). Palgrave MacMillan. págs. 109-147. ISBN 978-0-230-27182-1.
  • Davidson, Russell; MacKinnon, James G. (1993). Estimación e Inferencia en Econometría . Nueva York: Oxford University Press. págs. 547–582. ISBN 978-0-19-506011-9.
  • Dougherty, Christopher (2011). Introducción a la econometría . Nueva York: Oxford University Press. págs. 280–299. ISBN 978-0-19-956708-9.
  • Gujarati, Damodar N .; Porter, Dawn C. (2009). Econometría básica (Quinta ed.). Nueva York: McGraw-Hill Irwin. págs. 365–411. ISBN 978-0-07-337577-9.
  • Kmenta, Jan (1986). Elementos de Econometría (Segunda ed.). Nueva York: Macmillan. pp.  269 -298. ISBN 978-0-02-365070-3.
  • Maddala, GS ; Lahiri, Kajal (2009). Introducción a la econometría (Cuarta ed.). Nueva York: Wiley. págs. 211-238. ISBN 978-0-470-01512-4.

Enlaces externos [ editar ]

  • Conferencia de econometría (tema: heterocedasticidad) en YouTube por Mark Thoma