En las estadísticas , una secuencia (o un vector) de variables aleatorias es homoscedastic [1] / ˌ h oʊ m oʊ s k ə d æ s t ɪ k / si todos sus variables aleatorias tienen el mismo finito varianza . Esto también se conoce como homogeneidad de varianza . La noción complementaria se llama heterocedasticidad . Las grafías homos k edasticidad y heteros k edasticidadtambién se utilizan con frecuencia. [2]
Suponiendo una variable es homoscedastic cuando en realidad es heteroscedastic / ˌ h ɛ t ər oʊ s k ə d æ s t ɪ k / ) da como resultado estimaciones puntuales recomendaciones pero ineficientes y en estimaciones sesgadas de los errores estándar, y puede dar lugar a sobreestimar la bondad de ajuste medida por el coeficiente de Pearson .
Supuestos de un modelo de regresión
Una suposición estándar en una regresión lineal , es que la varianza del término de perturbación es el mismo en todas las observaciones y, en particular, no depende de los valores de las variables explicativas [3] Este es uno de los supuestos bajo los cuales se aplica el teorema de Gauss-Markov y los mínimos cuadrados ordinarios (MCO) dan el mejor estimador lineal insesgado ("AZUL"). La homocedasticidad no es necesaria para que las estimaciones de coeficientes sean insesgadas, consistentes y asintóticamente normales, pero es necesaria para que MCO sea eficiente. [4] También se requiere que los errores estándar de las estimaciones sean insesgados y consistentes, por lo que se requiere para una prueba de hipótesis precisa, por ejemplo, para una prueba t de si un coeficiente es significativamente diferente de cero.
Una forma más formal de enunciar el supuesto de homocedasticidad es que las diagonales de la matriz de varianza-covarianza de todos deben ser el mismo número: , dónde es el mismo para todo i . [5] Tenga en cuenta que esto todavía permite las diagonales fuera, las covarianzas, sea distinto de cero, que es una violación separada de los supuestos de Gauss-Markov conocida como correlación serial.
Ejemplos de
Las siguientes matrices son covarianzas de la perturbación, con entradas , cuando solo hay tres observaciones a lo largo del tiempo. La alteración en la matriz A es homocedástica; este es el caso simple en el que MCO es el mejor estimador lineal insesgado. Las perturbaciones en las matrices B y C son heterocedásticas. En la matriz B, la varianza varía en el tiempo y aumenta constantemente a lo largo del tiempo; en la matriz C, la varianza depende del valor de x. La perturbación en la matriz D es homocedástica porque las varianzas diagonales son constantes, aunque las covarianzas fuera de la diagonal son distintas de cero y los mínimos cuadrados ordinarios son ineficientes por una razón diferente: la correlación en serie.
Si y es consumo, x es renta y son caprichos del consumidor, y estamos estimando entonces, si los caprichos de los consumidores más ricos afectan su gasto más en dólares absolutos, podríamos tener aumentando con los ingresos, como en la matriz C anterior. [5]
Pruebas
Se puede probar la homocedasticidad de los residuos mediante la prueba de Breusch-Pagan , [6] que realiza una regresión auxiliar de los residuos al cuadrado en las variables independientes. A partir de esta regresión auxiliar, la suma de cuadrados explicada se retiene, se divide por dos, y luego se convierte en el estadístico de prueba para una distribución chi-cuadrado con grados de libertad iguales al número de variables independientes. [7] La hipótesis nula de esta prueba de chi-cuadrado es la homocedasticidad, y la hipótesis alternativa indicaría heterocedasticidad. Dado que la prueba de Breusch-Pagan es sensible a desviaciones de la normalidad o tamaños de muestra pequeños, la prueba de Koenker-Bassett o "Breusch-Pagan generalizada" se usa comúnmente en su lugar. [8] [Se necesitan citas adicionales ] De la regresión auxiliar, retiene el valor R-cuadrado que luego se multiplica por el tamaño de la muestra, y luego se convierte en el estadístico de prueba para una distribución chi-cuadrado (y usa los mismos grados de libertad). Aunque no es necesario para la prueba de Koenker-Bassett, la prueba de Breusch-Pagan requiere que los residuos cuadrados también se dividan por la suma de cuadrados de los residuos divididos por el tamaño de la muestra. [8] La prueba de heterocedasticidad grupal requiere la prueba de Goldfeld-Quandt . [ cita requerida ]
Distribuciones homocedásticas
Dos o más distribuciones normales ,, son homocedásticos si comparten una matriz de covarianza (o correlación ) común ,. Las distribuciones homocedásticas son especialmente útiles para derivar el reconocimiento de patrones estadísticos y los algoritmos de aprendizaje automático . Un ejemplo popular de un algoritmo que asume homocedasticidad es el análisis discriminante lineal de Fisher .
El concepto de homocedasticidad se puede aplicar a distribuciones en esferas. [9]
Ver también
Referencias
- ^ https://www.merriam-webster.com/dictionary/homoscedasticity
- ↑ Para conocer la etimología griega del término, consulte McCulloch, J. Huston (1985). "Sobre Heteros * edasticidad". Econometrica . 53 (2): 483. JSTOR 1911250 .
- ↑ Peter Kennedy, A Guide to Econometrics , 5ª edición, p. 137.
- ^ Achen, Christopher H .; Shively, W. Phillips (1995), Cross-Level Inference , University of Chicago Press, págs. 47–48, ISBN 9780226002194.
- ^ a b Peter Kennedy, A Guide to Econometrics , 5ª edición, p. 136.
- ^ Breusch, TS; Pagan, AR (1979). "Una prueba simple de heterocedasticidad y variación de coeficiente aleatorio" . Econometrica . 47 (5): 1287-1294. doi : 10.2307 / 1911963 . ISSN 0012-9682 .
- ^ Ullah, Muhammad Imdad (26 de julio de 2012). "Prueba de Breusch Pagan para heterocedasticidad" . Estadística básica y análisis de datos . Consultado el 28 de noviembre de 2020 .
- ^ a b Pryce, Gwilym. "Heteroscedasticidad: prueba y corrección en SPSS" (PDF) . págs. 12-18. Archivado (PDF) desde el original el 27 de marzo de 2017 . Consultado el 26 de marzo de 2017 .
- ^ Hamsici, Onur C .; Martinez, Aleix M. (2007) "Distribuciones esférico-homocedásticas: la equivalencia de distribuciones esféricas y normales en la clasificación" , Journal of Machine Learning Research , 8, 1583-1623