En estadística , el estadístico de Durbin-Watson es un estadístico de prueba que se utiliza para detectar la presencia de autocorrelación en el retardo 1 en los residuos (errores de predicción) de un análisis de regresión . Lleva el nombre de James Durbin y Geoffrey Watson . La pequeña muestra la distribución de esta relación se derivó por John von Neumann (von Neumann, 1941). Durbin y Watson (1950, 1951) aplicaron este estadístico a los residuos de regresiones de mínimos cuadrados y desarrollaron pruebas de límites para la hipótesis nula.que los errores no están correlacionados en serie con la alternativa de que siguen un proceso autorregresivo de primer orden . Tenga en cuenta que la distribución de este estadístico de prueba no depende de los coeficientes de regresión estimados y la varianza de los errores. [1]
También se puede realizar una evaluación similar con la prueba de Breusch-Godfrey y la prueba de Ljung-Box .
Calcular e interpretar la estadística de Durbin-Watson
Si e t es el residual dado por el estadístico de Durbin-Watson establece que la hipótesis nula: , hipótesis alternativa , entonces la estadística de prueba es
donde T es el número de observaciones. Si uno tiene una muestra larga, entonces esto se puede mapear linealmente a la correlación de Pearson de los datos de la serie de tiempo con sus rezagos. [2] Dado que d es aproximadamente igual a 2 (1 - ), dónde es la autocorrelación de la muestra de los residuos, [3] d = 2 indica que no hay autocorrelación. El valor de d siempre se encuentra entre 0 y 4. Si el estadístico de Durbin-Watson es sustancialmente menor que 2, hay evidencia de correlación serial positiva. Como regla general, si Durbin-Watson es menor que 1.0, puede haber motivo de alarma. Los valores pequeños de d indican que los términos de error sucesivos están correlacionados positivamente. Si d > 2, los sucesivos términos de error están correlacionados negativamente. En regresiones, esto puede implicar una subestimación del nivel de significación estadística .
Para probar la autocorrelación positiva con significancia α , el estadístico de prueba d se compara con los valores críticos superior e inferior ( d L, α y d U, α ):
- Si d < d L, α , existe evidencia estadística de que los términos de error están autocorrelacionados positivamente.
- Si d > d U, α , no hay evidencia estadística de que los términos de error estén autocorrelacionados positivamente.
- Si d L, α < d < d U, α , la prueba no es concluyente.
La correlación serial positiva es una correlación serial en la que un error positivo para una observación aumenta las posibilidades de un error positivo para otra observación.
Para probar la autocorrelación negativa con significancia α , la estadística de prueba (4 - d ) se compara con los valores críticos superior e inferior ( d L, α y d U, α ):
- Si (4 - d ) < d L, α , existe evidencia estadística de que los términos de error están autocorrelacionados negativamente.
- Si (4 - d )> d U, α , no hay evidencia estadística de que los términos de error estén autocorrelacionados negativamente.
- Si d L, α <(4 - d ) < d U, α , la prueba no es concluyente.
La correlación serial negativa implica que un error positivo para una observación aumenta la posibilidad de un error negativo para otra observación y un error negativo para una observación aumenta las posibilidades de un error positivo para otra.
Los valores críticos, d L, α y d U, α , varían según el nivel de significancia ( α ) y los grados de libertad en la ecuación de regresión. Su derivación es compleja: los estadísticos suelen obtenerlos de los apéndices de los textos estadísticos.
Si la matriz de diseño de la regresin se conoce, valores crticos exactos para la distribucin de bajo la hipótesis nula de que no se puede calcular una correlación serial. Bajo la hipótesis nula se distribuye como
donde n es el número de observaciones yk el número de variables de regresión; lason variables aleatorias normales estándar independientes; y el son los valores propios distintos de cero de dónde es la matriz que transforma los residuos en el estadística, es decir . [4] Se encuentran disponibles varios algoritmos computacionales para encontrar percentiles de esta distribución. [5]
Aunque la correlación serial no afecta la consistencia de los coeficientes de regresión estimados, sí afecta nuestra capacidad para realizar pruebas estadísticas válidas. Primero, el estadístico F para probar la significancia general de la regresión puede estar inflado bajo una correlación serial positiva porque el error cuadrático medio (MSE) tenderá a subestimar la varianza del error poblacional. En segundo lugar, la correlación serial positiva generalmente hace que los errores estándar de mínimos cuadrados ordinarios (MCO) para los coeficientes de regresión subestimen los errores estándar verdaderos. Como consecuencia, si la correlación serial positiva está presente en la regresión, el análisis de regresión lineal estándar generalmente nos llevará a calcular errores estándar artificialmente pequeños para el coeficiente de regresión. Estos pequeños errores estándar harán que el estadístico t estimado se infle, lo que sugiere una importancia donde quizás no la haya. El estadístico t inflado, a su vez, puede llevarnos a rechazar incorrectamente hipótesis nulas sobre valores poblacionales de los parámetros del modelo de regresión con más frecuencia de lo que lo haríamos si los errores estándar fueran estimados correctamente.
Si el estadístico de Durbin-Watson indica la presencia de correlación serial de los residuos, esto puede remediarse utilizando el procedimiento Cochrane-Orcutt .
La estadística de Durbin-Watson, aunque se muestra en muchos programas de análisis de regresión, no es aplicable en determinadas situaciones. Por ejemplo, cuando se incluyen variables dependientes rezagadas en las variables explicativas, no es apropiado utilizar esta prueba. Se debe utilizar la prueba h de Durbin (ver más abajo) o pruebas de razón de verosimilitud, que son válidas en muestras grandes.
Estadístico h de Durbin
La estadística de Durbin-Watson está sesgada para los modelos de media móvil autorregresivos , por lo que se subestima la autocorrelación. Pero para muestras grandes, se puede calcular fácilmente el estadístico h imparcial distribuido normalmente :
utilizando el estadístico d de Durbin-Watson y la varianza estimada
del coeficiente de regresión de la variable dependiente rezagada, siempre que
Implementaciones en paquetes de estadísticas
- R : la
dwtest
función en el paquete lmtest,durbinWatsonTest
(o dwt para abreviar) la función en el paquete del automóvilpdwtest
ypbnftest
para los modelos de panel en el paquete plm. [6] - MATLAB : la función dwtest en la caja de herramientas de estadísticas.
- Mathematica : la estadística de Durbin-Watson ( d ) se incluye como una opción en la función LinearModelFit.
- SAS : es una salida estándar cuando se usa el modelo proc y es una opción (dw) cuando se usa proc reg.
- EViews : se calcula automáticamente cuando se usa la regresión OLS
- gretl : se calcula automáticamente cuando se usa la regresión OLS
- Stata : el comando
estat dwatson
, siguiendo losregress
datos de la serie temporal. [7] La prueba LM de Engle para heterocedasticidad condicional autorregresiva (ARCH), una prueba de volatilidad dependiente del tiempo, la prueba de Breusch-Godfrey y la prueba alternativa de Durbin para correlación serial también están disponibles. Todas (excepto -dwatson-) prueban por separado para correlaciones seriales de orden superior. La prueba de Breusch-Godfrey y la prueba alternativa de Durbin también permiten regresores que no son estrictamente exógenos. - Excel : aunque Microsoft Excel 2007 no tiene una función específica de Durbin-Watson, la estadística d puede calcularse usando
=SUMXMY2(x_array,y_array)/SUMSQ(array)
- Minitab : la opción para informar la estadística en la ventana Sesión se puede encontrar en el cuadro "Opciones" en Regresión y mediante el cuadro "Resultados" en Regresión general.
- Python : se incluye una función durbin_watson en el paquete statsmodels (
statsmodels.stats.stattools.durbin_watson
), pero las tablas estadísticas para valores críticos no están disponibles allí. Las estadísticas y el cálculo del valor p se implementan en la función dwtest ( https://github.com/dima-quant/dwtest ). - SPSS : Incluido como opción en la función Regresión.
- Julia : la función DurbinWatsonTest está disponible en el paquete HypothesisTests . [8]
Ver también
- Regresión de series de tiempo
- ACF / PACF
- Dimensión de correlación
- Prueba de Breusch-Godfrey
- Prueba de Ljung-Box
Notas
- ^ Chatterjee, Samprit; Simonoff, Jeffrey (2013). Manual de análisis de regresión . John Wiley e hijos. ISBN 1118532813.
- ^ "Técnicas de correlación serial" . statisticsideas.blogspot.com . Consultado el 3 de abril de 2018 .
- ^ Gujarati (2003) p. 469
- ^ Durbin, J .; Watson, GS (1971). "Prueba de correlación serial en regresión de mínimos cuadrados.III". Biometrika . 58 (1): 1–19. doi : 10.2307 / 2334313 .
- ^ Farebrother, RW (1980). "Algoritmo AS 153: procedimiento de Pan para las probabilidades de cola de la estadística de Durbin-Watson". Revista de la Sociedad Real de Estadística, Serie C . 29 (2): 224-227.
- ^ Hateka, Neeraj R. (2010). "Pruebas para detectar la autocorrelación" . Principios de la econometría: una introducción (usando R) . Publicaciones SAGE. págs. 379–82. ISBN 978-81-321-0660-9.
- ^ "Regresión de series de tiempo de postestimación - Herramientas de postestimación para regresión con series de tiempo" (PDF) . Stata Manual .
- ^ "Pruebas de series de tiempo" . juliastats.org . Consultado el 4 de febrero de 2020 .
Referencias
- Durbin, J .; Watson, GS (1950). "Prueba de correlación serial en regresión de mínimos cuadrados, I". Biometrika . 37 (3–4): 409–428. doi : 10.1093 / biomet / 37.3-4.409 . JSTOR 2332391 .
- Durbin, J .; Watson, GS (1951). "Prueba de correlación serial en regresión de mínimos cuadrados, II". Biometrika . 38 (1-2): 159-179. doi : 10.1093 / biomet / 38.1-2.159 . JSTOR 2332325 .
- Gujarati, Damodar N .; Porter, Dawn C. (2009). Econometría básica (5ª ed.). Boston: McGraw-Hill Irwin. ISBN 978-0-07-337577-9.
- Kmenta, Jan (1986). Elements of Econometrics (Segunda ed.). Nueva York: Macmillan. págs. 328 –332. ISBN 0-02-365070-2.
- Neumann, John von (1941). "Distribución de la razón de la diferencia sucesiva cuadrática media a la varianza" . Anales de estadística matemática . 12 (4): 367–395. doi : 10.1214 / aoms / 1177731677 . JSTOR 2235951 .
- Verbeek, Marno (2012). Una guía de econometría moderna (4ª ed.). Chichester: John Wiley & Sons. págs. 117-118. ISBN 978-1-119-95167-4.
enlaces externos
- Tabla para n y k altos
- Conferencia de econometría (tema: estadística de Durbin-Watson) en YouTube a cargo de Mark Thoma