Correlograma

En el análisis de datos, un correlograma es un gráfico de estadísticas de correlación . Por ejemplo, en el análisis de series de tiempo , una gráfica de las autocorrelaciones de la muestra ${\ Displaystyle r_ {h} \,}$ versus ${\ Displaystyle h \,}$ (los retrasos de tiempo) es un autocorrelograma . Si se traza la correlación cruzada , el resultado se denomina correlograma cruzado .

Un gráfico que muestra 100 números aleatorios con una función sinusoidal "oculta" y una autocorrelación (correlograma) de la serie en la parte inferior.

Ejemplo de correlograma

El correlograma es una herramienta de uso común para verificar la aleatoriedad en un conjunto de datos . Si es aleatorio, las autocorrelaciones deben ser cercanas a cero para todas y cada una de las separaciones con retardo de tiempo. Si no es aleatorio, entonces una o más de las autocorrelaciones serán significativamente distintas de cero.

Además, los correlogramas se utilizan en la etapa de identificación del modelo para los modelos de series de tiempo de promedio móvil autorregresivo de Box-Jenkins . Las autocorrelaciones deben ser cercanas a cero para la aleatoriedad; si el analista no comprueba la aleatoriedad, la validez de muchas de las conclusiones estadísticas se vuelve sospechosa. El correlograma es una forma excelente de comprobar dicha aleatoriedad.

A veces, los corrgramas , matrices mapeadas en color de las fuerzas de correlación en el análisis multivariado , ^[1] también se denominan correlogramas. ^[2]^[3]

Aplicaciones

El correlograma puede ayudar a proporcionar respuestas a las siguientes preguntas:

¿Los datos son aleatorios?
¿Está una observación relacionada con una observación adyacente?
¿Se elimina dos veces una observación relacionada con una observación? (etc.)
¿La serie temporal observada es ruido blanco ?
¿Es sinusoidal la serie de tiempo observada?
¿Es autorregresiva la serie temporal observada?
¿Cuál es un modelo apropiado para la serie de tiempo observada?
Es el modelo

{\ Displaystyle Y = {\ text {constante}} + {\ text {error}}}

válido y suficiente?

Es la formula ${\ Displaystyle s _ {\ bar {Y}} = s / {\ sqrt {N}}}$ ¿válido?

^[4]

Importancia

La aleatoriedad (junto con el modelo fijo, la variación fija y la distribución fija) es uno de los cuatro supuestos que generalmente subyacen a todos los procesos de medición. El supuesto de aleatoriedad es de vital importancia por las siguientes tres razones:

La mayoría de las pruebas estadísticas estándar dependen de la aleatoriedad. La validez de las conclusiones de la prueba está directamente relacionada con la validez del supuesto de aleatoriedad.
Muchas fórmulas estadísticas de uso común dependen del supuesto de aleatoriedad, siendo la fórmula más común la fórmula para determinar la desviación estándar de la media de la muestra:

{\ Displaystyle s _ {\ bar {Y}} = s / {\ sqrt {N}}}

donde s es la desviación estándar de los datos. Aunque se utiliza mucho, los resultados del uso de esta fórmula no tienen valor a menos que se mantenga el supuesto de aleatoriedad.

Para datos univariados, el modelo predeterminado es

{\ Displaystyle Y = {\ text {constante}} + {\ text {error}}}

Si los datos no son aleatorios, este modelo es incorrecto e inválido, y las estimaciones de los parámetros (como la constante) se vuelven absurdas e inválidas.

Estimación de autocorrelaciones

El coeficiente de autocorrelación en el rezago h viene dado por

{\ Displaystyle r_ {h} = c_ {h} / c_ {0} \,}

donde c _h es la función de autocovarianza

{\ Displaystyle c_ {h} = {\ frac {1} {N}} \ sum _ {t = 1} ^ {Nh} \ left (Y_ {t} - {\ bar {Y}} \ right) \ left (Y_ {t + h} - {\ bar {Y}} \ right)}

y c ₀ es la función de varianza

{\ Displaystyle c_ {0} = {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} \ left (Y_ {t} - {\ bar {Y}} \ right) ^ { 2}}

El valor resultante de r _h variará entre -1 y +1.

Estimación alternativa

Algunas fuentes pueden usar la siguiente fórmula para la función de autocovarianza:

{\ Displaystyle c_ {h} = {\ frac {1} {Nh}} \ sum _ {t = 1} ^ {Nh} \ left (Y_ {t} - {\ bar {Y}} \ right) \ left (Y_ {t + h} - {\ bar {Y}} \ right)}

Aunque esta definición tiene menos sesgo , la formulación (1 / N ) tiene algunas propiedades estadísticas deseables y es la forma más comúnmente utilizada en la literatura estadística. Consulte las páginas 20 y 49–50 en Chatfield para obtener más detalles.

Inferencia estadística con correlogramas

En el mismo gráfico se pueden dibujar los límites superior e inferior para la autocorrelación con el nivel de significancia. ${\ Displaystyle \ alpha \,}$ :

{\ Displaystyle B = \ pm z_ {1- \ alpha / 2} SE (r_ {h}) \,}

con

{\ Displaystyle r_ {h} \,}

como la autocorrelación estimada en lag

{\ Displaystyle h \,}

.

Si la autocorrelación es mayor (menor) que este límite superior (inferior), la hipótesis nula de que no hay autocorrelación en y más allá de un retraso dado se rechaza a un nivel de significancia ${\ Displaystyle \ alpha \,}$ . Esta prueba es aproximada y asume que la serie temporal es gaussiana .

En lo anterior, z _{1− α / 2} es el cuantil de la distribución normal ; SE es el error estándar, que se puede calcular mediante la fórmula de Bartlett para los procesos MA ( ℓ ):

{\ displaystyle SE (r_ {1}) = {\ frac {1} {\ sqrt {N}}}}

{\ Displaystyle SE (r_ {h}) = {\ sqrt {\ frac {1 + 2 \ sum _ {i = 1} ^ {h-1} r_ {i} ^ {2}} {N}}}}

por

{\ Displaystyle h> 1. \,}

En la imagen de arriba podemos rechazar la hipótesis nula de que no hay autocorrelación entre puntos de tiempo adyacentes (rezago = 1). Para los otros períodos, no se puede rechazar la hipótesis nula de no autocorrelación.

Tenga en cuenta que hay dos fórmulas distintas para generar las bandas de confianza:

1. Si el correlograma se utiliza para probar la aleatoriedad (es decir, no hay dependencia del tiempo en los datos), se recomienda la siguiente fórmula:

{\ Displaystyle \ pm {\ frac {z_ {1- \ alpha / 2}} {\ sqrt {N}}}}

donde N es el tamaño de la muestra , z es la función cuantil de la distribución normal estándar y α es el nivel de significancia . En este caso, las bandas de confianza tienen un ancho fijo que depende del tamaño de la muestra.

2. Los correlogramas también se utilizan en la etapa de identificación del modelo para ajustar los modelos ARIMA . En este caso, se asume un modelo de promedio móvil para los datos y se deben generar las siguientes bandas de confianza:

{\ Displaystyle \ pm z_ {1- \ alpha / 2} {\ sqrt {{\ frac {1} {N}} \ left (1 + 2 \ sum _ {i = 1} ^ {k} r_ {i} ^ {2} \ right)}}}

donde k es el retraso. En este caso, las bandas de confianza aumentan a medida que aumenta el rezago.

Software

Los correlogramas están disponibles en la mayoría de las bibliotecas estadísticas de propósito general.

Correlogramas:

pandas pitón : pandas.plotting.autocorrelation_plot^[5]
R : funciones acfypacf

Corrgramas:

pitón Seaborn : heatmap,pairplot
R : corrgram^[2]^[3]

Técnicas relacionadas

Gráfico de autocorrelación parcial
Gráfico de retraso
Gráfico espectral
Gráfico de subserie estacional
Correlación escalada
Variograma

Referencias

^ Amistoso, Michael (19 de agosto de 2002). "Corrgramas: pantallas exploratorias para matrices de correlación" (PDF) . El estadístico estadounidense . Taylor y Francis . 56 (4): 316–324. doi : 10.1198 / 000313002533 . Consultado el 19 de enero de 2014 .
^ a b "CRAN - Corrección de paquete" . cran.r-project.org . 29 de agosto de 2013 . Consultado el 19 de enero de 2014 .
^ a b "Quick-R: Correlogramas" . statmethods.net . Consultado el 19 de enero de 2014 .
^ "1.3.3.1. Gráfico de autocorrelación" . www.itl.nist.gov . Consultado el 20 de agosto de 2018 .
^ "Visualización § Gráfico de autocorrelación" .

Otras lecturas

Hanke, John E .; Reitsch, Arthur G .; Wichern, Dean W. Previsión empresarial (7ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
Caja, GEP; Jenkins, G. (1976). Análisis de series de tiempo: pronóstico y control . Holden-Day.
Chatfield, C. (1989). El análisis de series de tiempo: una introducción (cuarta ed.). Nueva York, NY: Chapman & Hall.

enlaces externos

Gráfico de autocorrelación

Este artículo incorpora material de dominio público del sitio web del Instituto Nacional de Estándares y Tecnología https://www.nist.gov .

[1] Amistoso, Michael (19 de agosto de 2002). "Corrgramas: pantallas exploratorias para matrices de correlación" (PDF) . El estadístico estadounidense . Taylor y Francis . 56 (4): 316–324. doi : 10.1198 / 000313002533 . Consultado el 19 de enero de 2014 .

[cran_corrgram-2] "CRAN - Corrección de paquete" . cran.r-project.org . 29 de agosto de 2013 . Consultado el 19 de enero de 2014 .

[statsmethods_correlograms-3] "Quick-R: Correlogramas" . statmethods.net . Consultado el 19 de enero de 2014 .

[4] "1.3.3.1. Gráfico de autocorrelación" . www.itl.nist.gov . Consultado el 20 de agosto de 2018 .

[5] "Visualización § Gráfico de autocorrelación" .

[1]