En teoría de probabilidad y estadística , los conceptos matemáticos de covarianza y correlación son muy similares. [1] [2] Ambos describen el grado en que dos variables aleatorias o conjuntos de variables aleatorias tienden a desviarse de sus valores esperados de manera similar.
Si X e Y son dos variables aleatorias, con medias (valores esperados) μ X y μ Y y desviaciones estándar σ X y σ Y , respectivamente, entonces su covarianza y correlación son las siguientes:
así que eso
donde E es el operador de valor esperado. En particular, la correlación es adimensional mientras que la covarianza está en unidades obtenidas al multiplicar las unidades de las dos variables.
Si Y siempre toma los mismos valores que X , tenemos la covarianza de una variable consigo misma (es decir,), que se llama varianza y se denota más comúnmente comoel cuadrado de la desviación estándar . La correlación de una variable consigo misma es siempre 1 (excepto en el caso degenerado donde las dos varianzas son cero porque X siempre toma el mismo valor único, en cuyo caso la correlación no existe ya que su cálculo implicaría una división por 0 ). De manera más general, la correlación entre dos variables es 1 (o –1) si una de ellas siempre toma un valor que viene dado exactamente por una función lineal de la otra con una pendiente respectivamente positiva (o negativa) .
Aunque los valores de las covarianzas y correlaciones teóricas están vinculados de la forma anterior, las distribuciones de probabilidad de las estimaciones muestrales de estas cantidades no están vinculadas de manera simple y generalmente deben tratarse por separado.
Varias variables aleatorias
Con cualquier número de variables aleatorias superior a 1, las variables se pueden apilar en un vector aleatorio cuyo i- ésimo elemento es la i- ésima variable aleatoria. Luego, las varianzas y covarianzas se pueden colocar en una matriz de covarianzas , en la que el elemento ( i, j ) es la covarianza entre la i- ésima variable aleatoria y la j- ésima . Asimismo, las correlaciones se pueden colocar en una matriz de correlaciones .
Análisis de series temporales
En el caso de una serie de tiempo que es estacionaria en el sentido amplio, tanto las medias como las varianzas son constantes en el tiempo (E ( X n + m ) = E ( X n ) = μ X y var ( X n + m ) = var ( X n ) e igualmente para la variable Y ). En este caso, la covarianza cruzada y la correlación cruzada son funciones de la diferencia de tiempo:
Si Y es la misma variable que X , las expresiones anteriores se denominan autocovarianza y autocorrelación :