Coeficiente de correlación de Pearson


En estadísticas , el coeficiente de correlación de Pearson ( PCC , pronunciado / p ɪər s ən / ) - también conocido como de Pearson r , el Pearson coeficiente de correlación momento-producto ( PPMCC ), la correlación bivariada , [1] o coloquialmente simplemente como la correlación coeficiente [2] : es una medida de correlación lineal entre dos conjuntos de datos. Es la razón entre la covarianza de dos variables y el producto de sudesviaciones estándar ; por lo tanto, es esencialmente una medida normalizada de la covarianza, de modo que el resultado siempre tiene un valor entre -1 y 1. Al igual que con la covarianza en sí, la medida solo puede reflejar una correlación lineal de variables e ignora muchos otros tipos de relación o correlación. . Como ejemplo simple, uno esperaría que la edad y la altura de una muestra de adolescentes de una escuela secundaria tuvieran un coeficiente de correlación de Pearson significativamente mayor que 0, pero menor que 1 (ya que 1 representaría una correlación irrealmente perfecta).

Fue desarrollado por Karl Pearson de una idea relacionada introducido por Francis Galton en la década de 1880, y para el que la fórmula matemática se derivó y publicado por Auguste Bravais en 1844. [a] [6] [7] [8] [9] El La denominación del coeficiente es, por tanto, un ejemplo de la ley de Stigler .

El coeficiente de correlación de Pearson es la covarianza de las dos variables dividida por el producto de sus desviaciones estándar. La forma de la definición implica un "momento del producto", es decir, la media (el primer momento sobre el origen) del producto de las variables aleatorias ajustadas a la media; de ahí el modificador producto-momento en el nombre.

El coeficiente de correlación de Pearson, cuando se aplica a una población , se representa comúnmente con la letra griega ρ (rho) y puede denominarse coeficiente de correlación de población o coeficiente de correlación de Pearson de población . Dado un par de variables aleatorias , la fórmula para ρ [10] es: [11]

La fórmula para se puede expresar en términos de media y expectativa. Ya que

la fórmula para también se puede escribir como


Ejemplos de diagramas de dispersión con diferentes valores de coeficiente de correlación ( ρ )
Varios conjuntos de ( xy ) puntos, con el coeficiente de correlación de x y y para cada conjunto. Tenga en cuenta que la correlación refleja la fuerza y ​​la dirección de una relación lineal (fila superior), pero no la pendiente de esa relación (medio), ni muchos aspectos de las relaciones no lineales (abajo). NB: la figura del centro tiene una pendiente de 0 pero en ese caso el coeficiente de correlación no está definido porque la varianza de Y es cero.
Líneas de regresión para y = g X ( x ) [ rojo ] y x = g Y ( y ) [ azul ]
Esta figura da una idea de cómo la utilidad de una correlación de Pearson para predecir valores varía con su magnitud. Dado X normal conjuntamente , Y con correlación ρ , (representado aquí como una función de ρ ) es el factor por el cual un intervalo de predicción dado para Y puede reducirse dado el valor correspondiente de X. Por ejemplo, si ρ = 0.5, entonces el intervalo de predicción del 95% de Y | X será aproximadamente un 13% más pequeño que el intervalo de predicción del 95% de Y.
Valores críticos del coeficiente de correlación de Pearson que deben excederse para ser considerados significativamente distintos de cero en el nivel 0.05.