En estadísticas , el coeficiente de correlación de Pearson ( PCC , pronunciado / p ɪər s ən / ) - también conocido como de Pearson r , el Pearson coeficiente de correlación momento-producto ( PPMCC ), la correlación bivariada , [1] o coloquialmente simplemente como la correlación coeficiente [2] : es una medida de correlación lineal entre dos conjuntos de datos. Es la razón entre la covarianza de dos variables y el producto de sudesviaciones estándar ; por lo tanto, es esencialmente una medida normalizada de la covarianza, de modo que el resultado siempre tiene un valor entre -1 y 1. Al igual que con la covarianza en sí, la medida solo puede reflejar una correlación lineal de variables e ignora muchos otros tipos de relación o correlación. . Como ejemplo simple, uno esperaría que la edad y la altura de una muestra de adolescentes de una escuela secundaria tuvieran un coeficiente de correlación de Pearson significativamente mayor que 0, pero menor que 1 (ya que 1 representaría una correlación irrealmente perfecta).
Fue desarrollado por Karl Pearson de una idea relacionada introducido por Francis Galton en la década de 1880, y para el que la fórmula matemática se derivó y publicado por Auguste Bravais en 1844. [a] [6] [7] [8] [9] El La denominación del coeficiente es, por tanto, un ejemplo de la ley de Stigler .
El coeficiente de correlación de Pearson es la covarianza de las dos variables dividida por el producto de sus desviaciones estándar. La forma de la definición implica un "momento del producto", es decir, la media (el primer momento sobre el origen) del producto de las variables aleatorias ajustadas a la media; de ahí el modificador producto-momento en el nombre.
El coeficiente de correlación de Pearson, cuando se aplica a una población , se representa comúnmente con la letra griega ρ (rho) y puede denominarse coeficiente de correlación de población o coeficiente de correlación de Pearson de población . Dado un par de variables aleatorias , la fórmula para ρ [10] es: [11]
La fórmula para se puede expresar en términos de media y expectativa. Ya que
la fórmula para también se puede escribir como