De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

En estadísticas , el coeficiente de correlación de Pearson ( PCC , pronunciado / p ɪər s ən / ), también referido como de Pearson r , el Pearson coeficiente de correlación momento-producto ( PPMCC ), o la correlación bivariada , [1] es una medida de correlación lineal entre dos conjuntos de datos. Es la covarianza de dos variables, dividida por el producto de sus desviaciones estándar.; por lo tanto, es esencialmente una medida normalizada de la covarianza, de modo que el resultado siempre tiene un valor entre -1 y 1. Al igual que con la covarianza en sí, la medida solo puede reflejar una correlación lineal de variables e ignora muchos otros tipos de relación o correlación. . Como ejemplo simple, uno esperaría que la edad y la altura de una muestra de adolescentes de una escuela secundaria tuvieran un coeficiente de correlación de Pearson significativamente mayor que 0, pero menor que 1 (ya que 1 representaría una correlación irrealmente perfecta).

Ejemplos de diagramas de dispersión con diferentes valores de coeficiente de correlación ( ρ )
Varios conjuntos de ( xy ) puntos, con el coeficiente de correlación de x y y para cada conjunto. Tenga en cuenta que la correlación refleja la fuerza y ​​la dirección de una relación lineal (fila superior), pero no la pendiente de esa relación (medio), ni muchos aspectos de las relaciones no lineales (abajo). NB: la figura del centro tiene una pendiente de 0 pero en ese caso el coeficiente de correlación no está definido porque la varianza de Y es cero.

Nombres e historial [ editar ]

Fue desarrollado por Karl Pearson de una idea relacionada introducido por Francis Galton en la década de 1880, y para el que la fórmula matemática se derivó y publicado por Auguste Bravais en 1844. [a] [5] [6] [7] [8] El La denominación del coeficiente es, por tanto, un ejemplo de la ley de Stigler .

Definición [ editar ]

El coeficiente de correlación de Pearson es la covarianza de las dos variables dividida por el producto de sus desviaciones estándar . La forma de la definición implica un "momento producto", es decir, la media (el primer momento sobre el origen) del producto de las variables aleatorias ajustadas a la media; de ahí el modificador producto-momento en el nombre.

Para una población [ editar ]

El coeficiente de correlación de Pearson, cuando se aplica a una población , se representa comúnmente con la letra griega ρ (rho) y puede denominarse coeficiente de correlación de población o coeficiente de correlación de Pearson de población . [9] Dado un par de variables aleatorias , la fórmula para ρ [10] es: [11]

dónde:

es la covarianza
es la desviación estándar de
es la desviación estándar de

La fórmula para se puede expresar en términos de media y expectativa. Ya que

[10]

la fórmula para también se puede escribir como

dónde:

y se definen como arriba
es la media de
es la media de
es la expectativa .

La fórmula para se puede expresar en términos de momentos no centrados. Ya que

la fórmula para también se puede escribir como

Para una muestra [ editar ]

El coeficiente de correlación de Pearson, cuando se aplica a una muestra , se representa comúnmente por y puede denominarse coeficiente de correlación de la muestra o coeficiente de correlación de Pearson de la muestra . [9] Podemos obtener una fórmula sustituyendo estimaciones de las covarianzas y varianzas basadas en una muestra en la fórmula anterior. Dados los datos emparejados que constan de pares, se define como:

dónde:

es el tamaño de la muestra
¿Están los puntos de muestra individuales indexados con i
(la media de la muestra ); y análogamente para

El reordenamiento nos da esta fórmula para :

donde se definen como arriba.

Esta fórmula sugiere un algoritmo conveniente de un solo paso para calcular las correlaciones de la muestra, aunque dependiendo de los números involucrados, a veces puede ser numéricamente inestable .

Reorganizar de nuevo nos da esta fórmula [10] para :

donde se definen como arriba.

Una expresión equivalente da la fórmula para como la media de los productos de las puntuaciones estándar de la siguiente manera:

dónde

se definen como anteriormente y se definen a continuación
es la puntuación estándar (y análogamente a la puntuación estándar de )

También se encuentran disponibles fórmulas alternativas para . Por ejemplo. se puede utilizar la siguiente fórmula para :

dónde:

se definen como anteriormente y:
(la desviación estándar de la muestra ); y análogamente para

Problemas prácticos [ editar ]

En condiciones de ruido intenso, extraer el coeficiente de correlación entre dos conjuntos de variables estocásticas no es trivial, en particular cuando el análisis de correlación canónica informa valores de correlación degradados debido a las contribuciones de ruido intenso. En otra parte se ofrece una generalización del enfoque. [12]

En caso de que falten datos, Garren derivó el estimador de máxima verosimilitud . [13]

Propiedades matemáticas [ editar ]

Los valores absolutos de los coeficientes de correlación de Pearson de la muestra y la población están entre 0 y 1. Las correlaciones iguales a +1 o −1 corresponden a puntos de datos que se encuentran exactamente en una línea (en el caso de la correlación de la muestra), oa un distribución bivariada totalmente apoyada en una línea (en el caso de la correlación poblacional). El coeficiente de correlación de Pearson es simétrico: corr ( X , Y ) = corr ( Y , X ).

Una propiedad matemática clave del coeficiente de correlación de Pearson es que es invariante bajo cambios separados de ubicación y escala en las dos variables. Es decir, es posible transformar X a un  +  bX y transformar Y a c  +  dY , donde un , b , c , y d son constantes con b , d > 0 , sin cambiar el coeficiente de correlación. (Esto es válido tanto para la población como para los coeficientes de correlación de Pearson de la muestra). Tenga en cuenta que las transformaciones lineales más generales cambian la correlación: consulte§ Descorrelación de n variables aleatorias para una aplicación de esta.

Interpretación [ editar ]

Los rangos de coeficiente de correlación de -1 a 1. Un valor de 1 implica que una ecuación lineal describe la relación entre X y Y a la perfección, con todos los puntos de datos acostado en una línea para el que Y aumenta a medida que X aumenta. Un valor de -1 implica que todos los puntos de datos se encuentran en una línea para la cual Y disminuye a medida que X aumenta. Un valor de 0 implica que no existe una correlación lineal entre las variables. [14]

De manera más general, tenga en cuenta que ( X i  -  X ) ( Y i  -  Y ) es positivo si y solo si X i e Y i se encuentran en el mismo lado de sus respectivas medias. Por tanto, el coeficiente de correlación es positivo si X i e Y i tienden a ser simultáneamente mayores o simultáneamente menores que sus respectivas medias. El coeficiente de correlación es negativo ( anticorrelación ) si X i e Y itienden a estar en lados opuestos de sus respectivos medios. Además, cuanto más fuerte es una de las dos tendencias, mayor es el valor absoluto del coeficiente de correlación.

Rodgers y Nicewander [15] catalogaron trece formas de interpretar la correlación:

  • Función de puntuaciones brutas y medias
  • Covarianza estandarizada
  • Pendiente estandarizada de la línea de regresión
  • Media geométrica de las dos pendientes de regresión
  • Raíz cuadrada de la razón de dos varianzas
  • Producto cruzado medio de variables estandarizadas
  • Función del ángulo entre dos líneas de regresión estandarizadas
  • Función del ángulo entre dos vectores variables
  • Varianza reescalada de la diferencia entre puntuaciones estandarizadas
  • Estimado a partir de la regla del globo
  • Relacionado con las elipses bivariadas de isoconcentración
  • Función de las estadísticas de prueba de experimentos diseñados
  • Razón de dos medias

Interpretación geométrica [ editar ]

Líneas de regresión para y = g X ( x ) [ rojo ] y x = g Y ( y ) [ azul ]

Para los datos no centrados, hay una relación entre el coeficiente de correlación y el ángulo φ entre las dos líneas de regresión, y = g X ( x ) y x = g Y ( Y ) , que se obtiene mediante la regresión de y sobre x y x en y respectivamente. (Aquí, φ se mide en sentido antihorario dentro del primer cuadrante formado alrededor del punto de intersección de las líneas si r > 0 , o en sentido antihorario desde el cuarto al segundo cuadrante si r <0.) Se puede mostrar [16] que si las desviaciones estándar son iguales, entonces r = sec φ - tan φ , donde sec y tan son funciones trigonométricas .

Para datos centrados (es decir, datos que han sido desplazados por las medias muestrales de sus respectivas variables para tener un promedio de cero para cada variable), el coeficiente de correlación también puede verse como el coseno del ángulo θ entre los dos observados. vectores en el espacio N -dimensional (para N observaciones de cada variable) [17]

Los coeficientes de correlación centrados y no centrados (no compatibles con Pearson) se pueden determinar para un conjunto de datos. Como ejemplo, suponga que se encuentra que cinco países tienen productos nacionales brutos de 1, 2, 3, 5 y 8 mil millones de dólares, respectivamente. Suponga que se encuentra que estos mismos cinco países (en el mismo orden) tienen 11%, 12%, 13%, 15% y 18% de pobreza. A continuación, vamos x y y pueden pedir vectores de 5 elementos que contienen los datos anteriores: x = (1, 2, 3, 5, 8) y Y = (0.11, 0.12, 0.13, 0.15, 0.18) .

Por el procedimiento habitual para encontrar el ángulo θ entre dos vectores (ver producto escalar ), el coeficiente de correlación no centrado es:

Este coeficiente de correlación no centrado es idéntico a la similitud del coseno . Tenga en cuenta que los datos anteriores se eligieron deliberadamente para que estuvieran perfectamente correlacionados: y = 0,10 + 0,01 x . Por tanto, el coeficiente de correlación de Pearson debe ser exactamente uno. Centrando los datos (desplazando x en ℰ ( x ) = 3.8 y y en ℰ ( y ) = 0.138 ) se obtiene x = (−2.8, −1.8, −0.8, 1.2, 4.2) y y = (−0.028, −0.018, −0,008, 0,012, 0,042) , de la cual

como se esperaba.

Interpretación del tamaño de una correlación [ editar ]

Esta figura da una idea de cómo la utilidad de una correlación de Pearson para predecir valores varía con su magnitud. Teniendo en cuenta conjuntamente normales X , Y con correlación ρ , (trazada aquí como una función de ρ ) es el factor por el cual un determinado intervalo de predicción para Y puede ser reducido dado el valor correspondiente de X . Por ejemplo, si ρ = 0,5, entonces el intervalo de predicción del 95% de Y | X será de aproximadamente 13% más pequeño que el intervalo de predicción de 95% de Y .

Varios autores han ofrecido pautas para la interpretación de un coeficiente de correlación. [18] [19] Sin embargo, todos estos criterios son en cierto modo arbitrarios. [19] La interpretación de un coeficiente de correlación depende del contexto y los propósitos. Una correlación de 0,8 puede ser muy baja si se está verificando una ley física utilizando instrumentos de alta calidad, pero puede considerarse muy alta en las ciencias sociales, donde puede haber una mayor contribución de los factores de complicación.

Inferencia [ editar ]

La inferencia estadística basada en el coeficiente de correlación de Pearson a menudo se centra en uno de los dos objetivos siguientes:

  • Un objetivo es probar la hipótesis nula de que el verdadero coeficiente de correlación ρ es igual a 0, basado en el valor del coeficiente de correlación muestral r .
  • El otro objetivo es derivar un intervalo de confianza que, en un muestreo repetido, tenga una probabilidad determinada de contener ρ .

A continuación, analizamos los métodos para lograr uno o ambos objetivos.

Usando una prueba de permutación [ editar ]

Las pruebas de permutación proporcionan un enfoque directo para realizar pruebas de hipótesis y construir intervalos de confianza. Una prueba de permutación para el coeficiente de correlación de Pearson implica los siguientes dos pasos:

  1. Usando los datos emparejados originales ( x iy i ), redefina aleatoriamente los pares para crear un nuevo conjunto de datos ( x iy i ′ ), donde i ′ son una permutación del conjunto {1, ..., n }. La permutación i ′ se selecciona al azar, con probabilidades iguales colocadas en todos los n ! posibles permutaciones. Esto es equivalente a dibujar la i ′ aleatoriamente sin reemplazo del conjunto {1, ..., n }. En bootstrapping , un enfoque estrechamente relacionado, la i y la i ′son iguales y se extraen con reemplazo de {1, ..., n };
  2. Construya un coeficiente de correlación r a partir de los datos aleatorizados.

Para realizar la prueba de permutación, repita los pasos (1) y (2) una gran cantidad de veces. El valor p para la prueba de permutación es la proporción de los valores r generados en el paso (2) que son mayores que el coeficiente de correlación de Pearson que se calculó a partir de los datos originales. Aquí, "mayor" puede significar que el valor es mayor en magnitud o mayor en valor con signo, dependiendo de si se desea una prueba de dos o un lado .

Usando un bootstrap [ editar ]

El bootstrap se puede utilizar para construir intervalos de confianza para el coeficiente de correlación de Pearson. En el bootstrap "no paramétrico", n pares ( x iy i ) se muestrean "con reemplazo" del conjunto observado de n pares, y el coeficiente de correlación r se calcula basándose en los datos remuestreados. Este proceso se repite un gran número de veces y la distribución empírica de los valores r remuestreados se utilizan para aproximar la distribución muestral del estadístico. Un intervalo de confianza del 95% para ρse puede definir como el intervalo que abarca desde el percentil 2,5 hasta el percentil 97,5 de los valores r remuestreados .

Pruebas usando la distribución t de Student [ editar ]

Valores críticos del coeficiente de correlación de Pearson que deben excederse para ser considerados significativamente distintos de cero en el nivel 0.05.

Para los pares de una distribución normal bivariada no correlacionada , la distribución muestral de una determinada función del coeficiente de correlación de Pearson sigue la distribución t de Student con grados de libertad n  - 2. Específicamente, si las variables subyacentes son blancas y tienen una distribución normal bivariada, la variable

tiene una distribución t de estudiante en el caso nulo (correlación cero). [20] Esto es válido aproximadamente en el caso de valores observados anormales si los tamaños de muestra son lo suficientemente grandes. [21] Para determinar los valores críticos de r , se necesita la función inversa:

Alternativamente, se pueden utilizar enfoques asintóticos de muestra grande.

Otro artículo inicial [22] proporciona gráficos y tablas para valores generales de ρ , para tamaños de muestra pequeños, y discute enfoques computacionales.

En el caso de que las variables subyacentes no sean blancas, la distribución muestral del coeficiente de correlación de Pearson sigue una distribución t de Student, pero los grados de libertad se reducen. [23]

Usando la distribución exacta [ editar ]

Para los datos que siguen una distribución normal bivariada , la función de densidad exacta f ( r ) para el coeficiente de correlación muestral r de un bivariado normal es [24] [25] [26]

donde es la función gamma y es la función hipergeométrica gaussiana .

En el caso especial cuando , la función de densidad exacta f ( r ) se puede escribir como:

donde es la función beta , que es una forma de escribir la densidad de la distribución t de Student, como se indicó anteriormente.

Usando la transformación de Fisher [ editar ]

En la práctica, los intervalos de confianza y pruebas de hipótesis relativas a ρ normalmente se llevan a cabo utilizando la transformación Fisher , :

F ( r ) sigue aproximadamente una distribución normal con

    y error estándar

donde n es el tamaño de la muestra. El error de aproximación es más bajo para un tamaño de muestra grande y pequeño y y aumenta de otra manera.

Usando la aproximación, una puntuación z es

bajo la hipótesis nula de que , dado el supuesto de que los pares de muestras son independientes e idénticamente distribuidos y siguen una distribución normal bivariada . Por tanto , se puede obtener un valor p aproximado a partir de una tabla de probabilidad normal. Por ejemplo, si  se observa z = 2.2 y se desea un valor p bilateral para probar la hipótesis nula de que , el valor p es 2 · Φ (−2.2) = 0.028, donde Φ es la función de distribución acumulativa normal estándar .

Para obtener un intervalo de confianza para ρ, primero calculamos un intervalo de confianza para F ( ):

La transformación inversa de Fisher devuelve el intervalo a la escala de correlación.

Por ejemplo, suponga que observamos r  = 0.3 con un tamaño de muestra de n = 50, y deseamos obtener un intervalo de confianza del 95% para ρ. El valor transformado es arctanh ( r ) = 0.30952, por lo que el intervalo de confianza en la escala transformada es 0.30952 ± 1.96 / 47 , o (0.023624, 0.595415). Convirtiendo de nuevo a la escala de correlación se obtiene (0.024, 0.534).

En análisis de regresión de mínimos cuadrados [ editar ]

El cuadrado del coeficiente de correlación de la muestra se denota típicamente como r 2 y es un caso especial del coeficiente de determinación . En este caso, estima la fracción de la varianza en Y que se explica por X en una regresión lineal simple . Entonces, si tenemos el conjunto de datos observado y el conjunto de datos ajustado, entonces, como punto de partida, la variación total en Y i alrededor de su valor promedio se puede descomponer de la siguiente manera

donde son los valores ajustados del análisis de regresión. Esto se puede reorganizar para dar

Los dos sumandos anteriores son la fracción de varianza en Y que se explica por X (derecha) y que no se explica por X (izquierda).

A continuación, aplicamos una propiedad de los modelos de regresión de mínimos cuadrados, que la covarianza muestral entre y es cero. Por lo tanto, se puede escribir el coeficiente de correlación de la muestra entre los valores de respuesta observados y ajustados en la regresión (el cálculo está por debajo de las expectativas, asume estadísticas gaussianas)

Por lo tanto

dónde

es la proporción de la varianza en Y explica por una función lineal de X .

En la derivación anterior, el hecho de que

se puede demostrar observando que las derivadas parciales de la suma de cuadrados residual ( RSS ) sobre β 0 y β 1 son iguales a 0 en el modelo de mínimos cuadrados, donde

.

Al final, la ecuación se puede escribir como:

dónde

El símbolo se llama suma de cuadrados de regresión, también llamada suma de cuadrados explicada , y es la suma total de cuadrados (proporcional a la varianza de los datos).

Sensibilidad a la distribución de datos [ editar ]

Existencia [ editar ]

El coeficiente de correlación de Pearson poblacional se define en términos de momentos y, por lo tanto, existe para cualquier distribución de probabilidad bivariada para la cual se define la covarianza poblacional y las varianzas poblacionales marginales están definidas y son distintas de cero. Algunas distribuciones de probabilidad, como la distribución de Cauchy, tienen una varianza indefinida y, por lo tanto, ρ no está definida si X o Y siguen dicha distribución. En algunas aplicaciones prácticas, como las que involucran datos que se sospecha que siguen una distribución de cola pesada , Esta es una consideración importante. Sin embargo, la existencia del coeficiente de correlación no suele ser motivo de preocupación; por ejemplo, si el rango de la distribución está acotado, siempre se define ρ.

Tamaño de muestra [ editar ]

  • Si el tamaño de la muestra es moderado o grande y la población es normal, entonces, en el caso de la distribución normal bivariada , el coeficiente de correlación muestral es la estimación de máxima verosimilitud del coeficiente de correlación poblacional, y es asintóticamente insesgado y eficiente , lo que significa aproximadamente que es imposible construir una estimación más precisa que el coeficiente de correlación muestral.
  • Si el tamaño de la muestra es grande y la población no es normal, entonces el coeficiente de correlación de la muestra permanece aproximadamente insesgado, pero puede no ser eficiente.
  • Si el tamaño de la muestra es grande, entonces el coeficiente de correlación de la muestra es un estimador consistente del coeficiente de correlación de la población siempre que las medias, las varianzas y la covarianza de la muestra sean consistentes (lo cual está garantizado cuando se puede aplicar la ley de los grandes números ).
  • Si el tamaño de la muestra es pequeño, entonces el coeficiente de correlación de la muestra r no es una estimación insesgada de ρ . [10] En su lugar, debe utilizarse el coeficiente de correlación ajustado: consulte la definición en otra parte de este artículo.
  • Las correlaciones pueden ser diferentes para datos dicotómicos desequilibrados cuando hay un error de varianza en la muestra. [27]

Robustez [ editar ]

Como muchas estadísticas de uso común, la estadística de muestra r no es robusta , [28] por lo que su valor puede ser engañoso si existen valores atípicos . [29] [30] Específicamente, el PMCC no es distribucionalmente robusto, [ cita requerida ] ni resistente a valores atípicos [28] (ver Estadísticas robustas # Definición ). Inspección del diagrama de dispersión entre X e YPor lo general, revelará una situación en la que la falta de solidez podría ser un problema y, en tales casos, puede ser aconsejable utilizar una medida sólida de asociación. Sin embargo, tenga en cuenta que, si bien los estimadores de asociación más robustos miden la dependencia estadística de alguna manera, generalmente no son interpretables en la misma escala que el coeficiente de correlación de Pearson.

La inferencia estadística del coeficiente de correlación de Pearson es sensible a la distribución de los datos. Se pueden aplicar pruebas exactas y pruebas asintóticas basadas en la transformación de Fisher si los datos están distribuidos aproximadamente normalmente, pero de lo contrario pueden ser engañosos. En algunas situaciones, el bootstrap se puede aplicar para construir intervalos de confianza y se pueden aplicar pruebas de permutación para realizar pruebas de hipótesis. Estos enfoques no paramétricos pueden dar resultados más significativos en algunas situaciones en las que no se mantiene la normalidad bivariada. Sin embargo, las versiones estándar de estos enfoques se basan en la intercambiabilidad de los datos, lo que significa que no hay ningún orden o agrupación de los pares de datos analizados que pueda afectar el comportamiento de la estimación de correlación.

Un análisis estratificado es una forma de adaptarse a la falta de normalidad bivariada o de aislar la correlación resultante de un factor mientras se controla por otro. Si W representa la pertenencia al conglomerado u otro factor que sea deseable controlar, podemos estratificar los datos en función del valor de W y luego calcular un coeficiente de correlación dentro de cada estrato. Las estimaciones de nivel de estrato se pueden combinar para calcular la correlación global mientras se controla para W . [31]

Variantes [ editar ]

Las variaciones del coeficiente de correlación se pueden calcular para diferentes propósitos. Aquí hay unos ejemplos.

Coeficiente de correlación ajustado [ editar ]

El coeficiente de correlación muestral r no es una estimación insesgada de ρ . Para los datos que siguen una distribución normal bivariada , la expectativa E [ r ] para el coeficiente de correlación muestral r de un bivariante normal es [32]

por lo tanto, r es un estimador sesgado de

El estimador insesgado de varianza mínima única r adj viene dado por [33]

dónde:

se definen como arriba,
es la función hipergeométrica gaussiana .

Se puede obtener un estimador r adj aproximadamente insesgado [ cita requerida ] truncando E [ r ] y resolviendo esta ecuación truncada:

Una solución aproximada [ cita requerida ] a la ecuación (2) es:

donde en (3):

se definen como arriba,
r adj es un estimador subóptimo, [ cita requerida ] [ aclaración necesaria ]
r adj también se puede obtener maximizando log ( f ( r )),
r adj tiene una varianza mínima para valores grandes de n ,
r adj tiene un sesgo de orden 1 / ( n  - 1) .

Otro coeficiente de correlación ajustado propuesto [10] es: [ cita requerida ]

Tenga en cuenta que r adjr para valores grandes de  n .

Coeficiente de correlación ponderado [ editar ]

Suponga que las observaciones que se van a correlacionar tienen diferentes grados de importancia que se pueden expresar con un vector de ponderación w . Para el cálculo de la correlación entre los vectores x e y con el vector de pesos w (todo de longitud  n ), [34] [35]

  • Media ponderada:
  • Covarianza ponderada
  • Correlación ponderada

Coeficiente de correlación reflectante [ editar ]

La correlación reflexiva es una variante de la correlación de Pearson en la que los datos no se centran en sus valores medios. [ cita requerida ] La correlación reflectante de la población es

La correlación reflexiva es simétrica, pero no es invariante en la traducción:

La correlación reflectante muestral es equivalente a la similitud del coseno :

La versión ponderada de la correlación reflexiva muestral es

Coeficiente de correlación escalado [ editar ]

La correlación escalada es una variante de la correlación de Pearson en la que el rango de los datos se restringe intencionalmente y de manera controlada para revelar correlaciones entre componentes rápidos en series de tiempo. [36] La correlación escalada se define como la correlación promedio entre segmentos cortos de datos.

Sea el número de segmentos que pueden caber en la longitud total de la señal para una escala determinada :

La correlación escalada a través de todas las señales se calcula como

donde es el coeficiente de correlación de Pearson para el segmento .

Al elegir el parámetro , se reduce el rango de valores y se filtran las correlaciones en escalas de tiempo largas, revelando solo las correlaciones en escalas de tiempo cortas. Así, se eliminan las contribuciones de los componentes lentos y se retienen las de los componentes rápidos.

La distancia de Pearson [ editar ]

Una métrica de distancia para dos variables X e Y conocida como distancia de Pearson se puede definir a partir de su coeficiente de correlación como [37]

Considerando que el coeficiente de correlación de Pearson se encuentra entre [-1, +1], la distancia de Pearson se encuentra en [0, 2]. La distancia de Pearson se ha utilizado en el análisis de conglomerados y la detección de datos para comunicaciones y almacenamiento con ganancia y compensación desconocidas [38]

Coeficiente de correlación circular [ editar ]

Para las variables X = { x 1 , ..., x n } y Y = { y 1 , ..., y n } que se definen en el círculo unidad [0, 2 π ), es posible definir una circular análogo del coeficiente de Pearson. [39] Esto se hace transformando los puntos de datos en X e Y con una función sinusoidal tal que el coeficiente de correlación se da como:

donde y son los medios circulares de XY . Esta medida puede ser útil en campos como la meteorología, donde la dirección angular de los datos es importante.

Correlación parcial [ editar ]

Si una población o conjunto de datos se caracteriza por más de dos variables, un coeficiente de correlación parcial mide la fuerza de la dependencia entre un par de variables que no se tiene en cuenta por la forma en que ambas cambian en respuesta a variaciones en un subconjunto seleccionado. de las otras variables.

Descorrelación de n variables aleatorias [ editar ]

Siempre es posible eliminar las correlaciones entre todos los pares de un número arbitrario de variables aleatorias utilizando una transformación de datos, incluso si la relación entre las variables no es lineal. Cox & Hinkley ofrece una presentación de este resultado para distribuciones de población. [40]

Existe un resultado correspondiente para reducir las correlaciones de la muestra a cero. Suponga que un vector de n variables aleatorias se observa m veces. Sea X una matriz donde es la j- ésima variable de observación i . Sea una matriz cuadrada de m por m con cada elemento 1. Entonces D son los datos transformados, por lo que cada variable aleatoria tiene media cero, y T son los datos transformados para que todas las variables tengan media cero y correlación cero con todas las demás variables: la correlación muestral matriz de Tserá la matriz de identidad. Esto debe dividirse aún más por la desviación estándar para obtener la varianza de la unidad. Las variables transformadas no estarán correlacionadas, aunque no sean independientes .

donde un exponente de - 12 representa la raíz cuadrada de la matriz de la inversa de una matriz. La matriz de correlación de T será la matriz identidad. Si una nueva observación de datos x es un vector de fila de n elementos, entonces la misma transformada se puede aplicar ax para obtener los vectores transformados d y t :

Esta descorrelación está relacionada con el análisis de componentes principales para datos multivariados.

Implementaciones de software [ editar ]

  • El paquete base de estadísticas de R implementa la prueba cor.test(x, y, method = "pearson")en su paquete "stats" (también cor(x, y, method = "pearson")funcionará, pero sin devolver el valor p). Dado que pearson es el predeterminado, el argumento del método también podría omitirse.
  • El módulo de funciones estadísticas de Python implementa la prueba pearsonr(x, y)en su módulo "scipy.stats" y devuelve el coeficiente de correlación r y p-valor como (r, p-valor).
    • La biblioteca Python Pandas implementa el cálculo del coeficiente de correlación de Pearson como la opción predeterminada para el métodopandas.DataFrame.corr

Ver también [ editar ]

  • Cuarteto de Anscombe
  • Asociación (estadísticas)
  • Coeficiente de coligación
    • Q de Yule
    • Yule's Y
  • Coeficiente de correlación de concordancia
  • Correlación y dependencia
  • Razón de correlación
  • Desatenuación
  • Correlación de distancia
  • Coeficiente de información máximo
  • Correlación múltiple
  • Normalmente distribuido y no correlacionado no implica independiente
  • Razón de probabilidades
  • Correlación parcial
  • Correlación policórica
  • Relación de recuento de cuadrantes
  • Coeficiente RV
  • Coeficiente de correlación de rango de Spearman

Notas al pie [ editar ]

  1. Ya en 1877, Galton estaba usando el término "reversión" y el símbolo " r " para lo que se convertiría en "regresión". [2] [3] [4]

Referencias [ editar ]

  1. ^ "Tutoriales de SPSS: Correlación de Pearson" .
  2. ^ Galton, F. (5-19 de abril de 1877). "Leyes típicas de la herencia" . Naturaleza . 15 (388, 389, 390): 492–495, 512–514, 532–533. Código Bibliográfico : 1877Natur..15..492. . doi : 10.1038 / 015492a0 . S2CID 4136393 . En el "Apéndice" en la página 532, Galton usa el término "reversión" y el símbolo r .
  3. ^ Galton, F. (24 de septiembre de 1885). "The British Association: Sección II, Antropología: Discurso de apertura de Francis Galton, FRS, etc., Presidente del Instituto Antropológico, Presidente de la Sección" . Naturaleza . 32 (830): 507–510.
  4. ^ Galton, F. (1886). "Regresión hacia la mediocridad en estatura hereditaria" . Revista del Instituto Antropológico de Gran Bretaña e Irlanda . 15 : 246-263. doi : 10.2307 / 2841583 . JSTOR 2841583 . 
  5. ^ Pearson, Karl (20 de junio de 1895). "Notas sobre regresión y herencia en el caso de dos padres" . Actas de la Royal Society de Londres . 58 : 240–242. Código Bibliográfico : 1895RSPS ... 58..240P .
  6. ^ Stigler, Stephen M. (1989). "Cuenta de Francis Galton de la invención de la correlación" . Ciencia estadística . 4 (2): 73–79. doi : 10.1214 / ss / 1177012580 . JSTOR 2245329 . 
  7. ^ "Analizar mathique sur les probabilités des errores de situación de un punto" . Mem. Acad. Roy. Sci. Inst. Francia . Sci. Math, et Phys. (en francés). 9 : 255–332. 1844 - a través de Google Books.
  8. ^ Wright, S. (1921). "Correlación y causalidad". Revista de Investigación Agrícola . 20 (7): 557–585.
  9. ^ a b "Lista de símbolos de probabilidad y estadística" . Bóveda de matemáticas . 26 de abril de 2020 . Consultado el 22 de agosto de 2020 .
  10. ^ a b c d e Estadísticas reales con Excel: Correlación: Conceptos básicos , consultado el 22 de febrero de 2015
  11. ^ Weisstein, Eric W. "Correlación estadística" . mathworld.wolfram.com . Consultado el 22 de agosto de 2020 .
  12. ^ Moriya, N. (2008). "Análisis conjunto óptimo multivariante relacionado con el ruido en procesos estocásticos longitudinales". En Yang, Fengshan (ed.). Progreso en Modelado Matemático Aplicado . Nova Science Publishers, Inc. págs. 223–260. ISBN 978-1-60021-976-4.
  13. ^ Garren, Steven T. (15 de junio de 1998). "Estimación de máxima verosimilitud del coeficiente de correlación en un modelo normal bivariado, con datos faltantes". Estadísticas y letras de probabilidad . 38 (3): 281–288. doi : 10.1016 / S0167-7152 (98) 00035-2 .
  14. ^ "Introducción a la estadística empresarial: el coeficiente de correlación r" . opentextbc.ca . Consultado el 21 de agosto de 2020 .
  15. ^ Rodgers; Nicewander (1988). "Trece formas de mirar el coeficiente de correlación" (PDF) . El estadístico estadounidense . 42 (1): 59–66. doi : 10.2307 / 2685263 . JSTOR 2685263 .  
  16. ^ Schmid, John Jr. (diciembre de 1947). "La relación entre el coeficiente de correlación y el ángulo incluido entre las líneas de regresión". La Revista de Investigación Educativa . 41 (4): 311–313. doi : 10.1080 / 00220671.1947.10881608 . JSTOR 27528906 . 
  17. ^ Rummel, RJ (1976). "Comprensión de la correlación" . ch. 5 (como se ilustra para un caso especial en el siguiente párrafo).
  18. ^ Buda, Andrzej; Jarynowski, Andrzej (diciembre de 2010). Tiempo de vida de las correlaciones y sus aplicaciones . Wydawnictwo Niezależne. págs. 5-21. ISBN 9788391527290.
  19. ↑ a b Cohen, J. (1988). Análisis de poder estadístico para las ciencias del comportamiento (2ª ed.).
  20. ^ Rahman, NA (1968) Un curso de estadística teórica , Charles Griffin and Company, 1968
  21. ^ Kendall, MG, Stuart, A. (1973) La teoría avanzada de la estadística, Volumen 2: Inferencia y relación , Griffin. ISBN 0-85264-215-6 (Sección 31.19) 
  22. ^ Soper, ÉL ; Young, AW; Cave, BM; Lee, A .; Pearson, K. (1917). "Sobre la distribución del coeficiente de correlación en muestras pequeñas. Anexo II a los trabajos de" Student "y RA Fisher. Un estudio cooperativo" . Biometrika . 11 (4): 328–413. doi : 10.1093 / biomet / 11.4.328 .
  23. ^ Davey, Catherine E .; Grayden, David B .; Egan, Gary F .; Johnston, Leigh A. (enero de 2013). "El filtrado induce la correlación en los datos del estado de reposo de fMRI". NeuroImage . 64 : 728–740. doi : 10.1016 / j.neuroimage.2012.08.022 . hdl : 11343/44035 . PMID 22939874 . S2CID 207184701 .  
  24. ^ Hotelling, Harold (1953). "Nueva luz sobre el coeficiente de correlación y sus transformaciones". Revista de la Royal Statistical Society . Serie B (Metodológica). 15 (2): 193–232. doi : 10.1111 / j.2517-6161.1953.tb00135.x . JSTOR 2983768 . 
  25. ^ Kenney, JF; Keeping, ES (1951). Matemática de la Estadística . Parte 2 (2ª ed.). Princeton, Nueva Jersey: Van Nostrand.
  26. ^ Weisstein, Eric W. "Coeficiente de correlación: distribución normal bivariada" . mathworld.wolfram.com .
  27. ^ Lai, Chun Sing; Tao, Yingshan; Xu, Fangyuan; Ng, Wing WY; Jia, Youwei; Yuan, Haoliang; Huang, Chao; Lai, Loi Lei; Xu, Zhao; Locatelli, Giorgio (enero de 2019). "Un marco de análisis de correlación robusto para datos desbalanceados y dicotómicos con incertidumbre" (PDF) . Ciencias de la información . 470 : 58–77. doi : 10.1016 / j.ins.2018.08.017 .
  28. ↑ a b Wilcox, Rand R. (2005). Introducción a la estimación robusta y la prueba de hipótesis . Prensa académica.
  29. ^ Devlin, Susan J .; Gnanadesikan, R .; Kettenring JR (1975). "Estimación robusta y detección de valores atípicos con coeficientes de correlación". Biometrika . 62 (3): 531–545. doi : 10.1093 / biomet / 62.3.531 . JSTOR 2335508 . 
  30. ^ Huber, Peter. J. (2004). Estadísticas sólidas . Wiley.[ página necesaria ]
  31. ^ Katz., Mitchell H. (2006) Análisis multivariable: una guía práctica para médicos . 2ª Edición. Prensa de la Universidad de Cambridge. ISBN 978-0-521-54985-1 . ISBN 0-521-54985-X doi : 10.2277 / 052154985X  
  32. ^ Hotelling, H. (1953). "Nueva luz sobre el coeficiente de correlación y sus transformaciones". Revista de la Royal Statistical Society. Serie B (Metodológica) . 15 (2): 193–232. doi : 10.1111 / j.2517-6161.1953.tb00135.x . JSTOR 2983768 . 
  33. ^ Olkin, Ingram; Pratt, John W. (marzo de 1958). "Estimación imparcial de ciertos coeficientes de correlación" . Los Anales de Estadística Matemática . 29 (1): 201–211. doi : 10.1214 / aoms / 1177706717 . JSTOR 2237306 . .
  34. ^ "Re: calcular una correlación ponderada" . sci.tech-archive.net .
  35. ^ "Matriz de correlación ponderada - Intercambio de archivos - MATLAB Central" .
  36. Nikolić, D; Muresan, RC; Feng, W; Cantante, W (2012). "Análisis de correlación escalado: una mejor manera de calcular un correlograma cruzado" (PDF) . Revista europea de neurociencia . 35 (5): 1–21. doi : 10.1111 / j.1460-9568.2011.07987.x . PMID 22324876 . S2CID 4694570 .   
  37. ^ Fulekar (Ed.), MH (2009) Bioinformática: aplicaciones en ciencias de la vida y ambientales , Springer (págs. 110) ISBN 1-4020-8879-5 
  38. ^ Immink, K. Schouhamer; Weber, J. (octubre de 2010). "Detección de distancia mínima de Pearson para canales multinivel con ganancia y / o desajuste de compensación" . Transacciones IEEE sobre teoría de la información . 60 (10): 5966–5974. CiteSeerX 10.1.1.642.9971 . doi : 10.1109 / tit.2014.2342744 . S2CID 1027502 . Consultado el 11 de febrero de 2018 .  
  39. Jammalamadaka, S. Rao; SenGupta, A. (2001). Temas en estadística circular . Nueva Jersey: World Scientific. pag. 176. ISBN 978-981-02-3778-3. Consultado el 21 de septiembre de 2016 .
  40. ^ Cox, DR; Hinkley, DV (1974). Estadística teórica . Chapman y Hall. Apéndice 3. ISBN 0-412-12420-3.

Enlaces externos [ editar ]

  • "cocor" . comparingcorrelations.org . - Una interfaz web y un paquete R gratuitos para la comparación estadística de dos correlaciones dependientes o independientes con variables superpuestas o no superpuestas.
  • "Correlación" . nagysandor.eu . - una simulación Flash interactiva sobre la correlación de dos variables distribuidas normalmente.
  • "Calculadora de coeficiente de correlación" . hackmath.net . Regresión lineal. -
  • "Valores críticos para el coeficiente de correlación de Pearson" (PDF) . frank.mtsu.edu/~dkfuller . - mesa grande.
  • "Adivina la correlación" . - Un juego en el que los jugadores adivinan qué tan correlacionadas están dos variables en un diagrama de dispersión para comprender mejor el concepto de correlación.