Correlación parcial

En teoría de probabilidad y estadística , la correlación parcial mide el grado de asociación entre dos variables aleatorias , con el efecto de un conjunto de variables aleatorias de control eliminado. Si estamos interesados en averiguar en qué medida existe una relación numérica entre dos variables de interés, utilizar su coeficiente de correlación dará resultados engañosos si existe otra variable de confusión., variable que se relaciona numéricamente con ambas variables de interés. Esta información engañosa puede evitarse controlando la variable de confusión, lo que se hace calculando el coeficiente de correlación parcial. Ésta es precisamente la motivación para incluir otras variables del lado derecho en una regresión múltiple ; pero aunque la regresión múltiple da resultados insesgados para el tamaño del efecto , no da un valor numérico de una medida de la fuerza de la relación entre las dos variables de interés.

Por ejemplo, si tenemos datos económicos sobre el consumo, la renta y la riqueza de varios individuos y deseamos ver si existe una relación entre el consumo y la renta, no controlar la riqueza al calcular un coeficiente de correlación entre el consumo y la renta daría un resultado engañoso, ya que la renta podría estar relacionada numéricamente con la riqueza, que a su vez podría estar relacionada numéricamente con el consumo; una correlación medida entre consumo e ingresos podría estar contaminada por estas otras correlaciones. El uso de una correlación parcial evita este problema.

Al igual que el coeficiente de correlación, el coeficiente de correlación parcial toma un valor en el rango de –1 a 1. El valor –1 transmite una correlación negativa perfecta que controla algunas variables (es decir, una relación lineal exacta en la que los valores más altos de una variable están asociados con valores más bajos del otro); el valor 1 transmite una relación lineal positiva perfecta y el valor 0 transmite que no existe una relación lineal.

Los coincide de correlación parcial con la correlación condicional si las variables aleatorias se distribuyen de forma conjunta como la normal multivariante , otra elíptica , hipergeométrica multivariante , hipergeométrica negativa multivariante , multinomial o distribución Dirichlet , pero no en general lo contrario. ^[1]

Definicion formal

Formalmente, la correlación parcial entre X e Y dado un conjunto de n variables de control Z = { Z ₁ , Z ₂ , ..., Z _n }, escrito ρ _{XY · Z} , es la correlación entre los residuos e _X y e _Y resultante de la regresión lineal de X con Z y de Y con Z , respectivamente. La correlación parcial de primer orden (es decir, cuando n = 1) es la diferencia entre una correlación y el producto de las correlaciones removibles dividido por el producto de los coeficientes de alienación de las correlaciones removibles. El coeficiente de alienación y su relación con la varianza conjunta a través de la correlación están disponibles en Guilford (1973, págs. 344–345). ^[2]

Cálculo

Usando regresión lineal

Una forma sencilla de calcular la correlación parcial de la muestra para algunos datos es resolver los dos problemas de regresión lineal asociados , obtener los residuos y calcular la correlación entre los residuos. Sean X e Y , como se indicó anteriormente, variables aleatorias que toman valores reales, y sea Z la variable aleatoria con valores vectoriales n- dimensionales. Escribimos x _i , y _i y z _i para denotar el i- ésimo de N i.id observaciones de alguna distribución de probabilidad conjunta sobre las variables aleatorias reales X , Y y Z , con z _i aumentado con un 1 para permitir una constante término en la regresión. Resolver el problema de regresión lineal equivale a encontrar vectores de coeficientes de regresión ( n +1) -dimensionales ${\ Displaystyle \ mathbf {w} _ {X} ^ {*}}$ y ${\ Displaystyle \ mathbf {w} _ {Y} ^ {*}}$ tal que

{\ Displaystyle \ mathbf {w} _ {X} ^ {*} = \ arg \ min _ {\ mathbf {w}} \ left \ {\ sum _ {i = 1} ^ {N} (x_ {i} - \ langle \ mathbf {w}, \ mathbf {z} _ {i} \ rangle) ^ {2} \ right \}}

{\ Displaystyle \ mathbf {w} _ {Y} ^ {*} = \ arg \ min _ {\ mathbf {w}} \ left \ {\ sum _ {i = 1} ^ {N} (y_ {i} - \ langle \ mathbf {w}, \ mathbf {z} _ {i} \ rangle) ^ {2} \ right \}}

siendo N el número de observaciones y ${\ Displaystyle \ langle \ mathbf {w}, \ mathbf {v} \ rangle}$ el producto escalar entre los vectores w y v .

Los residuos son entonces

{\ Displaystyle e_ {X, i} = x_ {i} - \ langle \ mathbf {w} _ {X} ^ {*}, \ mathbf {z} _ {i} \ rangle}

{\ Displaystyle e_ {Y, i} = y_ {i} - \ langle \ mathbf {w} _ {Y} ^ {*}, \ mathbf {z} _ {i} \ rangle}

y la correlación parcial muestral viene dada por la fórmula habitual para la correlación muestral , pero entre estos nuevos valores derivados :

{\ Displaystyle {\ hat {\ rho}} _ {XY \ cdot \ mathbf {Z}} = {\ frac {N \ sum _ {i = 1} ^ {N} e_ {X, i} e_ {Y, i} - \ sum _ {i = 1} ^ {N} e_ {X, i} \ sum _ {i = 1} ^ {N} e_ {Y, i}} {{\ sqrt {N \ sum _ { i = 1} ^ {N} e_ {X, i} ^ {2} - \ left (\ sum _ {i = 1} ^ {N} e_ {X, i} \ right) ^ {2}}} ~ {\ sqrt {N \ sum _ {i = 1} ^ {N} e_ {Y, i} ^ {2} - \ left (\ sum _ {i = 1} ^ {N} e_ {Y, i} \ derecha) ^ {2}}}}}}

{\ Displaystyle = {\ frac {N \ sum _ {i = 1} ^ {N} e_ {X, i} e_ {Y, i}} {{\ sqrt {N \ sum _ {i = 1} ^ { N} e_ {X, i} ^ {2}}} ~ {\ sqrt {N \ sum _ {i = 1} ^ {N} e_ {Y, i} ^ {2}}}}}.}

En la primera expresión, los tres términos después de los signos menos son todos iguales a 0, ya que cada uno contiene la suma de los residuos de una regresión de mínimos cuadrados ordinaria.

Ejemplo

Supongamos que tenemos los siguientes datos sobre tres variables, X , Y y Z :

X	Y	Z
2	1	0
4	2	0
15	3	1
20	4	1

Si calculamos el coeficiente de correlación de Pearson entre las variables X e Y , el resultado es aproximadamente 0,970, mientras que si calculamos la correlación parcial entre X e Y , utilizando la fórmula dada anteriormente, encontramos una correlación parcial de 0,919. Los cálculos se realizaron usando R con el siguiente código.

> X  =  c ( 2 , 4 , 15 , 20 ) > Y  =  c ( 1 , 2 , 3 , 4 ) > Z  =  c ( 0 , 0 , 1 , 1 ) > mm1  =  lm ( X ~ Z ) > res1  =  mm1 $ residuales > mm2  =  lm ( Y ~ Z ) > res2  =  mm2 $ residuales > cor ( res1 , res2 ) [1] 0.919145 > cor ( X , Y ) [1] 0.9695016 > generalCorr :: parcorMany ( cbind ( X , Y , Z ))  nami namj partij partji rijMrji [1,] "X" "Y" "0.8844" "1" "-0.1156" [2,] "X" "Z" "0.1581" "1" "-0.8419 "

La parte inferior del código anterior informa un coeficiente de correlación parcial no lineal generalizado entre X e Y después de eliminar el efecto no lineal de Z para que sea 0,8844. También el coeficiente de correlación parcial generalizado entre X y Z después de eliminar el efecto no lineal de Y es 0.1581. Consulte el paquete R `generalCorr 'y sus viñetas para obtener más detalles. La simulación y otros detalles se encuentran en Vinod (2017) "Correlación generalizada y causalidad del kernel con aplicaciones en la economía del desarrollo", Communications in Statistics - Simulation and Computation, vol. 46, [4513, 4534], disponible en línea: 29 de diciembre de 2015, URL https://doi.org/10.1080/03610918.2015.1122048 .

Usando fórmula recursiva

Resolver los problemas de regresión lineal puede resultar costoso desde el punto de vista computacional. En realidad, la correlación parcial de n -ésimo orden (es decir, con | Z | = n ) se puede calcular fácilmente a partir de tres ( n - 1) correlaciones parciales de orden. La correlación parcial de orden cero ρ _{XY · Ø} se define como el coeficiente de correlación regular ρ _XY .

Sostiene, para cualquier ${\ Displaystyle Z_ {0} \ in \ mathbf {Z},}$ que ^{[ cita requerida ]}

{\ Displaystyle \ rho _ {XY \ cdot \ mathbf {Z}} = {\ frac {\ rho _ {XY \ cdot \ mathbf {Z} \ setminus \ {Z_ {0} \}} - \ rho _ {XZ_ {0} \ cdot \ mathbf {Z} \ setminus \ {Z_ {0} \}} \ rho _ {Z_ {0} Y \ cdot \ mathbf {Z} \ setminus \ {Z_ {0} \}}} { {\ sqrt {1- \ rho _ {XZ_ {0} \ cdot \ mathbf {Z} \ setminus \ {Z_ {0} \}} ^ {2}}} {\ sqrt {1- \ rho _ {Z_ { 0} Y \ cdot \ mathbf {Z} \ setminus \ {Z_ {0} \}} ^ {2}}}}}.}

La implementación ingenua de este cálculo como un algoritmo recursivo produce una complejidad de tiempo exponencial . Sin embargo, este cálculo tiene la propiedad de subproblemas superpuestos , de modo que el uso de programación dinámica o simplemente el almacenamiento en caché de los resultados de las llamadas recursivas produce una complejidad de ${\ Displaystyle {\ mathcal {O}} (n ^ {3})}$ .

Tenga en cuenta que en el caso de que Z sea una sola variable, esto se reduce a: ^{[ cita requerida ]}

{\ Displaystyle \ rho _ {XY \ cdot Z} = {\ frac {\ rho _ {XY} - \ rho _ {XZ} \ rho _ {ZY}} {{\ sqrt {1- \ rho _ {XZ} ^ {2}}} {\ sqrt {1- \ rho _ {ZY} ^ {2}}}}}}

Usando inversión de matriz

En ${\ Displaystyle {\ mathcal {O}} (n ^ {3})}$ tiempo, otro enfoque permite calcular todas las correlaciones parciales entre dos variables cualesquiera X _i y X _j de un conjunto V de cardinalidad n , dadas todas las demás, es decir, ${\ Displaystyle \ mathbf {V} \ setminus \ {X_ {i}, X_ {j} \}}$ , si la matriz de covarianza Ω = ( ρ _{X _i X _j} ), es positiva definida y por lo tanto invertible . Si definimos la matriz de precisión P = (p _ij ) = Ω ⁻¹ , tenemos:

{\ Displaystyle \ rho _ {X_ {i} X_ {j} \ cdot \ mathbf {V} \ setminus \ {X_ {i}, X_ {j} \}} = - {\ frac {p_ {ij}} { \ sqrt {p_ {ii} p_ {jj}}}}.}

Interpretación

Interpretación geométrica de la correlación parcial para el caso de N = 3 observaciones y, por tanto, un hiperplano bidimensional

Geométrico

Deje tres variables X , Y , Z (donde Z es el "control" o "variables extra") ser elegidos a partir de una distribución de probabilidad conjunta sobre n variables de V . Además dejó v _i , 1 ≤ i ≤ N , sea N n -dimensional iid observaciones tomadas de la distribución de probabilidad conjunta sobre V . Luego consideramos los vectores N -dimensionales x (formados por los valores sucesivos de X sobre las observaciones), y (formados por los valores de Y ) yz (formados por los valores de Z ).

Se puede demostrar que los residuos e _{X, i} provenientes de la regresión lineal de X sobre Z , si también se consideran como un vector N -dimensional e _X (denotado r _X en el gráfico adjunto), tienen un producto escalar cero con el vector z generada por Z . Esto significa que el vector de residuos se encuentra en un hiperplano ( N –1) -dimensional S _z que es perpendicular a z .

Lo mismo también se aplica a los residuos ae _{Y, i} generar un vector e _Y . La correlación parcial deseada es entonces el coseno del ángulo φ entre las proyecciones ae _X y e _Y de x y y , respectivamente, sobre el hiperplano perpendicular a z . ^[3]^{: cap. 7}

Como prueba de independencia condicional

Con la suposición de que todas las variables implicadas son multivariante gaussiana , la correlación parcial ρ _{XY · Z} es cero si y sólo si X es condicionalmente independiente de Y dado Z . ^[1] Esta propiedad no es válida en el caso general.

Para probar si una muestra de correlación parcial ${\ Displaystyle {\ hat {\ rho}} _ {XY \ cdot \ mathbf {Z}}}$ implica que la correlación parcial de la población verdadera difiere de 0, se puede utilizar la transformada z de Fisher de la correlación parcial :

{\ Displaystyle z ({\ hat {\ rho}} _ {XY \ cdot \ mathbf {Z}}) = {\ frac {1} {2}} \ ln \ left ({\ frac {1 + {\ hat {\ rho}} _ {XY \ cdot \ mathbf {Z}}} {1 - {\ hat {\ rho}} _ {XY \ cdot \ mathbf {Z}}}} \ derecha).}

La hipótesis nula es ${\ Displaystyle H_ {0}: \ rho _ {XY \ cdot \ mathbf {Z}} = 0}$ , para ser probado contra la alternativa de dos colas ${\ Displaystyle H_ {A}: \ rho _ {XY \ cdot \ mathbf {Z}} \ neq 0}$ . Rechazamos H ₀ con nivel de significancia α si:

{\ Displaystyle {\ sqrt {N- | \ mathbf {Z} | -3}} \ cdot | z ({\ hat {\ rho}} _ {XY \ cdot \ mathbf {Z}}) |> \ Phi ^ {-1} (1- \ alpha / 2),}

donde Φ (·) es la función de distribución acumulada de una distribución gaussiana con media cero y desviación estándar unitaria , y N es el tamaño de la muestra . Esta transformación z es aproximada y la distribución real del coeficiente de correlación muestral (parcial) no es sencilla. Sin embargo, está disponible una prueba t exacta basada en una combinación del coeficiente de regresión parcial, el coeficiente de correlación parcial y las varianzas parciales. ^[4]

Fisher describió la distribución de la correlación parcial muestral. ^[5]

Correlación semiparcial (correlación parcial)

El estadístico de correlación semiparcial (o parcial) es similar al estadístico de correlación parcial. Ambos comparan las variaciones de dos variables después de que se controlan ciertos factores, pero para calcular la correlación semiparcial, uno mantiene la tercera variable constante para X o Y pero no para ambos, mientras que para la correlación parcial uno mantiene la tercera variable constante para ambos. ^[6] La correlación semiparcial compara la variación única de una variable (habiendo eliminado la variación asociada con la (s) variable (s) Z ), con la variación sin filtrar de la otra, mientras que la correlación parcial compara la variación única de una variable con la variación única del otro.

La correlación semi-parcial (o parcial) puede verse como más relevante en la práctica "porque se escala a (es decir, en relación con) la variabilidad total en la variable dependiente (respuesta)". ^[7] Por el contrario, es menos útil teóricamente porque es menos preciso sobre el papel de la contribución única de la variable independiente.

El valor absoluto de la correlación semiparcial de X con Y es siempre menor o igual a la de la correlación parcial de X con Y . La razón es la siguiente: suponga que la correlación de X con Z se ha eliminado de X , dando el vector residual e _x . En el cálculo de la correlación semiparcial, Y todavía contiene tanto varianza única y varianza debido a su asociación con Z . Pero e _x , siendo correlacionado con Z , sólo se puede explicar parte de la única parte de la varianza de Y y no la parte relacionada con Z . En contraste, con la correlación parcial, solo se explica e _y (la parte de la varianza de Y que no está relacionada con Z ), por lo que hay menos varianza del tipo que e _x no puede explicar.

Uso en análisis de series de tiempo

En el análisis de series de tiempo , la función de autocorrelación parcial (a veces "función de correlación parcial") de una serie de tiempo se define, para el rezago h , como

{\ Displaystyle \ varphi (h) = \ rho _ {X_ {0} X_ {h} \, \ cdot \, \ {X_ {1}, \, \ dots \ ,, X_ {h-1} \}} .}

Esta función se utiliza para determinar la longitud de retraso adecuada para una autorregresión .

Ver también

Regresión lineal
Independencia condicional
Correlación múltiple

Referencias

^ a b Baba, Kunihiro; Ritei Shibata; Masaaki Sibuya (2004). "Correlación parcial y correlación condicional como medidas de independencia condicional". Revista de estadísticas de Australia y Nueva Zelanda . 46 (4): 657–664. doi : 10.1111 / j.1467-842X.2004.00360.x .
^ Guilford JP, Fruchter B. (1973). Estadísticas fundamentales en psicología y educación . Tokio: McGraw-Hill Kogakusha, LTD.
^ Rummel, RJ (1976). "Comprensión de la correlación" .
^ Kendall MG, Stuart A. (1973) La teoría avanzada de la estadística , volumen 2 (tercera edición), ISBN 0-85264-215-6 , sección 27.22
^ Fisher, RA (1924). "La distribución del coeficiente de correlación parcial" . Metron . 3 (3–4): 329–332.
^ https://web.archive.org/web/20140206182503/http://luna.cas.usf.edu/~mbrannic/files/regression/Partial.html . Archivado desde el original el 6 de febrero de 2014. Falta o vacío |title=( ayuda )
^ StatSoft, Inc. (2010). "Correlación semiparcial (o parcial)" , Libro de texto de estadística electrónica. Tulsa, OK: StatSoft, consultado el 15 de enero de 2011.

enlaces externos

Prokhorov, AV (2001) [1994], "Coeficiente de correlación parcial" , Enciclopedia de Matemáticas , EMS Press
Fórmulas matemáticas en la sección "Descripción" de la rutina PCORR de la biblioteca numérica de IMSL
Un ejemplo de tres variables

[Baba-1] Baba, Kunihiro; Ritei Shibata; Masaaki Sibuya (2004). "Correlación parcial y correlación condicional como medidas de independencia condicional". Revista de estadísticas de Australia y Nueva Zelanda . 46 (4): 657–664. doi : 10.1111 / j.1467-842X.2004.00360.x .

[2] Guilford JP, Fruchter B. (1973). Estadísticas fundamentales en psicología y educación . Tokio: McGraw-Hill Kogakusha, LTD.

[3] Rummel, RJ (1976). "Comprensión de la correlación" .

[4] Kendall MG, Stuart A. (1973) La teoría avanzada de la estadística , volumen 2 (tercera edición), ISBN 0-85264-215-6 , sección 27.22

[5] Fisher, RA (1924). "La distribución del coeficiente de correlación parcial" . Metron . 3 (3–4): 329–332.

[6] ttps://web.archive.org/web/20140206182503/http://luna.cas.usf.edu/~mbrannic/files/regression/Partial.html . Archivado desde el original el 6 de febrero de 2014. Falta o vacío |title=( ayuda )

[7] StatSoft, Inc. (2010). "Correlación semiparcial (o parcial)" , Libro de texto de estadística electrónica. Tulsa, OK: StatSoft, consultado el 15 de enero de 2011.

[1]