En estadística y en teoría de la probabilidad , la correlación de distancia o la covarianza de distancia es una medida de dependencia entre dos vectores aleatorios emparejados de dimensión arbitraria, no necesariamente igual . El coeficiente de correlación de la distancia de la población es cero si y solo si los vectores aleatorios son independientes . Por lo tanto, la correlación de distancia mide la asociación lineal y no lineal entre dos variables aleatorias o vectores aleatorios. Esto contrasta con la correlación de Pearson , que solo puede detectar una asociación lineal entre dos variables aleatorias .
La correlación de distancia se puede utilizar para realizar una prueba estadística de dependencia con una prueba de permutación . Primero se calcula la correlación de distancia (que implica el re-centrado de matrices de distancia euclidianas) entre dos vectores aleatorios, y luego se compara este valor con las correlaciones de distancia de muchas combinaciones de datos.
Fondo
La medida clásica de dependencia, el coeficiente de correlación de Pearson , [1] es principalmente sensible a una relación lineal entre dos variables. La correlación de distancia fue introducida en 2005 por Gábor J. Székely en varias conferencias para abordar esta deficiencia de la correlación de Pearson , es decir, que puede ser fácilmente cero para las variables dependientes. La correlación = 0 (falta de correlación) no implica independencia, mientras que la correlación de distancia = 0 implica independencia. Los primeros resultados sobre la correlación de la distancia se publicaron en 2007 y 2009. [2] [3] Se demostró que la covarianza de la distancia es la misma que la covarianza browniana. [3] Estas medidas son ejemplos de distancias energéticas .
La correlación distancia se deriva de una serie de otras cantidades que se utilizan en su especificación, específicamente: varianza distancia , desviación estándar distancia , y covarianza distancia . Estas cantidades asumen los mismos roles que los momentos ordinarios con los nombres correspondientes en la especificación del coeficiente de correlación producto-momento de Pearson .
Definiciones
Covarianza de distancia
Comencemos con la definición de la covarianza de la distancia muestral . Sea ( X k , Y k ), k = 1, 2, ..., n una muestra estadística de un par de variables aleatorias de valor real o de valor vectorial ( X , Y ). Primero, calcule las matrices de distancia n por n ( a j , k ) y ( b j , k ) que contienen todas las distancias por pares
donde || ⋅ || denota norma euclidiana . Luego toma todas las distancias doblemente centradas
dónde es la j -ésima fila media,es la media de la k -ésima columna, yes la gran media de la matriz de distancias de la muestra X. La notación es similar para los valores b . (En las matrices de distancias centradas ( A j , k ) y ( B j , k ) todas las filas y todas las columnas suman cero.) La covarianza de la distancia de la muestra al cuadrado (un escalar) es simplemente el promedio aritmético de los productos A j , k B j , k :
El estadístico T n = n dCov 2 n ( X , Y ) determina una prueba multivariada consistente de independencia de vectores aleatorios en dimensiones arbitrarias. Para una aplicación ver dcov.test función en la energía paquete para R . [4]
El valor poblacional de la covarianza de la distancia se puede definir siguiendo las mismas líneas. Sea X una variable aleatoria que toma valores en un espacio euclidiano p -dimensional con distribución de probabilidad μ y sea Y una variable aleatoria que toma valores en un espacio euclidiano q -dimensional con distribución de probabilidad ν , y suponga que X e Y tienen una distribución de probabilidad finita Expectativas. Escribir
Finalmente, defina el valor poblacional de la covarianza de la distancia al cuadrado de X e Y como
Se puede demostrar que esto es equivalente a la siguiente definición:
donde E denota el valor esperado, y y son independientes e idénticamente distribuidos. Las variables aleatorias preparadas y denotar copias independientes e idénticamente distribuidas (iid) de las variables y y son igualmente iid. [5] La covarianza de distancia se puede expresar en términos de la covarianza de Pearson clásica , cov , de la siguiente manera:
Esta identidad muestra que la covarianza de la distancia no es la misma que la covarianza de las distancias, cov (|| X - X ' ||, || Y - Y' || ). Esto puede ser cero incluso si X e Y no son independientes.
Alternativamente, la covarianza de la distancia se puede definir como la norma L 2 ponderada de la distancia entre la función característica conjunta de las variables aleatorias y el producto de sus funciones características marginales: [6]
dónde , , y son las funciones características de ( X , Y ), X e Y , respectivamente, p , q denotan la dimensión euclidiana de X e Y , y por tanto de s y t , y c p , c q son constantes. La función de pesose elige para producir una medida equivariante de escala e invariante de rotación que no llega a cero para las variables dependientes. [6] [7] Una interpretación de la definición de función característica es que las variables ae ISX y ae dad son representaciones cíclicas de X y Y con diferentes períodos dadas por s y t , y la expresión φ X , Y ( s , t ) - ϕ X ( s ) ϕ Y ( t ) en el numerador de la función característica definición de covarianza de distancia es simplemente la covarianza clásica de e isX y e itY . La definición de función característica muestra claramente que dCov 2 ( X , Y ) = 0 si y solo si X e Y son independientes.
Varianza de distancia y desviación estándar de distancia
La varianza de la distancia es un caso especial de covarianza de la distancia cuando las dos variables son idénticas. El valor poblacional de la varianza de la distancia es la raíz cuadrada de
dónde , , y son variables aleatorias independientes e idénticamente distribuidas ,denota el valor esperado , y para la función , p.ej, .
La varianza de la distancia muestral es la raíz cuadrada de
que es un pariente de la diferencia de medias de Corrado Gini introducida en 1912 (pero Gini no trabajó con distancias centradas). [8]
La desviación estándar de la distancia es la raíz cuadrada de la varianza de la distancia .
Correlación de distancia
La correlación de distancia [2] [3] de dos variables aleatorias se obtiene dividiendo su covarianza de distancia por el producto de sus desviaciones estándar de distancia . La correlación de distancia es
y la correlación de la distancia muestral se define sustituyendo la covarianza de la distancia muestral y las varianzas de la distancia por los coeficientes de población anteriores.
Para un fácil cálculo de correlación distancia de muestra ver el décor función en la energía de paquete para R . [4]
Propiedades
Correlación de distancia
- y ; esto contrasta con la correlación de Pearson, que puede ser negativa.
- si y solo si X e Y son independientes.
- implica que las dimensiones de los subespacios lineales abarcados por muestras X e Y respectivamente son casi seguramente iguales y si asumimos que estos subespacios son iguales, entonces en este subespaciopara algunos vector A , escalar b , y matriz ortonormal .
Covarianza de distancia
- y ;
- para todos los vectores constantes , escalares y matrices ortonormales .
- Si los vectores aleatorios y son independientes entonces
- si y solo si X e Y son independientes.
Esta última propiedad es el efecto más importante de trabajar con distancias centradas.
La estadística es un estimador sesgado de . Bajo la independencia de X e Y [9]
Un estimador insesgado de está a cargo de Székely y Rizzo. [10]
Varianza de distancia
- si y solo si casi seguro.
- si y solo si cada observación de la muestra es idéntica.
- para todos los vectores constantes A , escalares by matrices ortonormales.
- Si X e Y son independientes, entonces.
La igualdad se cumple en (iv) si y solo si una de las variables aleatorias X o Y es una constante.
Generalización
La covarianza de distancia se puede generalizar para incluir potencias de distancia euclidiana. Definir
Entonces por cada , y son independientes si y solo si . Es importante notar que esta caracterización no es válida para exponentes; en este caso para bivariante, es una función determinista de la correlación de Pearson. [2] Si y están potencias de las distancias correspondientes, , luego La covarianza de la distancia muestral se puede definir como el número no negativo para el cual
Uno puede extender a variables aleatorias valoradas en el espacio métrico y : Si tiene ley en un espacio métrico con métrico , luego defina , , y (proporcionado es finito, es decir, tiene un primer momento finito), . Entonces sí tiene ley (en un espacio métrico posiblemente diferente con un primer momento finito), defina
Esto no es negativo para todos si ambos espacios métricos tienen tipo negativo. [11] Aquí, un espacio métrico tiene tipo negativo si es isométrica a un subconjunto de un espacio de Hilbert . [12] Si ambos espacios métricos tienen un tipo negativo fuerte, si son independientes. [11]
Definición alternativa de covarianza de distancia
La covarianza de distancia original se ha definido como la raíz cuadrada de, en lugar del propio coeficiente al cuadrado. tiene la propiedad de que es la distancia de energía entre la distribución conjunta dey el producto de sus marginales. Sin embargo, según esta definición, la varianza de la distancia, en lugar de la desviación estándar de la distancia, se mide en las mismas unidades que distancias.
Alternativamente, se podría definir la covarianza de distancia como el cuadrado de la distancia de energía: En este caso, la desviación estándar de distancia de se mide en las mismas unidades que distancia, y existe un estimador insesgado para la covarianza de la distancia de la población. [10]
Bajo estas definiciones alternativas, la correlación de distancia también se define como el cuadrado , en lugar de la raíz cuadrada.
Formulación alternativa: covarianza browniana
La covarianza browniana está motivada por la generalización de la noción de covarianza a procesos estocásticos. El cuadrado de la covarianza de las variables aleatorias X e Y se puede escribir de la siguiente forma:
donde E denota el valor esperado y el primo denota copias independientes e idénticamente distribuidas. Necesitamos la siguiente generalización de esta fórmula. Si U (s), V (t) son procesos aleatorios arbitrarios definidos para todos los syt reales, defina la versión centrada en U de X por
siempre que exista el valor esperado condicional restado y denote por Y V la versión centrada en V de Y. [3] [13] [14] La covarianza (U, V) de (X, Y) se define como el número no negativo cuyo cuadrado es
siempre que el lado derecho sea no negativo y finito. El ejemplo más importante es cuando U y V son movimientos brownianos independientes de dos lados / procesos de Wiener con expectativa cero y covarianza | s | + | t | - | s - t | = 2 min ( s , t ) (solo para s no negativos, t). (Esto es el doble de la covarianza del proceso de Wiener estándar; aquí el factor 2 simplifica los cálculos). En este caso, la covarianza ( U , V ) se llama covarianza browniana y se denota por
Hay una coincidencia sorprendente: la covarianza browniana es la misma que la covarianza de distancia:
y, por tanto, la correlación browniana es lo mismo que la correlación de distancia.
Por otro lado, si reemplazamos el movimiento browniano con la función de identidad determinista id, entonces Cov id ( X , Y ) es simplemente el valor absoluto de la covarianza clásica de Pearson ,
Métricas relacionadas
Otras métricas correlacionales, incluidas las métricas correlacionales basadas en el núcleo (como el criterio de independencia de Hilbert-Schmidt o HSIC) también pueden detectar interacciones lineales y no lineales. Tanto la correlación de distancia como las métricas basadas en el núcleo se pueden utilizar en métodos como el análisis de correlación canónica y el análisis de componentes independientes para producir un poder estadístico más fuerte .
Ver también
- Coeficiente RV
- Para obtener una estadística de tercer orden relacionada, consulte Asimetría de distancia .
Notas
- ^ Error de harvnb de Pearson 1895 : múltiples objetivos (2 ×): CITEREFPearson1895 ( ayuda )
- ^ a b c Székely, Gábor J .; Rizzo, Maria L .; Bakirov, Nail K. (2007). "Medición y comprobación de la independencia por correlación de distancias". The Annals of Statistics . 35 (6): 2769–2794. arXiv : 0803.4101 . doi : 10.1214 / 009053607000000505 . S2CID 5661488 .
- ^ a b c d Székely, Gábor J .; Rizzo, Maria L. (2009). "Covarianza de la distancia browniana" . The Annals of Applied Statistics . 3 (4): 1236–1265. doi : 10.1214 / 09-AOAS312 . PMC 2889501 . PMID 20574547 .
- ^ a b paquete de energía para R
- ^ Székely y Rizzo 2014 , p. 11
- ↑ a b Székely y Rizzo 2009a , p. 1249, Teorema 7, (3.7).
- ^ Székely, Gábor J .; Rizzo, Maria L. (2012). "Sobre la singularidad de la covarianza de distancia". Estadísticas y letras de probabilidad . 82 (12): 2278–2282. doi : 10.1016 / j.spl.2012.08.007 .
- ↑ Gini, 1912
- ^ Székely y Rizzo 2009b
- ^ a b Székely y Rizzo 2014
- ^ a b Lyons, Russell (2014). "Covarianza de distancia en espacios métricos". Los anales de la probabilidad . 41 (5): 3284-3305. arXiv : 1106.5758 . doi : 10.1214 / 12-AOP803 . S2CID 73677891 .
- ^ Klebanov, LB (2005). N -distancias y sus aplicaciones . Karolinum Press , Universidad Charles, Praga.
- ^ Bickel y Xu 2009
- ^ Kosorok 2009
Referencias
- Bickel, Peter J .; Xu, Ying (2009). "Discusión de: covarianza de distancia browniana" . The Annals of Applied Statistics . 3 (4): 1266–1269. doi : 10.1214 / 09-AOAS312A .
- Gini, C. (1912). Variabilità e Mutabilità . Bolonia: Tipografia di Paolo Cuppini. Bibcode : 1912vamu.book ..... G .
- Kosorok, Michael R. (2009). "Discusión de: covarianza de distancia browniana". The Annals of Applied Statistics . 3 (4): 1270–1278. arXiv : 1010.0822 . doi : 10.1214 / 09-AOAS312B . S2CID 88518490 .
- Pearson, K. (1895). "Nota sobre regresión y herencia en el caso de dos padres". Actas de la Royal Society . 58 : 240–242. Código Bibliográfico : 1895RSPS ... 58..240P .
- Pearson, K. (1895). "Notas sobre la historia de la correlación" . Biometrika . 13 : 25–45. doi : 10.1093 / biomet / 13.1.25 .
- Székely, Gábor J .; Rizzo, Maria L. (2009a). "Covarianza de la distancia browniana" . The Annals of Applied Statistics . 3 (4): 1236–1265. doi : 10.1214 / 09-AOAS312 . PMC 2889501 . PMID 20574547 .
- Székely, Gábor J .; Rizzo, Maria L. (2009b). "Dúplica: covarianza de distancia browniana" . The Annals of Applied Statistics . 3 (4): 1303–1308. doi : 10.1214 / 09-AOAS312REJ .
- Székely, Gabor J .; Rizzo, Maria L. (2014). "Correlación de distancia parcial con métodos para diferencias". The Annals of Statistics . 42 (6): 2382–2412. arXiv : 1310.2926 . Código Bibliográfico : 2014arXiv1310.2926S . doi : 10.1214 / 14-AOS1255 . S2CID 55801702 .
enlaces externos
- Estadísticas electrónicas (estadísticas de energía)