En estadística , el análisis de correlación canónica ( CCA ), también llamado análisis de variables canónicas , es una forma de inferir información a partir de matrices de covarianza cruzada . Si tenemos dos vectores X = ( X 1 , ..., X n ) e Y = ( Y 1 , ..., Y m ) de variables aleatorias , y hay correlaciones entre las variables, entonces el análisis de correlación canónica encontrar combinaciones lineales de X e Yque tienen máxima correlación entre sí. [1] TR Knapp señala que "prácticamente todas las pruebas paramétricas de significancia que se encuentran comúnmente pueden tratarse como casos especiales de análisis de correlación canónica, que es el procedimiento general para investigar las relaciones entre dos conjuntos de variables". [2] El método fue introducido por primera vez por Harold Hotelling en 1936, [3] aunque en el contexto de los ángulos entre planos, el concepto matemático fue publicado por Jordan en 1875. [4]
Definición
Dados dos vectores de columna y de variables aleatorias con segundos momentos finitos , se puede definir la covarianza cruzada ser el matriz cuyala entrada es la covarianza . En la práctica, estimaríamos la matriz de covarianza basada en datos muestreados de y (es decir, de un par de matrices de datos).
El análisis de correlación canónica busca vectores () y () tal que las variables aleatorias y maximizar la correlación . Las variables aleatorias y son el primer par de variables canónicas . Luego, se buscan vectores que maximizan la misma correlación sujeto a la restricción de que no deben estar correlacionados con el primer par de variables canónicas; esto da el segundo par de variables canónicas . Este procedimiento puede continuar hasta veces.
Cálculo
Derivación
Dejar ser la matriz de covarianza cruzada para cualquier variable aleatoria y . El parámetro a maximizar es
El primer paso es definir un cambio de base y definir
Y asi tenemos
Por la desigualdad de Cauchy-Schwarz , tenemos
Hay igualdad si los vectores y son colineales. Además, el máximo de correlación se alcanza sies el vector propio con el valor propio máximo para la matriz(ver cociente de Rayleigh ). Los pares subsiguientes se encuentran utilizando valores propios de magnitudes decrecientes. La ortogonalidad está garantizada por la simetría de las matrices de correlación.
Otra forma de ver este cálculo es que y son los vectores singulares izquierdo y derecho de la matriz de correlación de X e Y correspondientes al valor singular más alto.
Solución
Por tanto, la solución es:
- es un vector propio de
- es proporcional a
Recíprocamente, también hay:
- es un vector propio de
- es proporcional a
Invirtiendo el cambio de coordenadas, tenemos que
- es un vector propio de ,
- es proporcional a
- es un vector propio de
- es proporcional a .
Las variables canónicas están definidas por:
Implementación
El CCA se puede calcular utilizando la descomposición de valores singulares en una matriz de correlación. [5] Está disponible como una función en [6]
- MATLAB como canoncorr ( también en octava )
- R como función estándar cancor y varios otros paquetes, incluidos CCA y vegan . CCP para pruebas de hipótesis estadísticas en análisis de correlación canónica.
- SAS como proc cancorr
- Python en la biblioteca scikit-learn , como descomposición cruzada y en statsmodels , como CanCorr .
- SPSS como macro CanCorr enviado con el software principal
- Julia (lenguaje de programación) en el paquete MultivariateStats.jl .
El cálculo de CCA mediante la descomposición de valores singulares en una matriz de correlación está relacionado con el coseno de los ángulos entre planos . La función coseno está mal acondicionada para ángulos pequeños, lo que lleva a un cálculo muy inexacto de vectores principales altamente correlacionados en aritmética informática de precisión finita . Para solucionar este problema , hay algoritmos alternativos [7] disponibles en
- SciPy como función de álgebra lineal subspace_angles
- MATLAB como subespacio de la función FileExchangea
Evaluación de la hipótesis
Se puede probar la importancia de cada fila con el siguiente método. Dado que las correlaciones están ordenadas, decir esa filaes cero implica que todas las correlaciones adicionales también son cero. Si tenemos observaciones independientes en una muestra y es la correlación estimada para . Para elen la fila, la estadística de prueba es:
que se distribuye asintóticamente como un chi-cuadrado con grados de libertad para grandes. [8] Dado que todas las correlaciones de a son lógicamente cero (y se estiman de esa manera también), el producto de los términos posteriores a este punto es irrelevante.
Tenga en cuenta que en el límite de tamaño de muestra pequeño con entonces tenemos la garantía de que la parte superior las correlaciones serán idénticamente 1 y, por lo tanto, la prueba no tiene sentido. [9]
Usos practicos
Un uso típico de la correlación canónica en el contexto experimental es tomar dos conjuntos de variables y ver qué es común entre los dos conjuntos. [10] Por ejemplo, en las pruebas psicológicas, uno podría tomar dos pruebas de personalidad multidimensionales bien establecidas , como el Inventario de Personalidad Multifásico de Minnesota (MMPI-2) y el NEO . Al ver cómo los factores del MMPI-2 se relacionan con los factores NEO, se podría obtener una idea de qué dimensiones eran comunes entre las pruebas y cuánta varianza se compartía. Por ejemplo, uno podría encontrar que una dimensión de extraversión o neuroticismo explicara una cantidad sustancial de varianza compartida entre las dos pruebas.
También se puede utilizar el análisis de correlación canónica para producir una ecuación modelo que relacione dos conjuntos de variables, por ejemplo, un conjunto de medidas de desempeño y un conjunto de variables explicativas, o un conjunto de salidas y un conjunto de entradas. Se pueden imponer restricciones a un modelo de este tipo para garantizar que refleje requisitos teóricos o condiciones intuitivamente obvias. Este tipo de modelo se conoce como modelo de máxima correlación. [11]
La visualización de los resultados de la correlación canónica suele realizarse mediante gráficos de barras de los coeficientes de los dos conjuntos de variables para los pares de variables canónicas que muestran una correlación significativa. Algunos autores sugieren que se visualizan mejor trazándolos como heliógrafos, un formato circular con barras en forma de rayos, donde cada mitad representa los dos conjuntos de variables. [12]
Ejemplos de
Dejar con valor esperado cero , es decir,. Si, es decir, y están perfectamente correlacionados, entonces, por ejemplo, y , de modo que el primer (y único en este ejemplo) par de variables canónicas es y . Si, es decir, y están perfectamente anticorrelacionados, entonces, por ejemplo, y , de modo que el primer (y único en este ejemplo) par de variables canónicas es y . Notamos que en ambos casos, lo que ilustra que el análisis de correlación canónica trata de manera similar las variables correlacionadas y anticorrelacionadas.
Conexión a ángulos principales
Asumiendo que y tienen valores esperados cero , es decir,, sus matrices de covarianza y pueden verse como matrices de Gram en un producto interno para las entradas de y , correspondientemente. En esta interpretación, las variables aleatorias, entradas de y de se tratan como elementos de un espacio vectorial con un producto interno dado por la covarianza ; ver Covarianza # Relación con productos internos .
La definición de las variables canónicas y es entonces equivalente a la definición de vectores principales para el par de subespacios abarcados por las entradas de y con respecto a este producto interior . Las correlaciones canónicases igual al coseno de los ángulos principales .
Blanqueamiento y análisis de correlación canónica probabilística
CCA también se puede ver como una transformación blanqueadora especial donde los vectores aleatorios y se transforman simultáneamente de tal manera que la correlación cruzada entre los vectores blanqueados y es diagonal. [13] Las correlaciones canónicas se interpretan luego como coeficientes de regresión que vinculan y y también puede ser negativo. La vista de regresión de CCA también proporciona una forma de construir un modelo generativo probabilístico de variable latente para CCA, con variables ocultas no correlacionadas que representan la variabilidad compartida y no compartida.
Ver también
- Correlación canónica generalizada
- Aprendizaje subespacial multilineal
- Coeficiente RV
- Ángulos entre planos
- Análisis de componentes principales
- Análisis discriminante lineal
- Análisis de correlación canónica regularizado
- Valor singular de descomposición
- Regresión de mínimos cuadrados parciales
Referencias
- ^ Härdle, Wolfgang; Simar, Léopold (2007). "Análisis de correlación canónica". Análisis estadístico multivariado aplicado . págs. 321–330. CiteSeerX 10.1.1.324.403 . doi : 10.1007 / 978-3-540-72244-1_14 . ISBN 978-3-540-72243-4.
- ^ Knapp, TR (1978). "Análisis de correlación canónica: un sistema de prueba de significación paramétrica general". Boletín psicológico . 85 (2): 410–416. doi : 10.1037 / 0033-2909.85.2.410 .
- ^ Hotelling, H. (1936). "Relaciones entre dos conjuntos de variables". Biometrika . 28 (3–4): 321–377. doi : 10.1093 / biomet / 28.3-4.321 . JSTOR 2333955 .
- ^ Jordan, C. (1875). "Essai sur la géométrie à norte {\ Displaystyle n} dimensiones " . Bull. Soc. Math. France . 3 : 103.
- ^ Hsu, D .; Kakade, SM; Zhang, T. (2012). "Un algoritmo espectral para el aprendizaje de modelos ocultos de Markov" (PDF) . Revista de Ciencias de la Computación y Sistemas . 78 (5): 1460. arXiv : 0811.4413 . doi : 10.1016 / j.jcss.2011.12.025 .
- ^ Huang, SY; Lee, MH; Hsiao, CK (2009). "Medidas no lineales de asociación con aplicaciones y análisis de correlación canónica del núcleo" (PDF) . Revista de Planificación e Inferencia Estadística . 139 (7): 2162. doi : 10.1016 / j.jspi.2008.10.011 .
- ^ Knyazev, AV; Argentati, ME (2002), "Ángulos principales entre subespacios en un producto escalar basado en A: algoritmos y estimaciones de perturbación", SIAM Journal on Scientific Computing , 23 (6): 2009-2041, CiteSeerX 10.1.1.73.2914 , doi : 10.1137 / S1064827500377332
- ^ Kanti V. Mardia , JT Kent y JM Bibby (1979). Análisis multivariado . Prensa académica .
- ^ Yang Song, Peter J. Schreier, David Ram´ırez y Tanuj Hasija Análisis de correlación canónica de datos de alta dimensión con soporte de muestra muy pequeño arXiv : 1604.02047
- ^ Sieranoja, S .; Sahidullah, Md; Kinnunen, T .; Komulainen, J .; Hadid, A. (julio de 2018). "Detección de sincronía audiovisual con funciones de audio optimizadas" (PDF) . IEEE 3rd Int. Conferencia sobre Procesamiento de Señales e Imágenes (ICSIP 2018) .
- ^ Tofallis, C. (1999). "Construcción de modelos con restricciones y variables dependientes múltiples". Revista de la Sociedad Real de Estadística, Serie D . 48 (3): 371–378. arXiv : 1109.0725 . doi : 10.1111 / 1467-9884.00195 .
- ^ Degani, A .; Shafto, M .; Olson, L. (2006). "Análisis de correlación canónica: uso de heliografías compuestas para representar múltiples patrones" (PDF) . Representación e inferencia esquemática . Apuntes de conferencias en Ciencias de la Computación. 4045 . pag. 93. CiteSeerX 10.1.1.538.5217 . doi : 10.1007 / 11783183_11 . ISBN 978-3-540-35623-3.
- ^ Jendoubi, T .; Strimmer, K. (2018). "Un enfoque de blanqueamiento para el análisis de correlación canónica probabilística para la integración de datos ómicos" . BMC Bioinformática . 20 (1): 15. arXiv : 1802.03490 . doi : 10.1186 / s12859-018-2572-9 . PMC 6327589 . PMID 30626338 .
enlaces externos
- Análisis de correlación discriminante (DCA) [1] ( MATLAB )
- Hardoon, DR; Szedmak, S .; Shawe-Taylor, J. (2004). "Análisis de correlación canónica: una descripción general con aplicación a los métodos de aprendizaje". Computación neuronal . 16 (12): 2639–2664. CiteSeerX 10.1.1.14.6452 . doi : 10.1162 / 0899766042321814 . PMID 15516276 .
- Una nota sobre el análisis de correlación canónica ordinal de dos conjuntos de puntajes de clasificación (también proporciona un programa FORTRAN ) - en Journal of Quantitative Economics 7 (2), 2009, págs. 173–199
- Análisis de correlación canónica restringida por representación: una hibridación de correlación canónica y análisis de componentes principales (también proporciona un programa FORTRAN ) - en Journal of Applied Economic Sciences 4 (1), 2009, págs. 115-124
- ^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Análisis de correlación discriminante: fusión de nivel de característica en tiempo real para el reconocimiento biométrico multimodal" . Transacciones IEEE sobre seguridad y análisis forense de la información . 11 (9): 1984–1996. doi : 10.1109 / TIFS.2016.2569061 .