Análisis de componentes principales


Los componentes principales de una colección de puntos en un espacio de coordenadas real son una secuencia de vectores unitarios , donde el -ésimo vector es la dirección de una línea que se ajusta mejor a los datos mientras es ortogonal a los primeros vectores. Aquí, una línea de mejor ajuste se define como aquella que minimiza la distancia cuadrática promedio de los puntos a la línea . Estas direcciones constituyen una base ortonormal en la que las diferentes dimensiones individuales de los datos no están correlacionadas linealmente . Análisis de componentes principales ( PCA ) es el proceso de calcular los componentes principales y usarlos para realizar un cambio de base en los datos, a veces usando solo los primeros componentes principales e ignorando el resto.

El PCA se utiliza en análisis de datos exploratorios y para hacer modelos predictivos . Se usa comúnmente para la reducción de dimensionalidad al proyectar cada punto de datos solo en los primeros componentes principales para obtener datos de menor dimensión mientras se conserva la mayor cantidad posible de variación de los datos. El primer componente principal se puede definir de manera equivalente como una dirección que maximiza la varianza de los datos proyectados. El -ésimo componente principal se puede tomar como una dirección ortogonal a los primeros componentes principales que maximiza la varianza de los datos proyectados.

A partir de cualquier objetivo, se puede demostrar que los componentes principales son vectores propios de la matriz de covarianza de los datos . Por lo tanto, los componentes principales a menudo se calculan mediante la descomposición propia de la matriz de covarianza de datos o la descomposición de valores singulares de la matriz de datos. El PCA es el más simple de los verdaderos análisis multivariados basados ​​en vectores propios y está estrechamente relacionado con el análisis factorial . El análisis factorial típicamente incorpora supuestos más específicos de dominio sobre la estructura subyacente y resuelve vectores propios de una matriz ligeramente diferente. El PCA también está relacionado con el análisis de correlación canónica (CCA) . CCA define sistemas de coordenadas que describen de manera óptima la covarianza cruzadaentre dos conjuntos de datos, mientras que PCA define un nuevo sistema de coordenadas ortogonales que describe de manera óptima la varianza en un único conjunto de datos. [1] [2] [3] [4] También se han propuesto variantes robustas y basadas en la norma L1 del PCA estándar. [5] [6] [4]

El PCA fue inventado en 1901 por Karl Pearson , [7] como análogo del teorema del eje principal en mecánica; Más tarde fue desarrollado de forma independiente y nombrado por Harold Hotelling en la década de 1930. [8] Dependiendo del campo de aplicación, también se denomina transformada discreta de Karhunen-Loève (KLT) en el procesamiento de señales , transformada de Hotelling en el control de calidad multivariante, descomposición ortogonal adecuada (POD) en ingeniería mecánica, descomposición de valor singular (SVD ) de X (inventado en el último cuarto del siglo XIX [9] ),Descomposición de valores propios (EVD) de X T X en álgebra lineal, análisis factorial (para una discusión de las diferencias entre PCA y análisis factorial, consulte el Capítulo 7 del Análisis de componentes principales de Jolliffe ), [10] Teorema de Eckart-Young (Harman, 1960) , o funciones ortogonales empíricas (EOF) en la ciencia meteorológica, empírica función propia descomposición (Sirovich, 1987), análisis de componentes empírica (Lorenz, 1956), los modos de quasiharmonic (Brooks et al., 1988), descomposición espectral en el ruido y la vibración, y empírica análisis modal en dinámica estructural.

Se puede pensar que el PCA ajusta un elipsoide p- dimensional a los datos, donde cada eje del elipsoide representa un componente principal. Si algún eje del elipsoide es pequeño, entonces la varianza a lo largo de ese eje también es pequeña.


PCA de una distribución gaussiana multivariante centrada en (1,3) con una desviación estándar de 3 aproximadamente en la dirección (0,866, 0,5) y de 1 en la dirección ortogonal. Los vectores que se muestran son los vectores propios de la matriz de covarianza escalados por la raíz cuadrada del valor propio correspondiente, y desplazados para que sus colas estén en la media.
Un diagrama de dispersión de análisis de componentes principales de haplotipos Y-STR calculado a partir de valores de recuento repetido para 37 marcadores STR del cromosoma Y de 354 individuos. PCA ha encontrado con éxito combinaciones lineales de los marcadores que separan diferentes grupos correspondientes a diferentes líneas de descendencia genética del cromosoma Y de los individuos.
Gráficos de varianza residual fraccional (FRV) para PCA y NMF; [22] para PCA, los valores teóricos son la contribución de los valores propios residuales. En comparación, las curvas FRV para PCA alcanzan una meseta plana donde ninguna señal se captura de manera efectiva; mientras que las curvas NMF FRV están disminuyendo continuamente, lo que indica una mejor capacidad para capturar la señal. Las curvas de FRV para NMF también convergen a niveles más altos que PCA, lo que indica la propiedad de NMF de menos sobreajuste.
Iconografía de correlaciones - Geoquímica de aerosoles marinos
PCA lineal versus colectores principales no lineales [63] para la visualización de datos de microarrays de cáncer de mama : a) Configuración de nodos y superficie principal 2D en el colector lineal 3D PCA. El conjunto de datos es curvo y no se puede mapear adecuadamente en un plano principal 2D; b) La distribución en las coordenadas internas de la superficie principal no lineal 2D (ELMap2D) junto con una estimación de la densidad de puntos; c) Lo mismo que b), pero para el distribuidor lineal 2D PCA (PCA2D). El subtipo de cáncer de mama "basal" se visualiza de forma más adecuada con ELMap2D y algunas características de la distribución se resuelven mejor en comparación con PCA2D. Las variedades principales son producidas por los mapas elásticos.algoritmo. Los datos están disponibles para concurso público. [64] El software está disponible para uso no comercial gratuito. [sesenta y cinco]