Los componentes principales de una colección de puntos en un espacio de coordenadas real son una secuencia de vectores unitarios , donde el -ésimo vector es la dirección de una línea que se ajusta mejor a los datos mientras es ortogonal a los primeros vectores. Aquí, una línea de mejor ajuste se define como aquella que minimiza la distancia cuadrática promedio de los puntos a la línea . Estas direcciones constituyen una base ortonormal en la que las diferentes dimensiones individuales de los datos no están correlacionadas linealmente . Análisis de componentes principales ( PCA ) es el proceso de calcular los componentes principales y usarlos para realizar un cambio de base en los datos, a veces usando solo los primeros componentes principales e ignorando el resto.
El PCA se utiliza en análisis de datos exploratorios y para hacer modelos predictivos . Se usa comúnmente para la reducción de dimensionalidad al proyectar cada punto de datos solo en los primeros componentes principales para obtener datos de menor dimensión mientras se conserva la mayor cantidad posible de variación de los datos. El primer componente principal se puede definir de manera equivalente como una dirección que maximiza la varianza de los datos proyectados. El -ésimo componente principal se puede tomar como una dirección ortogonal a los primeros componentes principales que maximiza la varianza de los datos proyectados.
A partir de cualquier objetivo, se puede demostrar que los componentes principales son vectores propios de la matriz de covarianza de los datos . Por lo tanto, los componentes principales a menudo se calculan mediante la descomposición propia de la matriz de covarianza de datos o la descomposición de valores singulares de la matriz de datos. El PCA es el más simple de los verdaderos análisis multivariados basados en vectores propios y está estrechamente relacionado con el análisis factorial . El análisis factorial típicamente incorpora supuestos más específicos de dominio sobre la estructura subyacente y resuelve vectores propios de una matriz ligeramente diferente. El PCA también está relacionado con el análisis de correlación canónica (CCA) . CCA define sistemas de coordenadas que describen de manera óptima la covarianza cruzadaentre dos conjuntos de datos, mientras que PCA define un nuevo sistema de coordenadas ortogonales que describe de manera óptima la varianza en un único conjunto de datos. [1] [2] [3] [4] También se han propuesto variantes robustas y basadas en la norma L1 del PCA estándar. [5] [6] [4]
El PCA fue inventado en 1901 por Karl Pearson , [7] como análogo del teorema del eje principal en mecánica; Más tarde fue desarrollado de forma independiente y nombrado por Harold Hotelling en la década de 1930. [8] Dependiendo del campo de aplicación, también se denomina transformada discreta de Karhunen-Loève (KLT) en el procesamiento de señales , transformada de Hotelling en el control de calidad multivariante, descomposición ortogonal adecuada (POD) en ingeniería mecánica, descomposición de valor singular (SVD ) de X (inventado en el último cuarto del siglo XIX [9] ),Descomposición de valores propios (EVD) de X T X en álgebra lineal, análisis factorial (para una discusión de las diferencias entre PCA y análisis factorial, consulte el Capítulo 7 del Análisis de componentes principales de Jolliffe ), [10] Teorema de Eckart-Young (Harman, 1960) , o funciones ortogonales empíricas (EOF) en la ciencia meteorológica, empírica función propia descomposición (Sirovich, 1987), análisis de componentes empírica (Lorenz, 1956), los modos de quasiharmonic (Brooks et al., 1988), descomposición espectral en el ruido y la vibración, y empírica análisis modal en dinámica estructural.
Se puede pensar que el PCA ajusta un elipsoide p- dimensional a los datos, donde cada eje del elipsoide representa un componente principal. Si algún eje del elipsoide es pequeño, entonces la varianza a lo largo de ese eje también es pequeña.