Análisis de componentes principales

PCA de una distribución gaussiana multivariante centrada en (1,3) con una desviación estándar de 3 aproximadamente en la dirección (0,866, 0,5) y de 1 en la dirección ortogonal. Los vectores que se muestran son los autovectores de la matriz de covarianza escalados por la raíz cuadrada del autovalor correspondiente, y desplazados para que sus colas estén en la media.

Los componentes principales de una colección de puntos en un espacio de coordenadas real son una secuencia de vectores unitarios , donde el vector es la dirección de una línea que se ajusta mejor a los datos mientras es ortogonal a los primeros vectores. Aquí, una línea de mejor ajuste se define como aquella que minimiza la distancia cuadrática promedio de los puntos a la línea . Estas direcciones constituyen una base ortonormal en la que las diferentes dimensiones individuales de los datos no están correlacionadas linealmente . El análisis de componentes principales ( PCA ) es el proceso de calcular los componentes principales y usarlos para realizar una $p$ $i^{\text{th}}$ $i-1$ cambio de base en los datos, a veces utilizando solo los primeros componentes principales e ignorando el resto.

El PCA se utiliza en análisis de datos exploratorios y para hacer modelos predictivos . Se usa comúnmente para la reducción de dimensionalidad al proyectar cada punto de datos solo en los primeros componentes principales para obtener datos de menor dimensión mientras se conserva la mayor cantidad posible de variación de los datos. El primer componente principal se puede definir de manera equivalente como una dirección que maximiza la varianza de los datos proyectados. El componente principal puede tomarse como una dirección ortogonal a los primeros componentes principales que maximiza la varianza de los datos proyectados. $i^{\text{th}}$ $i-1$

A partir de cualquier objetivo, se puede demostrar que los componentes principales son vectores propios de la matriz de covarianza de los datos . Por lo tanto, los componentes principales a menudo se calculan mediante la descomposición propia de la matriz de covarianza de datos o la descomposición de valores singulares de la matriz de datos. El PCA es el más simple de los verdaderos análisis multivariados basados en vectores propios y está estrechamente relacionado con el análisis factorial . El análisis factorial típicamente incorpora supuestos más específicos de dominio sobre la estructura subyacente y resuelve autovectores de una matriz ligeramente diferente. El PCA también está relacionado con el análisis de correlación canónica (CCA) . CCA define sistemas de coordenadas que describen de manera óptima la covarianza cruzadaentre dos conjuntos de datos, mientras que PCA define un nuevo sistema de coordenadas ortogonales que describe de manera óptima la varianza en un único conjunto de datos. ^[1]^[2]^[3]^[4] También se han propuesto variantes robustas y basadas en la norma L1 del PCA estándar. ^[5]^[6]^[4]

Historia [ editar ]

El PCA fue inventado en 1901 por Karl Pearson , ^[7] como análogo del teorema del eje principal en mecánica; Más tarde fue desarrollado de forma independiente y nombrado por Harold Hotelling en la década de 1930. ^[8] Dependiendo del campo de aplicación, también se denomina transformada discreta de Karhunen-Loève (KLT) en el procesamiento de señales , transformada de Hotelling en el control de calidad multivariante, descomposición ortogonal adecuada (POD) en ingeniería mecánica, descomposición de valor singular (SVD ) de X (inventado en el último cuarto del siglo XIX ^[9] ),Descomposición de valores propios (EVD) de X ^TX en álgebra lineal, análisis factorial (para una discusión de las diferencias entre PCA y análisis factorial, véase el Capítulo 7 del Análisis de componentes principales de Jolliffe ), ^[10] Teorema de Eckart-Young (Harman, 1960) , o funciones ortogonales empíricas (EOF) en la ciencia meteorológica, empírica función propia descomposición (Sirovich, 1987), análisis de componentes empírica (Lorenz, 1956), los modos de quasiharmonic (Brooks et al., 1988), descomposición espectral en el ruido y la vibración, y empírica análisis modal en dinámica estructural.

Intuición [ editar ]

Se puede pensar que el PCA ajusta un elipsoide p- dimensional a los datos, donde cada eje del elipsoide representa un componente principal. Si algún eje del elipsoide es pequeño, entonces la varianza a lo largo de ese eje también es pequeña.

Para encontrar los ejes del elipsoide, primero debemos restar la media de cada variable del conjunto de datos para centrar los datos alrededor del origen. Luego, calculamos la matriz de covarianzade los datos y calcular los valores propios y los vectores propios correspondientes de esta matriz de covarianza. Luego debemos normalizar cada uno de los autovectores ortogonales para convertirlos en vectores unitarios. Una vez hecho esto, cada uno de los vectores propios unitarios mutuamente ortogonales se puede interpretar como un eje del elipsoide ajustado a los datos. Esta elección de base transformará nuestra matriz de covarianza en una forma diagonalizada con los elementos diagonales que representan la varianza de cada eje. La proporción de la varianza que representa cada vector propio se puede calcular dividiendo el valor propio correspondiente a ese vector propio por la suma de todos los valores propios.

Detalles [ editar ]

PCA se define como una transformación lineal ortogonal que transforma los datos en un nuevo sistema de coordenadas de modo que la mayor varianza por alguna proyección escalar de los datos llega a encontrarse en la primera coordenada (llamada el primer componente principal), la segunda mayor varianza en el segunda coordenada, y así sucesivamente. ^[10]^[^{página necesaria}^]

Considere una matriz de datos , X , con una media empírica cero en columnas (la media muestral de cada columna se ha cambiado a cero), donde cada una de las n filas representa una repetición diferente del experimento, y cada una de las p columnas da una tipo particular de característica (digamos, los resultados de un sensor en particular). $n\times p$

Matemáticamente, la transformación se define por un conjunto de tamaños de vectores p -dimensionales de pesos o coeficientes que mapean cada vector de fila de X a un nuevo vector de puntajes de componentes principales , dado por $l$ $\mathbf {w} _{(k)}=(w_{1},\dots ,w_{p})_{(k)}$ $\mathbf {x} _{(i)}$ $\mathbf {t} _{(i)}=(t_{1},\dots ,t_{l})_{(i)}$

{t_{k}}_{(i)}=\mathbf {x} _{(i)}\cdot \mathbf {w} _{(k)}\qquad \mathrm {for} \qquad i=1,\dots ,n\qquad k=1,\dots ,l

de tal manera que las variables individuales de t consideradas sobre el conjunto de datos hereden sucesivamente la varianza máxima posible de X , con cada vector de coeficiente w restringido a ser un vector unitario (donde generalmente se selecciona para ser menor que para reducir la dimensionalidad). $t_{1},\dots ,t_{l}$ $l$ $p$

Primer componente [ editar ]

Para maximizar la varianza, el primer vector de peso w ₍₁₎ tiene que satisfacer

\mathbf {w} _{(1)}=\arg \max _{\Vert \mathbf {w} \Vert =1}\,\left\{\sum _{i}(t_{1})_{(i)}^{2}\right\}=\arg \max _{\Vert \mathbf {w} \Vert =1}\,\left\{\sum _{i}\left(\mathbf {x} _{(i)}\cdot \mathbf {w} \right)^{2}\right\}

De manera equivalente, escribir esto en forma de matriz da

\mathbf {w} _{(1)}=\arg \max _{\Vert \mathbf {w} \Vert =1}\{\Vert \mathbf {Xw} \Vert ^{2}\}=\arg \max _{\Vert \mathbf {w} \Vert =1}\,\left\{\mathbf {w} ^{T}\mathbf {X^{T}} \mathbf {Xw} \right\}

Dado que w ₍₁₎ se ha definido como un vector unitario, de manera equivalente también satisface

\mathbf {w} _{(1)}={\operatorname {\arg \,max} }\,\left\{{\frac {\mathbf {w} ^{T}\mathbf {X^{T}} \mathbf {Xw} }{\mathbf {w} ^{T}\mathbf {w} }}\right\}

La cantidad a maximizar se puede reconocer como un cociente de Rayleigh . Un resultado estándar para una matriz semidefinida positiva como X ^TX es que el valor máximo posible del cociente es el valor propio más grande de la matriz, lo que ocurre cuando w es el vector propio correspondiente .

Con w ₍₁₎ encontrado, el primer componente principal de un vector de datos x _{( i )} se puede dar como una puntuación t _{1 ( i )} = x _{( i )} ⋅ w ₍₁₎ en las coordenadas transformadas, o como el vector correspondiente en las variables originales, { x _{( i )} ⋅ w ₍₁₎ } w ₍₁₎ .

Otros componentes [ editar ]

El k- ésimo componente se puede encontrar restando los primeros k - 1 componentes principales de X :

\mathbf {\hat {X}} _{k}=\mathbf {X} -\sum _{s=1}^{k-1}\mathbf {X} \mathbf {w} _{(s)}\mathbf {w} _{(s)}^{\rm {T}}

y luego encontrar el vector de peso que extrae la varianza máxima de esta nueva matriz de datos

\mathbf {w} _{(k)}={\underset {\Vert \mathbf {w} \Vert =1}{\operatorname {arg\,max} }}\left\{\Vert \mathbf {\hat {X}} _{k}\mathbf {w} \Vert ^{2}\right\}={\operatorname {\arg \,max} }\,\left\{{\tfrac {\mathbf {w} ^{T}\mathbf {\hat {X}} _{k}^{T}\mathbf {\hat {X}} _{k}\mathbf {w} }{\mathbf {w} ^{T}\mathbf {w} }}\right\}

Resulta que esto da los vectores propios restantes de X ^TX , con los valores máximos para la cantidad entre paréntesis dados por sus valores propios correspondientes. Así, los vectores de ponderación son vectores propios de X ^TX .

Por lo tanto, el k- ésimo componente principal de un vector de datos x _{( i )} se puede dar como una puntuación t _{k ( i )} = x _{( i )} ⋅ w _{( k )} en las coordenadas transformadas, o como el vector correspondiente en el espacio de las variables originales, { x _{( i )} ⋅ w _{( k )} } w _{( k )} , donde w _{( k )} es el késimo vector propio de X ^TX .

Por lo tanto, la descomposición completa de los componentes principales de X se puede dar como

\mathbf {T} =\mathbf {X} \mathbf {W}

donde W es un p -by- p matriz de pesos cuyas columnas son los vectores propios de X ^TX . La transposición de W a veces se denomina transformación blanqueadora o esférica . Las columnas de W multiplicadas por la raíz cuadrada de los valores propios correspondientes, es decir, los vectores propios escalados por las varianzas, se denominan cargas en PCA o en el análisis factorial.

Covarianzas [ editar ]

X ^TX en sí mismo puede ser reconocido como proporcional a la muestra empírica matriz de covarianza del conjunto de datos X ^T . ^[10]^{: 30–31}

La covarianza muestral Q entre dos de los diferentes componentes principales del conjunto de datos viene dada por:

{\begin{aligned}Q(\mathrm {PC} _{(j)},\mathrm {PC} _{(k)})&\propto (\mathbf {X} \mathbf {w} _{(j)})^{T}(\mathbf {X} \mathbf {w} _{(k)})\\&=\mathbf {w} _{(j)}^{T}\mathbf {X} ^{T}\mathbf {X} \mathbf {w} _{(k)}\\&=\mathbf {w} _{(j)}^{T}\lambda _{(k)}\mathbf {w} _{(k)}\\&=\lambda _{(k)}\mathbf {w} _{(j)}^{T}\mathbf {w} _{(k)}\end{aligned}}

donde la propiedad valor propio de w _{( k )} se ha utilizado para pasar de la línea 2 a la línea 3. Sin embargo vectores propios v _{( j )} y w _{( k )} correspondiente a los valores propios de una matriz simétrica son ortogonales (si los valores propios son diferentes), o se puede ortogonalizar (si los vectores comparten un valor repetido igual). Por tanto, el producto de la línea final es cero; no hay covarianza de muestra entre diferentes componentes principales en el conjunto de datos.

Otra forma de caracterizar la transformación de componentes principales es, por tanto, como la transformación a coordenadas que diagonalizan la matriz de covarianza muestral empírica.

En forma de matriz, la matriz de covarianza empírica para las variables originales se puede escribir

\mathbf {Q} \propto \mathbf {X} ^{T}\mathbf {X} =\mathbf {W} \mathbf {\Lambda } \mathbf {W} ^{T}

La matriz de covarianza empírica entre los componentes principales se convierte en

\mathbf {W} ^{T}\mathbf {Q} \mathbf {W} \propto \mathbf {W} ^{T}\mathbf {W} \,\mathbf {\Lambda } \,\mathbf {W} ^{T}\mathbf {W} =\mathbf {\Lambda }

donde Λ es la matriz diagonal de valores propios lambda _{( k )} de X ^TX . λ _(k) es igual a la suma de los cuadrados sobre el conjunto de datos asociado con cada componente k , es decir, λ _{( k )} = Σ _i t _k²_{( i )} = Σ _i ( x _{( i )} ⋅ w _{( k )} ) ² .

Reducción de dimensionalidad [ editar ]

La transformación T = X W mapea un vector de datos x _{( i )} desde un espacio original de p variables a un nuevo espacio de p variables que no están correlacionadas con el conjunto de datos. Sin embargo, no es necesario conservar todos los componentes principales. Mantener solo los primeros L componentes principales, producidos utilizando solo los primeros L autovectores, da la transformación truncada

\mathbf {T} _{L}=\mathbf {X} \mathbf {W} _{L}

donde la matriz T _L ahora tiene n filas pero solo L columnas. En otras palabras, PCA aprende una transformación lineal donde las columnas de la matriz $p$ $\times$ $L$ W forman una base ortogonal para las características L (los componentes de la representación t ) que están descorrelacionadas. ^[11] Por construcción, de todas las matrices de datos transformadas con sólo L columnas, esta matriz de puntuación maximiza la varianza en los datos originales que se han conservado, al tiempo que minimiza el error de reconstrucción al cuadrado total o . $t=W^{T}x,x\in R^{p},t\in R^{L},$ $\|\mathbf {T} \mathbf {W} ^{T}-\mathbf {T} _{L}\mathbf {W} _{L}^{T}\|_{2}^{2}$ $\|\mathbf {X} -\mathbf {X} _{L}\|_{2}^{2}$

Un diagrama de dispersión de análisis de componentes principales de haplotipos Y-STR calculado a partir de valores de recuento repetido para 37 marcadores STR del cromosoma Y de 354 individuos. PCA ha encontrado con éxito combinaciones lineales de los diferentes marcadores, que separan diferentes grupos correspondientes a diferentes líneas de descendencia genética del cromosoma Y de los individuos.

Tal reducción de dimensionalidad puede ser un paso muy útil para visualizar y procesar conjuntos de datos de alta dimensión, al tiempo que conserva la mayor cantidad posible de la variación en el conjunto de datos. Por ejemplo, al seleccionar L = 2 y mantener solo los dos primeros componentes principales, se encuentra el plano bidimensional a través del conjunto de datos de alta dimensión en el que los datos están más dispersos, por lo que si los datos contienen clústeresestos también pueden estar más dispersos y, por lo tanto, más visibles para trazarlos en un diagrama bidimensional; mientras que si se eligen al azar dos direcciones a través de los datos (o dos de las variables originales), los conglomerados pueden estar mucho menos separados entre sí y, de hecho, es mucho más probable que se superpongan sustancialmente entre sí, haciéndolos indistinguibles.

De manera similar, en el análisis de regresión , cuanto mayor sea el número de variables explicativas permitidas, mayor es la posibilidad de sobreajustar el modelo, produciendo conclusiones que no se generalizan a otros conjuntos de datos. Un enfoque, especialmente cuando hay fuertes correlaciones entre diferentes posibles variables explicativas, es reducirlas a unos pocos componentes principales y luego ejecutar la regresión contra ellos, un método llamado regresión de componentes principales .

La reducción de la dimensionalidad también puede ser apropiada cuando las variables de un conjunto de datos son ruidosas. Si cada columna del conjunto de datos contiene ruido gaussiano distribuido de manera idéntica, entonces las columnas de T también contendrán ruido gaussiano distribuido de manera idéntica (tal distribución es invariante bajo los efectos de la matriz W , que se puede considerar como un ruido de alta dimensión). rotación de los ejes de coordenadas). Sin embargo, con una mayor parte de la varianza total concentrada en los primeros componentes principales en comparación con la misma varianza de ruido, el efecto proporcional del ruido es menor: los primeros componentes logran una relación señal / ruido más alta. Por tanto, el PCA puede tener el efecto de concentrar gran parte de la señal en los primeros componentes principales, que pueden ser capturados de manera útil por reducción de dimensionalidad; mientras que los componentes principales posteriores pueden estar dominados por el ruido y, por lo tanto, eliminarse sin grandes pérdidas. Si el conjunto de datos no es demasiado grande, la importancia de los componentes principales se puede probar utilizando bootstrap paramétrico , como ayuda para determinar cuántos componentes principales se deben retener. ^[12]

Descomposición de valores singulares [ editar ]

La transformación de componentes principales también se puede asociar con otra factorización matricial, la descomposición de valor singular (SVD) de X ,

\mathbf {X} =\mathbf {U} \mathbf {\Sigma } \mathbf {W} ^{T}

Aquí Σ es una n- por- p matriz diagonal rectangular de números positivos σ _{( k )} , llamados valores singulares de X ; U es una matriz n- por- n , cuyas columnas son vectores unitarios ortogonales de longitud n llamados vectores singulares izquierdos de X ; y W es un p -by- p cuyas columnas son vectores unitarios ortogonales de longitud p y llamado los vectores singulares adecuadas de X .

En términos de esta factorización, la matriz X ^TX se puede escribir

{\begin{aligned}\mathbf {X} ^{T}\mathbf {X} &=\mathbf {W} \mathbf {\Sigma } ^{T}\mathbf {U} ^{T}\mathbf {U} \mathbf {\Sigma } \mathbf {W} ^{T}\\&=\mathbf {W} \mathbf {\Sigma } ^{T}\mathbf {\Sigma } \mathbf {W} ^{T}\\&=\mathbf {W} \mathbf {\hat {\Sigma }} ^{2}\mathbf {W} ^{T}\end{aligned}}

donde es la matriz diagonal cuadrada con los valores singulares de X y el exceso de ceros cortados que satisface . La comparación con la factorización de vectores propios de X ^TX establece que los vectores singulares rectos W de X son equivalentes a los vectores propios de X ^TX , mientras que los valores singulares σ ₍_k₎ de son iguales a la raíz cuadrada de los valores propios λ ₍_k₎ de X ^TX . $\mathbf {\hat {\Sigma }}$ $\mathbf {{\hat {\Sigma }}^{2}} =\mathbf {\Sigma } ^{T}\mathbf {\Sigma }$ $\mathbf {X}$

Usando la descomposición de valores singulares, se puede escribir la matriz de puntuación T

{\begin{aligned}\mathbf {T} &=\mathbf {X} \mathbf {W} \\&=\mathbf {U} \mathbf {\Sigma } \mathbf {W} ^{T}\mathbf {W} \\&=\mathbf {U} \mathbf {\Sigma } \end{aligned}}

así que cada columna de T viene dada por uno de los vectores singulares de la izquierda de X multiplicado por el valor singular correspondiente. Esta forma es también la descomposición polar de T .

Existen algoritmos eficientes para calcular la SVD de X sin tener que formar la matriz X ^TX , por lo que calcular la SVD es ahora la forma estándar de calcular un análisis de componentes principales a partir de una matriz de datos ^{[ cita requerida ]} , a menos que solo se disponga de un puñado de componentes requerido.

Al igual que con la descomposición propia, se puede obtener una matriz de puntuación $n \times L$ truncada T _L considerando solo los primeros L valores singulares más grandes y sus vectores singulares:

\mathbf {T} _{L}=\mathbf {U} _{L}\mathbf {\Sigma } _{L}=\mathbf {X} \mathbf {W} _{L}

El truncamiento de una matriz M o T usando una descomposición de valor singular truncado de esta manera produce una matriz truncada que es la matriz más cercana posible de rango L a la matriz original, en el sentido de que la diferencia entre las dos tiene la norma de Frobenius más pequeña posible. , un resultado conocido como el teorema de Eckart-Young [1936].

Consideraciones adicionales [ editar ]

Dado un conjunto de puntos en el espacio euclidiano , el primer componente principal corresponde a una línea que pasa por la media multidimensional y minimiza la suma de cuadrados de las distancias de los puntos a la línea. El segundo componente principal corresponde al mismo concepto después de que se haya restado de los puntos toda la correlación con el primer componente principal. Los valores singulares (en Σ ) son las raíces cuadradas de los valores propios de la matriz X ^TX. Cada valor propio es proporcional a la parte de la "varianza" (más correctamente de la suma de las distancias al cuadrado de los puntos de su media multidimensional) que está asociada con cada vector propio. La suma de todos los valores propios es igual a la suma de las distancias al cuadrado de los puntos desde su media multidimensional. PCA esencialmente rota el conjunto de puntos alrededor de su media para alinearse con los componentes principales. Esto mueve tanta varianza como sea posible (usando una transformación ortogonal) a las primeras dimensiones. Los valores en las dimensiones restantes, por lo tanto, tienden a ser pequeños y pueden eliminarse con una pérdida mínima de información (ver más abajo ). El PCA se usa a menudo de esta manera para la reducción de dimensionalidad.. PCA tiene la distinción de ser la transformación ortogonal óptima para mantener el subespacio que tiene la mayor "varianza" (como se definió anteriormente). Esta ventaja, sin embargo, tiene el precio de mayores requisitos computacionales si se compara, por ejemplo, y cuando sea aplicable, con la transformada de coseno discreta , y en particular con la DCT-II que se conoce simplemente como "DCT". Las técnicas de reducción de dimensionalidad no lineal tienden a ser más exigentes computacionalmente que la PCA.

PCA es sensible al escalado de las variables. Si solo tenemos dos variables y tienen la misma varianza muestraly están correlacionados positivamente, entonces el PCA supondrá una rotación de 45 ° y los "pesos" (son los cosenos de rotación) para las dos variables con respecto al componente principal serán iguales. Pero si multiplicamos todos los valores de la primera variable por 100, entonces el primer componente principal será casi el mismo que esa variable, con una pequeña contribución de la otra variable, mientras que el segundo componente estará casi alineado con la segunda variable original. Esto significa que siempre que las diferentes variables tienen diferentes unidades (como temperatura y masa), el PCA es un método de análisis algo arbitrario. (Se obtendrían resultados diferentes si se usara Fahrenheit en lugar de Celsius, por ejemplo.) El artículo original de Pearson se titulaba "Sobre líneas y planos de ajuste más cercano a sistemas de puntos en el espacio" - "en el espacio "implica un espacio euclidiano físico donde no surgen tales preocupaciones. Una forma de hacer que el PCA sea menos arbitrario es usar variables escaladas para tener varianza unitaria, estandarizando los datos y, por lo tanto, usar la matriz de autocorrelación en lugar de la matriz de autocovarianza como una base para PCA. Sin embargo, esto comprime (o expande) las fluctuaciones en todas las dimensiones del espacio de la señal a la varianza unitaria.

La resta de la media (también conocida como "centrado de la media") es necesaria para realizar un PCA clásico para garantizar que el primer componente principal describe la dirección de la varianza máxima. Si no se realiza la resta de la media, el primer componente principal podría corresponder más o menos a la media de los datos. Se necesita una media de cero para encontrar una base que minimice el error cuadrático medio de la aproximación de los datos. ^[13]

El centrado medio es innecesario si se realiza un análisis de componentes principales en una matriz de correlación, ya que los datos ya están centrados después de calcular las correlaciones. Las correlaciones se derivan del producto cruzado de dos puntuaciones estándar (puntuaciones Z) o momentos estadísticos (de ahí el nombre: Correlación producto-momento de Pearson ). Véase también el artículo de Kromrey y Foster-Johnson (1998) sobre " Centrarse en la media en regresión moderada: mucho ruido y pocas nueces".

PCA es una técnica primaria popular en el reconocimiento de patrones . Sin embargo, no está optimizado para la separabilidad de clases. ^[14] Sin embargo, se ha utilizado para cuantificar la distancia entre dos o más clases calculando el centro de masa para cada clase en el espacio del componente principal y reportando la distancia euclidiana entre el centro de masa de dos o más clases. ^[15] El análisis discriminante lineal es una alternativa optimizada para la separabilidad de clases.

Tabla de símbolos y abreviaturas [ editar ]

Símbolo	Significado	Dimensiones	Índices
$\mathbf {X} =\{X_{ij}\}$	matriz de datos, que consta del conjunto de todos los vectores de datos, un vector por fila	$n\times p$	$i=1\ldots n$ $j=1\ldots p$
$n\,$	el número de vectores de fila en el conjunto de datos	$1\times 1$	escalar
$p\,$	el número de elementos en cada vector de fila (dimensión)	$1\times 1$	escalar
$L\,$	el número de dimensiones en el subespacio dimensionalmente reducido, $1\leq L\leq p$	$1\times 1$	escalar
$\mathbf {u} =\{u_{j}\}$	vector de medias empíricas , una media para cada columna j de la matriz de datos	$p\times 1$	$j=1\ldots p$
$\mathbf {s} =\{s_{j}\}$	vector de desviaciones estándar empíricas , una desviación estándar para cada columna j de la matriz de datos	$p\times 1$	$j=1\ldots p$
$\mathbf {h} =\{h_{i}\}$	vector de todos los 1	$1\times n$	$i=1\ldots n$
$\mathbf {B} =\{B_{ij}\}$	desviaciones de la media de cada columna j de la matriz de datos	$n\times p$	$i=1\ldots n$ $j=1\ldots p$
$\mathbf {Z} =\{Z_{ij}\}$	puntajes z , calculados usando la desviación estándar y media para cada fila m de la matriz de datos	$n\times p$	$i=1\ldots n$ $j=1\ldots p$
$\mathbf {C} =\{C_{jj'}\}$	Matriz de covarianza	$p\times p$	$j=1\ldots p$ $j'=1\ldots p$
$\mathbf {R} =\{R_{jj'}\}$	matriz de correlación	$p\times p$	$j=1\ldots p$ $j'=1\ldots p$
$\mathbf {V} =\{V_{jj'}\}$	matriz que consta del conjunto de todos los vectores propios de C , un vector propio por columna	$p\times p$	$j=1\ldots p$ $j'=1\ldots p$
$\mathbf {D} =\{D_{jj'}\}$	matriz diagonal que consta del conjunto de todos los valores propios de C a lo largo de su diagonal principal , y 0 para todos los demás elementos	$p\times p$	$j=1\ldots p$ $j'=1\ldots p$
$\mathbf {W} =\{W_{jl}\}$	matriz de vectores base, un vector por columna, donde cada vector base es uno de los vectores propios de C , y donde los vectores en W son un subconjunto de los de V	$p\times L$	$j=1\ldots p$ $l=1\ldots L$
$\mathbf {T} =\{T_{il}\}$	matriz que consta de n vectores fila, donde cada vector es la proyección del correspondiente vector de datos de la matriz X en los vectores de la base contenidas en las columnas de la matriz W .	$n\times L$	$i=1\ldots n$ $l=1\ldots L$

Propiedades y limitaciones de PCA [ editar ]

Propiedades [ editar ]

Algunas propiedades de PCA incluyen: ^[10]^{[ página necesaria ]}

Propiedad 1 : Para cualquier número enteroq, 1 ≤q≤p, considere latransformación linealortogonal

y=\mathbf {B'} x

donde es un vector de elemento q y es una matriz ( q × p ), y sea la matriz de varianza - covarianza para . Entonces la traza de , denotada , se maximiza tomando , donde consta de las primeras q columnas de es la transposición de .

y

\mathbf {B'}

\mathbf {\Sigma } _{y}=\mathbf {B'} \mathbf {\Sigma } \mathbf {B}

y

\mathbf {\Sigma } _{y}

\operatorname {tr} (\mathbf {\Sigma } _{y})

\mathbf {B} =\mathbf {A} _{q}

\mathbf {A} _{q}

\mathbf {A}

(\mathbf {B'}

\mathbf {B} )

Propiedad 2 : Considere nuevamente latransformación ortonormal

y=\mathbf {B'} x

con y definido como antes. Luego se minimiza tomando donde consta de las últimas q columnas de .

x,\mathbf {B} ,\mathbf {A}

\mathbf {\Sigma } _{y}

\operatorname {tr} (\mathbf {\Sigma } _{y})

\mathbf {B} =\mathbf {A} _{q}^{*},

\mathbf {A} _{q}^{*}

\mathbf {A}

La implicación estadística de esta propiedad es que las últimas PC no son simplemente restos no estructurados después de eliminar las PC importantes. Debido a que estos últimos PC tienen variaciones lo más pequeñas posible, son útiles por derecho propio. Pueden ayudar a detectar relaciones lineales casi constantes insospechadas entre los elementos de $x$ , y también pueden ser útiles en la regresión , en la selección de un subconjunto de variables de $x$ y en la detección de valores atípicos.

Propiedad 3 : (Descomposición espectral de

Σ

)

\mathbf {\Sigma } =\lambda _{1}\alpha _{1}\alpha _{1}'+\cdots +\lambda _{p}\alpha _{p}\alpha _{p}'

Antes de ver su uso, primero miramos los elementos diagonales ,

\operatorname {Var} (x_{j})=\sum _{k=1}^{P}\lambda _{k}\alpha _{kj}^{2}

Entonces, quizás la principal implicación estadística del resultado es que no solo podemos descomponer las varianzas combinadas de todos los elementos de $x$ en contribuciones decrecientes debido a cada PC, sino que también podemos descomponer toda la matriz de covarianza en contribuciones de cada PC. Aunque no es estrictamente decreciente, los elementos de tenderán a ser más pequeños que los aumentos, ya que se no creciente para aumentar , mientras que los elementos de tienden a permanecer casi del mismo tamaño, debido a las limitaciones de normalización: . $\lambda _{k}\alpha _{k}\alpha _{k}'$ $\lambda _{k}\alpha _{k}\alpha _{k}'$ $k$ $\lambda _{k}\alpha _{k}\alpha _{k}'$ $k$ $\alpha _{k}$ $\alpha _{k}'\alpha _{k}=1,k=1,\dots ,p$

Limitaciones [ editar ]

Como se señaló anteriormente, los resultados de PCA dependen de la escala de las variables. Esto se puede solucionar escalando cada característica por su desviación estándar, de modo que uno termine con características adimensionales con varianza unital. ^[dieciséis]

La aplicabilidad de la PCA como se describe anteriormente está limitada por ciertas suposiciones (tácitas) ^[17] hechas en su derivación. En particular, PCA puede capturar correlaciones lineales entre las características, pero falla cuando se viola esta suposición (consulte la Figura 6a en la referencia). En algunos casos, las transformaciones de coordenadas pueden restaurar el supuesto de linealidad y luego se puede aplicar PCA (ver kernel PCA ).

Otra limitación es el proceso de eliminación de la media antes de construir la matriz de covarianza para PCA. En campos como la astronomía, todas las señales no son negativas, y el proceso de eliminación de la media forzará a que la media de algunas exposiciones astrofísicas sea cero, lo que en consecuencia crea flujos negativos no físicos, ^[18] y se debe realizar un modelado directo para recuperar la verdadera magnitud de las señales. ^[19] Como método alternativo, la factorización de matrices no negativas se centra solo en los elementos no negativos de las matrices, lo que es adecuado para observaciones astrofísicas. ^[20]^[21]^[22] Ver más en Relación entre PCA y factorización matricial no negativa .

Cuando el PCA es una desventaja Si los datos no se han estandarizado antes de que se aplique el PCA, entonces un mundo de dolor está a punto de descender a su computadora. PCA transforma los datos originales en datos que son relevantes para los componentes principales de esos datos, lo que significa que las nuevas variables de datos no pueden interpretarse de la misma manera que los originales. Son interpretaciones lineales de las variables originales. Además, si es un poco descuidado en la forma en que realiza el PCA, existe una alta probabilidad de pérdida de información ^[23]. Es por eso que la PCA puede ser un desafío para los científicos de datos. ¿Qué pasa con el sesgo? Bueno, el PCA puede ser fantástico para usos muy específicos, pero se basa en un modelo lineal. Si un conjunto de datos tiene un patrón oculto dentro de él que no es lineal, entonces el PCA puede dirigir el análisis en la dirección completamente opuesta del progreso ^[24] . Los investigadores de la Universidad Estatal de Kansas descubrieron que el error de muestreo en sus experimentos afectó el sesgo de los resultados de la PCA. "Si el número de sujetos o bloques es menor que 30, y / o el investigador está interesado en PC más allá del primero, puede ser mejor corregir primero la correlación serial, antes de realizar PCA" ^[25]. Los investigadores de Kansas State también encontraron que la PCA podría estar "seriamente sesgada si la estructura de autocorrelación de los datos no se maneja correctamente" ^[26] .^[27]

PCA y teoría de la información [ editar ]

La reducción de dimensionalidad pierde información, en general. La reducción de dimensionalidad basada en PCA tiende a minimizar esa pérdida de información, bajo ciertos modelos de señal y ruido.

Bajo el supuesto de que

\mathbf {x} =\mathbf {s} +\mathbf {n} ,

es decir, que el vector de datos es la suma de la señal portadora de información deseada y una señal de ruido, se puede demostrar que el PCA puede ser óptimo para la reducción de dimensionalidad, desde un punto de vista teórico de la información. $\mathbf {x}$ $\mathbf {s}$ $\mathbf {n}$

En particular, Linsker mostró que si es gaussiano y es ruido gaussiano con una matriz de covarianza proporcional a la matriz de identidad, el PCA maximiza la información mutua entre la información deseada y la salida de dimensionalidad reducida . ^[28] $\mathbf {s}$ $\mathbf {n}$ $I(\mathbf {y} ;\mathbf {s} )$ $\mathbf {s}$ $\mathbf {y} =\mathbf {W} _{L}^{T}\mathbf {x}$

Si el ruido sigue siendo gaussiano y tiene una matriz de covarianza proporcional a la matriz de identidad (es decir, los componentes del vector son iid ), pero la señal portadora de información no es gaussiana (que es un escenario común), PCA al menos minimiza un límite superior en la pérdida de información , que se define como ^[29]^[30] $\mathbf {n}$ $\mathbf {s}$

I(\mathbf {x} ;\mathbf {s} )-I(\mathbf {y} ;\mathbf {s} ).

La optimalidad de PCA también se conserva si el ruido es iid y al menos más gaussiano (en términos de la divergencia de Kullback-Leibler ) que la señal portadora de información . ^[31] En general, incluso si se cumple el modelo de señal anterior, el PCA pierde su optimización de la teoría de la información tan pronto como el ruido se vuelve dependiente. $\mathbf {n}$ $\mathbf {s}$ $\mathbf {n}$

Calcular PCA usando el método de covarianza [ editar ]

La siguiente es una descripción detallada de PCA usando el método de covarianza (ver también aquí ) en oposición al método de correlación. ^[32]

El objetivo es transformar un conjunto de datos X de dimensión p en un conjunto de datos alternativo Y de dimensión L más pequeña . De manera equivalente, buscamos encontrar la matriz Y , donde Y es la transformada de Karhunen-Loève (KLT) de la matriz X :

\mathbf {Y} =\mathbb {KLT} \{\mathbf {X} \}

Organizar el conjunto de datos [ editar ]

Suponga que tiene datos que comprenden un conjunto de observaciones de p variables y desea reducir los datos para que cada observación se pueda describir con solo L variables, L < p . Suponga además que los datos están organizados como un conjunto de n vectores de datos y cada uno representa una sola observación agrupada de las p variables. $\mathbf {x} _{1}\ldots \mathbf {x} _{n}$ $\mathbf {x} _{i}$

Escriba como vectores de fila, cada uno de los cuales tiene p columnas. $\mathbf {x} _{1}\ldots \mathbf {x} _{n}$
Coloque los vectores de fila en una única matriz X de dimensiones n × p .

Calcular la media empírica [ editar ]

Encuentre la media empírica a lo largo de cada columna j = 1, ..., p .
Coloque los valores medios calculados en un vector medio empírico u de dimensiones p × 1.

u_{j}={1 \over n}\sum _{i=1}^{n}X_{ij}

Calcule las desviaciones de la media [ editar ]

La resta media es una parte integral de la solución para encontrar una base de componente principal que minimice el error cuadrático medio de aproximar los datos. ^[33] Por lo tanto, procedemos centrando los datos de la siguiente manera:

Restar el vector medio empírica de cada fila de la matriz de datos X . $\mathbf {u} ^{T}$
Almacene los datos restados de la media en la matriz B n × p .

\mathbf {B} =\mathbf {X} -\mathbf {h} \mathbf {u} ^{T}

donde h es un vector de columna

n \times 1

de todos los 1:

h_{i}=1\,\qquad \qquad {\text{for }}i=1,\ldots ,n

En algunas aplicaciones, cada variable (columna de B ) también se puede escalar para tener una varianza igual a 1 (consulte la puntuación Z ). ^[34] Este paso afecta a los componentes principales calculados, pero los hace independientes de las unidades utilizadas para medir las diferentes variables.

Encuentra la matriz de covarianza [ editar ]

Encuentre la matriz de covarianza empírica p × p C de la matriz B :

\mathbf {C} ={1 \over {n-1}}\mathbf {B} ^{*}\mathbf {B}

donde es el operador de transposición conjugado . Si B consta completamente de números reales, que es el caso en muchas aplicaciones, la "transposición conjugada" es la misma que la transpuesta regular .

*

El razonamiento detrás del uso de $n - 1 en$ lugar de n para calcular la covarianza es la corrección de Bessel .

Encuentre los autovectores y autovalores de la matriz de covarianza [ editar ]

Calcule la matriz V de vectores propios que diagonaliza la matriz de covarianza C :

\mathbf {V} ^{-1}\mathbf {C} \mathbf {V} =\mathbf {D}

donde D es la matriz diagonal de valores propios de C . Este paso implicará típicamente el uso de un algoritmo basado en computadora para calcular autovectores y autovalores . Estos algoritmos están fácilmente disponibles como subcomponentes de la mayoría de los sistemas de álgebra matricial , como SAS , ^[35] R , MATLAB , ^[36]^[37] Mathematica , ^[38] SciPy , IDL ( Interactive Data Language ) o GNU Octave como así como OpenCV .

La matriz D tomará la forma de una matriz diagonal p × p , donde

D_{k\ell }=\lambda _{k}\qquad {\text{for }}k=\ell

es el j- ésimo valor propio de la matriz de covarianza C , y

D_{k\ell }=0\qquad {\text{for }}k\neq \ell .

Matrix V , también de dimensión p × p , contiene P vectores columna, cada uno de longitud p , que representan los p vectores propios de la matriz de covarianza C .
Los autovalores y autovectores están ordenados y emparejados. El j- ésimo valor propio corresponde al j- ésimo vector propio.
La matriz V denota la matriz de autovectores derechos (a diferencia de los autovectores izquierdos ). En general, la matriz de autovectores derechos no necesita ser la transpuesta (conjugada) de la matriz de autovectores izquierdos.

Reorganizar los autovectores y autovalores [ editar ]

Ordene las columnas de la matriz de autovectores V y la matriz de autovalores D en orden de autovalor decreciente .
Asegúrese de mantener los emparejamientos correctos entre las columnas de cada matriz.

Calcule el contenido de energía acumulada para cada vector propio [ editar ]

Los autovalores representan la distribución de la energía de los datos de origen ^{[ aclaración necesaria ]} entre cada uno de los autovectores, donde los autovectores forman una base para los datos. El contenido de energía acumulado g para el j- ésimo vector propio es la suma del contenido de energía en todos los valores propios de 1 a j :

g_{j}=\sum _{k=1}^{j}D_{kk}\qquad {\text{for }}j=1,\dots ,p

^{[ cita requerida ]}

Seleccione un subconjunto de los vectores propios como vectores base [ editar ]

Guarde las primeras L columnas de V como la matriz p × L W :

W_{kl}=V_{k\ell }\qquad {\text{for }}k=1,\dots ,p\qquad \ell =1,\dots ,L

dónde

1\leq L\leq p.

Utilice el vector g como una guía en la elección de un valor apropiado para L . El objetivo es elegir un valor de L lo más pequeño posible y, al mismo tiempo, lograr un valor de g razonablemente alto sobre una base porcentual. Por ejemplo, es posible que desee elegir L para que la energía acumulada g esté por encima de un cierto umbral, como el 90 por ciento. En este caso, elija el valor más pequeño de L tal que

{\frac {g_{L}}{g_{p}}}\geq 0.9\,

Proyecte los datos sobre la nueva base [ editar ]

Los puntos de datos proyectados son las filas de la matriz.

\mathbf {T} =\mathbf {B} \cdot \mathbf {W}

Es decir, la primera columna de es la proyección de los puntos de datos sobre el primer componente principal, la segunda columna es la proyección sobre el segundo componente principal, etc. $\mathbf {T}$

Derivación de PCA mediante el método de covarianza [ editar ]

Sea X un vector aleatorio d- dimensional expresado como vector columna. Sin pérdida de generalidad, suponga que X tiene una media cero.

Queremos encontrar una matriz de transformación ortonormal $d$ $\times$ $d$ P de modo que PX tenga una matriz de covarianza diagonal (es decir, PX es un vector aleatorio con todos sus componentes distintos sin correlación por pares). $(\ast )\,$

Un cálculo rápido suponiendo que fueran rendimientos unitarios: $P$

{\begin{aligned}\operatorname {cov} (PX)&=\operatorname {E} [PX~(PX)^{*}]\\&=\operatorname {E} [PX~X^{*}P^{*}]\\&=P\operatorname {E} [XX^{*}]P^{*}\\&=P\operatorname {cov} (X)P^{-1}\\\end{aligned}}

Por lo tanto, se cumple si y solo si fuera diagonalizable por . $(\ast )\,$ $\operatorname {cov} (X)$ $P$

Esto es muy constructivo, ya que se garantiza que cov ( X ) es una matriz definida no negativa y, por lo tanto, se garantiza que se puede diagonalizar mediante alguna matriz unitaria.

Cálculo sin covarianza [ editar ]

En implementaciones prácticas, especialmente con datos de alta dimensión ( $p$ grande ), el método de covarianza ingenuo rara vez se usa porque no es eficiente debido a los altos costos computacionales y de memoria de determinar explícitamente la matriz de covarianza. El enfoque libre de covarianza evita las $np 2$ operaciones de calcular y almacenar explícitamente la matriz de covarianza $X T X$ , en lugar de utilizar uno de los métodos libres de matriz , por ejemplo, basado en la función que evalúa el producto $X T (X r)$ al costo de $2 np$ operaciones.

Computación iterativa [ editar ]

Una forma de calcular el primer componente principal de manera eficiente ^[39] se muestra en el siguiente pseudocódigo, para una matriz de datos $X$ con media cero, sin siquiera calcular su matriz de covarianza.

 $r$  = un vector aleatorio de longitud $p$ 
do $c$  veces:  $s$  $= 0$  (un vector de longitud $p$  )  para cada fila exit if
return $\mathbf {r} ={\frac {\mathbf {r} }{|\mathbf {r} |}}$  $\mathbf {x} \in \mathbf {X}$   $\mathbf {s} =\mathbf {s} +(\mathbf {x} \cdot \mathbf {r} )\mathbf {x}$   ${\text{eigenvalue}}=\mathbf {r} ^{T}\mathbf {s}$   ${\text{error}}=|{\text{eigenvalue}}\cdot \mathbf {r} -\mathbf {s} |$   $\mathbf {r} ={\frac {\mathbf {s} }{|\mathbf {s} |}}$   ${\text{error}}<{\text{tolerance}}$  ${\text{eigenvalue}},\mathbf {r}$

Este algoritmo de iteración de potencia simplemente calcula el vector $X T (X r)$ , normaliza y coloca el resultado en $r$ . El valor propio es aproximada por $r T (X T X) r$ , que es el cociente de Rayleigh en la unidad de vector $r$ para la matriz de covarianza $X T X$ . Si el valor singular más grande está bien separado del siguiente más grande, el vector $r$ se acerca al primer componente principal de $X$ dentro del número de iteraciones $c$ , que es pequeño en relación con $p$ , al costo total $2cnp$ . La convergencia de la iteración de potencia se puede acelerar sin sacrificar notablemente el pequeño costo por iteración utilizando métodos más avanzados sin matrices , como el algoritmo de Lanczos o el método de gradiente conjugado precondicionado de bloque localmente óptimo ( LOBPCG ).

Los componentes principales subsiguientes se pueden calcular uno por uno a través de la deflación o simultáneamente como un bloque. En el primer enfoque, las imprecisiones en los componentes principales aproximados ya calculados afectan aditivamente la precisión de los componentes principales calculados posteriormente, aumentando así el error con cada nuevo cálculo. El último enfoque en el método de la potencia de bloque reemplaza solo-vectores $r$ y $s$ con el bloque-vectores, matrices $R$ y $S$ . Cada columna de $R se$ aproxima a uno de los componentes principales principales, mientras que todas las columnas se iteran simultáneamente. El cálculo principal es la evaluación del producto $X T (XR)$ . Implementado, por ejemplo, enLOBPCG , el bloqueo eficiente elimina la acumulación de errores, permite el uso de funciones de producto de matriz-matriz BLAS de alto nivel y, por lo general, conduce a una convergencia más rápida, en comparación con la técnica de vector único uno por uno.

El método NIPALS [ editar ]

Los mínimos cuadrados parciales iterativos no lineales (NIPALS) es una variante de la iteración de potencia clásica con deflación de la matriz por sustracción implementada para calcular los primeros componentes en un componente principal o análisis de mínimos cuadrados parciales . Para conjuntos de datos de muy alta dimensión, como los generados en las ciencias * ómicas (por ejemplo, genómica , metabolómica ), normalmente solo es necesario calcular las primeras PC. El algoritmo iterativo no lineal de mínimos cuadrados parciales (NIPALS) actualiza aproximaciones iterativas a las puntuaciones y cargas principales t ₁ y r ₁^T mediante la iteración de potenciamultiplicando en cada iteración por X a la izquierda y a la derecha, es decir, se evita el cálculo de la matriz de covarianza, al igual que en la implementación sin matriz de las iteraciones de potencia a $X T X$ , en base a la función que evalúa el producto $X T (X r)$ = $((X r) T X) T$ .

La deflación de la matriz por sustracción se realiza restando el producto exterior, t ₁ r ₁^T de X, dejando la matriz residual deflactada utilizada para calcular los PC principales posteriores. ^[40] Para matrices de datos grandes, o matrices que tienen un alto grado de colinealidad de columnas, NIPALS sufre pérdida de ortogonalidad de las PC debido a errores de redondeo de precisión de la máquina acumulados en cada iteración y deflación de la matriz por sustracción. ^[41] Se aplica un algoritmo de re-ortogonalización de Gram-Schmidt tanto a las puntuaciones como a las cargas en cada paso de iteración para eliminar esta pérdida de ortogonalidad. ^[42]La dependencia de NIPALS en las multiplicaciones de un solo vector no puede aprovechar BLAS de alto nivel y da como resultado una convergencia lenta para los valores singulares principales agrupados; ambas deficiencias se resuelven en solucionadores de bloques sin matrices más sofisticados, como el gradiente conjugado precondicionado de bloques localmente óptimos ( LOBPCG ) método.

Estimación en línea / secuencial [ editar ]

En una situación "en línea" o "de flujo continuo" con datos que llegan pieza por pieza en lugar de almacenarse en un solo lote, es útil hacer una estimación de la proyección de PCA que se puede actualizar secuencialmente. Esto se puede hacer de manera eficiente, pero requiere diferentes algoritmos. ^[43]

PCA y variables cualitativas [ editar ]

En PCA, es común que queramos introducir variables cualitativas como elementos complementarios. Por ejemplo, se han medido muchas variables cuantitativas en plantas. Para estas plantas, se dispone de algunas variables cualitativas como, por ejemplo, la especie a la que pertenece la planta. Estos datos fueron sometidos a PCA para variables cuantitativas. Al analizar los resultados, es natural conectar los componentes principales a la variable cualitativa especie . Para ello, se producen los siguientes resultados.

Identificación, en los planos factoriales, de las diferentes especies, por ejemplo, utilizando diferentes colores.
Representación, en los planos factoriales, de los centros de gravedad de plantas pertenecientes a una misma especie.
Para cada centro de gravedad y cada eje, valor p para juzgar la importancia de la diferencia entre el centro de gravedad y el origen.

Estos resultados son lo que se denomina introducir una variable cualitativa como elemento complementario . Este procedimiento se detalla en y Husson, Lê & Pagès 2009 y Pagès 2013. Pocos software ofrecen esta opción de forma "automática". Este es el caso de SPAD que históricamente, siguiendo el trabajo de Ludovic Lebart , fue el primero en proponer esta opción, y el paquete R FactoMineR .

Aplicaciones [ editar ]

Finanzas cuantitativas [ editar ]

En las finanzas cuantitativas , el análisis de componentes principales se puede aplicar directamente a la gestión de riesgos de las carteras de derivados de tipos de interés . ^[44] Se busca reducir la negociación de múltiples instrumentos de permuta financiera, que suelen ser una función de otros 30-500 instrumentos de permuta cotizables en el mercado, a 3 o 4 componentes principales, que representan la trayectoria de los tipos de interés a nivel macro. Convertir los riesgos para representarlos como cargas de factores (o multiplicadores) proporciona evaluaciones y comprensión más allá de lo que está disponible para simplemente ver colectivamente los riesgos para grupos individuales de 30 a 500.

El PCA también se ha aplicado a las carteras de acciones de forma similar, ^[45] tanto al riesgo de la cartera como al rendimiento del riesgo . Una aplicación es reducir el riesgo de la cartera, donde las estrategias de asignación se aplican a las "carteras principales" en lugar de a las acciones subyacentes. ^[46] Un segundo es mejorar el rendimiento de la cartera, utilizando los componentes principales para seleccionar acciones con potencial de revalorización. ^{[ cita requerida ]}

Neurociencia [ editar ]

En neurociencia se utiliza una variante del análisis de componentes principales para identificar las propiedades específicas de un estímulo que aumentan la probabilidad de que una neurona genere un potencial de acción . ^[47] Esta técnica se conoce como análisis de covarianza activado por picos . En una aplicación típica, un experimentador presenta un proceso de ruido blanco como un estímulo (generalmente como una entrada sensorial a un sujeto de prueba o como una corrienteinyectado directamente en la neurona) y registra un tren de potenciales de acción, o picos, producidos por la neurona como resultado. Presumiblemente, ciertas características del estímulo hacen que la neurona tenga más probabilidades de dispararse. Para extraer estas características, el experimentador calcula la matriz de covarianza del conjunto disparado por picos , el conjunto de todos los estímulos (definidos y discretizados en una ventana de tiempo finita, típicamente del orden de 100 ms) que precedieron inmediatamente a un pico. Los vectores propios de la diferencia entre la matriz de covarianza activada por picos y la matriz de covarianza del conjunto de estímulos anterior (el conjunto de todos los estímulos, definido en la misma ventana de tiempo) indican las direcciones en el espacio.de estímulos a lo largo de los cuales la varianza del conjunto disparado por picos difería más de la del conjunto de estímulos anterior. Específicamente, los vectores propios con los valores propios positivos más grandes corresponden a las direcciones a lo largo de las cuales la varianza del conjunto disparado por picos mostró el cambio positivo más grande en comparación con la varianza del anterior. Dado que estas fueron las direcciones en las que la variación del estímulo condujo a un pico, a menudo son buenas aproximaciones de las características relevantes del estímulo buscadas.

En neurociencia, el PCA también se utiliza para discernir la identidad de una neurona a partir de la forma de su potencial de acción. La clasificación de picos es un procedimiento importante porque las técnicas de registro extracelular a menudo captan señales de más de una neurona. En la clasificación de picos, primero se usa PCA para reducir la dimensionalidad del espacio de formas de onda del potencial de acción, y luego se realiza un análisis de agrupamiento para asociar potenciales de acción específicos con neuronas individuales.

La PCA como técnica de reducción de dimensiones es particularmente adecuada para detectar actividades coordinadas de grandes conjuntos neuronales. Se ha utilizado para determinar variables colectivas, es decir, parámetros de orden , durante las transiciones de fase en el cerebro. ^[48]

Relación con otros métodos [ editar ]

Análisis de correspondencia [ editar ]

El análisis de correspondencia (CA) fue desarrollado por Jean-Paul Benzécri ^[49] y es conceptualmente similar al PCA, pero escala los datos (que deben ser no negativos) para que las filas y columnas se traten de manera equivalente. Se aplica tradicionalmente a las tablas de contingencia . CA descompone el estadístico chi-cuadrado asociado a esta tabla en factores ortogonales. ^[50] Debido a que CA es una técnica descriptiva, se puede aplicar a tablas para las que la estadística de chi-cuadrado es apropiada o no. Varias variantes de CA están disponibles, incluido el análisis de correspondencia sin tendencia y el análisis de correspondencia canónico . Una extensión especial esanálisis de correspondencia múltiple , que puede verse como la contraparte del análisis de componentes principales para datos categóricos. ^[51]

Análisis factorial [ editar ]

El análisis de componentes principales crea variables que son combinaciones lineales de las variables originales. Las nuevas variables tienen la propiedad de que todas las variables son ortogonales. La transformación de PCA puede resultar útil como paso previo al procesamiento antes de la agrupación. El PCA es un enfoque centrado en la varianza que busca reproducir la varianza total de la variable, en el que los componentes reflejan la varianza común y única de la variable. Por lo general, se prefiere el PCA con el propósito de reducir los datos (es decir, traducir el espacio variable en espacio de factor óptimo) pero no cuando el objetivo es detectar el constructo o los factores latentes.

El análisis factorial es similar al análisis de componentes principales, en el sentido de que el análisis factorial también implica combinaciones lineales de variables. A diferencia del PCA, el análisis factorial es un enfoque centrado en la correlación que busca reproducir las intercorrelaciones entre variables, en el que los factores "representan la varianza común de las variables, excluyendo la varianza única". ^[52] En términos de la matriz de correlación, esto corresponde a centrarse en explicar los términos fuera de la diagonal (es decir, covarianza compartida), mientras que PCA se centra en explicar los términos que se encuentran en la diagonal. Sin embargo, como resultado lateral, cuando se intenta reproducir los términos en diagonal, PCA también tiende a ajustarse relativamente bien a las correlaciones fuera de la diagonal. ^[10]^{: 158}Los resultados dados por el PCA y el análisis factorial son muy similares en la mayoría de las situaciones, pero no siempre es así, y existen algunos problemas en los que los resultados son significativamente diferentes. El análisis factorial se usa generalmente cuando el propósito de la investigación es detectar la estructura de datos (es decir, constructos o factores latentes) o modelado causal . Si el modelo factorial se formula incorrectamente o no se cumplen los supuestos, el análisis factorial dará resultados erróneos. ^[53]

$K-$ significa agrupamiento [ editar ]

Se ha afirmado que la solución relajada de la agrupación de k- medias , especificada por los indicadores de agrupación, viene dada por los componentes principales, y el subespacio PCA atravesado por las direcciones principales es idéntico al subespacio centroide de agrupación. ^[54]^[55] Sin embargo, que PCA es una relajación útil del agrupamiento de $k-$ medias no fue un resultado nuevo, ^[56] y es sencillo descubrir contraejemplos de la afirmación de que el subespacio del centroide del clúster está atravesado por las direcciones principales. ^[57]

Factorización matricial no negativa [ editar ]

Gráficos de varianza residual fraccional (FRV) para PCA y NMF; ^[22] para PCA, los valores teóricos son la contribución de los valores propios residuales. En comparación, las curvas FRV para PCA alcanzan una meseta plana donde ninguna señal se captura de manera efectiva; mientras que las curvas NMF FRV están disminuyendo continuamente, lo que indica una mejor capacidad para capturar la señal. Las curvas de FRV para NMF también convergen a niveles más altos que PCA, lo que indica la propiedad de NMF de menos sobreajuste.

La factorización de matrices no negativas (NMF) es un método de reducción de dimensiones en el que solo se utilizan elementos no negativos en las matrices, por lo que es un método prometedor en astronomía, ^[20]^[21]^[22] en el sentido de que las señales astrofísicas son no negativo. Los componentes de PCA son ortogonales entre sí, mientras que los componentes de NMF son todos no negativos y, por lo tanto, construyen una base no ortogonal.

En PCA, la contribución de cada componente se clasifica en función de la magnitud de su valor propio correspondiente, que es equivalente a la varianza residual fraccional (FRV) en el análisis de datos empíricos. ^[18] Para NMF, sus componentes se clasifican basándose únicamente en las curvas empíricas FRV. ^[22] Las gráficas de valor propio fraccional residual, es decir, como una función del número de componente dado un total de componentes, para PCA tiene una meseta plana, donde no se capturan datos para eliminar el ruido cuasi-estático, luego las curvas disminuyeron rápidamente como una indicación de sobreajuste y captura ruido aleatorio. ^[18] Las curvas de FRV para NMF están disminuyendo continuamente ^[22] cuando los componentes de NMF se construyen secuencialmente $1-\sum _{i=1}^{k}\lambda _{i}{\Big /}\sum _{j=1}^{n}\lambda _{j}$ $k$ $n$ , ^[21] indica la captura continua de ruido cuasiestático; luego convergen a niveles más altos que el PCA, ^[22] indicando la propiedad de menos sobreajuste de NMF.

Generalizaciones [ editar ]

PCA escasa [ editar ]

Una desventaja particular de PCA es que los componentes principales suelen ser combinaciones lineales de todas las variables de entrada. Sparse PCA supera esta desventaja al encontrar combinaciones lineales que contienen solo unas pocas variables de entrada. Extiende el método clásico de análisis de componentes principales (PCA) para la reducción de la dimensionalidad de los datos agregando restricciones de dispersión en las variables de entrada. Se han propuesto varios enfoques, que incluyen

un marco de regresión, ^[58]
una relajación convexa / marco de programación semidefinido, ^[59]
un marco de método de poder generalizado ^[60]
un marco de maximización alternativo ^[61]
búsqueda codiciosa hacia adelante y hacia atrás y métodos exactos que utilizan técnicas de ramificación y vinculación, ^[62]
Marco de formulación bayesiano. ^[63]

Los desarrollos metodológicos y teóricos de Sparse PCA, así como sus aplicaciones en estudios científicos, se revisaron recientemente en un documento de encuesta. ^[64]

PCA no lineal [ editar ]

PCA lineal versus colectores principales no lineales ^[65] para la visualización de datos de microarrays de cáncer de mama : a) Configuración de nodos y superficie principal 2D en el colector lineal PCA 3D. El conjunto de datos es curvo y no se puede mapear adecuadamente en un plano principal 2D; b) La distribución en las coordenadas internas de la superficie principal no lineal 2D (ELMap2D) junto con una estimación de la densidad de puntos; c) Lo mismo que b), pero para el colector PCA 2D lineal (PCA2D). El subtipo de cáncer de mama "basal" se visualiza de forma más adecuada con ELMap2D y algunas características de la distribución se resuelven mejor en comparación con PCA2D. Las variedades principales son producidas por los mapas elásticos.algoritmo. Los datos están disponibles para concurso público. ^{[66] El} software está disponible para uso no comercial gratuito. ^[67]

La mayoría de los métodos modernos para la reducción de dimensionalidad no lineal encuentran sus raíces teóricas y algorítmicas en PCA o K-medias. La idea original de Pearson era tomar una línea recta (o plano) que sería "el mejor ajuste" a un conjunto de puntos de datos. Las curvas principales y las variedades ^[68] proporcionan el marco geométrico natural para la generalización de la PCA y amplían la interpretación geométrica de la PCA mediante la construcción explícita de una variedad incrustada para la aproximación de datos y mediante la codificación mediante proyección geométrica estándar sobre la variedad, como se ilustra en la Fig. Consulte también el algoritmo de mapa elástico y el análisis geodésico principal.. Otra generalización popular es la PCA del kernel , que corresponde a la PCA realizada en un espacio de Hilbert del kernel de reproducción asociado con un kernel definido positivo.

En el aprendizaje subespacial multilineal , ^[69] PCA se generaliza a PCA multilineal (MPCA) que extrae características directamente de las representaciones de tensor. MPCA se resuelve realizando PCA en cada modo del tensor de forma iterativa. La MPCA se ha aplicado al reconocimiento facial, al reconocimiento de la marcha, etc. La MPCA se amplía aún más a la MPCA no correlacionada, la MPCA no negativa y la MPCA robusta.

El análisis de componentes principales de N vías se puede realizar con modelos como la descomposición de Tucker , PARAFAC , análisis de factores múltiples, análisis de co-inercia, STATIS y DISTATIS.

PCA robusto [ editar ]

Si bien PCA encuentra el método matemáticamente óptimo (como minimizar el error al cuadrado), sigue siendo sensible a valores atípicos en los datos que producen grandes errores, algo que el método intenta evitar en primer lugar. Por lo tanto, es una práctica común eliminar los valores atípicos antes de calcular el PCA. Sin embargo, en algunos contextos, los valores atípicos pueden ser difíciles de identificar. Por ejemplo, en los algoritmos de minería de datos como la agrupación en clústeres de correlación , la asignación de puntos a los clústeres y valores atípicos no se conoce de antemano. Una generalización propuesta recientemente de PCA ^[70] basada en un PCA ponderado aumenta la robustez al asignar diferentes pesos a los objetos de datos en función de su relevancia estimada.

También se han propuesto variantes de PCA resistentes a valores atípicos, basadas en formulaciones de norma L1 ( L1-PCA ). ^[5]^[3]

El análisis robusto de componentes principales (RPCA) a través de la descomposición en matrices dispersas y de bajo rango es una modificación de PCA que funciona bien con respecto a observaciones muy corruptas. ^[71]^[72]^[73]

Técnicas similares [ editar ]

Análisis de componentes independientes [ editar ]

El análisis de componentes independientes (ICA) se dirige a problemas similares al análisis de componentes principales, pero encuentra componentes separables aditivamente en lugar de aproximaciones sucesivas.

Análisis de componentes de red [ editar ]

Dada una matriz , intenta descomponerla en dos matrices tales que . Una diferencia clave con respecto a técnicas como PCA e ICA es que algunas de las entradas de están restringidas a 0. Aquí se denomina capa reguladora. Si bien, en general, tal descomposición puede tener múltiples soluciones, demuestran que si se cumplen las siguientes condiciones: $E$ $E=AP$ $A$ $P$

$A$ tiene rango de columna completo
Cada columna de debe tener al menos ceros donde es el número de columnas de (o alternativamente el número de filas de ). La justificación de este criterio es que si se elimina un nodo de la capa reguladora junto con todos los nodos de salida conectados a él, el resultado aún debe caracterizarse por una matriz de conectividad con rango de columna completo. $A$ $L-1$ $L$ $A$ $P$
$P$ debe tener rango de fila completo.

entonces la descomposición es única hasta la multiplicación por un escalar. ^[74]

Análisis de componentes de análisis discriminante [ editar ]

El análisis discriminante de componentes principales (DAPC) es un método multivariado que se utiliza para identificar y describir grupos de individuos genéticamente relacionados. La variación genética se divide en dos componentes: la variación entre grupos y dentro de los grupos, y maximiza la primera. Los discriminantes lineales son combinaciones lineales de alelos que mejor separan los grupos. Los alelos que más contribuyen a esta discriminación son, por tanto, los que presentan diferencias más marcadas entre los grupos. Las contribuciones de los alelos a las agrupaciones identificadas por DAPC pueden permitir identificar regiones del genoma que impulsan la divergencia genética entre grupos ^[75] En DAPC, los datos se transforman primero mediante un análisis de componentes principales (PCA) y, posteriormente, los grupos se identifican mediante análisis discriminante ( DA).

Un DAPC se puede realizar en R usando el paquete Adegenet. (más información: https://adegenet.r-forge.r-project.org/ )

Software / código fuente [ editar ]

ALGLIB : una biblioteca C ++ y C # que implementa PCA y PCA truncada
Analytica : la función integrada EigenDecomp calcula los componentes principales.
ELKI : incluye PCA para proyección, incluidas variantes robustas de PCA, así como algoritmos de agrupación en clúster basados en PCA .
Gretl : el análisis de componentes principales se puede realizar mediante el pcacomando o mediante la princomp()función.
Julia : admite PCA con la pcafunción en el paquete MultivariateStats
KNIME : un software de organización nodal basado en Java para análisis, en este los nodos llamados PCA, PCA compute, PCA Apply, PCA inverse lo hacen fácilmente.
Mathematica : implementa el análisis de componentes principales con el comando PrincipalComponents utilizando métodos de covarianza y correlación.
MathPHP: biblioteca de matemáticas PHP con soporte para PCA.
Caja de herramientas de estadísticas de MATLAB : las funciones princompy pca(R2012b) proporcionan los componentes principales, mientras que la función pcaresproporciona los residuos y la matriz reconstruida para una aproximación de PCA de rango bajo.
Matplotlib : la biblioteca de Python tiene un paquete PCA en el módulo .mlab.
mlpack : proporciona una implementación del análisis de componentes principales en C ++ .
Biblioteca NAG : el análisis de componentes principales se implementa a través de la g03aarutina (disponible en las dos versiones de Fortran de la biblioteca).
NMath : biblioteca numérica patentada que contiene PCA para .NET Framework .
GNU Octave : entorno computacional de software libre en su mayoría compatible con MATLAB, la función princompproporciona el componente principal.
OpenCV
Oracle Database 12c: implementado mediante la DBMS_DATA_MINING.SVDS_SCORING_MODEespecificación del valor de configuraciónSVDS_SCORING_PCA
Naranja (software) : integra PCA en su entorno de programación visual. PCA muestra un gráfico de pantalla (grado de varianza explicada) donde el usuario puede seleccionar de forma interactiva el número de componentes principales.
Origen : contiene PCA en su versión Pro.
Qlucore : software comercial para analizar datos multivariados con respuesta instantánea mediante PCA.
R - Paquete estadístico gratuito , las funciones princompy prcompse pueden utilizar para el análisis de componentes principales; prcomputiliza la descomposición de valores singulares que generalmente proporciona una mejor precisión numérica. Algunos paquetes que implementan PCA en I, incluyen, pero no están limitados a: ade4, vegan, ExPosition, dimRed, y FactoMineR.
SAS : software propietario; por ejemplo, ver ^[76]
Scikit-learn : biblioteca de Python para aprendizaje automático que contiene PCA, PCA probabilístico, PCA de kernel, PCA disperso y otras técnicas en el módulo de descomposición.
Weka : biblioteca de Java para aprendizaje automático que contiene módulos para computar componentes principales.

Ver también [ editar ]

Análisis de correspondencia (para tablas de contingencia)
Análisis de correspondencia múltiple (para variables cualitativas)
Análisis factorial de datos mixtos (para variables cuantitativas y cualitativas)
Correlación canónica
Aproximación de matriz CUR (puede reemplazar la aproximación de SVD de bajo rango)
Análisis de correspondencia sin tendencia
Descomposición en modo dinámico
Cara propia
Análisis factorial exploratorio (Wikiversidad)
Código factorial
Análisis de componentes principales funcionales
Análisis de datos geométricos
Análisis de componentes independientes
Kernel PCA
Análisis de componentes principales de la norma L1
Aproximación de rango bajo
Descomposición de la matriz
Factorización matricial no negativa
Reducción de dimensionalidad no lineal
La regla de Oja
Modelo de distribución de puntos (PCA aplicado a morfometría y visión artificial)
Análisis de componentes principales (Wikilibros)
Regresión de componentes principales
Análisis de espectro singular
Valor singular de descomposición
PCA escasa
Transformar la codificación
Mínimos cuadrados ponderados

Referencias [ editar ]

^ Barnett, TP y R. Preisendorfer. (1987). "Orígenes y niveles de habilidad de pronóstico mensual y estacional para las temperaturas del aire en la superficie de los Estados Unidos determinadas por análisis de correlación canónica" . Revisión mensual del clima . 115 (9): 1825. Código Bibliográfico : 1987MWRv..115.1825B . doi : 10.1175 / 1520-0493 (1987) 115 <1825: oaloma> 2.0.co; 2 .
^ Hsu, Daniel; Kakade, Sham M .; Zhang, Tong (2008). Un algoritmo espectral para aprender modelos de Markov ocultos . arXiv : 0811.4413 . Código bibliográfico : 2008arXiv0811.4413H .
↑ a b Markopoulos, Panos P .; Kundu, Sandipan; Chamadia, Shubham; Pados, Dimitris A. (15 de agosto de 2017). "Análisis de componentes principales de norma L1 eficiente a través de Bit Flipping". Transacciones IEEE sobre procesamiento de señales . 65 (16): 4252–4264. arXiv : 1610.01959 . Código Bib : 2017ITSP ... 65.4252M . doi : 10.1109 / TSP.2017.2708023 . S2CID 7931130 .
^ a b Chachlakis, Dimitris G .; Prater-Bennette, Ashley; Markopoulos, Panos P. (22 de noviembre de 2019). "Descomposición del tensor de Tucker de la norma L1" . Acceso IEEE . 7 : 178454–178465. arXiv : 1904.06455 . doi : 10.1109 / ACCESS.2019.2955134 .
↑ a b Markopoulos, Panos P .; Karystinos, George N .; Pados, Dimitris A. (octubre de 2014). "Algoritmos óptimos para el procesamiento de señales del subespacio L1". Transacciones IEEE sobre procesamiento de señales . 62 (19): 5046–5058. arXiv : 1405.6785 . Código bibliográfico : 2014ITSP ... 62.5046M . doi : 10.1109 / TSP.2014.2338077 . S2CID 1494171 .
^ Kanade, T .; Ke, Qifa (junio de 2005). Factorización robusta de la norma L1 en presencia de valores atípicos y datos faltantes mediante programación convexa alternativa . 2005 IEEE Computer Society Conference sobre visión por ordenador y reconocimiento de patrones (CVPR'05) . 1 . IEEE. pag. 739. CiteSeerX 10.1.1.63.4605 . doi : 10.1109 / CVPR.2005.309 . ISBN 978-0-7695-2372-9. S2CID 17144854 .
^ Pearson, K. (1901). "Sobre líneas y planos de ajuste más cercano a sistemas de puntos en el espacio" . Revista filosófica . 2 (11): 559–572. doi : 10.1080 / 14786440109462720 .
^ Hotelling, H. (1933). Análisis de un complejo de variables estadísticas en componentes principales. Journal of Educational Psychology , 24 , 417–441 y 498–520. Hotelling, H (1936). "Relaciones entre dos conjuntos de variantes". Biometrika . 28 (3/4): 321–377. doi : 10.2307 / 2333955 . JSTOR 2333955 .
^ Stewart, GW (1993). "Sobre la historia temprana de la descomposición del valor singular" . Revisión SIAM . 35 (4): 551–566. doi : 10.1137 / 1035134 .
↑ a b c d e Jolliffe, IT (2002). Análisis de componentes principales . Springer Series en Estadística. Nueva York: Springer-Verlag. doi : 10.1007 / b98835 . ISBN 978-0-387-95442-4.
^ Bengio, Y .; et al. (2013). "Aprendizaje de representación: una revisión y nuevas perspectivas". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 35 (8): 1798–1828. arXiv : 1206.5538 . doi : 10.1109 / TPAMI.2013.50 . PMID 23787338 . S2CID 393948 .
^ Forkman J., Josse, J., Piepho, HP (2019). "Pruebas de hipótesis para el análisis de componentes principales cuando las variables están estandarizadas" . Revista de Estadísticas Agrícolas, Biológicas y Ambientales . 24 (2): 289-308. doi : 10.1007 / s13253-019-00355-5 .CS1 maint: multiple names: authors list (link)
^ AA Miranda, YA Le Borgne y G. Bontempi. Nuevas rutas desde el error de aproximación mínimo hasta los componentes principales , volumen 27, número 3 / junio de 2008, letras de procesamiento neuronal, Springer
^ Fukunaga, Keinosuke (1990). Introducción al reconocimiento estadístico de patrones . Elsevier. ISBN 978-0-12-269851-4.
^ Alizadeh, Elaheh; Lyons, Samanthe M; Castillo, Jordan M; Prasad, Ashok (2016). "Medición de cambios sistemáticos en la forma de las células cancerosas invasivas utilizando momentos de Zernike" . Biología integrativa . 8 (11): 1183-1193. doi : 10.1039 / C6IB00100A . PMID 27735002 .
^ Leznik, M; Tofallis, C. 2005 Estimación de componentes principales invariantes mediante regresión diagonal.
^ Jonathon Shlens, Tutorial sobre análisis de componentes principales.
^ a b c Soummer, Rémi; Pueyo, Laurent; Larkin, James (2012). "Detección y caracterización de exoplanetas y discos mediante proyecciones en imágenes propias de Karhunen-Loève". Las cartas de la revista astrofísica . 755 (2): L28. arXiv : 1207.4197 . Código bibliográfico : 2012ApJ ... 755L..28S . doi : 10.1088 / 2041-8205 / 755/2 / L28 . S2CID 51088743 .
^ Pueyo, Laurent (2016). "Detección y caracterización de exoplanetas mediante proyecciones en imágenes propias de Karhunen Loeve: modelado hacia adelante". El diario astrofísico . 824 (2): 117. arXiv : 1604.06097 . Código bibliográfico : 2016ApJ ... 824..117P . doi : 10.3847 / 0004-637X / 824/2/117 . S2CID 118349503 .
^ a b Blanton, Michael R .; Roweis, Sam (2007). "K-correcciones y transformaciones de filtros en ultravioleta, óptica e infrarrojo cercano". El diario astronómico . 133 (2): 734–754. arXiv : astro-ph / 0606170 . Código bibliográfico : 2007AJ .... 133..734B . doi : 10.1086 / 510127 . S2CID 18561804 .
↑ a b c Zhu, Guangtun B. (19 de diciembre de 2016). "Factorización de matrices no negativas (NMF) con incertidumbres heterocedásticas y datos faltantes". arXiv : 1612.06037 [ astro-ph.IM ].
^ a b c d e f Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B .; Duchêne, Gaspard (2018). "Factorización de matrices no negativas: extracción robusta de estructuras extendidas". El diario astrofísico . 852 (2): 104. arXiv : 1712.10317 . Código Bib : 2018ApJ ... 852..104R . doi : 10.3847 / 1538-4357 / aaa1f2 . S2CID 3966513 .
^ (¿Cuáles son los pros y los contras de la PCA? | I2tutorials, nd, p. 2)
↑ (Abbott, 2014)
↑ (Jiang y Eskridge, 2000)
↑ (Jiang y Eskridge, 2000)
^ Abbott, D. (2014). Analítica predictiva aplicada: principios y técnicas para el analista de datos profesional. Wiley. Jiang, H. y Eskridge, KM (2000). SESGO EN EL ANÁLISIS DE COMPONENTES PRINCIPALES DEBIDO A OBSERVACIONES CORRELELADAS. Jornada de Estadística Aplicada a la Agricultura. https://doi.org/10.4148/2475-7772.1247
^ Linsker, Ralph (marzo de 1988). "Autoorganización en una red perceptual". Computadora IEEE . 21 (3): 105-117. doi : 10.1109 / 2.36 . S2CID 1527671 .
^ Deco y Obradovic (1996). Un enfoque teórico de la información para la computación neuronal . Nueva York, NY: Springer. ISBN 9781461240167.
^ Plumbley, Mark (1991). Teoría de la información y redes neuronales no supervisadas .Nota técnica
^ Geiger, Bernhard; Kubin, Gernot (enero de 2013). "Mejora de la señal como minimización de la pérdida de información relevante". Proc. ITG Conf. Sobre sistemas, comunicación y codificación . arXiv : 1205.6935 . Código bibliográfico : 2012arXiv1205.6935G .
^ "Sección 6.5.5.2 del manual de estadísticas de ingeniería" . Consultado el 19 de enero de 2015 .
^ AA Miranda, Y.-A. Le Borgne y G. Bontempi. Nuevas rutas desde el error de aproximación mínimo hasta los componentes principales , volumen 27, número 3 / junio de 2008, letras de procesamiento neuronal, Springer
^ Abdi. H. y Williams, LJ (2010). "Análisis de componentes principales". Revisiones interdisciplinarias de Wiley: Estadística computacional . 2 (4): 433–459. arXiv : 1108.4372 . doi : 10.1002 / wics.101 .
^ "Guía del usuario de SAS / STAT (R) 9.3" .
^ Documentación de Matlab de la función eig
^ Software de reconocimiento facial basado en MATLAB PCA
^ Función de valores propios Documentación de Mathematica
^ Roweis, Sam. "Algoritmos EM para PCA y SPCA". Avances en sistemas de procesamiento de información neuronal. Ed. Michael I. Jordan, Michael J. Kearns y Sara A. Solla The MIT Press, 1998.
^ Geladi, Paul; Kowalski, Bruce (1986). "Regresión de mínimos cuadrados parciales: un tutorial". Analytica Chimica Acta . 185 : 1-17. doi : 10.1016 / 0003-2670 (86) 80028-9 .
^ Kramer, R. (1998). Técnicas quimiométricas para análisis cuantitativo . Nueva York: CRC Press. ISBN 9780203909805.
^ Andrecut, M. (2009). "Implementación de GPU en paralelo de algoritmos PCA iterativos". Revista de Biología Computacional . 16 (11): 1593-1599. arXiv : 0811.1081 . doi : 10.1089 / cmb.2008.0221 . PMID 19772385 . S2CID 1362603 .
^ Warmuth, MK; Kuzmin, D. (2008). "Algoritmos PCA en línea aleatorizados con límites de arrepentimiento que son logarítmicos en la dimensión" (PDF) . Revista de investigación sobre aprendizaje automático . 9 : 2287-2320.
^ El precio y la cobertura de los derivados de tipos de interés: una guía práctica para los swaps , JHM Darbyshire, 2016, ISBN 978-0995455511
↑ Giorgia Pasini (2017); Análisis de componentes principales para la gestión de la cartera de valores . Revista Internacional de Matemática Pura y Aplicada . Volumen 115 No. 1 2017, 153–167
^ Libin Yang. Una aplicación del análisis de componentes principales a la gestión de la cartera de valores . Departamento de Economía y Finanzas, Universidad de Canterbury , enero de 2015.
^ Brenner, N., Bialek, W. y de Ruyter van Steveninck, RR (2000).
^ Jirsa, Victor; Friedrich, R; Haken, Herman; Kelso, Scott (1994). "Un modelo teórico de transiciones de fase en el cerebro humano". Cibernética biológica . 71 (1): 27–35. doi : 10.1007 / bf00198909 . PMID 8054384 . S2CID 5155075 .
^ Benzécri, J.-P. (1973). L'Analyse des Données. Volumen II. L'Analyse des Correspondances . París, Francia: Dunod.
^ Greenacre, Michael (1983). Teoría y aplicaciones del análisis de correspondencias . Londres: Academic Press. ISBN 978-0-12-299050-2.
^ Le Roux; Brigitte y Henry Rouanet (2004). Análisis de datos geométricos, desde el análisis de correspondencia hasta el análisis de datos estructurados . Dordrecht: Kluwer. ISBN 9781402022357.
^ Timothy A. Brown. Análisis factorial confirmatorio para la metodología de investigación aplicada en ciencias sociales . Prensa de Guilford, 2006
^ Meglen, RR (1991). "Examinar grandes bases de datos: un enfoque quimiométrico mediante análisis de componentes principales". Revista de quimiometría . 5 (3): 163-179. doi : 10.1002 / cem.1180050305 . S2CID 120886184 .
^ H. Zha; C. Ding; M. Gu; X. Él; HD Simon (diciembre de 2001). "Relajación espectral para agrupación de K-medias" (PDF) . Sistemas de procesamiento de información neuronal Vol.14 (NIPS 2001) : 1057–1064.
^ Chris Ding; Xiaofeng He (julio de 2004). "Agrupación de K-medias a través del análisis de componentes principales" (PDF) . Proc. Of Int'l Conf. Aprendizaje automático (ICML 2004) : 225–232.
^ Drineas, P .; A. Frieze; R. Kannan; S. Vempala; V. Vinay (2004). "Agrupación de grandes gráficos mediante la descomposición de valores singulares" (PDF) . Aprendizaje automático . 56 (1-3): 9-33. doi : 10.1023 / b: mach.0000033113.59016.96 . S2CID 5892850 . Consultado el 2 de agosto de 2012 .
^ Cohen, M .; S. Elder; C. Musco; C. Musco; M. Persu (2014). Reducción de dimensionalidad para agrupación de k-medias y aproximación de rango bajo (Apéndice B) . arXiv : 1410.6801 . Código bibliográfico : 2014arXiv1410.6801C .
^ Hui Zou; Trevor Hastie; Robert Tibshirani (2006). "Análisis de componentes principales dispersos" (PDF) . Revista de Estadística Computacional y Gráfica . 15 (2): 262–286. CiteSeerX 10.1.1.62.580 . doi : 10.1198 / 106186006x113430 . S2CID 5730904 .
↑ Alexandre d'Aspremont; Laurent El Ghaoui; Michael I. Jordan; Gert RG Lanckriet (2007). "Una formulación directa para PCA dispersa mediante programación semidefinida" (PDF) . Revisión SIAM . 49 (3): 434–448. arXiv : cs / 0406021 . doi : 10.1137 / 050645506 . S2CID 5490061 .
^ Michel Journee; Yurii Nesterov; Peter Richtarik; Rodolphe Sepulcher (2010). "Método de potencia generalizada para análisis de componentes principales dispersos" (PDF) . Revista de investigación sobre aprendizaje automático . 11 : 517–553. arXiv : 0811.4724 . Código bibliográfico : 2008arXiv0811.4724J . Documento de debate CORE 2008/70.
^ Peter Richtarik; Martin Takac; S. Damla Ahipasaoglu (2012). "Maximización alterna: marco unificador para 8 formulaciones de PCA dispersas y códigos paralelos eficientes". arXiv : 1212.4137 [ stat.ML ].
^ Baback Moghaddam; Yair Weiss; Shai Avidan (2005). "Límites espectrales para PCA dispersa: algoritmos exactos y codiciosos" (PDF) . Avances en sistemas de procesamiento de información neuronal . 18 . MIT Press.
^ Yue Guan; Jennifer Dy (2009). "Análisis de componentes principales probabilísticos dispersos" (PDF) . Taller de investigación y actas de conferencias de Journal of Machine Learning . 5 : 185.
^ Hui Zou; Lingzhou Xue (2018). "Una descripción selectiva del análisis de componentes principales dispersos" . Actas del IEEE . 106 (8): 1311-1320. doi : 10.1109 / JPROC.2018.2846588 .
^ AN Gorban , AY Zinovyev, Principales gráficos y colectores , en: Manual de investigación sobre aplicaciones y tendencias del aprendizaje automático: algoritmos, métodos y técnicas, Olivas ES et al Eds. Information Science Reference, IGI Global: Hershey, PA, EE. UU., 2009. 28–59.
^ Wang, Y .; Klijn, JG; Zhang, Y .; Sieuwerts, AM; Mire, MP; Yang, F .; Talantov, D .; Timmermans, M .; Meijer-van Gelder, ME; Yu, J .; et al. (2005). "Perfiles de expresión génica para predecir metástasis a distancia del cáncer de mama primario con ganglios linfáticos negativos". The Lancet . 365 (9460): 671–679. doi : 10.1016 / S0140-6736 (05) 17947-1 . PMID 15721472 . S2CID 16358549 . Datos en línea
^ Zinovyev, A. "ViDaExpert - Herramienta de visualización de datos multidimensionales" . Institut Curie . París. (Gratis para uso no comercial)
^ AN Gorban, B. Kegl, DC Wunsch, A. Zinovyev (Eds.), Principales colectores para visualización de datos y reducción de dimensiones , LNCSE 58, Springer, Berlín - Heidelberg - Nueva York, 2007. ISBN 978-3-540-73749 -0
^ Lu, Haiping; Plataniotis, KN; Venetsanopoulos, AN (2011). "Una encuesta de aprendizaje subespacial multilineal para datos tensoriales" (PDF) . Reconocimiento de patrones . 44 (7): 1540-1551. doi : 10.1016 / j.patcog.2011.01.004 .
^ Kriegel, HP; Kröger, P .; Schubert, E .; Zimek, A. (2008). Un marco general para aumentar la solidez de los algoritmos de agrupamiento de correlación basados en PCA . Gestión de bases de datos científicas y estadísticas . Apuntes de conferencias en Ciencias de la Computación. 5069 . págs. 418–435. CiteSeerX 10.1.1.144.4864 . doi : 10.1007 / 978-3-540-69497-7_27 . ISBN 978-3-540-69476-2.
^ Emmanuel J. Candes; Xiaodong Li; Yi Ma; John Wright (2011). "¿Análisis robusto de componentes principales?". Revista de la ACM . 58 (3): 11. arXiv : 0912.3599 . doi : 10.1145 / 1970392.1970395 . S2CID 7128002 .
^ T. Bouwmans; E. Zahzah (2014). "PCA robusto a través de la búsqueda de componentes principales: una revisión para una evaluación comparativa en videovigilancia". Visión por computadora y comprensión de imágenes . 122 : 22–34. doi : 10.1016 / j.cviu.2013.11.009 .
^ T. Bouwmans; A. Sobral; S. Javed; S. Jung; E. Zahzah (2015). "Descomposición en matrices aditivas de rango bajo para separación de fondo / primer plano: una revisión para una evaluación comparativa con un conjunto de datos a gran escala". Revisión de Ciencias de la Computación . 23 : 1-71. arXiv : 1511.01245 . Código bibliográfico : 2015arXiv151101245B . doi : 10.1016 / j.cosrev.2016.11.001 . S2CID 10420698 .
^ Liao, JC; Boscolo, R .; Yang, Y.-L .; Tran, LM; Sabatti, C .; Roychowdhury, vicepresidente (2003). "Análisis de componentes de red: reconstrucción de señales reguladoras en sistemas biológicos" . Actas de la Academia Nacional de Ciencias . 100 (26): 15522-15527. Código Bibliográfico : 2003PNAS..10015522L . doi : 10.1073 / pnas.2136632100 . PMC 307600 . PMID 14673099 .
↑ Liao, T .; Jombart, S .; Devillard, F .; Balloux (2010). "Análisis discriminante de componentes principales: un nuevo método para el análisis de poblaciones estructuradas genéticamente" . BMC Genetics . 11 : 11:94. doi : 10.1186 / 1471-2156-11-94 . PMC 2973851 . PMID 20950446 .
^ "Análisis de componentes principales" . Instituto de Investigación y Educación Digitales . UCLA . Consultado el 29 de mayo de 2018 .

Lectura adicional [ editar ]

Jackson, JE (1991). Una guía del usuario para los componentes principales (Wiley).
Jolliffe, IT (1986). Análisis de componentes principales . Springer Series en Estadística. Springer-Verlag. págs. 487 . CiteSeerX 10.1.1.149.8828 . doi : 10.1007 / b98835 . ISBN 978-0-387-95442-4.
Jolliffe, IT (2002). Análisis de componentes principales . Springer Series en Estadística. Nueva York: Springer-Verlag. doi : 10.1007 / b98835 . ISBN 978-0-387-95442-4.
Husson François, Lê Sébastien y Pagès Jérôme (2009). Exploratorio Análisis multivariable por Ejemplo Utilizando R . Chapman & Hall / CRC The R Series, Londres. 224p. ISBN 978-2-7535-0938-2
Pagès Jérôme (2014). Análisis Factorial Múltiple por Ejemplo Utilizando R . Chapman & Hall / CRC The R Series London 272 p.

Enlaces externos [ editar ]

Wikimedia Commons tiene medios relacionados con el análisis de componentes principales .

Video de la Universidad de Copenhague por Rasmus Bro en YouTube
Video de la Universidad de Stanford por Andrew Ng en YouTube
Tutorial sobre análisis de componentes principales
Una introducción no profesional al análisis de componentes principales en YouTube (un video de menos de 100 segundos).
StatQuest: Análisis de componentes principales (PCA) explicado claramente en YouTube
Consulte también la lista de implementaciones de software.

[1] Barnett, TP y R. Preisendorfer. (1987). "Orígenes y niveles de habilidad de pronóstico mensual y estacional para las temperaturas del aire en la superficie de los Estados Unidos determinadas por análisis de correlación canónica" . Revisión mensual del clima . 115 (9): 1825. Código Bibliográfico : 1987MWRv..115.1825B . doi : 10.1175 / 1520-0493 (1987) 115 <1825: oaloma> 2.0.co; 2 .

[2] Hsu, Daniel; Kakade, Sham M .; Zhang, Tong (2008). Un algoritmo espectral para aprender modelos de Markov ocultos . arXiv : 0811.4413 . Código bibliográfico : 2008arXiv0811.4413H .

[mark2017-3] Markopoulos, Panos P .; Kundu, Sandipan; Chamadia, Shubham; Pados, Dimitris A. (15 de agosto de 2017). "Análisis de componentes principales de norma L1 eficiente a través de Bit Flipping". Transacciones IEEE sobre procesamiento de señales . 65 (16): 4252–4264. arXiv : 1610.01959 . Código Bib : 2017ITSP ... 65.4252M . doi : 10.1109 / TSP.2017.2708023 . S2CID 7931130 .

[l1tucker-4] Chachlakis, Dimitris G .; Prater-Bennette, Ashley; Markopoulos, Panos P. (22 de noviembre de 2019). "Descomposición del tensor de Tucker de la norma L1" . Acceso IEEE . 7 : 178454–178465. arXiv : 1904.06455 . doi : 10.1109 / ACCESS.2019.2955134 .

[mark2014-5] Markopoulos, Panos P .; Karystinos, George N .; Pados, Dimitris A. (octubre de 2014). "Algoritmos óptimos para el procesamiento de señales del subespacio L1". Transacciones IEEE sobre procesamiento de señales . 62 (19): 5046–5058. arXiv : 1405.6785 . Código bibliográfico : 2014ITSP ... 62.5046M . doi : 10.1109 / TSP.2014.2338077 . S2CID 1494171 .

[6] Kanade, T .; Ke, Qifa (junio de 2005). Factorización robusta de la norma L1 en presencia de valores atípicos y datos faltantes mediante programación convexa alternativa . 2005 IEEE Computer Society Conference sobre visión por ordenador y reconocimiento de patrones (CVPR'05) . 1 . IEEE. pag. 739. CiteSeerX 10.1.1.63.4605 . doi : 10.1109 / CVPR.2005.309 . ISBN 978-0-7695-2372-9. S2CID 17144854 .

[7] Pearson, K. (1901). "Sobre líneas y planos de ajuste más cercano a sistemas de puntos en el espacio" . Revista filosófica . 2 (11): 559–572. doi : 10.1080 / 14786440109462720 .

[8] Hotelling, H. (1933). Análisis de un complejo de variables estadísticas en componentes principales. Journal of Educational Psychology , 24 , 417–441 y 498–520. Hotelling, H (1936). "Relaciones entre dos conjuntos de variantes". Biometrika . 28 (3/4): 321–377. doi : 10.2307 / 2333955 . JSTOR 2333955 .

[9] Stewart, GW (1993). "Sobre la historia temprana de la descomposición del valor singular" . Revisión SIAM . 35 (4): 551–566. doi : 10.1137 / 1035134 .

[Jolliffe2002-10] Jolliffe, IT (2002). Análisis de componentes principales . Springer Series en Estadística. Nueva York: Springer-Verlag. doi : 10.1007 / b98835 . ISBN 978-0-387-95442-4.

[11] Bengio, Y .; et al. (2013). "Aprendizaje de representación: una revisión y nuevas perspectivas". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 35 (8): 1798–1828. arXiv : 1206.5538 . doi : 10.1109 / TPAMI.2013.50 . PMID 23787338 . S2CID 393948 .

[12] Forkman J., Josse, J., Piepho, HP (2019). "Pruebas de hipótesis para el análisis de componentes principales cuando las variables están estandarizadas" . Revista de Estadísticas Agrícolas, Biológicas y Ambientales . 24 (2): 289-308. doi : 10.1007 / s13253-019-00355-5 .CS1 maint: multiple names: authors list (link)

[13] AA Miranda, YA Le Borgne y G. Bontempi. Nuevas rutas desde el error de aproximación mínimo hasta los componentes principales , volumen 27, número 3 / junio de 2008, letras de procesamiento neuronal, Springer

[14] Fukunaga, Keinosuke (1990). Introducción al reconocimiento estadístico de patrones . Elsevier. ISBN 978-0-12-269851-4.

[15] Alizadeh, Elaheh; Lyons, Samanthe M; Castillo, Jordan M; Prasad, Ashok (2016). "Medición de cambios sistemáticos en la forma de las células cancerosas invasivas utilizando momentos de Zernike" . Biología integrativa . 8 (11): 1183-1193. doi : 10.1039 / C6IB00100A . PMID 27735002 .

[Leznik-16] Leznik, M; Tofallis, C. 2005 Estimación de componentes principales invariantes mediante regresión diagonal.

[17] Jonathon Shlens, Tutorial sobre análisis de componentes principales.

[soummer12-18] Soummer, Rémi; Pueyo, Laurent; Larkin, James (2012). "Detección y caracterización de exoplanetas y discos mediante proyecciones en imágenes propias de Karhunen-Loève". Las cartas de la revista astrofísica . 755 (2): L28. arXiv : 1207.4197 . Código bibliográfico : 2012ApJ ... 755L..28S . doi : 10.1088 / 2041-8205 / 755/2 / L28 . S2CID 51088743 .

[pueyo16-19] Pueyo, Laurent (2016). "Detección y caracterización de exoplanetas mediante proyecciones en imágenes propias de Karhunen Loeve: modelado hacia adelante". El diario astrofísico . 824 (2): 117. arXiv : 1604.06097 . Código bibliográfico : 2016ApJ ... 824..117P . doi : 10.3847 / 0004-637X / 824/2/117 . S2CID 118349503 .

[blantonRoweis07-20] Blanton, Michael R .; Roweis, Sam (2007). "K-correcciones y transformaciones de filtros en ultravioleta, óptica e infrarrojo cercano". El diario astronómico . 133 (2): 734–754. arXiv : astro-ph / 0606170 . Código bibliográfico : 2007AJ .... 133..734B . doi : 10.1086 / 510127 . S2CID 18561804 .

[zhu16-21] Zhu, Guangtun B. (19 de diciembre de 2016). "Factorización de matrices no negativas (NMF) con incertidumbres heterocedásticas y datos faltantes". arXiv : 1612.06037 [ astro-ph.IM ].

[ren18-22] Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B .; Duchêne, Gaspard (2018). "Factorización de matrices no negativas: extracción robusta de estructuras extendidas". El diario astrofísico . 852 (2): 104. arXiv : 1712.10317 . Código Bib : 2018ApJ ... 852..104R . doi : 10.3847 / 1538-4357 / aaa1f2 . S2CID 3966513 .

[23] (¿Cuáles son los pros y los contras de la PCA? | I2tutorials, nd, p. 2)

[24] (Abbott, 2014)

[25] (Jiang y Eskridge, 2000)

[26] (Jiang y Eskridge, 2000)

[27] Abbott, D. (2014). Analítica predictiva aplicada: principios y técnicas para el analista de datos profesional. Wiley. Jiang, H. y Eskridge, KM (2000). SESGO EN EL ANÁLISIS DE COMPONENTES PRINCIPALES DEBIDO A OBSERVACIONES CORRELELADAS. Jornada de Estadística Aplicada a la Agricultura. https://doi.org/10.4148/2475-7772.1247

[28] Linsker, Ralph (marzo de 1988). "Autoorganización en una red perceptual". Computadora IEEE . 21 (3): 105-117. doi : 10.1109 / 2.36 . S2CID 1527671 .

[29] Deco y Obradovic (1996). Un enfoque teórico de la información para la computación neuronal . Nueva York, NY: Springer. ISBN 9781461240167.

[30] Plumbley, Mark (1991). Teoría de la información y redes neuronales no supervisadas .Nota técnica

[31] Geiger, Bernhard; Kubin, Gernot (enero de 2013). "Mejora de la señal como minimización de la pérdida de información relevante". Proc. ITG Conf. Sobre sistemas, comunicación y codificación . arXiv : 1205.6935 . Código bibliográfico : 2012arXiv1205.6935G .

[32] "Sección 6.5.5.2 del manual de estadísticas de ingeniería" . Consultado el 19 de enero de 2015 .

[33] AA Miranda, Y.-A. Le Borgne y G. Bontempi. Nuevas rutas desde el error de aproximación mínimo hasta los componentes principales , volumen 27, número 3 / junio de 2008, letras de procesamiento neuronal, Springer

[34] Abdi. H. y Williams, LJ (2010). "Análisis de componentes principales". Revisiones interdisciplinarias de Wiley: Estadística computacional . 2 (4): 433–459. arXiv : 1108.4372 . doi : 10.1002 / wics.101 .

[35] "Guía del usuario de SAS / STAT (R) 9.3" .

[36] Documentación de Matlab de la función eig

[37] Software de reconocimiento facial basado en MATLAB PCA

[38] Función de valores propios Documentación de Mathematica

[roweis-39] Roweis, Sam. "Algoritmos EM para PCA y SPCA". Avances en sistemas de procesamiento de información neuronal. Ed. Michael I. Jordan, Michael J. Kearns y Sara A. Solla The MIT Press, 1998.

[40] Geladi, Paul; Kowalski, Bruce (1986). "Regresión de mínimos cuadrados parciales: un tutorial". Analytica Chimica Acta . 185 : 1-17. doi : 10.1016 / 0003-2670 (86) 80028-9 .

[41] Kramer, R. (1998). Técnicas quimiométricas para análisis cuantitativo . Nueva York: CRC Press. ISBN 9780203909805.

[42] Andrecut, M. (2009). "Implementación de GPU en paralelo de algoritmos PCA iterativos". Revista de Biología Computacional . 16 (11): 1593-1599. arXiv : 0811.1081 . doi : 10.1089 / cmb.2008.0221 . PMID 19772385 . S2CID 1362603 .

[43] Warmuth, MK; Kuzmin, D. (2008). "Algoritmos PCA en línea aleatorizados con límites de arrepentimiento que son logarítmicos en la dimensión" (PDF) . Revista de investigación sobre aprendizaje automático . 9 : 2287-2320.

[PHIRS-44] El precio y la cobertura de los derivados de tipos de interés: una guía práctica para los swaps , JHM Darbyshire, 2016, ISBN 978-0995455511

[45] Giorgia Pasini (2017); Análisis de componentes principales para la gestión de la cartera de valores . Revista Internacional de Matemática Pura y Aplicada . Volumen 115 No. 1 2017, 153–167

[46] Libin Yang. Una aplicación del análisis de componentes principales a la gestión de la cartera de valores . Departamento de Economía y Finanzas, Universidad de Canterbury , enero de 2015.

[brenner00-47] Brenner, N., Bialek, W. y de Ruyter van Steveninck, RR (2000).

[48] Jirsa, Victor; Friedrich, R; Haken, Herman; Kelso, Scott (1994). "Un modelo teórico de transiciones de fase en el cerebro humano". Cibernética biológica . 71 (1): 27–35. doi : 10.1007 / bf00198909 . PMID 8054384 . S2CID 5155075 .

[49] Benzécri, J.-P. (1973). L'Analyse des Données. Volumen II. L'Analyse des Correspondances . París, Francia: Dunod.

[50] Greenacre, Michael (1983). Teoría y aplicaciones del análisis de correspondencias . Londres: Academic Press. ISBN 978-0-12-299050-2.

[51] Le Roux; Brigitte y Henry Rouanet (2004). Análisis de datos geométricos, desde el análisis de correspondencia hasta el análisis de datos estructurados . Dordrecht: Kluwer. ISBN 9781402022357.

[52] Timothy A. Brown. Análisis factorial confirmatorio para la metodología de investigación aplicada en ciencias sociales . Prensa de Guilford, 2006

[53] Meglen, RR (1991). "Examinar grandes bases de datos: un enfoque quimiométrico mediante análisis de componentes principales". Revista de quimiometría . 5 (3): 163-179. doi : 10.1002 / cem.1180050305 . S2CID 120886184 .

[54] H. Zha; C. Ding; M. Gu; X. Él; HD Simon (diciembre de 2001). "Relajación espectral para agrupación de K-medias" (PDF) . Sistemas de procesamiento de información neuronal Vol.14 (NIPS 2001) : 1057–1064.

[55] Chris Ding; Xiaofeng He (julio de 2004). "Agrupación de K-medias a través del análisis de componentes principales" (PDF) . Proc. Of Int'l Conf. Aprendizaje automático (ICML 2004) : 225–232.

[56] Drineas, P .; A. Frieze; R. Kannan; S. Vempala; V. Vinay (2004). "Agrupación de grandes gráficos mediante la descomposición de valores singulares" (PDF) . Aprendizaje automático . 56 (1-3): 9-33. doi : 10.1023 / b: mach.0000033113.59016.96 . S2CID 5892850 . Consultado el 2 de agosto de 2012 .

[57] Cohen, M .; S. Elder; C. Musco; C. Musco; M. Persu (2014). Reducción de dimensionalidad para agrupación de k-medias y aproximación de rango bajo (Apéndice B) . arXiv : 1410.6801 . Código bibliográfico : 2014arXiv1410.6801C .

[58] Hui Zou; Trevor Hastie; Robert Tibshirani (2006). "Análisis de componentes principales dispersos" (PDF) . Revista de Estadística Computacional y Gráfica . 15 (2): 262–286. CiteSeerX 10.1.1.62.580 . doi : 10.1198 / 106186006x113430 . S2CID 5730904 .

[SDP-59] Alexandre d'Aspremont; Laurent El Ghaoui; Michael I. Jordan; Gert RG Lanckriet (2007). "Una formulación directa para PCA dispersa mediante programación semidefinida" (PDF) . Revisión SIAM . 49 (3): 434–448. arXiv : cs / 0406021 . doi : 10.1137 / 050645506 . S2CID 5490061 .

[60] Michel Journee; Yurii Nesterov; Peter Richtarik; Rodolphe Sepulcher (2010). "Método de potencia generalizada para análisis de componentes principales dispersos" (PDF) . Revista de investigación sobre aprendizaje automático . 11 : 517–553. arXiv : 0811.4724 . Código bibliográfico : 2008arXiv0811.4724J . Documento de debate CORE 2008/70.

[61] Peter Richtarik; Martin Takac; S. Damla Ahipasaoglu (2012). "Maximización alterna: marco unificador para 8 formulaciones de PCA dispersas y códigos paralelos eficientes". arXiv : 1212.4137 [ stat.ML ].

[62] Baback Moghaddam; Yair Weiss; Shai Avidan (2005). "Límites espectrales para PCA dispersa: algoritmos exactos y codiciosos" (PDF) . Avances en sistemas de procesamiento de información neuronal . 18 . MIT Press.

[63] Yue Guan; Jennifer Dy (2009). "Análisis de componentes principales probabilísticos dispersos" (PDF) . Taller de investigación y actas de conferencias de Journal of Machine Learning . 5 : 185.

[64] Hui Zou; Lingzhou Xue (2018). "Una descripción selectiva del análisis de componentes principales dispersos" . Actas del IEEE . 106 (8): 1311-1320. doi : 10.1109 / JPROC.2018.2846588 .

[65] AN Gorban , AY Zinovyev, Principales gráficos y colectores , en: Manual de investigación sobre aplicaciones y tendencias del aprendizaje automático: algoritmos, métodos y técnicas, Olivas ES et al Eds. Information Science Reference, IGI Global: Hershey, PA, EE. UU., 2009. 28–59.

[66] Wang, Y .; Klijn, JG; Zhang, Y .; Sieuwerts, AM; Mire, MP; Yang, F .; Talantov, D .; Timmermans, M .; Meijer-van Gelder, ME; Yu, J .; et al. (2005). "Perfiles de expresión génica para predecir metástasis a distancia del cáncer de mama primario con ganglios linfáticos negativos". The Lancet . 365 (9460): 671–679. doi : 10.1016 / S0140-6736 (05) 17947-1 . PMID 15721472 . S2CID 16358549 . Datos en línea

[67] Zinovyev, A. "ViDaExpert - Herramienta de visualización de datos multidimensionales" . Institut Curie . París. (Gratis para uso no comercial)

[68] AN Gorban, B. Kegl, DC Wunsch, A. Zinovyev (Eds.), Principales colectores para visualización de datos y reducción de dimensiones , LNCSE 58, Springer, Berlín - Heidelberg - Nueva York, 2007. ISBN 978-3-540-73749 -0

[69] Lu, Haiping; Plataniotis, KN; Venetsanopoulos, AN (2011). "Una encuesta de aprendizaje subespacial multilineal para datos tensoriales" (PDF) . Reconocimiento de patrones . 44 (7): 1540-1551. doi : 10.1016 / j.patcog.2011.01.004 .

[70] Kriegel, HP; Kröger, P .; Schubert, E .; Zimek, A. (2008). Un marco general para aumentar la solidez de los algoritmos de agrupamiento de correlación basados en PCA . Gestión de bases de datos científicas y estadísticas . Apuntes de conferencias en Ciencias de la Computación. 5069 . págs. 418–435. CiteSeerX 10.1.1.144.4864 . doi : 10.1007 / 978-3-540-69497-7_27 . ISBN 978-3-540-69476-2.

[RPCA-71] Emmanuel J. Candes; Xiaodong Li; Yi Ma; John Wright (2011). "¿Análisis robusto de componentes principales?". Revista de la ACM . 58 (3): 11. arXiv : 0912.3599 . doi : 10.1145 / 1970392.1970395 . S2CID 7128002 .

[RPCA-BOUWMANS-72] T. Bouwmans; E. Zahzah (2014). "PCA robusto a través de la búsqueda de componentes principales: una revisión para una evaluación comparativa en videovigilancia". Visión por computadora y comprensión de imágenes . 122 : 22–34. doi : 10.1016 / j.cviu.2013.11.009 .

[RPCA-BOUWMANS-COSREV-73] T. Bouwmans; A. Sobral; S. Javed; S. Jung; E. Zahzah (2015). "Descomposición en matrices aditivas de rango bajo para separación de fondo / primer plano: una revisión para una evaluación comparativa con un conjunto de datos a gran escala". Revisión de Ciencias de la Computación . 23 : 1-71. arXiv : 1511.01245 . Código bibliográfico : 2015arXiv151101245B . doi : 10.1016 / j.cosrev.2016.11.001 . S2CID 10420698 .

[74] Liao, JC; Boscolo, R .; Yang, Y.-L .; Tran, LM; Sabatti, C .; Roychowdhury, vicepresidente (2003). "Análisis de componentes de red: reconstrucción de señales reguladoras en sistemas biológicos" . Actas de la Academia Nacional de Ciencias . 100 (26): 15522-15527. Código Bibliográfico : 2003PNAS..10015522L . doi : 10.1073 / pnas.2136632100 . PMC 307600 . PMID 14673099 .

[75] Liao, T .; Jombart, S .; Devillard, F .; Balloux (2010). "Análisis discriminante de componentes principales: un nuevo método para el análisis de poblaciones estructuradas genéticamente" . BMC Genetics . 11 : 11:94. doi : 10.1186 / 1471-2156-11-94 . PMC 2973851 . PMID 20950446 .

[76] "Análisis de componentes principales" . Instituto de Investigación y Educación Digitales . UCLA . Consultado el 29 de mayo de 2018 .

[1]