FastICA

FastICA es un algoritmo eficiente y popular para el análisis de componentes independientes inventado por Aapo Hyvärinen en la Universidad Tecnológica de Helsinki . ^[1]^[2] Como la mayoría de los algoritmos ICA, FastICA busca una rotación ortogonal de datos previamente blanqueados , a través de un esquema de iteración de punto fijo , que maximiza una medida de no gaussianidad de los componentes rotados. La no gaussianidad sirve como proxy de la independencia estadística , que es una condición muy fuerte y requiere una cantidad infinita de datos para verificar. FastICA también se puede derivar alternativamente como una iteración de Newton aproximada.

Algoritmo

Preblanquear los datos

Deja el ${\ Displaystyle \ mathbf {X}: = (x_ {ij}) \ in \ mathbb {R} ^ {N \ times M}}$ denotar la matriz de datos de entrada, ${\ Displaystyle M}$ el número de columnas correspondientes al número de muestras de señales mixtas y ${\ Displaystyle N}$ el número de filas correspondiente al número de señales fuente independientes. La matriz de datos de entrada ${\ Displaystyle \ mathbf {X}}$ debe ser preblanqueado , o centrado y blanqueado, antes de aplicarle el algoritmo FastICA.

Centrar los datos implica degradar cada componente de los datos de entrada ${\ Displaystyle \ mathbf {X}}$ , es decir,

{\ Displaystyle x_ {ij} \ leftarrow x_ {ij} - {\ frac {1} {M}} \ sum _ {j ^ {\ prime}} x_ {ij ^ {\ prime}}}

para cada

{\ Displaystyle i = 1, \ ldots, N}

y

{\ Displaystyle j = 1, \ ldots, M}

. Después de centrar, cada fila de

{\ Displaystyle \ mathbf {X}}

tiene un valor esperado de

{\ Displaystyle 0}

.

Blanquear los datos requiere una transformación lineal ${\ Displaystyle \ mathbf {L}: \ mathbb {R} ^ {N \ times M} \ to \ mathbb {R} ^ {N \ times M}}$ de los datos centrados de modo que los componentes de ${\ Displaystyle \ mathbf {L} (\ mathbf {X})}$ no están correlacionados y tienen una varianza. Más precisamente, si ${\ Displaystyle \ mathbf {X}}$ es una matriz de datos centrada, la covarianza de ${\ Displaystyle \ mathbf {L} _ {\ mathbf {x}}: = \ mathbf {L} (\ mathbf {X})}$ es el ${\ Displaystyle (N \ times N)}$ -matriz de identidad dimensional, es decir,

{\ Displaystyle \ mathrm {E} \ left \ {\ mathbf {L} _ {\ mathbf {x}} \ mathbf {L} _ {\ mathbf {x}} ^ {T} \ right \} = \ mathbf { EN}}

Un método común de blanqueamiento es realizar una descomposición de valores propios en la matriz de covarianza de los datos centrados.

{\ Displaystyle \ mathbf {X}}

,

{\ Displaystyle E \ left \ {\ mathbf {X} \ mathbf {X} ^ {T} \ right \} = \ mathbf {E} \ mathbf {D} \ mathbf {E} ^ {T}}

, dónde

{\ Displaystyle \ mathbf {E}}

es la matriz de vectores propios y

{\ Displaystyle \ mathbf {D}}

es la matriz diagonal de valores propios. La matriz de datos blanqueados se define así por

{\ Displaystyle \ mathbf {X} \ leftarrow \ mathbf {D} ^ {- 1/2} \ mathbf {E} ^ {T} \ mathbf {X}.}

Extracción de un solo componente

El algoritmo iterativo encuentra la dirección del vector de peso. ${\ Displaystyle \ mathbf {w} \ in \ mathbb {R} ^ {N}}$ que maximiza una medida de no gaussianidad de la proyección ${\ Displaystyle \ mathbf {w} ^ {T} \ mathbf {X}}$ , con ${\ Displaystyle \ mathbf {X} \ in \ mathbb {R} ^ {N \ times M}}$ que denota una matriz de datos previamente blanqueada como se describe anteriormente. Tenga en cuenta que ${\ Displaystyle \ mathbf {w}}$ es un vector de columna. Para medir la no gaussianidad, FastICA se basa en una función no lineal no cuadrática ${\ Displaystyle f (u)}$ , su primera derivada ${\ Displaystyle g (u)}$ , y su segunda derivada ${\ Displaystyle g ^ {\ prime} (u)}$ . Hyvärinen afirma que las funciones

{\ Displaystyle f (u) = \ log \ cosh (u), \ quad g (u) = \ tanh (u), \ quad {\ text {y}} \ quad {g} '(u) = 1- \ tanh ^ {2} (u),}

son útiles para fines generales, mientras que

{\ Displaystyle f (u) = - e ^ {- u ^ {2} / 2}, \ quad g (u) = ue ^ {- u ^ {2} / 2}, \ quad {\ text {y} } \ quad {g} '(u) = (1-u ^ {2}) e ​​^ {- u ^ {2} / 2}}

puede ser muy robusto. ^[1] Los pasos para extraer el vector de peso ${\ Displaystyle \ mathbf {w}}$ para un solo componente en FastICA son los siguientes:

Aleatorizar el vector de peso inicial ${\ Displaystyle \ mathbf {w}}$
Dejar ${\ Displaystyle \ mathbf {w} ^ {+} \ flecha izquierda E \ izquierda \ {\ mathbf {X} g (\ mathbf {w} ^ {T} \ mathbf {X}) ^ {T} \ right \} - E \ left \ {g '(\ mathbf {w} ^ {T} \ mathbf {X}) \ right \} \ mathbf {w}}$ , dónde ${\ Displaystyle E \ left \ {... \ right \}}$ significa promediar todos los vectores columna de la matriz ${\ Displaystyle \ mathbf {X}}$
Dejar ${\ Displaystyle \ mathbf {w} \ flecha izquierda \ mathbf {w} ^ {+} / \ | \ mathbf {w} ^ {+} \ |}$
Si no convergió, vuelva a 2

Extracción de múltiples componentes

El algoritmo iterativo de una sola unidad estima solo un vector de peso que extrae un solo componente. La estimación de componentes adicionales que son mutuamente "independientes" requiere repetir el algoritmo para obtener vectores de proyección linealmente independientes; observe que la noción de independencia aquí se refiere a maximizar la no gaussianidad en los componentes estimados. Hyvärinen proporciona varias formas de extraer múltiples componentes, siendo la más simple la siguiente. Aquí, ${\ Displaystyle \ mathbf {1_ {M}}}$ es un vector de columna de unos de dimensión ${\ Displaystyle M}$ .

Algoritmo FastICA

Aporte:

{\ Displaystyle C}

Número de componentes deseados

Aporte:

{\ Displaystyle \ mathbf {X} \ in \ mathbb {R} ^ {N \ times M}}

Matriz preblanqueada, donde cada columna representa una

{\ Displaystyle N}

-muestra dimensional, donde

{\ Displaystyle C <= N}

Producción:

{\ Displaystyle \ mathbf {W} \ in \ mathbb {R} ^ {N \ times C}}

Matriz de descomposición donde se proyecta cada columna

{\ Displaystyle \ mathbf {X}}

en componente independiente.

Producción:

{\ Displaystyle \ mathbf {S} \ in \ mathbb {R} ^ {C \ times M}}

Matriz de componentes independientes, con

{\ Displaystyle M}

columnas que representan una muestra con

{\ Displaystyle C}

dimensiones.

 para p en 1 a C:  ${\ Displaystyle \ mathbf {w_ {p}} \ leftarrow}$ Vector aleatorio de longitud N  mientras  ${\ Displaystyle \ mathbf {w_ {p}}}$  cambios  ${\ Displaystyle \ mathbf {w_ {p}} \ leftarrow {\ frac {1} {M}} \ mathbf {X} g (\ mathbf {w_ {p}} ^ {T} \ mathbf {X}) ^ { T} - {\ frac {1} {M}} g '(\ mathbf {w_ {p}} ^ {T} \ mathbf {X}) \ mathbf {1_ {M}} \ mathbf {w_ {p}} }$   ${\ Displaystyle \ mathbf {w_ {p}} \ flecha izquierda \ mathbf {w_ {p}} - \ sum _ {j = 1} ^ {p-1} (\ mathbf {w_ {p}} ^ {T} \ mathbf {w_ {j}}) \ mathbf {w_ {j}}}$   ${\ Displaystyle \ mathbf {w_ {p}} \ leftarrow {\ frac {\ mathbf {w_ {p}}} {\ | \ mathbf {w_ {p}} \ |}}}$ 
 producción  ${\ Displaystyle \ mathbf {W} \ leftarrow {\ begin {bmatrix} \ mathbf {w_ {1}}, \ dots, \ mathbf {w_ {C}} \ end {bmatrix}}}$ 
 producción  ${\ Displaystyle \ mathbf {S} \ flecha izquierda \ mathbf {W ^ {T}} \ mathbf {X}}$

Extracción ruidosa

Cabe destacar que Fast ICA es extremadamente robusto al ruido aditivo en la señal mixta. Considere el siguiente modelo ruidoso.

{\ Displaystyle \ mathbf {X} = \ mathbf {A} \ mathbf {s} + \ mathbf {n}}

Al preblanquear ${\ Displaystyle \ mathbf {X}}$ , el impacto del ruido aditivo ${\ Displaystyle \ mathbf {n}}$ en la extracción se reduce drásticamente. La estimación de Reconstrucción ICA de ${\ Displaystyle \ mathbf {s}}$ , decir ${\ Displaystyle \ mathbf {Y}}$ para dos casos de alto y bajo contenido de ruido se muestra en la figura que subraya claramente la robustez de Fast ICA para ruido aditivo.

Ver también

Aprendizaje sin supervisión
Aprendizaje automático
La biblioteca IT ++ presenta una implementación FastICA en C ++
Infomax

Referencias

↑ ^a ^b Hyvärinen, A .; Oja, E. (2000). "Análisis de componentes independientes: algoritmos y aplicaciones" (PDF) . Redes neuronales . 13 (4–5): 411–430. CiteSeerX 10.1.1.79.7003 . doi : 10.1016 / S0893-6080 (00) 00026-5 . PMID 10946390 .
^ Hyvarinen, A. (1999). "Algoritmos de punto fijo rápidos y robustos para el análisis de componentes independientes" (PDF) . Transacciones IEEE en redes neuronales . 10 (3): 626–634. CiteSeerX 10.1.1.297.8229 . doi : 10.1109 / 72.761722 . PMID 18252563 .

enlaces externos

FastICA en Python
Paquete FastICA para Matlab u Octave
paquete fastICA en lenguaje de programación R
FastICA en Java en SourceForge
FastICA en Java en RapidMiner .
FastICA en Matlab
FastICA en MDP

[Hyvarinen-1] Hyvärinen, A .; Oja, E. (2000). "Análisis de componentes independientes: algoritmos y aplicaciones" (PDF) . Redes neuronales . 13 (4–5): 411–430. CiteSeerX 10.1.1.79.7003 . doi : 10.1016 / S0893-6080 (00) 00026-5 . PMID 10946390 .

[2] Hyvarinen, A. (1999). "Algoritmos de punto fijo rápidos y robustos para el análisis de componentes independientes" (PDF) . Transacciones IEEE en redes neuronales . 10 (3): 626–634. CiteSeerX 10.1.1.297.8229 . doi : 10.1109 / 72.761722 . PMID 18252563 .

[1]