Análisis de componentes independientes

En el procesamiento de señales , el análisis de componentes independientes ( ICA ) es un método computacional para separar una señal multivariante en subcomponentes aditivos. Esto se hace asumiendo que los subcomponentes son señales no gaussianas y que son estadísticamente independientes entre sí. ICA es un caso especial de separación de fuente ciega . Un ejemplo de aplicación común es el " problema del cóctel " de escuchar el discurso de una persona en una habitación ruidosa. ^[1]

Introducción

">

File:A-Local-Learning-Rule-for-Independent-Component-Analysis-srep28073-s3.ogv

Reproducir medios

ICA en cuatro videos mezclados al azar. ^[2] Arriba: los videos fuente originales. Medio: Cuatro mezclas aleatorias utilizadas como entrada al algoritmo. Abajo: Los videos reconstruidos.

El análisis de componentes independientes intenta descomponer una señal multivariante en señales independientes no gaussianas. Por ejemplo, el sonido suele ser una señal que se compone de la suma numérica, en cada tiempo t, de señales de varias fuentes. La pregunta entonces es si es posible separar estas fuentes contribuyentes de la señal total observada. Cuando la suposición de independencia estadística es correcta, la separación ICA ciega de una señal mixta da muy buenos resultados. ^{[ cita requerida ]} También se utiliza para señales que no se supone que se generen mediante la mezcla con fines de análisis.

Una aplicación simple de ICA es el " problema del cóctel ", en el que las señales de voz subyacentes se separan de una muestra de datos que consta de personas hablando simultáneamente en una habitación. Por lo general, el problema se simplifica asumiendo que no hay retrasos ni ecos. Tenga en cuenta que una señal filtrada y retardada es una copia de un componente dependiente y, por lo tanto, no se viola el supuesto de independencia estadística.

Mezcla de pesos para construir el ${\ textstyle M}$ señales observadas del ${\ textstyle N}$ Los componentes se pueden colocar en un ${\ textstyle M \ times N}$ matriz. Una cosa importante a considerar es que si ${\ textstyle N}$ fuentes están presentes, al menos ${\ textstyle N}$ Se necesitan observaciones (por ejemplo, micrófonos si la señal observada es de audio) para recuperar las señales originales. Cuando hay un número igual de observaciones y señales de origen, la matriz de mezcla es cuadrada ( ${\ textstyle M = N}$ ). Otros casos de ( ${\ textstyle M }>$ ) y sobredeterminado ( ${\ textstyle M> N}$ ) han sido investigados.

El hecho de que la separación ICA de señales mixtas dé muy buenos resultados se basa en dos suposiciones y tres efectos de la mezcla de señales fuente. Dos supuestos:

Las señales de la fuente son independientes entre sí.
Los valores de cada señal fuente tienen distribuciones no gaussianas.

Tres efectos de mezclar señales de fuente:

Independencia: según el supuesto 1, las señales de la fuente son independientes; sin embargo, sus mezclas de señales no lo son. Esto se debe a que las mezclas de señales comparten las mismas señales de origen.
Normalidad: Según el Teorema del límite central , la distribución de una suma de variables aleatorias independientes con varianza finita tiende hacia una distribución gaussiana.
Hablando libremente, una suma de dos variables aleatorias independientes generalmente tiene una distribución más cercana a la gaussiana que cualquiera de las dos variables originales. Aquí consideramos el valor de cada señal como la variable aleatoria.
Complejidad: la complejidad temporal de cualquier mezcla de señales es mayor que la de su señal fuente constituyente más simple.

Estos principios contribuyen al establecimiento básico de ICA. Si las señales extraídas de un conjunto de mezclas son independientes y tienen histogramas no gaussianos o tienen baja complejidad, entonces deben ser señales fuente. ^[3]^[4]

Definición de la independencia de los componentes

ICA encuentra los componentes independientes (también llamados factores, variables latentes o fuentes) maximizando la independencia estadística de los componentes estimados. Podemos elegir una de las muchas formas de definir un proxy para la independencia, y esta elección gobierna la forma del algoritmo ICA. Las dos definiciones más amplias de independencia para ICA son

Minimización de la información mutua
Maximización de la no gaussianidad

La familia de algoritmos ICA de minimización de información mutua (MMI) utiliza medidas como la divergencia de Kullback-Leibler y la entropía máxima . La familia de algoritmos ICA no gaussianos, motivada por el teorema del límite central , utiliza la curtosis y la negentropía .

Los algoritmos típicos para ICA usan centrado (restar la media para crear una señal de media cero), blanqueamiento (generalmente con la descomposición del valor propio ) y reducción de dimensionalidad como pasos de preprocesamiento para simplificar y reducir la complejidad del problema para el algoritmo iterativo real. El blanqueamiento y la reducción de la dimensión se pueden lograr con el análisis de componentes principales o la descomposición de valores singulares . El blanqueamiento garantiza que todas las dimensiones se traten por igual a priori antes de ejecutar el algoritmo. Los algoritmos conocidos para ICA incluyen infomax , FastICA , JADE y análisis de componentes independientes del kernel , entre otros. En general, ICA no puede identificar el número real de señales de origen, un orden únicamente correcto de las señales de origen, ni el escalado adecuado (incluido el signo) de las señales de origen.

ICA es importante para la separación ciega de señales y tiene muchas aplicaciones prácticas. Está estrechamente relacionado con (o incluso un caso especial de) la búsqueda de un código factorial de los datos, es decir, una nueva representación con valores vectoriales de cada vector de datos de manera que se codifique de forma única por el vector de código resultante (sin pérdidas). codificación), pero los componentes del código son estadísticamente independientes.

Definiciones matemáticas

El análisis de componentes independientes lineales se puede dividir en casos silenciosos y ruidosos, donde el ICA silencioso es un caso especial de ICA ruidoso. La ICA no lineal debe considerarse como un caso separado.

Definición general

Los datos están representados por el vector aleatorio observado ${\ Displaystyle {\ boldsymbol {x}} = (x_ {1}, \ ldots, x_ {m}) ^ {T}}$ y los componentes ocultos como el vector aleatorio ${\ Displaystyle {\ boldsymbol {s}} = (s_ {1}, \ ldots, s_ {n}) ^ {T}.}$ La tarea es transformar los datos observados ${\ displaystyle {\ boldsymbol {x}},}$ usando una transformación estática lineal ${\ displaystyle {\ boldsymbol {W}}}$ como ${\ displaystyle {\ boldsymbol {s}} = {\ boldsymbol {W}} {\ boldsymbol {x}},}$ en un vector de componentes máximamente independientes ${\ displaystyle {\ boldsymbol {s}}}$ medido por alguna función ${\ Displaystyle F (s_ {1}, \ ldots, s_ {n})}$ de independencia.

Modelo generativo

ICA lineal silencioso

Los componentes ${\ Displaystyle x_ {i}}$ del vector aleatorio observado ${\ Displaystyle {\ boldsymbol {x}} = (x_ {1}, \ ldots, x_ {m}) ^ {T}}$ se generan como una suma de los componentes independientes ${\ Displaystyle s_ {k}}$ , ${\ Displaystyle k = 1, \ ldots, n}$ :

${\ Displaystyle x_ {i} = a_ {i, 1} s_ {1} + \ cdots + a_ {i, k} s_ {k} + \ cdots + a_ {i, n} s_ {n}}$

ponderado por los pesos de mezcla ${\ Displaystyle a_ {i, k}}$ .

El mismo modelo generativo se puede escribir en forma vectorial como ${\ displaystyle {\ boldsymbol {x}} = \ sum _ {k = 1} ^ {n} s_ {k} {\ boldsymbol {a}} _ {k}}$ , donde el vector aleatorio observado ${\ displaystyle {\ boldsymbol {x}}}$ está representado por los vectores base ${\ displaystyle {\ boldsymbol {a}} _ {k} = ({\ boldsymbol {a}} _ {1, k}, \ ldots, {\ boldsymbol {a}} _ {m, k}) ^ {T }}$ . Vectores de base ${\ displaystyle {\ boldsymbol {a}} _ {k}}$ forman las columnas de la matriz de mezcla ${\ displaystyle {\ boldsymbol {A}} = ({\ boldsymbol {a}} _ {1}, \ ldots, {\ boldsymbol {a}} _ {n})}$ y la fórmula generativa se puede escribir como ${\ displaystyle {\ boldsymbol {x}} = {\ boldsymbol {A}} {\ boldsymbol {s}}}$ , dónde ${\ Displaystyle {\ boldsymbol {s}} = (s_ {1}, \ ldots, s_ {n}) ^ {T}}$ .

Dado el modelo y las realizaciones (muestras) ${\ displaystyle {\ boldsymbol {x}} _ {1}, \ ldots, {\ boldsymbol {x}} _ {N}}$ del vector aleatorio ${\ displaystyle {\ boldsymbol {x}}}$ , la tarea es estimar tanto la matriz de mezcla ${\ displaystyle {\ boldsymbol {A}}}$ y las fuentes ${\ displaystyle {\ boldsymbol {s}}}$ . Esto se hace calculando adaptativamente el ${\ displaystyle {\ boldsymbol {w}}}$ vectores y el establecimiento de una función de costo que maximiza la no gaussianidad del calculado ${\ displaystyle s_ {k} = {\ boldsymbol {w}} ^ {T} {\ boldsymbol {x}}}$ o minimiza la información mutua. En algunos casos, el conocimiento a priori de las distribuciones de probabilidad de las fuentes se puede utilizar en la función de costos.

Las fuentes originales ${\ displaystyle {\ boldsymbol {s}}}$ se puede recuperar multiplicando las señales observadas ${\ displaystyle {\ boldsymbol {x}}}$ con la inversa de la matriz de mezcla ${\ displaystyle {\ boldsymbol {W}} = {\ boldsymbol {A}} ^ {- 1}}$ , también conocida como matriz de desmezcla. Aquí se supone que la matriz de mezcla es cuadrada ( ${\ Displaystyle n = m}$ ). Si el número de vectores base es mayor que la dimensionalidad de los vectores observados, ${\ Displaystyle n> m}$ , la tarea está demasiado completa, pero aún se puede resolver con el pseudo inverso .

ICA lineal ruidoso

Con la suposición adicional de ruido gaussiano de media cero y no correlacionado ${\ Displaystyle n \ sim N (0, \ operatorname {diag} (\ Sigma))}$ , el modelo ICA toma la forma ${\ displaystyle {\ boldsymbol {x}} = {\ boldsymbol {A}} {\ boldsymbol {s}} + n}$ .

ICA no lineal

La mezcla de las fuentes no necesita ser lineal. Usar una función de mezcla no lineal ${\ Displaystyle f (\ cdot | \ theta)}$ con parámetros ${\ Displaystyle \ theta}$ el modelo ICA no lineal es ${\ Displaystyle x = f (s | \ theta) + n}$ .

Identificabilidad

Los componentes independientes son identificables hasta una permutación y escalado de las fuentes. Esta identificabilidad requiere que:

A lo sumo una de las fuentes ${\ Displaystyle s_ {k}}$ es gaussiano,
El número de mezclas observadas, ${\ Displaystyle m}$ , debe ser al menos tan grande como el número de componentes estimados ${\ Displaystyle n}$ : ${\ Displaystyle m \ geq n}$ . Es equivalente a decir que la matriz de mezcla ${\ displaystyle {\ boldsymbol {A}}}$ debe ser de rango completo para que exista su inverso.

ICA binario

Una variante especial de ICA es ICA binario en el que tanto las fuentes de señal como los monitores están en forma binaria y las observaciones de los monitores son mezclas disyuntivas de fuentes binarias independientes. Se demostró que el problema tiene aplicaciones en muchos dominios, incluido el diagnóstico médico , la asignación de múltiples grupos , la tomografía de red y la gestión de recursos de Internet .

Dejar ${\ Displaystyle {x_ {1}, x_ {2}, \ ldots, x_ {m}}}$ ser el conjunto de variables binarias de ${\ Displaystyle m}$ monitores y ${\ Displaystyle {y_ {1}, y_ {2}, \ ldots, y_ {n}}}$ ser el conjunto de variables binarias de ${\ Displaystyle n}$ fuentes. Las conexiones fuente-monitor están representadas por la matriz de mezcla (desconocida) ${\ textstyle {\ boldsymbol {G}}}$ , dónde ${\ Displaystyle g_ {ij} = 1}$ indica que la señal de la i -ésima fuente puede ser observada por el j -ésimo monitor. El sistema funciona de la siguiente manera: en cualquier momento, si una fuente ${\ Displaystyle i}$ está activo ( ${\ Displaystyle y_ {i} = 1}$ ) y está conectado al monitor ${\ Displaystyle j}$ ( ${\ Displaystyle g_ {ij} = 1}$ ) luego el monitor ${\ Displaystyle j}$ observará alguna actividad ${\ Displaystyle x_ {j} = 1}$ ). Formalmente tenemos:

{\ Displaystyle x_ {i} = \ bigve _ {j = 1} ^ {n} (g_ {ij} \ wedge y_ {j}), i = 1,2, \ ldots, m,}

dónde ${\ Displaystyle \ wedge}$ es booleano AND y ${\ Displaystyle \ vee}$ es un OR booleano. Tenga en cuenta que el ruido no se modela explícitamente, sino que se puede tratar como una fuente independiente.

El problema anterior puede resolverse heurísticamente ^[5] asumiendo que las variables son continuas y ejecutando FastICA en datos de observación binaria para obtener la matriz de mezcla ${\ textstyle {\ boldsymbol {G}}}$ (valores reales), luego aplique técnicas de números redondos en ${\ textstyle {\ boldsymbol {G}}}$ para obtener los valores binarios. Se ha demostrado que este enfoque produce un resultado muy inexacto. ^{[ cita requerida ]}

Otro método es utilizar la programación dinámica : romper recursivamente la matriz de observación ${\ textstyle {\ boldsymbol {X}}}$ en sus submatrices y ejecute el algoritmo de inferencia en estas submatrices. La observación clave que conduce a este algoritmo es la submatriz ${\ textstyle {\ boldsymbol {X}} ^ {0}}$ de ${\ textstyle {\ boldsymbol {X}}}$ dónde ${\ textstyle x_ {ij} = 0, \ forall j}$ corresponde a la matriz de observación insesgada de componentes ocultos que no tienen conexión con el ${\ Displaystyle i}$ -th monitor. Los resultados experimentales de ^[6] muestran que este enfoque es preciso con niveles de ruido moderados.

El marco ICA binario generalizado ^[7] introduce una formulación de problema más amplia que no requiere ningún conocimiento sobre el modelo generativo. En otras palabras, este método intenta descomponer una fuente en sus componentes independientes (tanto como sea posible y sin perder información) sin suponer previamente la forma en que fue generada. Aunque este problema parece bastante complejo, se puede resolver con precisión con un algoritmo de árbol de búsqueda de rama y límite o con un límite superior estricto con una sola multiplicación de una matriz con un vector.

Métodos para la separación ciega de fuentes

Búsqueda de proyección

Las mezclas de señales tienden a tener funciones de densidad de probabilidad gaussianas y las señales fuente tienden a tener funciones de densidad de probabilidad no gaussianas. Cada señal de fuente se puede extraer de un conjunto de mezclas de señales tomando el producto interno de un vector de peso y aquellas mezclas de señales donde este producto interno proporciona una proyección ortogonal de las mezclas de señales. El desafío restante es encontrar ese vector de peso. Un tipo de método para hacerlo es la búsqueda de proyecciones . ^[8]^[9]

La búsqueda de proyecciones busca una proyección a la vez, de modo que la señal extraída sea lo más no gaussiana posible. Esto contrasta con ICA, que normalmente extrae M señales simultáneamente de M mezclas de señales, lo que requiere estimar una matriz de desmezcla M × M. Una ventaja práctica de la búsqueda de proyección sobre ICA es que se pueden extraer menos de M señales si es necesario, donde cada señal de fuente se extrae de M mezclas de señales usando un vector de peso de elemento M.

Podemos usar la curtosis para recuperar la señal de múltiples fuentes encontrando los vectores de peso correctos con el uso de la búsqueda de proyección.

La curtosis de la función de densidad de probabilidad de una señal, para una muestra finita, se calcula como

{\ Displaystyle K = {\ frac {\ operatorname {E} [(\ mathbf {y} - \ mathbf {\ overline {y}}) ^ {4}]} {(\ operatorname {E} [(\ mathbf { y} - \ mathbf {\ overline {y}}) ^ {2}]) ^ {2}}} - 3}

dónde ${\ Displaystyle \ mathbf {\ overline {y}}}$ es la media muestral de ${\ Displaystyle \ mathbf {y}}$ , las señales extraídas. La constante 3 asegura que las señales gaussianas tengan curtosis cero, las señales supergaussianas tengan curtosis positiva y las señales subgaussianas tengan curtosis negativa. El denominador es la varianza de ${\ Displaystyle \ mathbf {y}}$ y asegura que la curtosis medida tenga en cuenta la variación de la señal. El objetivo de la búsqueda de proyección es maximizar la curtosis y hacer que la señal extraída sea lo más anormal posible.

Usando la curtosis como una medida de no normalidad, ahora podemos examinar cómo la curtosis de una señal ${\ Displaystyle \ mathbf {y} = \ mathbf {w} ^ {T} \ mathbf {x}}$ extraído de un conjunto de mezclas M ${\ Displaystyle \ mathbf {x} = (x_ {1}, x_ {2}, \ ldots, x_ {M}) ^ {T}}$ varía como el vector de peso ${\ Displaystyle \ mathbf {w}}$ gira alrededor del origen. Dada nuestra suposición de que cada señal de fuente ${\ Displaystyle \ mathbf {s}}$ es super-gaussiano, esperaríamos:

la curtosis de la señal extraída ${\ Displaystyle \ mathbf {y}}$ ser máximo precisamente cuando ${\ Displaystyle \ mathbf {y} = \ mathbf {s}}$ .
la curtosis de la señal extraída ${\ Displaystyle \ mathbf {y}}$ ser máximo cuando ${\ Displaystyle \ mathbf {w}}$ es ortogonal a los ejes proyectados ${\ Displaystyle S_ {1}}$ o ${\ Displaystyle S_ {2}}$ , porque sabemos que el vector de peso óptimo debe ser ortogonal a un eje transformado ${\ Displaystyle S_ {1}}$ o ${\ Displaystyle S_ {2}}$ .

Para múltiples señales de mezcla de fuentes, podemos usar curtosis y ortogonalización Gram-Schmidt (GSO) para recuperar las señales. Dadas M mezclas de señales en un espacio M -dimensional, la OSG proyecta estos puntos de datos en un espacio ( M-1 ) -dimensional usando el vector de peso. Podemos garantizar la independencia de las señales extraídas con el uso de GSO.

Para encontrar el valor correcto de ${\ Displaystyle \ mathbf {w}}$ , podemos usar el método de descenso de gradiente . En primer lugar, blanqueamos los datos y transformamos ${\ Displaystyle \ mathbf {x}}$ en una nueva mezcla ${\ Displaystyle \ mathbf {z}}$ , que tiene varianza unitaria, y ${\ Displaystyle \ mathbf {z} = (z_ {1}, z_ {2}, \ ldots, z_ {M}) ^ {T}}$ . Este proceso se puede lograr aplicando la descomposición de valores singulares a ${\ Displaystyle \ mathbf {x}}$ ,

{\ Displaystyle \ mathbf {x} = \ mathbf {U} \ mathbf {D} \ mathbf {V} ^ {T}}

Cambiar la escala de cada vector ${\ Displaystyle U_ {i} = U_ {i} / \ operatorname {E} (U_ {i} ^ {2})}$ , y deja ${\ Displaystyle \ mathbf {z} = \ mathbf {U}}$ . La señal extraída por un vector ponderado ${\ Displaystyle \ mathbf {w}}$ es ${\ Displaystyle \ mathbf {y} = \ mathbf {w} ^ {T} \ mathbf {z}}$ . Si el vector de peso w tiene una unidad de longitud, es ${\ Displaystyle \ operatorname {E} [(\ mathbf {w} ^ {T} \ mathbf {z}) ^ {2}] = 1}$ , entonces la curtosis se puede escribir como:

{\ Displaystyle K = {\ frac {\ operatorname {E} [\ mathbf {y} ^ {4}]} {(\ operatorname {E} [\ mathbf {y} ^ {2}]) ^ {2}} } -3 = \ nombre de operador {E} [(\ mathbf {w} ^ {T} \ mathbf {z}) ^ {4}] - 3.}

El proceso de actualización de ${\ Displaystyle \ mathbf {w}}$ es:

{\ Displaystyle \ mathbf {w} _ {nuevo} = \ mathbf {w} _ {antiguo} - \ eta \ operatorname {E} [\ mathbf {z} (\ mathbf {w} _ {antiguo} ^ {T} \ mathbf {z}) ^ {3}].}

dónde ${\ Displaystyle \ eta}$ es una pequeña constante para garantizar que ${\ Displaystyle \ mathbf {w}}$ converge hacia la solución óptima. Después de cada actualización, normalizamos ${\ Displaystyle \ mathbf {w} _ {nuevo} = {\ frac {\ mathbf {w} _ {nuevo}} {| \ mathbf {w} _ {nuevo} |}}}$ , y establecer ${\ Displaystyle \ mathbf {w} _ {antiguo} = \ mathbf {w} _ {nuevo}}$ y repetir el proceso de actualización hasta la convergencia. También podemos usar otro algoritmo para actualizar el vector de peso. ${\ Displaystyle \ mathbf {w}}$ .

Otro enfoque es el uso de negentropía ^[10]^{[11] en} lugar de curtosis. El uso de negentropía es un método más robusto que la curtosis, ya que la curtosis es muy sensible a los valores atípicos. Los métodos de negentropía se basan en una propiedad importante de la distribución gaussiana: una variable gaussiana tiene la mayor entropía entre todas las variables aleatorias continuas de igual varianza. Esta es también la razón por la que queremos encontrar la mayoría de las variables no gaussianas. Se puede encontrar una prueba simple en Entropía diferencial .

{\ Displaystyle J (x) = S (y) -S (x) \,}

y es una variable aleatoria gaussiana de la misma matriz de covarianza que x

{\ Displaystyle S (x) = - \ int p_ {x} (u) \ log p_ {x} (u) du}

Una aproximación de la negentropía es

{\ displaystyle J (x) = {\ frac {1} {12}} (E (x ^ {3})) ^ {2} + {\ frac {1} {48}} (kurt (x)) ^ {2}}

Se puede encontrar una prueba en los documentos originales de Comon; ^[12]^[10] se ha reproducido en el libro Análisis de componentes independientes de Aapo Hyvärinen, Juha Karhunen y Erkki Oja ^[13] Esta aproximación también adolece del mismo problema que la curtosis (sensibilidad a valores atípicos). Se han desarrollado otros enfoques. ^[14]

{\ Displaystyle J (y) = k_ {1} (E (G_ {1} (y))) ^ {2} + k_ {2} (E (G_ {2} (y)) - E (G_ {2 } (v)) ^ {2}}

Una eleccion de ${\ Displaystyle G_ {1}}$ y ${\ Displaystyle G_ {2}}$ están

{\ Displaystyle G_ {1} = {\ frac {1} {a_ {1}}} \ log (\ cosh (a_ {1} u))}

y

{\ Displaystyle G_ {2} = - \ exp (- {\ frac {u ^ {2}} {2}})}

Basado en infomax

Infomax ICA ^[15] es esencialmente una versión paralela y multivariante de la búsqueda de proyección. Mientras que la búsqueda de proyección extrae una serie de señales una a la vez de un conjunto de mezclas de señales M , ICA extrae señales M en paralelo. Esto tiende a hacer que ICA sea más robusto que la búsqueda de proyecciones. ^[dieciséis]

El método de búsqueda de proyección utiliza ortogonalización de Gram-Schmidt para asegurar la independencia de la señal extraída, mientras que ICA utiliza infomax y estimación de máxima verosimilitud para asegurar la independencia de la señal extraída. La No Normalidad de la señal extraída se logra asignando un modelo apropiado, o previo, para la señal.

El proceso de ICA basado en infomax en resumen es: dado un conjunto de mezclas de señales ${\ Displaystyle \ mathbf {x}}$ y un conjunto de funciones de distribución acumulativa (CDF) idénticas del modelo independiente ${\ Displaystyle g}$ , buscamos la matriz desmezcladora ${\ Displaystyle \ mathbf {W}}$ que maximiza la entropía conjunta de las señales ${\ Displaystyle \ mathbf {Y} = g (\ mathbf {y})}$ , dónde ${\ Displaystyle \ mathbf {y} = \ mathbf {Wx}}$ son las señales extraídas por ${\ Displaystyle \ mathbf {W}}$ . Dado el óptimo ${\ Displaystyle \ mathbf {W}}$ , las señales ${\ Displaystyle \ mathbf {Y}}$ tienen máxima entropía y, por lo tanto, son independientes, lo que garantiza que las señales extraídas ${\ Displaystyle \ mathbf {y} = g ^ {- 1} (\ mathbf {Y})}$ también son independientes. ${\ Displaystyle g}$ es una función invertible y es el modelo de señal. Tenga en cuenta que si la función de densidad de probabilidad del modelo de señal fuente ${\ Displaystyle p_ {s}}$ coincide con la función de densidad de probabilidad de la señal extraída ${\ Displaystyle p _ {\ mathbf {y}}}$ , luego maximizando la entropía conjunta de ${\ Displaystyle Y}$ también maximiza la cantidad de información mutua entre ${\ Displaystyle \ mathbf {x}}$ y ${\ Displaystyle \ mathbf {Y}}$ . Por esta razón, el uso de la entropía para extraer señales independientes se conoce como infomax .

Considere la entropía de la variable vectorial ${\ Displaystyle \ mathbf {Y} = g (\ mathbf {y})}$ , dónde ${\ Displaystyle \ mathbf {y} = \ mathbf {Wx}}$ es el conjunto de señales extraídas por la matriz de desmezcla ${\ Displaystyle \ mathbf {W}}$ . Para un conjunto finito de valores muestreados a partir de una distribución con pdf ${\ Displaystyle p _ {\ mathbf {y}}}$ , la entropía de ${\ Displaystyle \ mathbf {Y}}$ se puede estimar como:

{\ Displaystyle H (\ mathbf {Y}) = - {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} \ ln p _ {\ mathbf {Y}} (\ mathbf {Y } ^ {t})}

El pdf conjunto ${\ Displaystyle p _ {\ mathbf {Y}}}$ puede demostrarse que está relacionado con el pdf conjunto ${\ Displaystyle p _ {\ mathbf {y}}}$ de las señales extraídas por la forma multivariante:

{\ Displaystyle p _ {\ mathbf {Y}} (Y) = {\ frac {p _ {\ mathbf {y}} (\ mathbf {y})} {| {\ frac {\ parcial \ mathbf {Y}} { \ parcial \ mathbf {y}}} |}}}

dónde ${\ Displaystyle \ mathbf {J} = {\ frac {\ parcial \ mathbf {Y}} {\ parcial \ mathbf {y}}}}$ es la matriz jacobiana . Tenemos ${\ Displaystyle | \ mathbf {J} | = g '(\ mathbf {y})}$ , y ${\ Displaystyle g '}$ es el pdf asumido para las señales fuente ${\ Displaystyle g '= p_ {s}}$ , por lo tanto,

{\ Displaystyle p _ {\ mathbf {Y}} (Y) = {\ frac {p _ {\ mathbf {y}} (\ mathbf {y})} {| {\ frac {\ parcial \ mathbf {Y}} { \ parcial \ mathbf {y}}} |}} = {\ frac {p _ {\ mathbf {y}} (\ mathbf {y})} {p _ {\ mathbf {s}} (\ mathbf {y})} }}

por lo tanto,

{\ Displaystyle H (\ mathbf {Y}) = - {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} \ ln {\ frac {p _ {\ mathbf {y}} ( \ mathbf {y})} {p _ {\ mathbf {s}} (\ mathbf {y})}}}

Sabemos que cuando ${\ Displaystyle p _ {\ mathbf {y}} = p_ {s}}$ , ${\ Displaystyle p _ {\ mathbf {Y}}}$ es de distribución uniforme, y ${\ Displaystyle H ({\ mathbf {Y}})}$ se maximiza. Desde

{\ Displaystyle p _ {\ mathbf {y}} (\ mathbf {y}) = {\ frac {p _ {\ mathbf {x}} (\ mathbf {x})} {| {\ frac {\ parcial \ mathbf { y}} {\ parcial \ mathbf {x}}} |}} = {\ frac {p _ {\ mathbf {x}} (\ mathbf {x})} {| \ mathbf {W} |}}}

dónde ${\ Displaystyle | \ mathbf {W} |}$ es el valor absoluto del determinante de la matix de desmezcla ${\ Displaystyle \ mathbf {W}}$ . Por lo tanto,

{\ Displaystyle H (\ mathbf {Y}) = - {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} \ ln {\ frac {p _ {\ mathbf {x}} ( \ mathbf {x} ^ {t})} {| \ mathbf {W} | p _ {\ mathbf {s}} (\ mathbf {y} ^ {t})}}}

entonces,

{\ Displaystyle H (\ mathbf {Y}) = {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} \ ln p _ {\ mathbf {s}} (\ mathbf {y} ^ {t}) + \ ln | \ mathbf {W} | + H (\ mathbf {x})}

desde ${\ Displaystyle H (\ mathbf {x}) = - {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} \ ln p _ {\ mathbf {x}} (\ mathbf {x } ^ {t})}$ y maximizando ${\ Displaystyle \ mathbf {W}}$ no afecta ${\ Displaystyle H _ {\ mathbf {x}}}$ , para que podamos maximizar la función

{\ Displaystyle h (\ mathbf {Y}) = {\ frac {1} {N}} \ sum _ {t = 1} ^ {N} \ ln p _ {\ mathbf {s}} (\ mathbf {y} ^ {t}) + \ ln | \ mathbf {W} |}

para lograr la independencia de la señal extraída.

Si hay M pdf marginales del modelo pdf conjunto ${\ Displaystyle p _ {\ mathbf {s}}}$ son independientes y utilizan el modelo pdf comúnmente supergaussiano para las señales de origen ${\ Displaystyle p _ {\ mathbf {s}} = (1- \ tanh (\ mathbf {s}) ^ {2})}$ , entonces nosotros tenemos

{\ Displaystyle h (\ mathbf {Y}) = {\ frac {1} {N}} \ sum _ {i = 1} ^ {M} \ sum _ {t = 1} ^ {N} \ ln (1 - \ tanh (\ mathbf {w_ {i} ^ {T} x ^ {t}}) ^ {2}) + \ ln | \ mathbf {W} |}

En suma, dada una mezcla de señales observada ${\ Displaystyle \ mathbf {x}}$ , el conjunto correspondiente de señales extraídas ${\ Displaystyle \ mathbf {y}}$ y modelo de señal fuente ${\ Displaystyle p _ {\ mathbf {s}} = g '}$ , podemos encontrar la matriz de desmezcla óptima ${\ Displaystyle \ mathbf {W}}$ y hacer que las señales extraídas sean independientes y no gaussianas. Al igual que en la situación de búsqueda de proyección, podemos usar el método de descenso de gradiente para encontrar la solución óptima de la matriz de desmezcla.

Basado en la estimación de máxima verosimilitud

La estimación de máxima verosimilitud (MLE) es una herramienta estadística estándar para encontrar valores de parámetros (por ejemplo, la matriz de desmezcla ${\ Displaystyle \ mathbf {W}}$ ) que proporcionan el mejor ajuste de algunos datos (por ejemplo, las señales extraídas ${\ Displaystyle y}$ ) a un modelo dado (por ejemplo, la función de densidad de probabilidad conjunta asumida (pdf) ${\ Displaystyle p_ {s}}$ de señales fuente). ^[dieciséis]

El "modelo" ML incluye una especificación de un pdf, que en este caso es el pdf ${\ Displaystyle p_ {s}}$ de las señales de fuente desconocida ${\ Displaystyle s}$ . Usando ML ICA , el objetivo es encontrar una matriz de desmezcla que produzca señales extraídas ${\ Displaystyle y = \ mathbf {W} x}$ con un pdf conjunto lo más similar posible al pdf conjunto ${\ Displaystyle p_ {s}}$ de las señales de fuente desconocida ${\ Displaystyle s}$ .

Por tanto, MLE se basa en el supuesto de que si el modelo pdf ${\ Displaystyle p_ {s}}$ y los parámetros del modelo ${\ Displaystyle \ mathbf {A}}$ son correctos, entonces se debe obtener una alta probabilidad para los datos ${\ Displaystyle x}$ que fueron realmente observados. Por el contrario, si ${\ Displaystyle \ mathbf {A}}$ está lejos de los valores correctos de los parámetros, entonces se esperaría una baja probabilidad de los datos observados.

Usando MLE , llamamos a la probabilidad de los datos observados para un conjunto dado de valores de parámetros del modelo (por ejemplo, un pdf ${\ Displaystyle p_ {s}}$ y una matriz ${\ Displaystyle \ mathbf {A}}$ ) la probabilidad de los valores de los parámetros del modelo dados los datos observados.

Definimos una función de verosimilitud ${\ Displaystyle \ mathbf {L (W)}}$ de ${\ Displaystyle \ mathbf {W}}$ :

${\ Displaystyle \ mathbf {L (W)} = p_ {s} (\ mathbf {W} x) | \ det \ mathbf {W} |.}$

Esto equivale a la densidad de probabilidad en ${\ Displaystyle x}$ , desde ${\ Displaystyle s = \ mathbf {W} x}$ .

Por tanto, si deseamos encontrar un ${\ Displaystyle \ mathbf {W}}$ que es más probable que haya generado las mezclas observadas ${\ Displaystyle x}$ de las señales de fuente desconocida ${\ Displaystyle s}$ con pdf ${\ Displaystyle p_ {s}}$ entonces solo necesitamos encontrar eso ${\ Displaystyle \ mathbf {W}}$ que maximiza la probabilidad ${\ Displaystyle \ mathbf {L (W)}}$ . La matriz de desmezcla que maximiza la ecuación se conoce como el MLE de la matriz de desmezcla óptima.

Es una práctica común utilizar la probabilidad logarítmica , porque es más fácil de evaluar. Como el logaritmo es una función monótona, el ${\ Displaystyle \ mathbf {W}}$ que maximiza la función ${\ Displaystyle \ mathbf {L (W)}}$ también maximiza su logaritmo ${\ Displaystyle \ ln \ mathbf {L (W)}}$ . Esto nos permite tomar el logaritmo de la ecuación anterior, lo que produce la función logarítmica de verosimilitud

${\ Displaystyle \ ln \ mathbf {L (W)} = \ sum _ {i} \ sum _ {t} \ ln p_ {s} (w_ {i} ^ {T} x_ {t}) + N \ ln | \ det \ mathbf {W} |}$

Si sustituimos un pdf de modelo de alta curtosis de uso común para las señales de origen ${\ Displaystyle p_ {s} = (1- \ tanh (s) ^ {2})}$ entonces nosotros tenemos

${\ Displaystyle \ ln \ mathbf {L (W)} = {1 \ over N} \ sum _ {i} ^ {M} \ sum _ {t} ^ {N} \ ln (1- \ tanh (w_ { i} ^ {T} x_ {t}) ^ {2}) + \ ln | \ det \ mathbf {W} |}$

Esta matriz ${\ Displaystyle \ mathbf {W}}$ que maximiza esta función es la estimación de máxima verosimilitud .

Historia y antecedentes

El primer marco general para el análisis de componentes independientes fue introducido por Jeanny Hérault y Bernard Ans en 1984, ^[17] desarrollado por Christian Jutten en 1985 y 1986, ^[18]^[19]^[20] y perfeccionado por Pierre Comon en 1991, ^{[ 12]} y popularizado en su artículo de 1994. ^[10] En 1995, Tony Bell y Terry Sejnowski introdujeron un algoritmo ICA rápido y eficiente basado en infomax , un principio introducido por Ralph Linsker en 1987.

Hay muchos algoritmos disponibles en la literatura que hacen ICA. Uno de los más utilizados, incluso en aplicaciones industriales, es el algoritmo FastICA, desarrollado por Hyvärinen y Oja, que utiliza la curtosis como función de coste. Otros ejemplos están más bien relacionados con la separación ciega de fuentes donde se utiliza un enfoque más general. Por ejemplo, se puede descartar el supuesto de independencia y separar señales correlacionadas entre sí, por lo tanto, señales estadísticamente "dependientes". Sepp Hochreiter y Jürgen Schmidhuber mostraron cómo obtener ICA no lineal o separación de fuentes como subproducto de la regularización (1999). ^[21] Su método no requiere un conocimiento a priori sobre el número de fuentes independientes.

Aplicaciones

ICA se puede ampliar para analizar señales no físicas. Por ejemplo, ICA se ha aplicado para descubrir temas de discusión en una bolsa de archivos de listas de noticias.

Algunas aplicaciones ICA se enumeran a continuación: ^[3]

Análisis de componentes independientes en EEGLAB

Imágenes ópticas de neuronas ^[22]
clasificación de picos neuronales ^[23]
reconocimiento facial ^[24]
Modelado de campos receptivos de neuronas visuales primarias ^[25]
predecir los precios del mercado de valores ^[26]
comunicaciones por telefonía móvil ^[27]
detección basada en el color de la madurez de los tomates ^[28]
eliminar artefactos, como parpadeos, de los datos del EEG . ^[29]
análisis de los cambios en la expresión génica a lo largo del tiempo en experimentos de secuenciación de ARN de una sola célula . ^[30]
estudios de la red en estado de reposo del cerebro. ^[31]
astronomía y cosmología ^[32]

Ver también

Deconvolución ciega
Análisis factorial
Espectro de Hilbert
Procesamiento de imágenes
PCA multilineal
Aprendizaje subespacial multilineal
Factorización matricial no negativa (NMF)
Reducción de dimensionalidad no lineal
Búsqueda de proyección
Rotación varimax

Notas

^ Hyvärinen, Aapo (2013). "Análisis de componentes independientes: avances recientes" . Transacciones filosóficas: Ciencias matemáticas, físicas y de la ingeniería . 371 (1984): 20110534. Código bibliográfico : 2012RSPTA.37110534H . doi : 10.1098 / rsta.2011.0534 . ISSN 1364-503X . JSTOR 41739975 . PMC 3538438 . PMID 23277597 .
^ Isomura, Takuya; Toyoizumi, Taro (2016). "Una regla de aprendizaje local para el análisis de componentes independientes" . Informes científicos . 6 : 28073. Bibcode : 2016NatSR ... 628073I . doi : 10.1038 / srep28073 . PMC 4914970 . PMID 27323661 .
^ a b Piedra, James V. (2004). Análisis de componentes independientes: una introducción tutorial . Cambridge, Massachusetts: MIT Press. ISBN 978-0-262-69315-8.
^ Hyvärinen, Aapo; Karhunen, Juha; Oja, Erkki (2001). Análisis de componentes independientes (1ª ed.). Nueva York: John Wiley & Sons. ISBN 978-0-471-22131-9.
^ Johan Himbergand Aapo Hyvärinen, Análisis de componentes independientes para datos binarios: un estudio experimental , Proc. En t. Taller sobre análisis de componentes independientes y separación de señales ciegas (ICA2001), San Diego, California, 2001.
^ Huy Nguyen y Rong Zheng, Análisis de componentes independientes binarios con o mezclas , Transacciones IEEE sobre procesamiento de señales, Vol. 59, número 7. (julio de 2011), págs. 3168–3181.
^ Painsky, Amichai; Rosset, Saharon; Feder, Meir (2014). Análisis de componentes independientes binarios generalizados . Simposio internacional de IEEE sobre teoría de la información (ISIT), 2014 . págs. 1326-1330. doi : 10.1109 / ISIT.2014.6875048 . ISBN 978-1-4799-5186-4. S2CID 18579555 .
^ James V. Stone (2004); "Análisis de componentes independientes: una introducción tutorial", The MIT Press Cambridge, Massachusetts, Londres, Inglaterra; ISBN 0-262-69315-1
^ Kruskal, JB. 1969; "Hacia un método práctico que ayuda a descubrir la estructura de un conjunto de observaciones al encontrar la transformación de línea que optimiza un nuevo" índice de condensación ", páginas 427–440 de: Milton, RC y Nelder, JA (eds), cálculo estadístico ; Nueva York, Academic Press
^ a b c Pierre Comon (1994) Análisis de componentes independientes, ¿un nuevo concepto? http://www.ece.ucsb.edu/wcsl/courses/ECE594/594C_F10Madhow/comon94.pdf
^ Hyvärinen, Aapo; Erkki Oja (2000). "Análisis de componentes independientes: algoritmos y aplicaciones". Redes neuronales . 4-5. 13 (4–5): 411–430. CiteSeerX 10.1.1.79.7003 . doi : 10.1016 / s0893-6080 (00) 00026-5 . PMID 10946390 .
^ a b P.Comon, Análisis de componentes independientes, Taller sobre estadísticas de orden superior, julio de 1991, republicado en JL. Lacoume, editor, Higher Order Statistics, págs. 29-38. Elsevier, Amsterdam, Londres, 1992. Enlace HAL
^ Hyvärinen, Aapo; Karhunen, Juha; Oja, Erkki (2001). Análisis de componentes independientes (Reprint ed.). Nueva York, NY: Wiley. ISBN 978-0-471-40540-5.
^ Hyvärinen, Aapo (1998). "Nuevas aproximaciones de entropía diferencial para análisis de componentes independientes y seguimiento de proyecciones". Avances en sistemas de procesamiento de información neuronal . 10 : 273-279.
^ Bell, AJ; Sejnowski, TJ (1995). "Un enfoque de maximización de la información para la separación ciega y la deconvolución ciega", Computación neuronal, 7, 1129-1159
↑ a b James V. Stone (2004). "Análisis de componentes independientes: una introducción tutorial", The MIT Press Cambridge, Massachusetts, Londres, Inglaterra; ISBN 0-262-69315-1
^ Hérault, J .; Ans, B. (1984). "Réseau de neurones à synapses modificables: Décodage de messages sensoriels composites par apprentissage non supervisé et permanente". Comptes Rendus de l'Académie des Sciences, Série III . 299 : 525-528.
^ Ans, B., Hérault, J. y Jutten, C. (1985). Arquitecturas neuromimétiques adaptativas: Détection de primitives. Cognitiva 85 (Vol. 2, págs. 593-597). París: CESTA.
^ Hérault, J., Jutten, C. y Ans, B. (1985). Détection de grandeurs primitives dans un message composite par une architecture de calcul neuromimétique en apprentissage non supervisé. Actas del décimo taller Traitement du signal et ses applications (Vol. 2, págs. 1017-1022). Niza (Francia): GRETSI.
^ Hérault, J. y Jutten, C. (1986). Procesamiento de señales adaptables al espacio o al tiempo mediante modelos de redes neuronales. Interno. Conf. sobre redes neuronales para la informática (págs. 206-211). Snowbird (Utah, Estados Unidos).
^ Hochreiter, Sepp; Schmidhuber, Jürgen (1999). "Extracción de características a través de LOCOCODE" (PDF) . Computación neuronal . 11 (3): 679–714. doi : 10.1162 / 089976699300016629 . ISSN 0899-7667 . PMID 10085426 . S2CID 1642107 . Consultado el 24 de febrero de 2018 .
^ Brown, GD; Yamada, S; Sejnowski, TJ (2001). "Análisis de componentes independientes en el cóctel neuronal". Tendencias en neurociencias . 24 (1): 54–63. doi : 10.1016 / s0166-2236 (00) 01683-0 . PMID 11163888 . S2CID 511254 .
^ Lewicki, MS (1998). "Una vista de métodos para la clasificación de picos: detección y clasificación de potenciales de acción neuronales". Red: Computación en sistemas neuronales . 9 (4): 53–78. doi : 10.1088 / 0954-898X_9_4_001 . S2CID 10290908 .
^ Barlett, MS (2001). Análisis de imágenes faciales mediante aprendizaje no supervisado . Boston: Serie internacional de Kluwer sobre ingeniería y ciencias de la computación.
^ Bell, AJ; Sejnowski, TJ (1997). "Los componentes independientes de las escenas naturales son los filtros de borde" . Investigación de la visión . 37 (23): 3327–3338. doi : 10.1016 / s0042-6989 (97) 00121-1 . PMC 2882863 . PMID 9425547 .
^ Atrás, AD; Weigend, AS (1997). "Una primera aplicación del análisis de componentes independientes para extraer la estructura de la rentabilidad de las acciones". Revista internacional de sistemas neuronales . 8 (4): 473–484. doi : 10.1142 / s0129065797000458 . PMID 9730022 . S2CID 872703 .
^ Hyvarinen, A, Karhunen, J y Oja, E (2001a). Análisis de componentes independientes . Nueva York: John Wiley and Sons.
^ Polder, G; van der Heijen, FWAM (2003). "Estimación de la distribución de compuestos en imágenes espectrales de tomates mediante análisis de componentes independientes". Sociedad Austriaca de la Computación : 57–64.
^ Delorme, A; Sejnowski, T; Makeig, S (2007). "Detección mejorada de artefactos en datos de EEG utilizando estadísticas de orden superior y análisis de componentes independientes" . NeuroImage . 34 (4): 1443–1449. doi : 10.1016 / j.neuroimage.2006.11.004 . PMC 2895624 . PMID 17188898 .
^ Trapnell, C; Cacchiarelli, D; Grimsby, J (2014). "La dinámica y los reguladores de las decisiones del destino celular se revelan mediante el ordenamiento pseudotemporal de las células individuales" . Biotecnología de la naturaleza . 32 (4): 381–386. doi : 10.1038 / nbt.2859 . PMC 4122333 . PMID 24658644 .
^ Kiviniemi, Vesa J .; Kantola, Juha-Heikki; Jauhiainen, Jukka; Hyvärinen, Aapo; Tervonen, Osmo (2003). "Análisis de componentes independientes de fuentes de señal de fMRI no deterministas". NeuroImage . 19 (2): 253–260. doi : 10.1016 / S1053-8119 (03) 00097-1 . PMID 12814576 . S2CID 17110486 .
^ Wang, Jingying; Xu, Haiguang; Gu, Junhua; An, Tao; Cui, Haijuan; Li, Jianxun; Zhang, Zhongli; Zheng, Qian; Wu, Xiang-Ping (1 de noviembre de 2010). "¿Cómo identificar y separar los cúmulos de galaxias brillantes del cielo de radio de baja frecuencia?" . El diario astrofísico . 723 (1): 620–633. doi : 10.1088 / 0004-637X / 723/1/620 . ISSN 0004-637X .

Referencias

Comon, Pierre (1994): "Análisis de componentes independientes: ¿un nuevo concepto?" , Signal Processing , 36 (3): 287–314 (El documento original que describe el concepto de ICA)
Hyvärinen, A .; Karhunen, J .; Oja, E. (2001): Análisis de componentes independientes , Nueva York: Wiley, ISBN 978-0-471-40540-5 ( capítulo introductorio )
Hyvärinen, A .; Oja, E. (2000): "Análisis de componentes independientes: algoritmos y aplicación" , Redes neuronales , 13 (4-5): 411-430. (Introducción técnica pero pedagógica).
Comon, P .; Jutten C., (2010): Manual de separación ciega de fuentes, análisis y aplicaciones de componentes independientes. Academic Press, Oxford Reino Unido. ISBN 978-0-12-374726-6
Lee, T.-W. (1998): Análisis de componentes independientes: Teoría y aplicaciones , Boston, Mass: Kluwer Academic Publishers, ISBN 0-7923-8261-7
Acharyya, Ranjan (2008): Un nuevo enfoque para la separación en fuente ciega de fuentes convolutivas - Separación basada en ondas mediante la función de contracciónISBN 3-639-07797-0ISBN 978-3639077971 (este libro se centra en el aprendizaje no supervisado con separación ciega de fuentes)

enlaces externos

¿Qué es el análisis de componentes independientes? por Aapo Hyvärinen
Análisis de componentes independientes: un tutorial de Aapo Hyvärinen
Un tutorial sobre análisis de componentes independientes
FastICA como paquete para Matlab, en lenguaje R, C ++
Cajas de herramientas ICALAB para Matlab, desarrolladas en RIKEN
El kit de herramientas de análisis de señales de alto rendimiento proporciona implementaciones C ++ de FastICA e Infomax
Caja de herramientas ICA Herramientas de Matlab para ICA con Bell-Sejnowski, Molgedey-Schuster e ICA de campo medio. Desarrollado en DTU.
Demostración del problema de los cócteles
EEGLAB Toolbox ICA de EEG para Matlab, desarrollado en UCSD.
FMRLAB Toolbox ICA de fMRI para Matlab, desarrollado en UCSD
MELODIC , parte de la biblioteca de software FMRIB .
Discusión del ICA utilizado en un contexto biomédico de representación de formas
Algoritmo FastICA, CuBICA, JADE y TDSEP para Python y más ...
Grupo ICA Toolbox y Fusion ICA Toolbox
Tutorial: uso de ICA para limpiar señales de EEG

[1] Hyvärinen, Aapo (2013). "Análisis de componentes independientes: avances recientes" . Transacciones filosóficas: Ciencias matemáticas, físicas y de la ingeniería . 371 (1984): 20110534. Código bibliográfico : 2012RSPTA.37110534H . doi : 10.1098 / rsta.2011.0534 . ISSN 1364-503X . JSTOR 41739975 . PMC 3538438 . PMID 23277597 .

[2] Isomura, Takuya; Toyoizumi, Taro (2016). "Una regla de aprendizaje local para el análisis de componentes independientes" . Informes científicos . 6 : 28073. Bibcode : 2016NatSR ... 628073I . doi : 10.1038 / srep28073 . PMC 4914970 . PMID 27323661 .

[Stone_2004-3] Piedra, James V. (2004). Análisis de componentes independientes: una introducción tutorial . Cambridge, Massachusetts: MIT Press. ISBN 978-0-262-69315-8.

[4] Hyvärinen, Aapo; Karhunen, Juha; Oja, Erkki (2001). Análisis de componentes independientes (1ª ed.). Nueva York: John Wiley & Sons. ISBN 978-0-471-22131-9.

[Hyvärinen-5] Johan Himbergand Aapo Hyvärinen, Análisis de componentes independientes para datos binarios: un estudio experimental , Proc. En t. Taller sobre análisis de componentes independientes y separación de señales ciegas (ICA2001), San Diego, California, 2001.

[Huyna-6] Huy Nguyen y Rong Zheng, Análisis de componentes independientes binarios con o mezclas , Transacciones IEEE sobre procesamiento de señales, Vol. 59, número 7. (julio de 2011), págs. 3168–3181.

[Generalized_Binary_ICA-7] Painsky, Amichai; Rosset, Saharon; Feder, Meir (2014). Análisis de componentes independientes binarios generalizados . Simposio internacional de IEEE sobre teoría de la información (ISIT), 2014 . págs. 1326-1330. doi : 10.1109 / ISIT.2014.6875048 . ISBN 978-1-4799-5186-4. S2CID 18579555 .

[James_V._Stone_2004-8] James V. Stone (2004); "Análisis de componentes independientes: una introducción tutorial", The MIT Press Cambridge, Massachusetts, Londres, Inglaterra; ISBN 0-262-69315-1

[9] Kruskal, JB. 1969; "Hacia un método práctico que ayuda a descubrir la estructura de un conjunto de observaciones al encontrar la transformación de línea que optimiza un nuevo" índice de condensación ", páginas 427–440 de: Milton, RC y Nelder, JA (eds), cálculo estadístico ; Nueva York, Academic Press

[comon94-10] Pierre Comon (1994) Análisis de componentes independientes, ¿un nuevo concepto? http://www.ece.ucsb.edu/wcsl/courses/ECE594/594C_F10Madhow/comon94.pdf

[11] Hyvärinen, Aapo; Erkki Oja (2000). "Análisis de componentes independientes: algoritmos y aplicaciones". Redes neuronales . 4-5. 13 (4–5): 411–430. CiteSeerX 10.1.1.79.7003 . doi : 10.1016 / s0893-6080 (00) 00026-5 . PMID 10946390 .

[pc91-12] P.Comon, Análisis de componentes independientes, Taller sobre estadísticas de orden superior, julio de 1991, republicado en JL. Lacoume, editor, Higher Order Statistics, págs. 29-38. Elsevier, Amsterdam, Londres, 1992. Enlace HAL

[13] Hyvärinen, Aapo; Karhunen, Juha; Oja, Erkki (2001). Análisis de componentes independientes (Reprint ed.). Nueva York, NY: Wiley. ISBN 978-0-471-40540-5.

[14] Hyvärinen, Aapo (1998). "Nuevas aproximaciones de entropía diferencial para análisis de componentes independientes y seguimiento de proyecciones". Avances en sistemas de procesamiento de información neuronal . 10 : 273-279.

[Bell-Sejnowski-15] Bell, AJ; Sejnowski, TJ (1995). "Un enfoque de maximización de la información para la separación ciega y la deconvolución ciega", Computación neuronal, 7, 1129-1159

[ReferenceA-16] James V. Stone (2004). "Análisis de componentes independientes: una introducción tutorial", The MIT Press Cambridge, Massachusetts, Londres, Inglaterra; ISBN 0-262-69315-1

[17] Hérault, J .; Ans, B. (1984). "Réseau de neurones à synapses modificables: Décodage de messages sensoriels composites par apprentissage non supervisé et permanente". Comptes Rendus de l'Académie des Sciences, Série III . 299 : 525-528.

[18] Ans, B., Hérault, J. y Jutten, C. (1985). Arquitecturas neuromimétiques adaptativas: Détection de primitives. Cognitiva 85 (Vol. 2, págs. 593-597). París: CESTA.

[19] Hérault, J., Jutten, C. y Ans, B. (1985). Détection de grandeurs primitives dans un message composite par une architecture de calcul neuromimétique en apprentissage non supervisé. Actas del décimo taller Traitement du signal et ses applications (Vol. 2, págs. 1017-1022). Niza (Francia): GRETSI.

[20] Hérault, J. y Jutten, C. (1986). Procesamiento de señales adaptables al espacio o al tiempo mediante modelos de redes neuronales. Interno. Conf. sobre redes neuronales para la informática (págs. 206-211). Snowbird (Utah, Estados Unidos).

[HochreiterSchmidhuber1999-21] Hochreiter, Sepp; Schmidhuber, Jürgen (1999). "Extracción de características a través de LOCOCODE" (PDF) . Computación neuronal . 11 (3): 679–714. doi : 10.1162 / 089976699300016629 . ISSN 0899-7667 . PMID 10085426 . S2CID 1642107 . Consultado el 24 de febrero de 2018 .

[22] Brown, GD; Yamada, S; Sejnowski, TJ (2001). "Análisis de componentes independientes en el cóctel neuronal". Tendencias en neurociencias . 24 (1): 54–63. doi : 10.1016 / s0166-2236 (00) 01683-0 . PMID 11163888 . S2CID 511254 .

[23] Lewicki, MS (1998). "Una vista de métodos para la clasificación de picos: detección y clasificación de potenciales de acción neuronales". Red: Computación en sistemas neuronales . 9 (4): 53–78. doi : 10.1088 / 0954-898X_9_4_001 . S2CID 10290908 .

[24] Barlett, MS (2001). Análisis de imágenes faciales mediante aprendizaje no supervisado . Boston: Serie internacional de Kluwer sobre ingeniería y ciencias de la computación.

[25] Bell, AJ; Sejnowski, TJ (1997). "Los componentes independientes de las escenas naturales son los filtros de borde" . Investigación de la visión . 37 (23): 3327–3338. doi : 10.1016 / s0042-6989 (97) 00121-1 . PMC 2882863 . PMID 9425547 .

[26] Atrás, AD; Weigend, AS (1997). "Una primera aplicación del análisis de componentes independientes para extraer la estructura de la rentabilidad de las acciones". Revista internacional de sistemas neuronales . 8 (4): 473–484. doi : 10.1142 / s0129065797000458 . PMID 9730022 . S2CID 872703 .

[27] Hyvarinen, A, Karhunen, J y Oja, E (2001a). Análisis de componentes independientes . Nueva York: John Wiley and Sons.

[28] Polder, G; van der Heijen, FWAM (2003). "Estimación de la distribución de compuestos en imágenes espectrales de tomates mediante análisis de componentes independientes". Sociedad Austriaca de la Computación : 57–64.

[29] Delorme, A; Sejnowski, T; Makeig, S (2007). "Detección mejorada de artefactos en datos de EEG utilizando estadísticas de orden superior y análisis de componentes independientes" . NeuroImage . 34 (4): 1443–1449. doi : 10.1016 / j.neuroimage.2006.11.004 . PMC 2895624 . PMID 17188898 .

[30] Trapnell, C; Cacchiarelli, D; Grimsby, J (2014). "La dinámica y los reguladores de las decisiones del destino celular se revelan mediante el ordenamiento pseudotemporal de las células individuales" . Biotecnología de la naturaleza . 32 (4): 381–386. doi : 10.1038 / nbt.2859 . PMC 4122333 . PMID 24658644 .

[Kiviniemi2003-31] Kiviniemi, Vesa J .; Kantola, Juha-Heikki; Jauhiainen, Jukka; Hyvärinen, Aapo; Tervonen, Osmo (2003). "Análisis de componentes independientes de fuentes de señal de fMRI no deterministas". NeuroImage . 19 (2): 253–260. doi : 10.1016 / S1053-8119 (03) 00097-1 . PMID 12814576 . S2CID 17110486 .

[32] Wang, Jingying; Xu, Haiguang; Gu, Junhua; An, Tao; Cui, Haijuan; Li, Jianxun; Zhang, Zhongli; Zheng, Qian; Wu, Xiang-Ping (1 de noviembre de 2010). "¿Cómo identificar y separar los cúmulos de galaxias brillantes del cielo de radio de baja frecuencia?" . El diario astrofísico . 723 (1): 620–633. doi : 10.1088 / 0004-637X / 723/1/620 . ISSN 0004-637X .

[1]