Autoencoder

Un autoencoder es un tipo de red neuronal artificial utilizada para aprender codificaciones de datos eficientes en un sin supervisión manera. ^[1] El objetivo de un codificador automático es aprender una representación (codificación) de un conjunto de datos, normalmente para la reducción de dimensionalidad , entrenando a la red para que ignore el "ruido" de la señal. Junto con el lado de reducción, se aprende un lado de reconstrucción, donde el autoencoder intenta generar a partir de la codificación reducida una representación lo más cercana posible a su entrada original, de ahí su nombre. Existen variantes, con el objetivo de obligar a las representaciones aprendidas a asumir propiedades útiles. ^[2] Algunos ejemplos son los codificadores automáticos regularizados (Sparse , Denoising y Contractive ), que son eficaces en el aprendizaje de representaciones para tareas de clasificación posteriores, ^[3] y Autoencoders Variational , con aplicaciones como modelos generativos . ^{[4] Los} codificadores automáticos se aplican a muchos problemas, desde el reconocimiento facial ^[5] hasta la adquisición del significado semántico de las palabras. ^[6]^[7]

Introducción

Un autoencoder es una red neuronal que aprende a copiar su entrada a su salida. Tiene una capa interna ( oculta ) que describe un código utilizado para representar la entrada, y está constituida por dos partes principales: un codificador que asigna la entrada al código y un decodificador que asigna el código a una reconstrucción de la entrada. .

Realizar la tarea de copia a la perfección simplemente duplicaría la señal, y es por eso que los codificadores automáticos generalmente están restringidos de manera que los obligan a reconstruir la entrada aproximadamente, conservando solo los aspectos más relevantes de los datos en la copia.

La idea de los codificadores automáticos ha sido popular en el campo de las redes neuronales durante décadas. Las primeras aplicaciones datan de la década de 1980. ^[2]^[8]^[9] Su aplicación más tradicional era la reducción de dimensionalidad o aprendizaje de características , pero el concepto de autocodificador se volvió más ampliamente utilizado para aprender modelos generativos de datos. ^[10]^[11] Algunas de las IA más poderosas en la década de 2010 involucraron escasos autocodificadores apilados dentro de redes neuronales profundas . ^[12]

Arquitectura básica

Esquema de un Autoencoder básico

La forma más simple de un autoencoder es un feedforward , no la red neuronal recurrente similar a la de una sola capa perceptrones que participan en perceptrones multicapa (MLP) - que emplean una capa de entrada y una capa de salida conectado por una o más capas ocultas. La capa de salida tiene el mismo número de nodos (neuronas) que la capa de entrada. Su propósito es reconstruir sus entradas (minimizando la diferencia entre la entrada y la salida) en lugar de predecir un valor objetivo. ${\ Displaystyle Y}$ entradas dadas ${\ Displaystyle X}$ . Por lo tanto, los codificadores automáticos son modelos de aprendizaje no supervisados . (No requieren entradas etiquetadas para permitir el aprendizaje).

Un autoencoder consta de dos partes, el codificador y el decodificador, que se pueden definir como transiciones. ${\ Displaystyle \ phi}$ y ${\ Displaystyle \ psi,}$ tal que:

{\ Displaystyle \ phi: {\ mathcal {X}} \ rightarrow {\ mathcal {F}}}

{\ Displaystyle \ psi: {\ mathcal {F}} \ rightarrow {\ mathcal {X}}}

{\ Displaystyle \ phi, \ psi = {\ underset {\ phi, \ psi} {\ operatorname {arg \, min}}} \, \ | {\ mathcal {X}} - (\ psi \ circ \ phi) {\ mathcal {X}} \ | ^ {2}}

En el caso más simple, dada una capa oculta, la etapa del codificador de un codificador automático toma la entrada ${\ Displaystyle \ mathbf {x} \ in \ mathbb {R} ^ {d} = {\ mathcal {X}}}$ y lo asigna a ${\ Displaystyle \ mathbf {h} \ in \ mathbb {R} ^ {p} = {\ mathcal {F}}}$ :

{\ Displaystyle \ mathbf {h} = \ sigma (\ mathbf {Wx} + \ mathbf {b})}

Esta imagen ${\ Displaystyle \ mathbf {h}}$ se suele denominar código , variables latentes o representación latente . Aquí, ${\ Displaystyle \ sigma}$ es una función de activación por elementos , como una función sigmoidea o una unidad lineal rectificada . ${\ Displaystyle \ mathbf {W}}$ es una matriz de peso y ${\ Displaystyle \ mathbf {b}}$ es un vector de sesgo. Los pesos y los sesgos generalmente se inicializan de forma aleatoria y luego se actualizan iterativamente durante el entrenamiento a través de la propagación hacia atrás . Después de eso, la etapa del decodificador de los mapas del codificador automático ${\ Displaystyle \ mathbf {h}}$ a la reconstrucción ${\ Displaystyle \ mathbf {x '}}$ de la misma forma que ${\ Displaystyle \ mathbf {x}}$ :

{\ Displaystyle \ mathbf {x '} = \ sigma' (\ mathbf {W'h} + \ mathbf {b '})}

dónde ${\ Displaystyle \ mathbf {\ sigma '}, \ mathbf {W'}, {\ text {y}} \ mathbf {b '}}$ ya que el decodificador puede no estar relacionado con el correspondiente ${\ Displaystyle \ mathbf {\ sigma}, \ mathbf {W}, {\ text {y}} \ mathbf {b}}$ para el codificador.

Los codificadores automáticos están capacitados para minimizar los errores de reconstrucción (como los errores al cuadrado ), a menudo denominados " pérdida ":

{\ Displaystyle {\ mathcal {L}} (\ mathbf {x}, \ mathbf {x '}) = \ | \ mathbf {x} - \ mathbf {x'} \ | ^ {2} = \ | \ mathbf {x} - \ sigma '(\ mathbf {W'} (\ sigma (\ mathbf {Wx} + \ mathbf {b})) + \ mathbf {b '}) \ | ^ {2}}

dónde ${\ Displaystyle \ mathbf {x}}$ generalmente se promedia sobre algún conjunto de entrenamiento de entrada.

Como se mencionó anteriormente, el entrenamiento de un codificador automático se realiza mediante la propagación hacia atrás del error, al igual que una red neuronal de retroalimentación regular .

¿Debería el espacio de la función ${\ Displaystyle {\ mathcal {F}}}$ tienen menor dimensionalidad que el espacio de entrada ${\ Displaystyle {\ mathcal {X}}}$ , el vector de características ${\ Displaystyle \ phi (x)}$ puede considerarse como una representación comprimida de la entrada ${\ Displaystyle x}$ . Este es el caso de undercomplete autoencoders. Si las capas ocultas son más grandes que ( codificadores automáticos en exceso) , o iguales a la capa de entrada, o las unidades ocultas tienen suficiente capacidad, un codificador automático puede potencialmente aprender la función de identidad y volverse inútil. Sin embargo, los resultados experimentales han demostrado que los codificadores automáticos aún pueden aprender funciones útiles en estos casos. ^[13] En el entorno ideal, se debería poder adaptar la dimensión del código y la capacidad del modelo sobre la base de la complejidad de la distribución de datos que se va a modelar. Una forma de hacerlo es explotar las variantes del modelo conocidas como codificadores automáticos regularizados. ^[2]

Variaciones

Autoencoders regularizados

Existen varias técnicas para evitar que los autocodificadores aprendan la función de identidad y para mejorar su capacidad para capturar información importante y aprender representaciones más ricas.

Codificador automático disperso (SAE)

Esquema simple de un codificador automático disperso de una sola capa. Los nodos ocultos en amarillo brillante están activados, mientras que los de color amarillo claro están inactivos. La activación depende de la entrada.

Cuando las representaciones se aprenden de una manera que fomenta la escasez, se obtiene un mejor desempeño en las tareas de clasificación. ^{[14] El} codificador automático disperso puede incluir más (en lugar de menos) unidades ocultas que entradas, pero solo se permite que un pequeño número de unidades ocultas estén activas al mismo tiempo. ^[12] Esta restricción de escasez obliga al modelo a responder a las características estadísticas únicas de los datos de entrenamiento.

Específicamente, un codificador automático disperso es un codificador automático cuyo criterio de entrenamiento implica una penalización por escasez ${\ Displaystyle \ Omega ({\ boldsymbol {h}})}$ en la capa de código ${\ displaystyle {\ boldsymbol {h}}}$ .

${\ Displaystyle {\ mathcal {L}} (\ mathbf {x}, \ mathbf {x '}) + \ Omega ({\ boldsymbol {h}})}$

Recordando que ${\ displaystyle {\ boldsymbol {h}} = f ({\ boldsymbol {W}} {\ boldsymbol {x}} + {\ boldsymbol {b}})}$ , la penalización anima al modelo a activar (es decir, un valor de salida cercano a 1) áreas específicas de la red sobre la base de los datos de entrada, mientras inactiva todas las demás neuronas (es decir, que tenga un valor de salida cercano a 0). ^[15]

Esta escasez se puede lograr formulando los términos de penalización de diferentes maneras.

Una forma es aprovechar la divergencia Kullback-Leibler (KL) . ^[14]^[15]^[16]^[17] Deje

${\ Displaystyle {\ hat {\ rho _ {j}}} = {\ frac {1} {m}} \ sum _ {i = 1} ^ {m} [h_ {j} (x_ {i})] }$

ser la activación promedio de la unidad oculta ${\ Displaystyle j}$ (promediado sobre el ${\ Displaystyle m}$ ejemplos de formación). La notación ${\ Displaystyle h_ {j} (x_ {i})}$ identifica el valor de entrada que desencadenó la activación. Para alentar a la mayoría de las neuronas a estar inactivas, ${\ Displaystyle {\ hat {\ rho _ {j}}}}$ debe estar cerca de 0. Por lo tanto, este método aplica la restricción ${\ Displaystyle {\ hat {\ rho _ {j}}} = \ rho}$ dónde ${\ Displaystyle \ rho}$ es el parámetro de escasez, un valor cercano a cero. El término de penalización ${\ Displaystyle \ Omega ({\ boldsymbol {h}})}$ toma una forma que penaliza ${\ Displaystyle {\ hat {\ rho _ {j}}}}$ por desviarse significativamente de ${\ Displaystyle \ rho}$ , explotando la divergencia KL:

${\ Displaystyle \ sum _ {j = 1} ^ {s} KL (\ rho || {\ hat {\ rho _ {j}}}) = \ sum _ {j = 1} ^ {s} \ left [ \ rho \ log {\ frac {\ rho} {\ hat {\ rho _ {j}}}} + (1- \ rho) \ log {\ frac {1- \ rho} {1 - {\ hat {\ rho _ {j}}}}} \ right]}$ dónde ${\ Displaystyle j}$ está sumando el ${\ Displaystyle s}$ nodos ocultos en la capa oculta, y ${\ Displaystyle KL (\ rho || {\ hat {\ rho _ {j}}})}$ es la divergencia KL entre una variable aleatoria de Bernoulli con media ${\ Displaystyle \ rho}$ y una variable aleatoria de Bernoulli con media ${\ Displaystyle {\ hat {\ rho _ {j}}}}$ . ^[15]

Otra forma de lograr la dispersión es aplicando términos de regularización L1 o L2 en la activación, escalados por un cierto parámetro ${\ Displaystyle \ lambda}$ . ^[18] Por ejemplo, en el caso de L1, la función de pérdida se convierte en

${\ Displaystyle {\ mathcal {L}} (\ mathbf {x}, \ mathbf {x '}) + \ lambda \ sum _ {i} | h_ {i} |}$

Otra estrategia propuesta para forzar la dispersión es poner a cero manualmente todas las activaciones de unidades ocultas excepto las más fuertes ( codificador automático k-disperso ). ^[19] El autoencoder k-sparse se basa en un autoencoder lineal (es decir, con función de activación lineal) y pesos vinculados. La identificación de las activaciones más fuertes se puede lograr clasificando las actividades y manteniendo solo los primeros k valores, o usando unidades ocultas ReLU con umbrales que se ajustan adaptativamente hasta que se identifican las k actividades más grandes. Esta selección actúa como los términos de regularización mencionados anteriormente en el sentido de que evita que el modelo reconstruya la entrada utilizando demasiadas neuronas. ^[19]

Autoencoder de reducción de ruido (DAE)

Los autocodificadores de reducción de ruido (DAE) intentan lograr una buena representación cambiando el criterio de reconstrucción . ^[2]

De hecho, los DAE toman una entrada parcialmente dañada y están entrenados para recuperar la entrada original no distorsionada . En la práctica, el objetivo de eliminar el ruido de los codificadores automáticos es limpiar la entrada dañada o eliminar el ruido. Dos supuestos son inherentes a este enfoque:

Las representaciones de nivel superior son relativamente estables y resistentes a la corrupción de la entrada;
Para realizar bien la eliminación de ruido, el modelo necesita extraer características que capturen la estructura útil en la distribución de entrada. ^[3]

En otras palabras, se defiende la eliminación de ruido como un criterio de entrenamiento para aprender a extraer características útiles que constituirán mejores representaciones de nivel superior de la entrada. ^[3]

El proceso de formación de un DAE funciona de la siguiente manera:

La entrada inicial ${\ Displaystyle x}$ está corrompido en ${\ displaystyle {\ boldsymbol {\ tilde {x}}}}$ a través del mapeo estocástico ${\ displaystyle {\ boldsymbol {\ tilde {x}}} \ thicksim q_ {D} ({\ boldsymbol {\ tilde {x}}} | {\ boldsymbol {x}})}$ .
La entrada corrupta ${\ displaystyle {\ boldsymbol {\ tilde {x}}}}$ luego se asigna a una representación oculta con el mismo proceso del codificador automático estándar, ${\ displaystyle {\ boldsymbol {h}} = f _ {\ theta} ({\ boldsymbol {\ tilde {x}}}) = s ({\ boldsymbol {W}} {\ boldsymbol {\ tilde {x}}} + {\ boldsymbol {b}})}$ .
A partir de la representación oculta, el modelo reconstruye ${\ displaystyle {\ boldsymbol {z}} = g _ {\ theta '} ({\ boldsymbol {h}})}$ . ^[3]

Los parámetros del modelo ${\ Displaystyle \ theta}$ y ${\ Displaystyle \ theta '}$ están entrenados para minimizar el error de reconstrucción promedio sobre los datos de entrenamiento, específicamente, minimizando la diferencia entre ${\ Displaystyle {\ boldsymbol {z}}}$ y la entrada original incorrupta ${\ displaystyle {\ boldsymbol {x}}}$ . ^[3] Tenga en cuenta que cada vez que un ejemplo aleatorio ${\ displaystyle {\ boldsymbol {x}}}$ se presenta al modelo, una nueva versión corrupta se genera estocásticamente sobre la base de ${\ Displaystyle q_ {D} ({\ boldsymbol {\ tilde {x}}} | {\ boldsymbol {x}})}$ .

El proceso de capacitación mencionado anteriormente podría aplicarse con cualquier tipo de proceso de corrupción. Algunos ejemplos pueden ser ruido gaussiano isotrópico aditivo, ruido de enmascaramiento (una fracción de la entrada elegida al azar para cada ejemplo se fuerza a 0) o ruido de sal y pimienta (una fracción de la entrada elegida al azar para cada ejemplo se establece en su valor mínimo o máximo con probabilidad uniforme). ^[3]

La corrupción de la entrada se realiza solo durante el entrenamiento. Una vez que el modelo ha aprendido los parámetros óptimos, para extraer las representaciones de los datos originales no se agrega ningún daño.

Codificador automático contractual (CAE)

El autocodificador contractivo agrega un regularizador explícito en su función objetivo que obliga al modelo a aprender una codificación robusta a ligeras variaciones de los valores de entrada. Este regularizador corresponde a la norma de Frobenius de la matriz jacobiana de las activaciones del codificador con respecto a la entrada. Dado que la penalización se aplica solo a los ejemplos de entrenamiento, este término obliga al modelo a aprender información útil sobre la distribución del entrenamiento. La función objetivo final tiene la siguiente forma:

{\ Displaystyle {\ mathcal {L}} (\ mathbf {x}, \ mathbf {x '}) + \ lambda \ sum _ {i} || \ nabla _ {x} h_ {i} || ^ {2 }}

El autocodificador se denomina contractivo porque se anima a CAE a mapear una vecindad de puntos de entrada a una vecindad más pequeña de puntos de salida. ^[2]

DAE está conectado a CAE: en el límite del pequeño ruido de entrada gaussiano, los DAE hacen que la función de reconstrucción resista perturbaciones de entrada pequeñas pero de tamaño finito, mientras que los CAE hacen que las características extraídas resistan perturbaciones de entrada infinitesimales.

Autoencoder de hormigón

El codificador automático de hormigón es una variación de la arquitectura del codificador automático estándar que está diseñado para la selección de funciones discretas . ^[20] A diferencia de un codificador automático estándar, que aprende una representación latente que es una combinación de potencialmente todas las características de entrada, el codificador automático concreto obliga al espacio latente para que consista solo en una serie de características especificadas por el usuario. El autocodificador de hormigón utiliza una relajación continua de la distribución categórica para permitir que los gradientes pasen a través de la capa del selector de características, lo que hace posible utilizar la retropropagación estándar para aprender un subconjunto óptimo de características de entrada que minimizan la pérdida de reconstrucción.

Autoencoder variacional (VAE)

Los autocodificadores variacionales (VAE) son modelos generativos , similares a las redes generativas adversarias . ^[21] Su asociación con este grupo de modelos se deriva principalmente de la afinidad arquitectónica con el autoencoder básico (el objetivo de entrenamiento final tiene un codificador y un decodificador), pero su formulación matemática difiere significativamente. ^{[22] Los} VAE son modelos gráficos probabilísticos dirigidos (DPGM) cuya parte posterior es aproximada por una red neuronal , formando una arquitectura tipo autocodificador. ^[21]^[23] A diferencia del modelo discriminativo que tiene como objetivo aprender un predictor dada la observación, el modelo generativo intenta aprender cómo se generan los datos y reflejar las relaciones causales subyacentes. Las relaciones causales tienen el potencial de generalizarse. ^[4]

Los modelos de autocodificador variacional hacen fuertes suposiciones sobre la distribución de variables latentes . Utilizan un enfoque variacional para el aprendizaje de la representación latente, que da como resultado un componente de pérdida adicional y un estimador específico para el algoritmo de entrenamiento llamado estimador de Bayes variable de gradiente estocástico (SGVB). ^[10] Se asume que los datos son generados por un modelo gráfico dirigido ${\ Displaystyle p _ {\ theta} (\ mathbf {x} | \ mathbf {h})}$ y que el codificador está aprendiendo una aproximación ${\ Displaystyle q _ {\ phi} (\ mathbf {h} | \ mathbf {x})}$ a la distribución posterior ${\ Displaystyle p _ {\ theta} (\ mathbf {h} | \ mathbf {x})}$ dónde ${\ Displaystyle \ mathbf {\ phi}}$ y ${\ Displaystyle \ mathbf {\ theta}}$ denotan los parámetros del codificador (modelo de reconocimiento) y del decodificador (modelo generativo) respectivamente. La distribución de probabilidad del vector latente de un VAE suele coincidir con la de los datos de entrenamiento mucho más cerca que un autocodificador estándar. El objetivo de VAE tiene la siguiente forma:

{\ Displaystyle {\ mathcal {L}} (\ mathbf {\ phi}, \ mathbf {\ theta}, \ mathbf {x}) = D _ {\ mathrm {KL}} (q _ {\ phi} (\ mathbf { h} | \ mathbf {x}) \ Vert p _ {\ theta} (\ mathbf {h})) - \ mathbb {E} _ {q _ {\ phi} (\ mathbf {h} | \ mathbf {x}) } {\ big (} \ log p _ {\ theta} (\ mathbf {x} | \ mathbf {h}) {\ big)}}

Aquí, ${\ Displaystyle D _ {\ mathrm {KL}}}$ representa la divergencia Kullback-Leibler . Lo anterior sobre las variables latentes generalmente se establece para ser el Gaussiano multivariante isotrópico centrado ${\ Displaystyle p _ {\ theta} (\ mathbf {h}) = {\ mathcal {N}} (\ mathbf {0, I})}$ ; sin embargo, se han considerado configuraciones alternativas. ^[24]

Comúnmente, la forma de las distribuciones variacional y de probabilidad se eligen de manera que sean gaussianas factorizadas:

{\ Displaystyle {\ begin {alineado} q _ {\ phi} (\ mathbf {h} | \ mathbf {x}) & = {\ mathcal {N}} ({\ boldsymbol {\ rho}} (\ mathbf {x }), {\ boldsymbol {\ omega}} ^ {2} (\ mathbf {x}) \ mathbf {I}), \\ p _ {\ theta} (\ mathbf {x} | \ mathbf {h}) & = {\ mathcal {N}} ({\ boldsymbol {\ mu}} (\ mathbf {h}), {\ boldsymbol {\ sigma}} ^ {2} (\ mathbf {h}) \ mathbf {I}) , \ end {alineado}}}

dónde ${\ Displaystyle {\ boldsymbol {\ rho}} (\ mathbf {x})}$ y ${\ displaystyle {\ boldsymbol {\ omega}} ^ {2} (\ mathbf {x})}$ son las salidas del codificador, mientras que ${\ displaystyle {\ boldsymbol {\ mu}} (\ mathbf {h})}$ y ${\ Displaystyle {\ boldsymbol {\ sigma}} ^ {2} (\ mathbf {h})}$ son las salidas del decodificador. Esta elección se justifica por las simplificaciones ^[10] que produce al evaluar tanto la divergencia KL como el término de verosimilitud en el objetivo variacional definido anteriormente.

Los VAE han sido criticados porque generan imágenes borrosas. ^[25] Sin embargo, los investigadores que empleaban este modelo mostraban solo la media de las distribuciones, ${\ displaystyle {\ boldsymbol {\ mu}} (\ mathbf {h})}$ , en lugar de una muestra de la distribución gaussiana aprendida

{\ Displaystyle \ mathbf {x} \ sim {\ mathcal {N}} ({\ boldsymbol {\ mu}} (\ mathbf {h}), {\ boldsymbol {\ sigma}} ^ {2} (\ mathbf { h}) \ mathbf {I})}

.

Se demostró que estas muestras eran demasiado ruidosas debido a la elección de una distribución gaussiana factorizada. ^[25]^[26] Empleando una distribución gaussiana con una matriz de covarianza completa,

{\ Displaystyle p _ {\ theta} (\ mathbf {x} | \ mathbf {h}) = {\ mathcal {N}} ({\ boldsymbol {\ mu}} (\ mathbf {h}), {\ boldsymbol { \ Sigma}} (\ mathbf {h})),}

podría resolver este problema, pero es computacionalmente intratable y numéricamente inestable, ya que requiere estimar una matriz de covarianza de una sola muestra de datos ^{[ cita requerida ]} . Sin embargo, investigaciones posteriores ^[25]^[26] mostraron que un enfoque restringido donde la matriz inversa ${\ displaystyle {\ boldsymbol {\ Sigma}} ^ {- 1} (\ mathbf {h})}$ es escasa podría generar imágenes con detalles de alta frecuencia.

Se han desarrollado modelos VAE a gran escala en diferentes dominios para representar datos en un espacio latente probabilístico compacto. Por ejemplo, VQ-VAE ^[27] para generación de imágenes y Optimus ^[28] para modelado de lenguaje.

Ventajas de la profundidad

Estructura esquemática de un codificador automático con 3 capas ocultas totalmente conectadas. El código (z, oh como referencia en el texto) es la capa más interna.

Los codificadores automáticos a menudo se entrenan con un codificador de una sola capa y un decodificador de una sola capa, pero el uso de codificadores y decodificadores profundos (de muchas capas) ofrece muchas ventajas. ^[2]

La profundidad puede reducir exponencialmente el costo computacional de representar algunas funciones. ^[2]
La profundidad puede disminuir exponencialmente la cantidad de datos de entrenamiento necesarios para aprender algunas funciones. ^[2]
Experimentalmente, los autocodificadores profundos producen una mejor compresión en comparación con los autocodificadores lineales o superficiales. ^[29]

Capacitación

Geoffrey Hinton desarrolló una técnica para entrenar codificadores automáticos profundos de muchas capas. Su método consiste en tratar cada conjunto vecino de dos capas como una máquina de Boltzmann restringida para que el preentrenamiento se aproxime a una buena solución, y luego usar la propagación inversa para ajustar los resultados. ^[29] Este modelo toma el nombre de una red de creencias profundas .

Los investigadores han debatido si el entrenamiento conjunto (es decir, entrenar toda la arquitectura junto con un único objetivo de reconstrucción global para optimizar) sería mejor para los autocodificadores profundos. ^[30] Un estudio de 2015 mostró que la capacitación conjunta aprende mejores modelos de datos junto con características más representativas para la clasificación en comparación con el método por capas. ^[30] Sin embargo, sus experimentos mostraron que el éxito de la formación conjunta depende en gran medida de las estrategias de regularización adoptadas. ^[30]^[31]

Aplicaciones

Las dos aplicaciones principales de los codificadores automáticos son la reducción de dimensionalidad y la recuperación de información, ^[2] pero las variaciones modernas demostraron ser exitosas cuando se aplicaron a diferentes tareas.

Reducción de dimensionalidad

Gráfico de los dos primeros componentes principales (izquierda) y una capa oculta de dos dimensiones de un codificador automático lineal (derecha) aplicada al conjunto de datos Fashion MNIST . ^[32] Los dos modelos, que son lineales, aprenden a abarcar el mismo subespacio. La proyección de los puntos de datos es de hecho idéntica, aparte de la rotación del subespacio, al que PCA es invariante.

La reducción de la dimensionalidad fue una de las primeras aplicaciones de aprendizaje profundo y una de las primeras motivaciones para estudiar los codificadores automáticos. ^[2] El objetivo es encontrar un método de proyección adecuado que mapee los datos del espacio de características altas al espacio de características bajas. ^[2]

Un artículo importante sobre el tema fue el artículo de Hinton de 2006: ^[29] en ese estudio, preentrenó un codificador automático multicapa con una pila de RBM y luego usó sus pesos para inicializar un codificador automático profundo con capas ocultas gradualmente más pequeñas hasta llegar a un cuello de botella de 30 neuronas. Las 30 dimensiones resultantes del código produjeron un error de reconstrucción más pequeño en comparación con los primeros 30 componentes de un análisis de componentes principales (PCA) y aprendieron una representación que era cualitativamente más fácil de interpretar, separando claramente los grupos de datos. ^[2]^[29]

Representar datos en un espacio de menor dimensión puede mejorar el rendimiento en tareas como la clasificación. ^[2] De hecho, muchas formas de reducción de dimensionalidad colocan ejemplos relacionados semánticamente uno cerca del otro, ^[33] ayudando a la generalización.

Análisis de componentes principales

Reconstrucción de imágenes de 28x28 píxeles por un Autoencoder con un tamaño de código de dos (capa oculta de dos unidades) y la reconstrucción de los dos primeros Componentes Principales de PCA. Las imágenes provienen del conjunto de datos Fashion MNIST . ^[32]

Si se utilizan activaciones lineales, o solo una sola capa sigmoidea oculta, entonces la solución óptima para un autocodificador está fuertemente relacionada con el análisis de componentes principales (PCA). ^[34]^[35] Los pesos de un codificador automático con una sola capa de tamaño oculta ${\ Displaystyle p}$ (dónde ${\ Displaystyle p}$ es menor que el tamaño de la entrada) abarcan el mismo subespacio vectorial que el que abarca el primer ${\ Displaystyle p}$ componentes principales, y la salida del codificador automático es una proyección ortogonal en este subespacio. Los pesos del autocodificador no son iguales a los componentes principales, y generalmente no son ortogonales, sin embargo, los componentes principales pueden recuperarse de ellos usando la descomposición de valores singulares . ^[36]

Sin embargo, el potencial de los codificadores automáticos reside en su no linealidad, lo que permite que el modelo aprenda generalizaciones más potentes en comparación con PCA y reconstruya la entrada con una pérdida de información significativamente menor. ^[29]

Recuperación de información

La recuperación de información se beneficia particularmente de la reducción de la dimensionalidad, ya que la búsqueda puede volverse más eficiente en ciertos tipos de espacios de baja dimensión. De hecho, los autocodificadores se aplicaron al hash semántico, propuesto por Salakhutdinov y Hinton en 2007. ^[33] Al entrenar el algoritmo para producir un código binario de baja dimensión, todas las entradas de la base de datos podrían almacenarse en una tabla hash que mapee vectores de código binario con entradas. Esta tabla apoyaría la recuperación de información al devolver todas las entradas con el mismo código binario que la consulta, o entradas ligeramente menos similares al cambiar algunos bits de la codificación de la consulta.

Detección de anomalías

Otra aplicación de los codificadores automáticos es la detección de anomalías . ^[37]^[38]^[39]^[40] Al aprender a replicar las características más destacadas en los datos de entrenamiento bajo algunas de las restricciones descritas anteriormente, se alienta al modelo a aprender a reproducir con precisión las características observadas con mayor frecuencia. Ante anomalías, el modelo debería empeorar su rendimiento de reconstrucción. En la mayoría de los casos, solo se utilizan datos con instancias normales para entrenar el codificador automático; en otros, la frecuencia de anomalías es pequeña en comparación con el conjunto de observación, por lo que su contribución a la representación aprendida podría ignorarse. Después del entrenamiento, el codificador automático reconstruirá con precisión los datos "normales", pero no lo hará con datos anómalos desconocidos. ^[38] El error de reconstrucción (el error entre los datos originales y su reconstrucción de baja dimensión) se utiliza como una puntuación de anomalía para detectar anomalías. ^[38]

Sin embargo, la literatura reciente ha demostrado que ciertos modelos de autocodificación pueden, contrariamente a la intuición, ser muy buenos para reconstruir ejemplos anómalos y, en consecuencia, no pueden realizar de manera confiable la detección de anomalías. ^[41]^[42]

Procesamiento de imágenes

Las características de los codificadores automáticos son útiles en el procesamiento de imágenes.

Un ejemplo se puede encontrar en la compresión de imágenes con pérdida , donde los codificadores automáticos superaron a otros enfoques y demostraron ser competitivos con JPEG 2000 . ^[43]^[44]

Otra aplicación útil de los codificadores automáticos en el preprocesamiento de imágenes es la eliminación de ruido . ^[45]^[46]^[47]

Autoencoders encontrado uso en contextos más exigentes, tales como imágenes médicas en el que han sido utilizados para la eliminación de ruido de imagen ^[48] , así como super-resolución ^[49]^[50] autoencoders En el diagnóstico por imagen asistida, los experimentos han aplicado para el cáncer de mama de detección de ^{[51 ]} y para modelar la relación entre el deterioro cognitivo de la enfermedad de Alzheimer y las características latentes de un autocodificador entrenado con resonancia magnética . ^[52]

Descubrimiento de medicamento

En 2019, las moléculas generadas con autocodificadores variacionales se validaron experimentalmente en ratones. ^[53]^[54]

Predicción de popularidad

Recientemente, un marco de autocodificador apilado produjo resultados prometedores en la predicción de la popularidad de las publicaciones en las redes sociales, ^[55] que es útil para las estrategias de publicidad en línea.

Máquina traductora

Autoencoder se ha aplicado a la traducción automática , que generalmente se conoce como traducción automática neuronal (NMT). ^[56]^[57] En NMT, los textos se tratan como secuencias que deben codificarse en el procedimiento de aprendizaje, mientras que en el lado del decodificador se generan los idiomas de destino. Los codificadores automáticos específicos del idioma incorporan características lingüísticas en el procedimiento de aprendizaje, como las características de descomposición del chino. ^[58]

Ver también

Aprendizaje de representación
Aprendizaje escaso de diccionario
Aprendizaje profundo

Referencias

^ Kramer, Mark A. (1991). "Análisis de componentes principales no lineales mediante redes neuronales autoasociativas" (PDF) . Revista AIChE . 37 (2): 233–243. doi : 10.1002 / aic.690370209 .
^ a b c d e f g h yo j k l m Buen amigo, Ian; Bengio, Yoshua; Courville, Aaron (2016). Aprendizaje profundo . Prensa del MIT. ISBN 978-0262035613.
^ a b c d e f Vincent, Pascal; Larochelle, Hugo (2010). "Autoencoders Denoising apilados: aprendizaje de representaciones útiles en una red profunda con un criterio de Denoising local". Revista de investigación sobre aprendizaje automático . 11 : 3371–3408.
^ a b Welling, Max; Kingma, Diederik P. (2019). "Introducción a los codificadores automáticos variacionales". Fundamentos y Tendencias en Machine Learning . 12 (4): 307–392. arXiv : 1906.02691 . Código bibliográfico : 2019arXiv190602691K . doi : 10.1561 / 2200000056 . S2CID 174802445 .
^ Hinton GE, Krizhevsky A, Wang SD. Transformación de codificadores automáticos. En Conferencia internacional sobre redes neuronales artificiales 2011 14 de junio (págs. 44-51). Springer, Berlín, Heidelberg.
^ Liou, Cheng-Yuan; Huang, Jau-Chi; Yang, Wen-Chie (2008). "Modelado de la percepción de palabras utilizando la red de Elman". Neurocomputación . 71 (16-18): 3150. doi : 10.1016 / j.neucom.2008.04.030 .
^ Liou, Cheng-Yuan; Cheng, Wei-Chen; Liou, Jiun-Wei; Liou, Daw-Ran (2014). "Autoencoder para palabras". Neurocomputación . 139 : 84–96. doi : 10.1016 / j.neucom.2013.09.055 .
^ Schmidhuber, Jürgen (enero de 2015). "Aprendizaje profundo en redes neuronales: una visión general". Redes neuronales . 61 : 85-117. arXiv : 1404,7828 . doi : 10.1016 / j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .
^ Hinton, GE y Zemel, RS (1994). Autoencoders, longitud mínima de descripción y energía libre de Helmholtz. En Avances en sistemas de procesamiento de información neuronal 6 (págs. 3-10).
^ a b c Diederik P Kingma; Welling, Max (2013). "Auto-Codificación Variacional Bayes". arXiv : 1312.6114 [ stat.ML ].
^ Generación Caras con la antorcha, Boesen A., L. y Larsen Sonderby SK, 2015 antorcha .ch / blog / 2015 /11 /13 / gan .html
^ a b Domingos, Pedro (2015). "4". El algoritmo maestro: cómo la búsqueda de la máquina de aprendizaje definitiva reconstruirá nuestro mundo . Libros básicos. Subsección "Más profundo en el cerebro". ISBN 978-046506192-1.
^ Bengio, Y. (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y Tendencias en Machine Learning . 2 (8): 1795–7. CiteSeerX 10.1.1.701.9550 . doi : 10.1561 / 2200000006 . PMID 23946944 .
^ a b Frey, Brendan; Makhzani, Alireza (19 de diciembre de 2013). "k-Codificadores automáticos dispersos". arXiv : 1312.5663 . Código bibliográfico : 2013arXiv1312.5663M . Cite journal requiere |journal=( ayuda )
↑ a b c Ng, A. (2011). Codificador automático escaso. CS294A Lecture notes , 72 (2011), 1-19.
^ Nair, Vinod; Hinton, Geoffrey E. (2009). "Reconocimiento de objetos 3D con redes de creencias profundas" . Actas de la 22ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'09. Estados Unidos: Curran Associates Inc .: 1339-1347. ISBN 9781615679119.
^ Zeng, Nianyin; Zhang, Hong; Song, Baoye; Liu, Weibo; Li, Yurong; Dobaie, Abdullah M. (17 de enero de 2018). "Reconocimiento de expresiones faciales mediante el aprendizaje de codificadores automáticos profundos y dispersos". Neurocomputación . 273 : 643–649. doi : 10.1016 / j.neucom.2017.08.043 . ISSN 0925-2312 .
^ Arpit, Devansh; Zhou, Yingbo; Ngo, Hung; Govindaraju, Venu (2015). "¿Por qué los codificadores automáticos regularizados aprenden representación escasa?". arXiv : 1505.05561 [ stat.ML ].
^ a b Makhzani, Alireza; Frey, Brendan (2013). "Autoencoders K-Sparse". arXiv : 1312,5663 [ cs.LG ].
^ Abid, Abubakar; Balin, Muhammad Fatih; Zou, James (27 de enero de 2019). "Autoencoders concretos para la selección y reconstrucción de características diferenciables". arXiv : 1901.09346 [ cs.LG ].
↑ a b An, J. y Cho, S. (2015). Detección de anomalías basada en autocodificador variacional usando probabilidad de reconstrucción. Conferencia especial sobre IE , 2 (1).
^ Doersch, Carl (2016). "Tutorial sobre codificadores automáticos variacionales". arXiv : 1606.05908 [ stat.ML ].
^ Khobahi, S .; Soltanalian, M. (2019). "Arquitecturas profundas basadas en modelos para la codificación automática variacional compresiva de un bit". arXiv : 1911.12410 [ eess.SP ].
^ Partaourides, Harris; Chatzis, Sotirios P. (junio de 2017). "Modelos generativos profundos asimétricos" . Neurocomputación . 241 : 90–96. doi : 10.1016 / j.neucom.2017.02.028 .
^ a b c Dorta, Garoe; Vicente, Sara; Agapito, Lourdes ; Campbell, Neill DF; Simpson, Ivor (2018). "Formación de VAE bajo residuos estructurados". arXiv : 1804.01050 [ stat.ML ].
^ a b Dorta, Garoe; Vicente, Sara; Agapito, Lourdes ; Campbell, Neill DF; Simpson, Ivor (2018). "Redes estructuradas de predicción de incertidumbre". arXiv : 1802.07079 [ stat.ML ].
^ Generación de diversas imágenes de alta fidelidad con VQ-VAE-2 https://arxiv.org/abs/1906.00446
^ Optimus: organización de oraciones a través del modelado previamente entrenado de un espacio latente https://arxiv.org/abs/2004.04092
^ a b c d e Hinton, GE; Salakhutdinov, RR (28 de julio de 2006). "Reducción de la dimensionalidad de los datos con redes neuronales". Ciencia . 313 (5786): 504–507. Código bibliográfico : 2006Sci ... 313..504H . doi : 10.1126 / science.1127647 . PMID 16873662 . S2CID 1658773 .
^ a b c Zhou, Yingbo; Arpit, Devansh; Nwogu, Ifeoma; Govindaraju, Venu (2014). "¿Es mejor el entrenamiento conjunto para codificadores automáticos profundos?". arXiv : 1405.1380 [ stat.ML ].
^ R. Salakhutdinov y GE Hinton, "Máquinas de boltzmann profundo", en AISTATS, 2009, págs. 448–455.
^ a b "Moda MNIST" . 2019-07-12.
^ a b Salakhutdinov, Ruslan; Hinton, Geoffrey (1 de julio de 2009). "Hash semántico" . Revista Internacional de Razonamiento Aproximado . Sección especial sobre modelos gráficos y recuperación de información. 50 (7): 969–978. doi : 10.1016 / j.ijar.2008.11.006 . ISSN 0888-613X .
^ Bourlard, H .; Kamp, Y. (1988). "Autoasociación por perceptrones multicapa y descomposición de valores singulares" . Cibernética biológica . 59 (4–5): 291–294. doi : 10.1007 / BF00332918 . PMID 3196773 . S2CID 206775335 .
^ Chicco, Davide; Sadowski, Peter; Baldi, Pierre (2014). "Redes neuronales de autoencoder profundo para predicciones de anotación de ontología genética". Actas de la 5ª Conferencia ACM sobre Bioinformática, Biología Computacional e Informática de la Salud - BCB '14 . pag. 533. doi : 10.1145 / 2649387.2649442 . hdl : 11311/964622 . ISBN 9781450328944. S2CID 207217210 .
^ Plaut, E (2018). "De los subespacios principales a los componentes principales con codificadores automáticos lineales". arXiv : 1804.10253 [ stat.ML ].
^ Sakurada, M. y Yairi, T. (2014, diciembre). Detección de anomalías mediante autocodificadores con reducción de dimensionalidad no lineal. En Actas del segundo taller MLSDA 2014 sobre aprendizaje automático para el análisis de datos sensoriales (p. 4). ACM.
↑ a b c An, J. y Cho, S. (2015). Detección de anomalías basada en autocodificador variacional usando probabilidad de reconstrucción. Conferencia especial sobre IE , 2 , 1-18.
^ Zhou, C. y Paffenroth, RC (2017, agosto). Detección de anomalías con autocodificadores profundos robustos. En Actas de la 23ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos (págs. 665-674). ACM.
^ Ribeiro, Manassés; Lazzaretti, André Eugênio; Lopes, Heitor Silvério (2018). "Un estudio de autocodificadores convolucionales profundos para la detección de anomalías en videos". Cartas de reconocimiento de patrones . 105 : 13-22. doi : 10.1016 / j.patrec.2017.07.016 .
^ Nalisnick, Eric; Matsukawa, Akihiro; Teh, Yee Whye; Gorur, Dilan; Lakshminarayanan, Balaji (24 de febrero de 2019). "¿Los modelos generativos profundos saben lo que no saben?". arXiv : 1810.09136 [ stat.ML ].
^ Xiao, Zhisheng; Yan, Qing; Amit, Yali (2020). "Lamento de probabilidad: una puntuación de detección fuera de distribución para el codificador automático variacional" . Avances en sistemas de procesamiento de información neuronal . 33 . arXiv : 2003.02977 .
^ Theis, Lucas; Shi, Wenzhe; Cunningham, Andrew; Huszár, Ferenc (2017). "Compresión de imágenes con pérdida con codificadores automáticos compresivos". arXiv : 1703.00395 [ stat.ML ].
^ Balle, J; Laparra, V; Simoncelli, EP (abril de 2017). "Compresión de imagen optimizada de extremo a extremo". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1611.01704 .
^ Cho, K. (2013, febrero). La dispersión simple mejora los codificadores automáticos de eliminación de ruido dispersos al eliminar el ruido de imágenes muy corruptas. En Conferencia internacional sobre aprendizaje automático (págs. 432-440).
^ Cho, Kyunghyun (2013). "Máquinas Boltzmann y Autoencoders Denoising para Denoising de Imagen". arXiv : 1301.3468 [ stat.ML ].
^ Buades, A .; Coll, B .; Morel, JM (2005). "Una revisión de algoritmos de reducción de ruido de imágenes, con uno nuevo" . Modelado y simulación multiescala . 4 (2): 490–530. doi : 10.1137 / 040616024 .
^ Gondara, Lovedeep (diciembre de 2016). "Reducción de ruido de imágenes médicas mediante codificadores automáticos de reducción de ruido convolucional". 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW) . Barcelona, España: IEEE: 241–246. arXiv : 1608.04667 . Código Bib : 2016arXiv160804667G . doi : 10.1109 / ICDMW.2016.0041 . ISBN 9781509059102. S2CID 14354973 .
^ Zeng, Kun; Yu, Jun; Wang, Ruxin; Li, Cuihua; Tao, Dacheng (enero de 2017). "Autoencoder profundo acoplado para una superresolución de imagen única". Transacciones IEEE sobre cibernética . 47 (1): 27–37. doi : 10.1109 / TCYB.2015.2501373 . ISSN 2168-2267 . PMID 26625442 . S2CID 20787612 .
^ Tzu-Hsi, Song; Sánchez, Víctor; Hesham, EIDaly; Nasir M., Rajpoot (2017). "Autoencoder profundo híbrido con curvatura gaussiana para la detección de varios tipos de células en imágenes de biopsia de trépano de médula ósea". 2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017) : 1040–1043. doi : 10.1109 / ISBI.2017.7950694 . ISBN 978-1-5090-1172-8. S2CID 7433130 .
^ Xu, Jun; Xiang, Lei; Liu, Qingshan; Gilmore, Hannah; Wu, Jianzhong; Tang, Jinghai; Madabhushi, Anant (enero de 2016). "Autoencoder disperso apilado (SSAE) para la detección de núcleos en imágenes de histopatología de cáncer de mama" . Transacciones IEEE sobre imágenes médicas . 35 (1): 119–130. doi : 10.1109 / TMI.2015.2458702 . PMC 4729702 . PMID 26208307 .
^ Martínez-Murcia, Francisco J .; Ortiz, Andrés; Gorriz, Juan M .; Ramírez, Javier; Castillo-Barnes, Diego (2020). "Estudio de la estructura múltiple de la enfermedad de Alzheimer: un enfoque de aprendizaje profundo utilizando codificadores convolucionales" . IEEE Journal of Biomedical and Health Informatics . 24 (1): 17-26. doi : 10.1109 / JBHI.2019.2914970 . PMID 31217131 . S2CID 195187846 .
^ Zhavoronkov, Alex (2019). "El aprendizaje profundo permite la identificación rápida de potentes inhibidores de la quinasa DDR1". Biotecnología de la naturaleza . 37 (9): 1038–1040. doi : 10.1038 / s41587-019-0224-x . PMID 31477924 . S2CID 201716327 .
^ Gregory, barbero. "Una molécula diseñada por AI exhibe cualidades de 'Druglike'" . Cableado .
^ De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). "Predecir la popularidad de las publicaciones de Instagram para una revista de estilo de vida mediante el aprendizaje profundo". 2017 2a Conferencia Internacional IEEE sobre Sistemas de Comunicación, Computación y Aplicaciones de TI (CSCITA) . págs. 174-177. doi : 10.1109 / CSCITA.2017.8066548 . ISBN 978-1-5090-4381-1. S2CID 35350962 .
^ Cho, Kyunghyun; Bart van Merrienboer; Bahdanau, Dzmitry; Bengio, Yoshua (2014). "Sobre las propiedades de la traducción automática neuronal: enfoques codificador-decodificador". arXiv : 1409.1259 [ cs.CL ].
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Secuencia a secuenciar el aprendizaje con redes neuronales". arXiv : 1409,3215 [ cs.CL ].
^ Han, Lifeng; Kuang, Shaohui (2018). "Incorporación de radicales chinos en la traducción automática neuronal: más profundo que el nivel de carácter". arXiv : 1805.01565 [ cs.CL ].

[1] Kramer, Mark A. (1991). "Análisis de componentes principales no lineales mediante redes neuronales autoasociativas" (PDF) . Revista AIChE . 37 (2): 233–243. doi : 10.1002 / aic.690370209 .

[:0-2] yo j k l m Buen amigo, Ian; Bengio, Yoshua; Courville, Aaron (2016). Aprendizaje profundo . Prensa del MIT. ISBN 978-0262035613.

[:4-3] Vincent, Pascal; Larochelle, Hugo (2010). "Autoencoders Denoising apilados: aprendizaje de representaciones útiles en una red profunda con un criterio de Denoising local". Revista de investigación sobre aprendizaje automático . 11 : 3371–3408.

[:11-4] Welling, Max; Kingma, Diederik P. (2019). "Introducción a los codificadores automáticos variacionales". Fundamentos y Tendencias en Machine Learning . 12 (4): 307–392. arXiv : 1906.02691 . Código bibliográfico : 2019arXiv190602691K . doi : 10.1561 / 2200000056 . S2CID 174802445 .

[5] Hinton GE, Krizhevsky A, Wang SD. Transformación de codificadores automáticos. En Conferencia internacional sobre redes neuronales artificiales 2011 14 de junio (págs. 44-51). Springer, Berlín, Heidelberg.

[6] Liou, Cheng-Yuan; Huang, Jau-Chi; Yang, Wen-Chie (2008). "Modelado de la percepción de palabras utilizando la red de Elman". Neurocomputación . 71 (16-18): 3150. doi : 10.1016 / j.neucom.2008.04.030 .

[7] Liou, Cheng-Yuan; Cheng, Wei-Chen; Liou, Jiun-Wei; Liou, Daw-Ran (2014). "Autoencoder para palabras". Neurocomputación . 139 : 84–96. doi : 10.1016 / j.neucom.2013.09.055 .

[8] Schmidhuber, Jürgen (enero de 2015). "Aprendizaje profundo en redes neuronales: una visión general". Redes neuronales . 61 : 85-117. arXiv : 1404,7828 . doi : 10.1016 / j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .

[9] Hinton, GE y Zemel, RS (1994). Autoencoders, longitud mínima de descripción y energía libre de Helmholtz. En Avances en sistemas de procesamiento de información neuronal 6 (págs. 3-10).

[VAE-10] Diederik P Kingma; Welling, Max (2013). "Auto-Codificación Variacional Bayes". arXiv : 1312.6114 [ stat.ML ].

[gan_faces-11] Generación Caras con la antorcha, Boesen A., L. y Larsen Sonderby SK, 2015 antorcha .ch / blog / 2015 /11 /13 / gan .html

[domingos-12] Domingos, Pedro (2015). "4". El algoritmo maestro: cómo la búsqueda de la máquina de aprendizaje definitiva reconstruirá nuestro mundo . Libros básicos. Subsección "Más profundo en el cerebro". ISBN 978-046506192-1.

[bengio-13] Bengio, Y. (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y Tendencias en Machine Learning . 2 (8): 1795–7. CiteSeerX 10.1.1.701.9550 . doi : 10.1561 / 2200000006 . PMID 23946944 .

[:5-14] Frey, Brendan; Makhzani, Alireza (19 de diciembre de 2013). "k-Codificadores automáticos dispersos". arXiv : 1312.5663 . Código bibliográfico : 2013arXiv1312.5663M . Cite journal requiere |journal=( ayuda )

[:6-15] Ng, A. (2011). Codificador automático escaso. CS294A Lecture notes , 72 (2011), 1-19.

[16] Nair, Vinod; Hinton, Geoffrey E. (2009). "Reconocimiento de objetos 3D con redes de creencias profundas" . Actas de la 22ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'09. Estados Unidos: Curran Associates Inc .: 1339-1347. ISBN 9781615679119.

[17] Zeng, Nianyin; Zhang, Hong; Song, Baoye; Liu, Weibo; Li, Yurong; Dobaie, Abdullah M. (17 de enero de 2018). "Reconocimiento de expresiones faciales mediante el aprendizaje de codificadores automáticos profundos y dispersos". Neurocomputación . 273 : 643–649. doi : 10.1016 / j.neucom.2017.08.043 . ISSN 0925-2312 .

[18] Arpit, Devansh; Zhou, Yingbo; Ngo, Hung; Govindaraju, Venu (2015). "¿Por qué los codificadores automáticos regularizados aprenden representación escasa?". arXiv : 1505.05561 [ stat.ML ].

[:1-19] Makhzani, Alireza; Frey, Brendan (2013). "Autoencoders K-Sparse". arXiv : 1312,5663 [ cs.LG ].

[20] Abid, Abubakar; Balin, Muhammad Fatih; Zou, James (27 de enero de 2019). "Autoencoders concretos para la selección y reconstrucción de características diferenciables". arXiv : 1901.09346 [ cs.LG ].

[:2-21] An, J. y Cho, S. (2015). Detección de anomalías basada en autocodificador variacional usando probabilidad de reconstrucción. Conferencia especial sobre IE , 2 (1).

[22] Doersch, Carl (2016). "Tutorial sobre codificadores automáticos variacionales". arXiv : 1606.05908 [ stat.ML ].

[1bitVAE-23] Khobahi, S .; Soltanalian, M. (2019). "Arquitecturas profundas basadas en modelos para la codificación automática variacional compresiva de un bit". arXiv : 1911.12410 [ eess.SP ].

[24] Partaourides, Harris; Chatzis, Sotirios P. (junio de 2017). "Modelos generativos profundos asimétricos" . Neurocomputación . 241 : 90–96. doi : 10.1016 / j.neucom.2017.02.028 .

[SigmaVAE2-25] Dorta, Garoe; Vicente, Sara; Agapito, Lourdes ; Campbell, Neill DF; Simpson, Ivor (2018). "Formación de VAE bajo residuos estructurados". arXiv : 1804.01050 [ stat.ML ].

[SigmaVAE1-26] Dorta, Garoe; Vicente, Sara; Agapito, Lourdes ; Campbell, Neill DF; Simpson, Ivor (2018). "Redes estructuradas de predicción de incertidumbre". arXiv : 1802.07079 [ stat.ML ].

[27] Generación de diversas imágenes de alta fidelidad con VQ-VAE-2 https://arxiv.org/abs/1906.00446

[28] Optimus: organización de oraciones a través del modelado previamente entrenado de un espacio latente https://arxiv.org/abs/2004.04092

[:7-29] Hinton, GE; Salakhutdinov, RR (28 de julio de 2006). "Reducción de la dimensionalidad de los datos con redes neuronales". Ciencia . 313 (5786): 504–507. Código bibliográfico : 2006Sci ... 313..504H . doi : 10.1126 / science.1127647 . PMID 16873662 . S2CID 1658773 .

[:9-30] Zhou, Yingbo; Arpit, Devansh; Nwogu, Ifeoma; Govindaraju, Venu (2014). "¿Es mejor el entrenamiento conjunto para codificadores automáticos profundos?". arXiv : 1405.1380 [ stat.ML ].

[31] R. Salakhutdinov y GE Hinton, "Máquinas de boltzmann profundo", en AISTATS, 2009, págs. 448–455.

[:10-32] "Moda MNIST" . 2019-07-12.

[:3-33] Salakhutdinov, Ruslan; Hinton, Geoffrey (1 de julio de 2009). "Hash semántico" . Revista Internacional de Razonamiento Aproximado . Sección especial sobre modelos gráficos y recuperación de información. 50 (7): 969–978. doi : 10.1016 / j.ijar.2008.11.006 . ISSN 0888-613X .

[34] Bourlard, H .; Kamp, Y. (1988). "Autoasociación por perceptrones multicapa y descomposición de valores singulares" . Cibernética biológica . 59 (4–5): 291–294. doi : 10.1007 / BF00332918 . PMID 3196773 . S2CID 206775335 .

[35] Chicco, Davide; Sadowski, Peter; Baldi, Pierre (2014). "Redes neuronales de autoencoder profundo para predicciones de anotación de ontología genética". Actas de la 5ª Conferencia ACM sobre Bioinformática, Biología Computacional e Informática de la Salud - BCB '14 . pag. 533. doi : 10.1145 / 2649387.2649442 . hdl : 11311/964622 . ISBN 9781450328944. S2CID 207217210 .

[36] Plaut, E (2018). "De los subespacios principales a los componentes principales con codificadores automáticos lineales". arXiv : 1804.10253 [ stat.ML ].

[37] Sakurada, M. y Yairi, T. (2014, diciembre). Detección de anomalías mediante autocodificadores con reducción de dimensionalidad no lineal. En Actas del segundo taller MLSDA 2014 sobre aprendizaje automático para el análisis de datos sensoriales (p. 4). ACM.

[:8-38] An, J. y Cho, S. (2015). Detección de anomalías basada en autocodificador variacional usando probabilidad de reconstrucción. Conferencia especial sobre IE , 2 , 1-18.

[39] Zhou, C. y Paffenroth, RC (2017, agosto). Detección de anomalías con autocodificadores profundos robustos. En Actas de la 23ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos (págs. 665-674). ACM.

[40] Ribeiro, Manassés; Lazzaretti, André Eugênio; Lopes, Heitor Silvério (2018). "Un estudio de autocodificadores convolucionales profundos para la detección de anomalías en videos". Cartas de reconocimiento de patrones . 105 : 13-22. doi : 10.1016 / j.patrec.2017.07.016 .

[41] Nalisnick, Eric; Matsukawa, Akihiro; Teh, Yee Whye; Gorur, Dilan; Lakshminarayanan, Balaji (24 de febrero de 2019). "¿Los modelos generativos profundos saben lo que no saben?". arXiv : 1810.09136 [ stat.ML ].

[42] Xiao, Zhisheng; Yan, Qing; Amit, Yali (2020). "Lamento de probabilidad: una puntuación de detección fuera de distribución para el codificador automático variacional" . Avances en sistemas de procesamiento de información neuronal . 33 . arXiv : 2003.02977 .

[43] Theis, Lucas; Shi, Wenzhe; Cunningham, Andrew; Huszár, Ferenc (2017). "Compresión de imágenes con pérdida con codificadores automáticos compresivos". arXiv : 1703.00395 [ stat.ML ].

[44] Balle, J; Laparra, V; Simoncelli, EP (abril de 2017). "Compresión de imagen optimizada de extremo a extremo". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1611.01704 .

[45] Cho, K. (2013, febrero). La dispersión simple mejora los codificadores automáticos de eliminación de ruido dispersos al eliminar el ruido de imágenes muy corruptas. En Conferencia internacional sobre aprendizaje automático (págs. 432-440).

[46] Cho, Kyunghyun (2013). "Máquinas Boltzmann y Autoencoders Denoising para Denoising de Imagen". arXiv : 1301.3468 [ stat.ML ].

[47] Buades, A .; Coll, B .; Morel, JM (2005). "Una revisión de algoritmos de reducción de ruido de imágenes, con uno nuevo" . Modelado y simulación multiescala . 4 (2): 490–530. doi : 10.1137 / 040616024 .

[48] Gondara, Lovedeep (diciembre de 2016). "Reducción de ruido de imágenes médicas mediante codificadores automáticos de reducción de ruido convolucional". 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW) . Barcelona, España: IEEE: 241–246. arXiv : 1608.04667 . Código Bib : 2016arXiv160804667G . doi : 10.1109 / ICDMW.2016.0041 . ISBN 9781509059102. S2CID 14354973 .

[49] Zeng, Kun; Yu, Jun; Wang, Ruxin; Li, Cuihua; Tao, Dacheng (enero de 2017). "Autoencoder profundo acoplado para una superresolución de imagen única". Transacciones IEEE sobre cibernética . 47 (1): 27–37. doi : 10.1109 / TCYB.2015.2501373 . ISSN 2168-2267 . PMID 26625442 . S2CID 20787612 .

[50] Tzu-Hsi, Song; Sánchez, Víctor; Hesham, EIDaly; Nasir M., Rajpoot (2017). "Autoencoder profundo híbrido con curvatura gaussiana para la detección de varios tipos de células en imágenes de biopsia de trépano de médula ósea". 2017 IEEE 14th International Symposium on Biomedical Imaging (ISBI 2017) : 1040–1043. doi : 10.1109 / ISBI.2017.7950694 . ISBN 978-1-5090-1172-8. S2CID 7433130 .

[51] Xu, Jun; Xiang, Lei; Liu, Qingshan; Gilmore, Hannah; Wu, Jianzhong; Tang, Jinghai; Madabhushi, Anant (enero de 2016). "Autoencoder disperso apilado (SSAE) para la detección de núcleos en imágenes de histopatología de cáncer de mama" . Transacciones IEEE sobre imágenes médicas . 35 (1): 119–130. doi : 10.1109 / TMI.2015.2458702 . PMC 4729702 . PMID 26208307 .

[52] Martínez-Murcia, Francisco J .; Ortiz, Andrés; Gorriz, Juan M .; Ramírez, Javier; Castillo-Barnes, Diego (2020). "Estudio de la estructura múltiple de la enfermedad de Alzheimer: un enfoque de aprendizaje profundo utilizando codificadores convolucionales" . IEEE Journal of Biomedical and Health Informatics . 24 (1): 17-26. doi : 10.1109 / JBHI.2019.2914970 . PMID 31217131 . S2CID 195187846 .

[53] Zhavoronkov, Alex (2019). "El aprendizaje profundo permite la identificación rápida de potentes inhibidores de la quinasa DDR1". Biotecnología de la naturaleza . 37 (9): 1038–1040. doi : 10.1038 / s41587-019-0224-x . PMID 31477924 . S2CID 201716327 .

[54] Gregory, barbero. "Una molécula diseñada por AI exhibe cualidades de 'Druglike'" . Cableado .

[55] De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). "Predecir la popularidad de las publicaciones de Instagram para una revista de estilo de vida mediante el aprendizaje profundo". 2017 2a Conferencia Internacional IEEE sobre Sistemas de Comunicación, Computación y Aplicaciones de TI (CSCITA) . págs. 174-177. doi : 10.1109 / CSCITA.2017.8066548 . ISBN 978-1-5090-4381-1. S2CID 35350962 .

[56] Cho, Kyunghyun; Bart van Merrienboer; Bahdanau, Dzmitry; Bengio, Yoshua (2014). "Sobre las propiedades de la traducción automática neuronal: enfoques codificador-decodificador". arXiv : 1409.1259 [ cs.CL ].

[57] Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Secuencia a secuenciar el aprendizaje con redes neuronales". arXiv : 1409,3215 [ cs.CL ].

[58] Han, Lifeng; Kuang, Shaohui (2018). "Incorporación de radicales chinos en la traducción automática neuronal: más profundo que el nivel de carácter". arXiv : 1805.01565 [ cs.CL ].

[1]