Existen muchos tipos de redes neuronales artificiales ( ANN ).
Las redes neuronales artificiales son modelos computacionales inspirados en redes neuronales biológicas y se utilizan para aproximar funciones que generalmente son desconocidas. Particularmente, se inspiran en el comportamiento de las neuronas y las señales eléctricas que transmiten entre la entrada (como la de los ojos o las terminaciones nerviosas de la mano), el procesamiento y la salida del cerebro (como la reacción a la luz, el tacto o el calor). ). La forma en que las neuronas se comunican semánticamente es un área de investigación en curso. [1] [2] [3] [4] La mayoría de las redes neuronales artificiales guardan sólo cierta semejanza con sus contrapartes biológicas más complejas, pero son muy eficaces en sus tareas previstas (por ejemplo, clasificación o segmentación).
Algunas redes neuronales artificiales son sistemas adaptativos y se utilizan, por ejemplo, para modelar poblaciones y entornos, que cambian constantemente.
Las redes neuronales pueden ser de hardware (las neuronas están representadas por componentes físicos) o basadas en software (modelos informáticos) y pueden utilizar una variedad de topologías y algoritmos de aprendizaje.
Feedforward
La red neuronal feedforward fue el primer tipo y el más simple. En esta red, la información se mueve solo desde la capa de entrada directamente a través de las capas ocultas hasta la capa de salida sin ciclos / bucles. Las redes de retroalimentación se pueden construir con varios tipos de unidades, como las neuronas binarias McCulloch-Pitts , la más simple de las cuales es el perceptrón . Las neuronas continuas, frecuentemente con activación sigmoidea, se utilizan en el contexto de la retropropagación .
Método grupal de manejo de datos
El método grupal de manejo de datos (GMDH) [5] presenta una optimización del modelo estructural y paramétrico completamente automática. Las funciones de activación de los nodos son polinomios de Kolmogorov- Gabor que permiten sumas y multiplicaciones. Utiliza un perceptrón multicapa profundo con ocho capas. [6] Es una red de aprendizaje supervisada que crece capa por capa, donde cada capa es entrenada por análisis de regresión . Los elementos inútiles se detectan mediante un conjunto de validación y se podan mediante la regularización . El tamaño y la profundidad de la red resultante depende de la tarea. [7]
Autoencoder
Un autoencoder, autoassociator o red Diabolo [8] : 19 es similar al perceptrón multicapa (MLP), con una capa de entrada, una capa de salida y una o más capas ocultas que las conectan. Sin embargo, la capa de salida tiene el mismo número de unidades que la capa de entrada. Su propósito es reconstruir sus propias entradas (en lugar de emitir un valor objetivo). Por lo tanto, los codificadores automáticos son modelos de aprendizaje no supervisados . Un autoencoder se usa para el aprendizaje no supervisado de codificaciones eficientes , [9] [10] típicamente con el propósito de reducir la dimensionalidad y para aprender modelos generativos de datos. [11] [12]
Probabilístico
Una red neuronal probabilística (PNN) es una red neuronal de retroalimentación de cuatro capas. Las capas son de entrada, ocultas, patrón / sumatoria y salida. En el algoritmo PNN, la función de distribución de probabilidad principal (PDF) de cada clase se aproxima mediante una ventana Parzen y una función no paramétrica. Luego, utilizando PDF de cada clase, se estima la probabilidad de clase de una nueva entrada y se emplea la regla de Bayes para asignarla a la clase con la probabilidad posterior más alta. [13] Se derivó de la red bayesiana [14] y de un algoritmo estadístico llamado análisis discriminante Kernel Fisher . [15] Se utiliza para clasificación y reconocimiento de patrones.
Tiempo de retardo
Una red neuronal de retardo de tiempo (TDNN) es una arquitectura de retroalimentación para datos secuenciales que reconoce características independientes de la posición de la secuencia. Para lograr la invariancia de cambio de tiempo, se agregan retrasos a la entrada para que varios puntos de datos (puntos en el tiempo) se analicen juntos.
Suele formar parte de un sistema de reconocimiento de patrones más amplio. Se ha implementado utilizando una red de perceptrón cuyos pesos de conexión fueron entrenados con retropropagación (aprendizaje supervisado). [dieciséis]
Convolucional
Una red neuronal convolucional (CNN o ConvNet o invariante de desplazamiento o invariante espacial) es una clase de red profunda, compuesta por una o más capas convolucionales con capas completamente conectadas (que coinciden con las de las ANN típicas) en la parte superior. [17] [18] Utiliza pesos atados y capas agrupadas. En particular, agrupación máxima. [19] A menudo se estructura a través de la arquitectura convolucional de Fukushima. [20] Son variaciones de perceptrones multicapa que utilizan un preprocesamiento mínimo . [21] Esta arquitectura permite a las CNN aprovechar la estructura 2D de los datos de entrada.
Su patrón de conectividad unitaria está inspirado en la organización de la corteza visual. Las unidades responden a estímulos en una región restringida del espacio conocida como campo receptivo. Los campos receptivos se superponen parcialmente y cubren todo el campo visual . La respuesta unitaria se puede aproximar matemáticamente mediante una operación de convolución . [22]
Las CNN son adecuadas para procesar datos visuales y otros datos bidimensionales. [23] [24] Han mostrado resultados superiores tanto en aplicaciones de imagen como de voz. Pueden entrenarse con retropropagación estándar. Las CNN son más fáciles de entrenar que otras redes neuronales regulares, profundas y de retroalimentación, y tienen muchos menos parámetros para estimar. [25]
Las redes neuronales de cápsulas (CapsNet) agregan estructuras llamadas cápsulas a una CNN y reutilizan la salida de varias cápsulas para formar representaciones más estables (con respecto a varias perturbaciones). [26]
Ejemplos de aplicaciones en visión por computadora incluyen DeepDream [27] y navegación robótica . [28] Tienen amplias aplicaciones en reconocimiento de imágenes y video , sistemas de recomendación [29] y procesamiento del lenguaje natural . [30]
Red de apilamiento profunda
Una red de apilamiento profundo (DSN) [31] (red convexa profunda) se basa en una jerarquía de bloques de módulos de red neuronal simplificada. Fue introducido en 2011 por Deng y Dong. [32] Formula el aprendizaje como un problema de optimización convexa con una solución de forma cerrada , enfatizando la similitud del mecanismo con la generalización apilada . [33] Cada bloque DSN es un módulo simple que es fácil de entrenar por sí mismo de manera supervisada sin propagación hacia atrás para todos los bloques. [34]
Cada bloque consta de un perceptrón multicapa simplificado (MLP) con una sola capa oculta. La capa oculta h tiene unidades logísticas sigmoidales y la capa de salida tiene unidades lineales. Las conexiones entre estas capas están representadas por la matriz de peso U; conexiones de entrada a-capa oculta tienen matriz de ponderación W . Los vectores objetivo t forman las columnas de la matriz T , y los vectores de datos de entrada x forman las columnas de la matriz X. La matriz de unidades ocultas es. Los módulos se entrenan en orden, por lo que se conocen los pesos W de las capas inferiores en cada etapa. La función realiza la operación sigmoide logística por elementos . Cada bloque estima la misma clase de etiqueta final y , y su estimación se concatena con la entrada original X para formar la entrada expandida para el siguiente bloque. Por lo tanto, la entrada al primer bloque contiene solo los datos originales, mientras que la entrada de los bloques descendentes agrega la salida de los bloques anteriores. Luego, aprender la matriz de pesos de la capa superior U dados otros pesos en la red se puede formular como un problema de optimización convexa:
que tiene una solución de forma cerrada. [31]
A diferencia de otras arquitecturas profundas, como las DBN, el objetivo no es descubrir la representación de características transformadas . La estructura de la jerarquía de este tipo de arquitectura hace que el aprendizaje paralelo sea sencillo, como un problema de optimización en modo por lotes. En tareas puramente discriminatorias , los DSN superan a los DBN convencionales .
Tensor de redes de apilamiento profundo
Esta arquitectura es una extensión de DSN. Ofrece dos mejoras importantes: utiliza información de orden superior de las estadísticas de covarianza y transforma el problema no convexo de una capa inferior en un subproblema convexo de una capa superior. [35] Los TDSN utilizan estadísticas de covarianza en un mapeo bilineal de cada uno de dos conjuntos distintos de unidades ocultas en la misma capa a las predicciones, a través de un tensor de tercer orden .
Si bien la paralelización y la escalabilidad no se consideran seriamente en las DNN convencionales , [36] [37] [38] todo el aprendizaje para DSN sy TDSN se realiza en modo por lotes, para permitir la paralelización. [39] [40] La paralelización permite escalar el diseño a arquitecturas y conjuntos de datos más grandes (más profundos).
La arquitectura básica es adecuada para diversas tareas como clasificación y regresión .
Comentarios regulatorios
Las redes de retroalimentación regulatoria comenzaron como un modelo para explicar los fenómenos cerebrales encontrados durante el reconocimiento, incluido el estallido en toda la red y la dificultad con la similitud que se encuentra universalmente en el reconocimiento sensorial. Se crea un mecanismo para realizar la optimización durante el reconocimiento utilizando conexiones de retroalimentación inhibitoria a las mismas entradas que las activan. Esto reduce los requisitos durante el aprendizaje y permite que el aprendizaje y la actualización sean más fáciles al mismo tiempo que se pueden realizar reconocimientos complejos.
Función de base radial (RBF)
Las funciones de base radial son funciones que tienen un criterio de distancia con respecto a un centro. Las funciones de base radial se han aplicado como reemplazo de la característica de transferencia sigmoidea de la capa oculta en perceptrones multicapa. Las redes RBF tienen dos capas: en la primera, la entrada se asigna a cada RBF en la capa "oculta". El RBF elegido suele ser gaussiano. En los problemas de regresión, la capa de salida es una combinación lineal de valores de capa oculta que representan la salida media prevista. La interpretación de este valor de la capa de salida es la misma que la de un modelo de regresión en estadística. En los problemas de clasificación, la capa de salida es típicamente una función sigmoidea de una combinación lineal de valores de capa oculta, que representan una probabilidad posterior. El rendimiento en ambos casos a menudo se mejora mediante técnicas de contracción, conocidas como regresión de crestas en la estadística clásica. Esto corresponde a una creencia previa en valores de parámetros pequeños (y por lo tanto funciones de salida suaves) en un marco bayesiano .
Las redes RBF tienen la ventaja de evitar los mínimos locales de la misma forma que los perceptrones multicapa. Esto se debe a que los únicos parámetros que se ajustan en el proceso de aprendizaje son el mapeo lineal de la capa oculta a la capa de salida. La linealidad asegura que la superficie de error sea cuadrática y, por lo tanto, tenga un único mínimo fácil de encontrar. En los problemas de regresión, esto se puede encontrar en una operación matricial. En los problemas de clasificación, la no linealidad fija introducida por la función de salida sigmoidea se trata de la forma más eficaz utilizando mínimos cuadrados reponderados iterativamente .
Las redes RBF tienen la desventaja de que requieren una buena cobertura del espacio de entrada mediante funciones de base radial. Los centros RBF se determinan con referencia a la distribución de los datos de entrada, pero sin referencia a la tarea de predicción. Como resultado, los recursos de representación pueden desperdiciarse en áreas del espacio de entrada que son irrelevantes para la tarea. Una solución común es asociar cada punto de datos con su propio centro, aunque esto puede expandir el sistema lineal a resolver en la capa final y requiere técnicas de encogimiento para evitar el sobreajuste .
La asociación de cada dato de entrada con un RBF conduce naturalmente a métodos del kernel como máquinas de vectores de soporte (SVM) y procesos gaussianos (el RBF es la función del kernel ). Los tres enfoques utilizan una función de núcleo no lineal para proyectar los datos de entrada en un espacio donde el problema de aprendizaje se puede resolver mediante un modelo lineal. Al igual que los procesos gaussianos, y a diferencia de las SVM, las redes RBF generalmente se entrenan en un marco de máxima verosimilitud maximizando la probabilidad (minimizando el error). Las SVM evitan el sobreajuste maximizando en cambio un margen. Los SVM superan a las redes RBF en la mayoría de las aplicaciones de clasificación. En aplicaciones de regresión, pueden ser competitivos cuando la dimensionalidad del espacio de entrada es relativamente pequeña.
Cómo funcionan las redes RBF
Las redes neuronales RBF son conceptualmente similares a los modelos del vecino más cercano K (k-NN). La idea básica es que entradas similares producen salidas similares.
En el caso de un conjunto de entrenamiento tiene dos variables predictoras, xey, y la variable objetivo tiene dos categorías, positiva y negativa. Dado un nuevo caso con valores predictores x = 6, y = 5.1, ¿cómo se calcula la variable objetivo?
La clasificación de vecino más cercano realizada para este ejemplo depende de cuántos puntos vecinos se consideren. Si se utiliza 1-NN y el punto más cercano es negativo, entonces el nuevo punto debe clasificarse como negativo. Alternativamente, si se usa la clasificación 9-NN y se consideran los 9 puntos más cercanos, entonces el efecto de los 8 puntos positivos circundantes puede superar al 9 punto (negativo) más cercano.
Una red RBF coloca las neuronas en el espacio descrito por las variables predictoras (x, y en este ejemplo). Este espacio tiene tantas dimensiones como variables predictoras. La distancia euclidiana se calcula desde el nuevo punto hasta el centro de cada neurona, y se aplica una función de base radial (RBF) (también llamada función kernel) a la distancia para calcular el peso (influencia) de cada neurona. La función de base radial se llama así porque la distancia del radio es el argumento de la función.
Peso = RBF ( distancia )
Funcion de base radial
El valor del nuevo punto se calcula sumando los valores de salida de las funciones RBF multiplicados por los pesos calculados para cada neurona.
La función de base radial de una neurona tiene un centro y un radio (también llamado extensión). El radio puede ser diferente para cada neurona y, en las redes RBF generadas por DTREG, el radio puede ser diferente en cada dimensión.
Con mayor dispersión, las neuronas a una distancia de un punto tienen una mayor influencia.
Arquitectura
Las redes RBF tienen tres capas:
- Capa de entrada: aparece una neurona en la capa de entrada para cada variable de predicción. En el caso de variables categóricas , se utilizan N-1 neuronas donde N es el número de categorías. Las neuronas de entrada estandarizan los rangos de valores restando la mediana y dividiendo por el rango intercuartílico . Las neuronas de entrada luego alimentan los valores a cada una de las neuronas en la capa oculta.
- Capa oculta: esta capa tiene un número variable de neuronas (determinado por el proceso de entrenamiento). Cada neurona consta de una función de base radial centrada en un punto con tantas dimensiones como variables predictoras. La extensión (radio) de la función RBF puede ser diferente para cada dimensión. Los centros y los diferenciales están determinados por la formación. Cuando se le presenta el vector x de valores de entrada de la capa de entrada, una neurona oculta calcula la distancia euclidiana del caso de prueba desde el punto central de la neurona y luego aplica la función del kernel RBF a esta distancia utilizando los valores de dispersión. El valor resultante se pasa a la capa de suma.
- Capa de suma: el valor que sale de una neurona en la capa oculta se multiplica por un peso asociado con la neurona y se suma a los valores ponderados de otras neuronas. Esta suma se convierte en la salida. Para los problemas de clasificación, se produce un resultado (con un conjunto separado de pesos y unidades de suma) para cada categoría objetivo. El valor de salida de una categoría es la probabilidad de que el caso evaluado tenga esa categoría.
Capacitación
Los siguientes parámetros están determinados por el proceso de entrenamiento:
- El número de neuronas en la capa oculta.
- Las coordenadas del centro de cada función RBF de capa oculta
- El radio (extensión) de cada función RBF en cada dimensión
- Los pesos aplicados a las salidas de la función RBF a medida que pasan a la capa de suma
Se han utilizado varios métodos para entrenar redes RBF. Un enfoque utiliza primero la agrupación de K-medias para encontrar centros de grupos que luego se utilizan como centros para las funciones de RBF. Sin embargo, la agrupación de K-medias es computacionalmente intensiva y, a menudo, no genera el número óptimo de centros. Otro enfoque es utilizar un subconjunto aleatorio de los puntos de entrenamiento como centros.
DTREG utiliza un algoritmo de entrenamiento que utiliza un enfoque evolutivo para determinar los puntos centrales óptimos y las extensiones para cada neurona. Determina cuándo dejar de agregar neuronas a la red monitoreando el error estimado de dejar uno fuera (LOO) y terminando cuando el error LOO comienza a aumentar debido al sobreajuste.
El cálculo de los pesos óptimos entre las neuronas de la capa oculta y la capa de suma se realiza mediante regresión de crestas. Un procedimiento iterativo calcula el parámetro Lambda de regularización óptimo que minimiza el error de validación cruzada generalizada (GCV).
Red neuronal de regresión general
Un GRNN es una red neuronal de memoria asociativa que es similar a la red neuronal probabilística, pero se usa para regresión y aproximación en lugar de clasificación.
Red de creencias profundas
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/e/e8/Restricted_Boltzmann_machine.svg/220px-Restricted_Boltzmann_machine.svg.png)
Una red de creencias profundas (DBN) es un modelo probabilístico y generativo formado por múltiples capas ocultas. Puede considerarse una composición de módulos de aprendizaje sencillos. [41]
Se puede usar un DBN para pre-entrenar generativamente una red neuronal profunda (DNN) usando los pesos DBN aprendidos como los pesos DNN iniciales. Luego, varios algoritmos discriminativos pueden ajustar estos pesos. Esto es particularmente útil cuando los datos de entrenamiento son limitados, porque los pesos mal inicializados pueden dificultar significativamente el aprendizaje. Estos pesos pre-entrenados terminan en una región del espacio de peso que está más cerca de los pesos óptimos que las elecciones aleatorias. Esto permite un modelado mejorado y una convergencia final más rápida. [42]
Red neuronal recurrente
Las redes neuronales recurrentes (RNN) propagan los datos hacia adelante, pero también hacia atrás, desde las etapas de procesamiento posteriores a las etapas anteriores. RNN se puede utilizar como procesadores de secuencia general.
Totalmente recurrente
Esta arquitectura se desarrolló en la década de 1980. Su red crea una conexión dirigida entre cada par de unidades. Cada uno tiene una activación (salida) variable en el tiempo y de valor real (más de cero o uno). Cada conexión tiene un peso real modificable. Algunos de los nodos se denominan nodos etiquetados, algunos nodos de salida, el resto nodos ocultos.
Para el aprendizaje supervisado en configuraciones de tiempo discreto, las secuencias de entrenamiento de vectores de entrada de valor real se convierten en secuencias de activaciones de los nodos de entrada, un vector de entrada a la vez. En cada paso de tiempo, cada unidad que no es de entrada calcula su activación actual como una función no lineal de la suma ponderada de las activaciones de todas las unidades de las que recibe conexiones. El sistema puede activar explícitamente (independientemente de las señales entrantes) algunas unidades de salida en determinados intervalos de tiempo. Por ejemplo, si la secuencia de entrada es una señal de voz correspondiente a un dígito hablado, la salida de destino final al final de la secuencia puede ser una etiqueta que clasifique el dígito. Para cada secuencia, su error es la suma de las desviaciones de todas las activaciones calculadas por la red de las señales objetivo correspondientes. Para un conjunto de entrenamiento de numerosas secuencias, el error total es la suma de los errores de todas las secuencias individuales.
Para minimizar el error total, se puede utilizar el descenso de gradiente para cambiar cada peso en proporción a su derivada con respecto al error, siempre que las funciones de activación no lineales sean diferenciables . El método estándar se llama " retropropagación a través del tiempo " o BPTT, una generalización de la retropropagación para redes de retroalimentación. [43] [44] Una variante en línea computacionalmente más costosa se llama "Aprendizaje recurrente en tiempo real" o RTRL. [45] [46] A diferencia de BPTT, este algoritmo es local en el tiempo pero no local en el espacio . [47] [48] Existe un híbrido en línea entre BPTT y RTRL con complejidad intermedia, [49] [50] con variantes para tiempo continuo. [51] Un problema importante con el descenso de gradientes para arquitecturas RNN estándar es que los gradientes de error desaparecen exponencialmente rápidamente con el tamaño del desfase de tiempo entre eventos importantes. [52] [53] La arquitectura de memoria a corto plazo supera estos problemas. [54]
En entornos de aprendizaje por refuerzo , ningún maestro proporciona señales de destino. En lugar de una función de aptitud o función de recompensa o función de utilidad se utiliza de vez en cuando para evaluar el rendimiento, lo que influye en su flujo de entrada a través de unidades de salida conectados a actuadores que afectan el medio ambiente. Las variantes del cálculo evolutivo se utilizan a menudo para optimizar la matriz de ponderaciones.
Hopfield
La red Hopfield (como redes similares basadas en atractores) es de interés histórico, aunque no es una RNN general, ya que no está diseñada para procesar secuencias de patrones. En cambio, requiere entradas estacionarias. Es un RNN en el que todas las conexiones son simétricas. Garantiza que convergerá. Si las conexiones se entrenan utilizando el aprendizaje de Hebbian, la red Hopfield puede funcionar como una memoria robusta de contenido direccionable , resistente a la alteración de la conexión.
Máquina de boltzmann
La máquina de Boltzmann puede considerarse como una ruidosa red Hopfield. Es una de las primeras redes neuronales en demostrar el aprendizaje de variables latentes (unidades ocultas). El aprendizaje automático de Boltzmann fue al principio lento de simular, pero el algoritmo de divergencia contrastiva acelera el entrenamiento para las máquinas de Boltzmann y Productos de expertos .
Mapa autoorganizado
El mapa autoorganizado (SOM) utiliza aprendizaje no supervisado . Un conjunto de neuronas aprende a mapear puntos en un espacio de entrada con coordenadas en un espacio de salida. El espacio de entrada puede tener diferentes dimensiones y topología del espacio de salida, y SOM intenta preservarlas.
Aprendizaje de cuantificación de vectores
La cuantificación vectorial de aprendizaje (LVQ) se puede interpretar como una arquitectura de red neuronal. Los representantes prototípicos de las clases parametrizan, junto con una medida de distancia adecuada, en un esquema de clasificación basado en la distancia.
Recurrente simple
Las redes recurrentes simples tienen tres capas, con la adición de un conjunto de "unidades de contexto" en la capa de entrada. Estas unidades se conectan desde la capa oculta o la capa de salida con un peso fijo de uno. [55] En cada paso de tiempo, la entrada se propaga de una manera estándar de retroalimentación, y luego se aplica una regla de aprendizaje similar a la retropropagación (sin realizar el descenso de gradiente ). Las conexiones traseras fijas dejan una copia de los valores anteriores de las unidades ocultas en las unidades de contexto (ya que se propagan sobre las conexiones antes de que se aplique la regla de aprendizaje).
Computación de yacimientos
La computación de yacimientos es un marco de cálculo que puede verse como una extensión de las redes neuronales . [56] Normalmente, una señal de entrada se alimenta a un sistema dinámico fijo (aleatorio) llamado depósito cuya dinámica asigna la entrada a una dimensión superior. Un mecanismo de lectura está capacitado para mapear el depósito a la salida deseada. El entrenamiento se realiza solo en la etapa de lectura. Las máquinas de estado líquido [57] son dos tipos principales de computación de yacimientos. [58]
Estado de eco
La red de estado de eco (ESN) emplea una capa oculta aleatoria escasamente conectada. Los pesos de las neuronas de salida son la única parte de la red que está entrenada. Los ESN son buenos para reproducir ciertas series de tiempo. [59]
Memoria a corto plazo
La memoria a corto plazo (LSTM) [54] evita el problema del gradiente de desaparición . Funciona incluso cuando hay retrasos prolongados entre las entradas y puede manejar señales que mezclan componentes de baja y alta frecuencia. LSTM RNN superó a otros RNN y otros métodos de aprendizaje de secuencias como HMM en aplicaciones como el aprendizaje de idiomas [60] y el reconocimiento de escritura conectado. [61]
Bidireccional
RNN bidireccional, o BRNN, utiliza una secuencia finita para predecir o etiquetar cada elemento de una secuencia en función del contexto pasado y futuro del elemento. [62] Esto se hace agregando las salidas de dos RNN: uno procesa la secuencia de izquierda a derecha y el otro de derecha a izquierda. Los resultados combinados son las predicciones de las señales objetivo dadas por el profesor. Esta técnica demostró ser especialmente útil cuando se combina con LSTM. [63]
Jerárquico
RNN jerárquico conecta elementos de varias formas para descomponer el comportamiento jerárquico en subprogramas útiles. [64] [65]
Estocástico
Una red neuronal estocástica introduce variaciones aleatorias en la red. Estas variaciones aleatorias pueden verse como una forma de muestreo estadístico , como el muestreo de Monte Carlo .
Escala genética
Un RNN (a menudo un LSTM) donde una serie se descompone en una serie de escalas donde cada escala informa la longitud primaria entre dos puntos consecutivos. Una escala de primer orden consta de una RNN normal, una de segundo orden consta de todos los puntos separados por dos índices y así sucesivamente. El RNN de orden N conecta el primer y último nodo. Los resultados de todas las escalas se tratan como un Comité de Máquinas y las puntuaciones asociadas se utilizan genéticamente para la siguiente iteración.
Modular
Los estudios biológicos han demostrado que el cerebro humano funciona como una colección de pequeñas redes. Esta comprensión dio origen al concepto de redes neuronales modulares , en las que varias redes pequeñas cooperan o compiten para resolver problemas.
Comité de máquinas
Un comité de máquinas (CoM) es una colección de diferentes redes neuronales que juntas "votan" por un ejemplo dado. Esto generalmente da un resultado mucho mejor que las redes individuales. Debido a que las redes neuronales sufren de mínimos locales, comenzar con la misma arquitectura y entrenamiento pero usando pesos iniciales aleatoriamente diferentes a menudo da resultados muy diferentes. [ cita requerida ] Un CoM tiende a estabilizar el resultado.
El CoM es similar al método de ensacado de aprendizaje automático general , excepto que la variedad necesaria de máquinas en el comité se obtiene entrenando a partir de diferentes pesos iniciales en lugar de entrenar en diferentes subconjuntos seleccionados al azar de los datos de entrenamiento.
De asociación
La red neuronal asociativa (ASNN) es una extensión del comité de máquinas que combina múltiples redes neuronales feedforward y la técnica de k vecino más cercano. Utiliza la correlación entre las respuestas del conjunto como una medida de distancia entre los casos analizados para el kNN. Esto corrige el sesgo del conjunto de redes neuronales. Una red neuronal asociativa tiene una memoria que puede coincidir con el conjunto de entrenamiento. Si hay nuevos datos disponibles, la red mejora instantáneamente su capacidad predictiva y proporciona aproximación de datos (autoaprendizaje) sin necesidad de volver a capacitarse. Otra característica importante de ASNN es la posibilidad de interpretar los resultados de la red neuronal mediante el análisis de correlaciones entre casos de datos en el espacio de modelos. [66]
Físico
Una red neuronal física incluye material de resistencia eléctricamente ajustable para simular sinapsis artificiales. Los ejemplos incluyen la red neuronal basada en memristor ADALINE . [67] Una red neuronal óptica es una implementación física de una red neuronal artificial con componentes ópticos .
Otros tipos
Entrenado instantáneamente
Las redes neuronales entrenadas instantáneamente (ITNN) se inspiraron en el fenómeno del aprendizaje a corto plazo que parece ocurrir instantáneamente. En estas redes, los pesos de las capas ocultas y de salida se asignan directamente a partir de los datos del vector de entrenamiento. Por lo general, funcionan con datos binarios, pero existen versiones para datos continuos que requieren un pequeño procesamiento adicional.
Spiking
Las redes neuronales spiking (SNN) consideran explícitamente la sincronización de las entradas. La entrada y salida de la red generalmente se representan como una serie de picos (función delta o formas más complejas). SNN puede procesar información en el dominio del tiempo (señales que varían con el tiempo). A menudo se implementan como redes recurrentes. Los SNN también son una forma de computadora de pulso . [68]
Las redes neuronales agudas con retrasos en la conducción axonal exhiben policcronización y, por lo tanto, podrían tener una capacidad de memoria muy grande. [69]
SNN y las correlaciones temporales de ensamblajes neuronales en tales redes, se han utilizado para modelar la separación figura / suelo y la vinculación de regiones en el sistema visual.
Comentarios regulatorios
Una red de retroalimentación regulatoria hace inferencias utilizando retroalimentación negativa . [70] La retroalimentación se utiliza para encontrar la activación óptima de unidades. Es más similar a un método no paramétrico, pero es diferente del vecino más cercano K en que emula matemáticamente las redes de alimentación.
Neocognitron
El neocognitrón es una red jerárquica de múltiples capas que se modeló a partir de la corteza visual . Utiliza múltiples tipos de unidades (originalmente dos, llamadas celdas simples y complejas ), como un modelo en cascada para usar en tareas de reconocimiento de patrones. [71] [72] [73] Las características locales son extraídas por las células S cuya deformación es tolerada por las células C. Las características locales en la entrada se integran gradualmente y se clasifican en capas superiores. [74] Entre los diversos tipos de neocognitrón [75] hay sistemas que pueden detectar múltiples patrones en la misma entrada mediante el uso de retropropagación para lograr una atención selectiva . [76] Se ha utilizado para tareas de reconocimiento de patrones y redes neuronales convolucionales inspiradas . [77]
Modelos compuestos profundos jerárquicos
Los modelos profundos jerárquicos compuestos componen redes profundas con modelos bayesianos no paramétricos . Las funciones se pueden aprender utilizando arquitecturas profundas como DBN, [78] máquinas Boltzmann profundas (DBM), [79] codificadores automáticos profundos, [80] variantes convolucionales, [81] [82] ssRBM, [83] redes de codificación profunda, [ 84] DBN con aprendizaje escaso de funciones, [85] RNN, [86] DBN condicionales, [87] codificadores automáticos de eliminación de ruido. [88] Esto proporciona una mejor representación, lo que permite un aprendizaje más rápido y una clasificación más precisa con datos de alta dimensión. Sin embargo, estas arquitecturas son deficientes para aprender clases novedosas con pocos ejemplos, porque todas las unidades de red están involucradas en la representación de la entrada (unrepresentación distribuida ) y deben ajustarse juntos (altogrado de libertad). Limitar el grado de libertad reduce el número de parámetros a aprender, facilitando el aprendizaje de nuevas clases a partir de unos pocos ejemplos. Los modelos jerárquicos bayesianos (HB) permiten aprender de unos pocos ejemplos, por ejemplo [89] [90] [91] [92] [93] para visión por computadora,estadísticay ciencias cognitivas.
Las arquitecturas HD compuestas tienen como objetivo integrar características tanto de HB como de redes profundas. La arquitectura compuesta HDP-DBM es un proceso Dirichlet jerárquico (HDP) como modelo jerárquico, que incorpora la arquitectura DBM. Es un modelo generativo completo , generalizado a partir de conceptos abstractos que fluyen a través de las capas del modelo, que es capaz de sintetizar nuevos ejemplos en clases novedosas que parecen "razonablemente" naturales. Todos los niveles se aprenden conjuntamente maximizando una puntuación logarítmica de probabilidad conjunta . [94]
En un DBM con tres capas ocultas, la probabilidad de una entrada visible '' ν '' es:
dónde es el conjunto de unidades ocultas, y son los parámetros del modelo, que representan términos de interacción simétrica visible-oculta y oculta-oculta.
Un modelo DBM aprendido es un modelo no dirigido que define la distribución conjunta . Una forma de expresar lo aprendido es el modelo condicional y un término anterior .
Aquí representa un modelo DBM condicional, que puede verse como un DBM de dos capas pero con términos de sesgo dados por los estados de :
Redes de codificación predictiva profunda
Una red de codificación predictiva profunda (DPCN) es un esquema de codificación predictiva que utiliza información descendente para ajustar empíricamente los antecedentes necesarios para un procedimiento de inferencia ascendente mediante un modelo generativo profundo y conectado localmente . Esto funciona extrayendo características escasas de observaciones que varían en el tiempo utilizando un modelo dinámico lineal. Luego, se utiliza una estrategia de agrupación para aprender representaciones de características invariantes. Estas unidades se componen para formar una arquitectura profunda y son entrenadas por un aprendizaje codicioso no supervisado por capas . Las capas constituyen una especie de cadena de Markov de modo que los estados de cualquier capa dependen únicamente de las capas anteriores y posteriores.
Los DPCN predicen la representación de la capa, utilizando un enfoque de arriba hacia abajo utilizando la información en la capa superior y las dependencias temporales de estados anteriores. [95]
Los DPCN se pueden ampliar para formar una red convolucional . [95]
Máquina de grano multicapa
Las máquinas de kernel multicapa (MKM) son una forma de aprender funciones altamente no lineales mediante la aplicación iterativa de kernels débilmente no lineales. Utilizan el análisis de componentes principales del kernel (KPCA), [96] como un método para el paso previo a la formación de capas codiciosas no supervisadas del aprendizaje profundo. [97]
Capa aprende la representación de la capa anterior , extrayendo el componente principal (PC) de la capa de proyecciónsalida en el dominio de características inducido por el kernel. Para reducir la dimensionalidad de la representación actualizada en cada capa, una estrategia supervisada selecciona las mejores características informativas entre las características extraídas por KPCA. El proceso es:
- clasificar el características según su información mutua con las etiquetas de clase;
- para diferentes valores de K y, calcule la tasa de error de clasificación de un clasificador de K-vecino más cercano (K-NN) utilizando solo elcaracterísticas más informativas en un conjunto de validación ;
- El valor de con el que el clasificador ha alcanzado la tasa de error más baja determina el número de características a retener.
Algunos inconvenientes acompañan al método KPCA para MKM.
Se desarrolló una forma más sencilla de utilizar las máquinas del núcleo para el aprendizaje profundo para la comprensión del lenguaje hablado. [98] La idea principal es usar una máquina kernel para aproximar una red neuronal poco profunda con un número infinito de unidades ocultas, luego usar apilamiento para empalmar la salida de la máquina kernel y la entrada sin procesar para construir el siguiente nivel superior del máquina de kernel. El número de niveles en la red convexa profunda es un hiperparámetro del sistema general, que se determinará mediante validación cruzada.
Dinámica
Las redes neuronales dinámicas abordan el comportamiento multivariado no lineal e incluyen (aprendizaje de) el comportamiento dependiente del tiempo, como los fenómenos transitorios y los efectos de retardo. Las técnicas para estimar el proceso de un sistema a partir de datos observados se incluyen en la categoría general de identificación del sistema.
En cascada
La correlación en cascada es una arquitectura y un algoritmo de aprendizaje supervisado . En lugar de simplemente ajustar los pesos en una red de topología fija, [99] Cascade-Correlation comienza con una red mínima, luego entrena y agrega automáticamente nuevas unidades ocultas una por una, creando una estructura multicapa. Una vez que se ha agregado una nueva unidad oculta a la red, sus pesos del lado de entrada se congelan. Esta unidad se convierte entonces en un detector de características permanente en la red, disponible para producir salidas o para crear otros detectores de características más complejos. La arquitectura de correlación en cascada tiene varias ventajas: aprende rápidamente, determina su propio tamaño y topología, conserva las estructuras que ha construido incluso si cambia el conjunto de entrenamiento y no requiere propagación hacia atrás .
Neuro-difuso
Una red neuro-difusa es un sistema de inferencia difuso en el cuerpo de una red neuronal artificial. Dependiendo del tipo de FIS, varias capas simulan los procesos involucrados en una fuzzificación, inferencia, agregación y defuzzificación similar a una inferencia difusa. La integración de un FIS en una estructura general de una ANN tiene la ventaja de utilizar los métodos de entrenamiento de ANN disponibles para encontrar los parámetros de un sistema difuso.
Producción de patrones composicionales
Las redes productoras de patrones de composición (CPPN) son una variación de las redes neuronales artificiales que difieren en su conjunto de funciones de activación y en cómo se aplican. Si bien las redes neuronales artificiales típicas a menudo contienen solo funciones sigmoides (y, a veces, funciones gaussianas ), las CPPN pueden incluir ambos tipos de funciones y muchas otras. Además, a diferencia de las redes neuronales artificiales típicas, las CPPN se aplican en todo el espacio de posibles entradas para que puedan representar una imagen completa. Dado que son composiciones de funciones, los CPPN de hecho codifican imágenes con una resolución infinita y se pueden muestrear para una pantalla en particular con la resolución óptima.
Redes de memoria
Las redes de memoria [100] [101] incorporan memoria a largo plazo . La memoria a largo plazo se puede leer y escribir, con el objetivo de usarla para la predicción. Estos modelos se han aplicado en el contexto de la respuesta a preguntas (QA) donde la memoria a largo plazo actúa efectivamente como una base de conocimiento (dinámica) y el resultado es una respuesta textual. [102]
En la memoria distribuida escasa o la memoria temporal jerárquica , los patrones codificados por las redes neuronales se utilizan como direcciones para la memoria direccionable por contenido , y las "neuronas" sirven esencialmente como codificadores y decodificadores de direcciones . Sin embargo, los primeros controladores de tales recuerdos no fueron diferenciables. [103]
Memoria asociativa de una sola vez
Este tipo de red puede agregar nuevos patrones sin volver a entrenar. Se realiza mediante la creación de una estructura de memoria específica, que asigna cada nuevo patrón a un plano ortogonal utilizando matrices jerárquicas conectadas de forma adyacente. [104] La red ofrece reconocimiento de patrones en tiempo real y alta escalabilidad; esto requiere procesamiento paralelo y, por lo tanto, es más adecuado para plataformas como redes de sensores inalámbricos , computación en red y GPGPU .
Memoria temporal jerárquica
La memoria temporal jerárquica (HTM) modela algunas de las propiedades estructurales y algorítmicas del neocórtex . HTM es un modelo biomimético basado en la teoría de predicción de la memoria . HTM es un método para descubrir e inferir las causas de alto nivel de los patrones y secuencias de entrada observados, construyendo así un modelo cada vez más complejo del mundo.
HTM combina ideas existentes para imitar la neocorteza con un diseño simple que brinda muchas capacidades. HTM combina y amplía los enfoques utilizados en las redes bayesianas , los algoritmos de agrupamiento espacial y temporal, mientras utiliza una jerarquía de nodos en forma de árbol que es común en las redes neuronales .
Memoria asociativa holográfica
La memoria asociativa holográfica (HAM) es un sistema de estímulo-respuesta analógico, asociativo, basado en correlaciones. La información se asigna a la orientación de fase de los números complejos. La memoria es eficaz para tareas de memoria asociativa , generalización y reconocimiento de patrones con atención variable. La localización de búsqueda dinámica es fundamental para la memoria biológica. En la percepción visual, los humanos se enfocan en objetos específicos en un patrón. Los seres humanos pueden cambiar el enfoque de un objeto a otro sin aprender. HAM puede imitar esta habilidad creando representaciones explícitas para enfocarse. Utiliza una representación bimodal de patrón y un espacio de estado de peso esférico complejo similar a un holograma. Los HAM son útiles para la realización óptica porque los cálculos hiperesféricos subyacentes se pueden implementar con el cálculo óptico. [105]
Además de la memoria a corto plazo (LSTM), otros enfoques también agregaron memoria diferenciable a las funciones recurrentes. Por ejemplo:
- Acciones push y pop diferenciables para redes de memoria alternativas llamadas máquinas de pila neuronal [106] [107]
- Redes de memoria donde el almacenamiento diferenciable externo de la red de control se encuentra en los pesos rápidos de otra red [108]
- Puertas de olvido de LSTM [109]
- RNN autorreferenciales con unidades de salida especiales para direccionar y manipular rápidamente los propios pesos de RNN de manera diferenciable (almacenamiento interno) [110] [111]
- Aprendiendo a transducir con memoria ilimitada [112]
Máquinas neurales de Turing
Las máquinas neuronales de Turing [113] acoplan redes LSTM a recursos de memoria externa, con los que pueden interactuar mediante procesos de atención. El sistema combinado es análogo a una máquina de Turing, pero es diferenciable de un extremo a otro, lo que permite entrenarlo de manera eficiente mediante el descenso de gradientes . Los resultados preliminares demuestran que las máquinas de Turing neuronales pueden inferir algoritmos simples como copiar, clasificar y recordar asociativamente a partir de ejemplos de entrada y salida.
Las computadoras neuronales diferenciables (DNC) son una extensión de NTM. Superaron a las máquinas de turing neuronales, los sistemas de memoria a corto plazo y las redes de memoria en las tareas de procesamiento de secuencias. [114] [115] [116] [117] [118]
Hash semántico
Los enfoques que representan experiencias previas directamente y utilizan una experiencia similar para formar un modelo local a menudo se denominan métodos del vecino más cercano o de los k vecinos más cercanos . [119] El aprendizaje profundo es útil en hash semántico [120] donde un modelo gráfico profundo de los vectores de recuento de palabras [121] se obtiene de un gran conjunto de documentos. [se necesita aclaración ] Los documentos se asignan a direcciones de memoria de tal manera que los documentos semánticamente similares se ubican en direcciones cercanas. A continuación, se pueden encontrar documentos similares a un documento de consulta accediendo a todas las direcciones que difieren solo unos pocos bits de la dirección del documento de consulta. A diferencia de la memoria distribuida dispersa que opera en direcciones de 1000 bits, el hash semántico funciona en direcciones de 32 o 64 bits que se encuentran en una arquitectura de computadora convencional.
Redes de punteros
Las redes neuronales profundas se pueden mejorar potencialmente mediante la profundización y la reducción de parámetros, mientras se mantiene la capacidad de entrenamiento. Si bien el entrenamiento de redes neuronales extremadamente profundas (por ejemplo, 1 millón de capas) puede no ser práctico, las arquitecturas tipo CPU como las redes de punteros [122] y las máquinas neuronales de acceso aleatorio [123] superan esta limitación mediante el uso de memoria externa de acceso aleatorio y otras componentes que normalmente pertenecen a una arquitectura de computadora , como registros , ALU y punteros . Tales sistemas operan en vectores de distribución de probabilidad almacenados en celdas y registros de memoria. Por tanto, el modelo es totalmente diferenciable y se entrena de principio a fin. La característica clave de estos modelos es que su profundidad, el tamaño de su memoria a corto plazo y el número de parámetros pueden modificarse de forma independiente.
Híbridos
Redes de codificador-decodificador
Marcos codificador-decodificador se basan en las redes neuronales que se correlacionan altamente estructurado entrada a la salida altamente estructurado. El enfoque surgió en el contexto de la traducción automática , [124] [125] [126] donde la entrada y la salida son oraciones escritas en dos lenguajes naturales. En ese trabajo, se usó un LSTM RNN o CNN como codificador para resumir una oración fuente, y el resumen se descodificó usando un modelo de lenguaje RNN condicional para producir la traducción. [127] Estos sistemas comparten componentes básicos: RNN y CNN cerrados y mecanismos de atención capacitados.
Ver también
- Teoría de la resonancia adaptativa
- Vida artificial
- Memoria autoasociativa
- Autoencoder
- Computación de inspiración biológica
- Cerebro azul
- Sistema experto conexionista
- Red de contrapropagación
- Árbol de decisión
- Experto en Sistemas
- Algoritmo genético
- Tabulación adaptativa in situ
- Grandes redes neuronales de almacenamiento y recuperación de memoria
- Análisis discriminante lineal
- Regresión logística
- Perceptrón multicapa
- Gas neural
- Neuroevolución , NeuroEvolución de topologías aumentadas (NEAT)
- Chip Ni1000
- Red neuronal óptica
- Optimización de Enjambre de partículas
- Analítica predictiva
- Análisis de componentes principales
- Recocido simulado
- Matriz sistólica
- Red neuronal de retardo de tiempo (TDNN)
Referencias
- ^ Universidad del sur de California. (2004, 16 de junio). Materias grises: nuevas pistas sobre cómo procesan la información las neuronas. Cita de ScienceDaily : "..." Es sorprendente que después de cien años de investigación en neurociencia moderna, todavía no conozcamos las funciones básicas de procesamiento de información de una neurona ", dijo Bartlett Mel ..."
- ^ Instituto de ciencia Weizmann. (2007, 2 de abril). Es solo un juego de azar: la teoría principal de la percepción se cuestiona. Cita de ScienceDaily : "..." Desde la década de 1980, muchos neurocientíficos creían que poseían la clave para finalmente comenzar a comprender el funcionamiento del cerebro. Pero hemos proporcionado pruebas sólidas para sugerir que es posible que el cerebro no codifique la información utilizando patrones precisos de actividad. "..."
- ^ Universidad de California - Los Ángeles (2004, 14 de diciembre). Neurocientífico de UCLA obtiene información sobre el cerebro humano a partir del estudio del caracol marino. Cita de ScienceDaily : "..." Nuestro trabajo implica que los mecanismos cerebrales para formar este tipo de asociaciones pueden ser extremadamente similares en los caracoles y los organismos superiores ... No comprendemos completamente ni siquiera los tipos de aprendizaje más simples en estos animales ". ... "
- ^ Universidad de Yale. (2006, 13 de abril). El cerebro se comunica en modo analógico y digital simultáneamente. Cita de ScienceDaily : "... McCormick dijo que las futuras investigaciones y modelos de funcionamiento neuronal en el cerebro deberán tener en cuenta la naturaleza mixta analógico-digital de la comunicación. Se logre una comprensión profunda del cerebro y sus trastornos, dijo ... "
- ^ Ivakhnenko, Alexey Grigorevich (1968). "El método grupal de manejo de datos - un rival del método de aproximación estocástica" . Control automático soviético . 13 (3): 43–55.
- ^ Ivakhnenko, AG (1971). "Teoría polinomial de sistemas complejos" . Transacciones IEEE sobre sistemas, hombre y cibernética . 1 (4): 364–378. doi : 10.1109 / TSMC.1971.4308320 . S2CID 17606980 .
- ^ Kondo, T .; Ueno, J. (2008). "Arquitectura de red neuronal óptima de selección automática de red neuronal multicapa de tipo GMDH y su aplicación al reconocimiento de imágenes médicas tridimensionales de vasos sanguíneos" . Revista Internacional de Computación, Información y Control Innovadores . 4 (1): 175–187.
- ^ Bengio, Y. (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y Tendencias en Machine Learning . 2 : 1-127. CiteSeerX 10.1.1.701.9550 . doi : 10.1561 / 2200000006 .
- ^ Liou, Cheng-Yuan (2008). "Modelado de la percepción de palabras utilizando la red de Elman". Neurocomputación . 71 (16-18): 3150-3157. doi : 10.1016 / j.neucom.2008.04.030 .
- ^ Liou, Cheng-Yuan (2014). "Autoencoder para palabras". Neurocomputación . 139 : 84–96. doi : 10.1016 / j.neucom.2013.09.055 .
- ^ Auto-Codificación Variacional Bayes, Kingma, DP y Welling, M., ArXiv e-prints, 2013 arxiv .org / abs / 1312 .6114
- ^ Generación Caras con la antorcha, Boesen A., L. y Larsen Sonderby SK, 2015 antorcha .ch / blog / 2015 /11 /13 / gan .html
- ^ "Red neuronal probabilística competitiva (Descarga PDF disponible)" . ResearchGate . Consultado el 16 de marzo de 2017 .
- ^ "Copia archivada" . Archivado desde el original el 18 de diciembre de 2010 . Consultado el 22 de marzo de 2012 .CS1 maint: copia archivada como título ( enlace )
- ^ "Copia archivada" (PDF) . Archivado desde el original (PDF) el 31 de enero de 2012 . Consultado el 22 de marzo de 2012 .CS1 maint: copia archivada como título ( enlace )
- ^ Fundamentos de TDNN , Kapitel aus dem Online Handbuch des SNNS
- ^ Zhang, Wei (1990). "Modelo de procesamiento distribuido en paralelo con interconexiones locales invariantes en el espacio y su arquitectura óptica" . Óptica aplicada . 29 (32): 4790–7. Código bibliográfico : 1990ApOpt..29.4790Z . doi : 10.1364 / ao.29.004790 . PMID 20577468 .
- ^ Zhang, Wei (1988). "Red neuronal de reconocimiento de patrones de cambio invariante y su arquitectura óptica" . Actas de la Conferencia Anual de la Sociedad Japonesa de Física Aplicada .
- ^ J. Weng, N. Ahuja y TS Huang, " Aprendizaje de reconocimiento y segmentación de objetos 3-D a partir de imágenes 2-D ", Proc. 4ta Conf. Internacional Computer Vision , Berlín, Alemania, págs. 121-128, mayo de 1993.
- ^ Fukushima, K. (1980). "Neocognitron: un modelo de red neuronal autoorganizadora para un mecanismo de reconocimiento de patrones que no se ve afectado por el cambio de posición". Biol. Cybern . 36 (4): 193–202. doi : 10.1007 / bf00344251 . PMID 7370364 . S2CID 206775608 .
- ^ LeCun, Yann. "LeNet-5, redes neuronales convolucionales" . Consultado el 16 de noviembre de 2013 .
- ^ "Redes neuronales convolucionales (LeNet) - documentación de DeepLearning 0.1" . Aprendizaje profundo 0.1 . Laboratorio LISA . Consultado el 31 de agosto de 2013 .
- ^ LeCun y col. , "Retropropagación aplicada al reconocimiento del código postal escrito a mano", Computación neuronal , 1, págs. 541–551, 1989.
- ^ Yann LeCun (2016). Diapositivas sobre aprendizaje profundo en línea
- ^ "Tutorial de aprendizaje profundo y aprendizaje de funciones no supervisadas" . ufldl.stanford.edu .
- ^ Hinton, Geoffrey E .; Krizhevsky, Alex; Wang, Sida D. (2011), "Transforming Auto-Encoders", Lecture Notes in Computer Science , Springer Berlin Heidelberg, págs. 44–51, CiteSeerX 10.1.1.220.5099 , doi : 10.1007 / 978-3-642-21735 -7_6 , ISBN 9783642217340
- ^ Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2014). Profundizando con las convoluciones . Repositorio de investigación informática . pag. 1. arXiv : 1409,4842 . doi : 10.1109 / CVPR.2015.7298594 . ISBN 978-1-4673-6964-0. S2CID 206592484 .
- ^ Ran, Lingyan; Zhang, Yanning; Zhang, Qilin; Yang, Tao (12 de junio de 2017). "Navegación de robot basada en red neuronal convolucional utilizando imágenes esféricas no calibradas" (PDF) . Sensores . 17 (6): 1341. doi : 10.3390 / s17061341 . ISSN 1424-8220 . PMC 5492478 . PMID 28604624 .
- ^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (1 de enero de 2013). Burges, CJC; Bottou, L .; Welling, M .; Ghahramani, Z .; Weinberger, KQ (eds.). Recomendación de música basada en contenido profundo (PDF) . Curran Associates, Inc. págs. 2643–2651.
- ^ Collobert, Ronan; Weston, Jason (1 de enero de 2008). Una arquitectura unificada para el procesamiento del lenguaje natural: redes neuronales profundas con aprendizaje multitarea . Actas de la 25a Conferencia Internacional sobre Aprendizaje Automático . ICML '08. Nueva York, NY, EE.UU .: ACM. págs. 160-167. doi : 10.1145 / 1390156.1390177 . ISBN 978-1-60558-205-4. S2CID 2617020 .
- ^ a b Deng, Li; Yu, Dong; Platt, John (2012). "Apilamiento y aprendizaje escalables para la construcción de arquitecturas profundas" (PDF) . Conferencia internacional de IEEE de 2012 sobre procesamiento de señales, habla y acústica (ICASSP) : 2133–2136. doi : 10.1109 / ICASSP.2012.6288333 . ISBN 978-1-4673-0046-9. S2CID 16171497 .
- ^ Deng, Li; Yu, Dong (2011). "Red convexa profunda: una arquitectura escalable para la clasificación de patrones de voz" (PDF) . Actas de Interspeech : 2285–2288.
- ^ David, Wolpert (1992). "Generalización apilada". Redes neuronales . 5 (2): 241-259. CiteSeerX 10.1.1.133.8090 . doi : 10.1016 / S0893-6080 (05) 80023-1 .
- ^ Bengio, Y. (15 de noviembre de 2009). "Aprendizaje de arquitecturas profundas para IA". Fundamentos y Tendencias en Machine Learning . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi : 10.1561 / 2200000006 . ISSN 1935-8237 .
- ^ Hutchinson, Brian; Deng, Li; Yu, Dong (2012). "Tensor de redes de apilamiento profundo". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 1-15 (8): 1944-1957. doi : 10.1109 / tpami.2012.268 . PMID 23267198 . S2CID 344385 .
- ^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). "Reducción de la dimensionalidad de los datos con redes neuronales" . Ciencia . 313 (5786): 504–507. Código bibliográfico : 2006Sci ... 313..504H . doi : 10.1126 / science.1127647 . PMID 16873662 . S2CID 1658773 .
- ^ Dahl, G .; Yu, D .; Deng, L .; Acero, A. (2012). "Redes neuronales profundas preentrenadas dependientes del contexto para el reconocimiento de voz de gran vocabulario". Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 20 (1): 30–42. CiteSeerX 10.1.1.227.8990 . doi : 10.1109 / tasl.2011.2134090 . S2CID 14862572 .
- ^ Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). "Modelado acústico mediante redes de creencias profundas". Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 20 (1): 14-22. CiteSeerX 10.1.1.338.2670 . doi : 10.1109 / tasl.2011.2109382 . S2CID 9530137 .
- ^ Deng, Li; Yu, Dong (2011). "Red convexa profunda: una arquitectura escalable para la clasificación de patrones de voz" (PDF) . Actas de Interspeech : 2285–2288.
- ^ Deng, Li; Yu, Dong; Platt, John (2012). "Apilamiento y aprendizaje escalables para la construcción de arquitecturas profundas" (PDF) . Conferencia internacional de IEEE de 2012 sobre procesamiento de señales, habla y acústica (ICASSP) : 2133–2136. doi : 10.1109 / ICASSP.2012.6288333 . ISBN 978-1-4673-0046-9. S2CID 16171497 .
- ^ Hinton, GE (2009). "Redes de creencias profundas" . Scholarpedia . 4 (5): 5947. Código bibliográfico : 2009SchpJ ... 4.5947H . doi : 10.4249 / scholarpedia.5947 .
- ^ Larochelle, Hugo; Erhan, Dumitru; Courville, Aaron; Bergstra, James; Bengio, Yoshua (2007). Una evaluación empírica de arquitecturas profundas en problemas con muchos factores de variación . Actas de la 24a Conferencia Internacional sobre Aprendizaje Automático . ICML '07. Nueva York, NY, EE.UU .: ACM. págs. 473–480. CiteSeerX 10.1.1.77.3242 . doi : 10.1145 / 1273496.1273556 . ISBN 9781595937933. S2CID 14805281 .
- ^ Werbos, PJ (1988). "Generalización de la retropropagación con aplicación a un modelo de mercado de gas recurrente" . Redes neuronales . 1 (4): 339–356. doi : 10.1016 / 0893-6080 (88) 90007-x .
- ^ David E. Rumelhart; Geoffrey E. Hinton; Ronald J. Williams. Aprendiendo representaciones internas por propagación de errores.
- ^ AJ Robinson y F. Fallside. La red de propagación dinámica de errores impulsada por la utilidad. Informe técnico CUED / F-INFENG / TR.1, Departamento de Ingeniería de la Universidad de Cambridge, 1987.
- ^ RJ Williams y D. Zipser. Algoritmos de aprendizaje basados en gradientes para redes recurrentes y su complejidad computacional. En retropropagación: teoría, arquitecturas y aplicaciones. Hillsdale, Nueva Jersey: Erlbaum, 1994.
- ^ Schmidhuber, J. (1989). "Un algoritmo de aprendizaje local para redes dinámicas feedforward y recurrentes" . Ciencia de la conexión . 1 (4): 403–412. doi : 10.1080 / 09540098908915650 . S2CID 18721007 .
- ^ Sistemas neuronales y adaptativos: fundamentos a través de la simulación. JC Principe, NR Euliano, WC Lefebvre
- ^ Schmidhuber, J. (1992). "Un algoritmo de aprendizaje de complejidad de tiempo de almacenamiento O (n3) de tamaño fijo para redes de funcionamiento continuo totalmente recurrentes". Computación neuronal . 4 (2): 243–248. doi : 10.1162 / neco.1992.4.2.243 . S2CID 11761172 .
- ^ RJ Williams. Complejidad de los algoritmos de cálculo de gradientes exactos para redes neuronales recurrentes. Informe técnico Informe técnico NU-CCS-89-27, Boston: Northeastern University, Facultad de Ciencias de la Computación, 1989.
- ^ Pearlmutter, BA (1989). "Aprendizaje de trayectorias espaciales de estados en redes neuronales recurrentes" (PDF) . Computación neuronal . 1 (2): 263–269. doi : 10.1162 / neco.1989.1.2.263 . S2CID 16813485 .
- ^ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Tesis de diploma, Institut f. Informatik, Technische Univ. Múnich, 1991.
- ^ S. Hochreiter, Y. Bengio, P. Frasconi y J. Schmidhuber. Flujo gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo. En SC Kremer y JF Kolen, editores, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
- ^ a b Hochreiter, S .; Schmidhuber, J. (1997). "Memoria larga a corto plazo". Computación neuronal . 9 (8): 1735-1780. doi : 10.1162 / neco.1997.9.8.1735 . PMID 9377276 . S2CID 1915014 .
- ^ Redes neuronales como sistemas cibernéticos 2ª y edición revisada, Holk Cruse [1]
- ^ Schrauwen, Benjamin , David Verstraeten y Jan Van Campenhout "Una descripción general de la computación de yacimientos: teoría, aplicaciones e implementaciones". Actas del Simposio europeo sobre redes neuronales artificiales ESANN 2007, págs. 471–482.
- ^ Mass, Wolfgang ; Nachtschlaeger, T .; Markram, H. (2002). "Computación en tiempo real sin estados estables: un nuevo marco para la computación neuronal basada en perturbaciones". Computación neuronal . 14 (11): 2531-2560. doi : 10.1162 / 089976602760407955 . PMID 12433288 . S2CID 1045112 .
- ^ Red del estado de eco , Scholarpedia
- ^ Jaeger, H .; Aprovechamiento (2004). "Predecir sistemas caóticos y ahorrar energía en la comunicación inalámbrica". Ciencia . 304 (5667): 78–80. Código Bibliográfico : 2004Sci ... 304 ... 78J . CiteSeerX 10.1.1.719.2301 . doi : 10.1126 / science.1091277 . PMID 15064413 . S2CID 2184251 .
- ^ FA Gers y J. Schmidhuber. Las redes recurrentes LSTM aprenden lenguajes sencillos, libres de contexto y sensibles al contexto IEEE Transactions on Neural Networks 12 (6): 1333–1340, 2001.
- ^ A. Graves, J. Schmidhuber. Reconocimiento de escritura sin conexión con redes neuronales recurrentes multidimensionales. Advances in Neural Information Processing Systems 22, NIPS'22, p 545-552, Vancouver, MIT Press, 2009.
- ^ Schuster, Mike; Paliwal, Kuldip K. (1997). "Redes neuronales recurrentes bidireccionales". Transacciones IEEE sobre procesamiento de señales . 45 (11): 2673–2681. Código bibliográfico : 1997ITSP ... 45.2673S . CiteSeerX 10.1.1.331.9441 . doi : 10.1109 / 78.650093 .
- ^ Graves, A .; Schmidhuber, J. (2005). "Clasificación de fonemas framewise con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi : 10.1016 / j.neunet.2005.06.042 . PMID 16112549 .
- ^ Schmidhuber, J. (1992). "Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión de historia". Computación neuronal . 4 (2): 234–242. doi : 10.1162 / neco.1992.4.2.234 . S2CID 18271205 .
- ^ Representación dinámica de primitivas de movimiento en una red neuronal recurrente evolucionada
- ^ "Red neuronal asociativa" . www.vcclab.org . Consultado el 17 de junio de 2017 .
- ^ Anderson, James A .; Rosenfeld, Edward (2000). Talking Nets: una historia oral de las redes neuronales . ISBN 9780262511117.
- ^ Gerstner; Kistler. "Modelos de neuronas punzantes: neuronas individuales, poblaciones, plasticidad" . icwww.epfl.ch . Consultado el 18 de junio de 2017 . Libro de texto en línea disponible gratuitamente
- ^ Izhikevich EM (febrero de 2006). "Policronización: cálculo con picos". Computación neuronal . 18 (2): 245–82. doi : 10.1162 / 089976606775093882 . PMID 16378515 . S2CID 14253998 .
- ^ Achler T., Omar C., Amir E., "Derramar peso: más con menos", IEEE Proc. Conferencia conjunta internacional sobre redes neuronales, 2008
- ^ David H. Hubel y Torsten N. Wiesel (2005). Cerebro y percepción visual: la historia de una colaboración de 25 años . Oxford University Press EE. UU. pag. 106. ISBN 978-0-19-517618-6.
- ^ Hubel, DH; Wiesel, TN (octubre de 1959). "Campos receptivos de neuronas individuales en la corteza estriada del gato" . J. Physiol . 148 (3): 574–91. doi : 10.1113 / jphysiol.1959.sp006308 . PMC 1363130 . PMID 14403679 .
- ^ Fukushima 1987, p. 83.
- ^ Fukushima 1987, p. 84.
- ^ Fukushima 2007
- ^ Fukushima 1987, págs. 81, 85
- ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Aprendizaje profundo". Naturaleza . 521 (7553): 436–444. Código Bib : 2015Natur.521..436L . doi : 10.1038 / nature14539 . PMID 26017442 . S2CID 3074096 .
- ^ Hinton, GE ; Osindero, S .; Teh, Y. (2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Computación neuronal . 18 (7): 1527-1554. CiteSeerX 10.1.1.76.1541 . doi : 10.1162 / neco.2006.18.7.1527 . PMID 16764513 . S2CID 2309950 .
- ^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). "Aprendizaje eficiente de las máquinas Deep Boltzmann" (PDF) . 3 : 448–455. Cite journal requiere
|journal=
( ayuda ) - ^ Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). "Exploración de estrategias para el entrenamiento de redes neuronales profundas" . The Journal of Machine Learning Research . 10 : 1–40.
- ^ Coates, Adam; Carpintero, Blake (2011). "Detección de texto y reconocimiento de caracteres en imágenes de escena con aprendizaje de funciones no supervisado" (PDF) : 440–445. Cite journal requiere
|journal=
( ayuda ) - ^ Lee, Honglak; Grosse, Roger (2009). Redes convolucionales de creencias profundas para el aprendizaje escalable sin supervisión de representaciones jerárquicas . Actas de la 26a Conferencia Internacional Anual sobre Aprendizaje Automático . págs. 1–8. CiteSeerX 10.1.1.149.6800 . doi : 10.1145 / 1553374.1553453 . ISBN 9781605585161. S2CID 12008458 .
- ^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "Modelos no supervisados de imágenes por RBM de Spike-and-Slab" (PDF) . Actas de la 28a Conferencia Internacional sobre Aprendizaje Automático . 10 . págs. 1–8.
- ^ Lin, Yuanqing; Zhang, Tong; Zhu, Shenghuo; Yu, Kai (2010). "Red de codificación profunda" . Avances en los sistemas de procesamiento de información neuronal 23 (NIPS 2010) . págs. 1–9.
- ^ Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). "Aprendizaje de funciones dispersas para redes de creencias profundas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 23 : 1–8.
- ^ Socher, Richard; Lin, Clif (2011). "Análisis de escenas naturales y lenguaje natural con redes neuronales recursivas" (PDF) . Actas de la 26a Conferencia Internacional sobre Aprendizaje Automático .
- ^ Taylor, Graham; Hinton, Geoffrey (2006). "Modelado del movimiento humano utilizando variables latentes binarias" (PDF) . Avances en sistemas de procesamiento de información neuronal .
- ^ Vincent, Pascal; Larochelle, Hugo (2008). Extracción y composición de funciones robustas con codificadores automáticos de eliminación de ruido . Actas de la 25a Conferencia Internacional sobre Aprendizaje Automático - ICML '08 . págs. 1096-1103. CiteSeerX 10.1.1.298.4083 . doi : 10.1145 / 1390156.1390294 . ISBN 9781605582054. S2CID 207168299 .
- ^ Kemp, Charles; Actúa, Amy; Tenenbaum, Joshua (2007). "Sobrehipótesis de aprendizaje con modelos bayesianos jerárquicos". Ciencia del desarrollo . 10 (3): 307–21. CiteSeerX 10.1.1.141.5560 . doi : 10.1111 / j.1467-7687.2007.00585.x . PMID 17444972 .
- ^ Xu, Fei; Tenenbaum, Joshua (2007). "El aprendizaje de palabras como inferencia bayesiana". Psychol. Rev . 114 (2): 245–72. CiteSeerX 10.1.1.57.9649 . doi : 10.1037 / 0033-295X.114.2.245 . PMID 17500627 .
- ^ Chen, Bo; Polatkan, Gungor (2011). "El proceso beta jerárquico para el análisis de factores convolucionales y el aprendizaje profundo" (PDF) . Actas de la 28a Conferencia Internacional sobre Conferencia Internacional sobre Aprendizaje Automático . Omnipress. págs. 361–368. ISBN 978-1-4503-0619-5.
- ^ Fei-Fei, Li; Fergus, Rob (2006). "Aprendizaje de una sola vez de categorías de objetos". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 28 (4): 594–611. CiteSeerX 10.1.1.110.9024 . doi : 10.1109 / TPAMI.2006.79 . PMID 16566508 . S2CID 6953475 .
- ^ Rodríguez, Abel; Dunson, David (2008). "El proceso de Dirichlet anidado". Revista de la Asociación Estadounidense de Estadística . 103 (483): 1131-1154. CiteSeerX 10.1.1.70.9873 . doi : 10.1198 / 016214508000000553 . S2CID 13462201 .
- ^ Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). "Aprendizaje con modelos jerárquicos profundos". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 35 (8): 1958–71. CiteSeerX 10.1.1.372.909 . doi : 10.1109 / TPAMI.2012.269 . PMID 23787346 . S2CID 4508400 .
- ^ a b Chalasani, Rakesh; Príncipe, José (2013). "Redes de codificación predictiva profunda". arXiv : 1301,3541 [ cs.LG ].
- ^ Scholkopf, B; Smola, Alexander (1998). "Análisis de componentes no lineales como problema de valor propio del núcleo". Computación neuronal . 44 (5): 1299-1319. CiteSeerX 10.1.1.53.8911 . doi : 10.1162 / 089976698300017467 . S2CID 6674407 .
- ^ Cho, Youngmin (2012). "Métodos de kernel para el aprendizaje profundo" (PDF) : 1–9. Cite journal requiere
|journal=
( ayuda ) - ^ Deng, Li; Tur, Gokhan; Él, Xiaodong; Hakkani-Tür, Dilek (1 de diciembre de 2012). "Uso de redes Kernel Deep Convex y aprendizaje de extremo a extremo para la comprensión del lenguaje hablado" . Investigación de Microsoft .
- ^ Fahlman, Scott E .; Lebiere, Christian (29 de agosto de 1991). "La arquitectura de aprendizaje de correlación en cascada" (PDF) . Universidad Carnegie Mellon . Consultado el 4 de octubre de 2014 .
- ^ Schmidhuber, Juergen (2014). "Redes de memoria". arXiv : 1410,3916 [ cs.AI ].
- ^ Schmidhuber, Juergen (2015). "Redes de memoria de extremo a extremo". arXiv : 1503.08895 [ cs.NE ].
- ^ Schmidhuber, Juergen (2015). "Respuesta a preguntas simples a gran escala con redes de memoria". arXiv : 1506.02075 [ cs.LG ].
- ^ Hinton, Geoffrey E. (1984). "Representaciones distribuidas" . Archivado desde el original el 2 de mayo de 2016.
- ^ BB Nasution, AI Khan, Un esquema de neuronas de gráfico jerárquico para el reconocimiento de patrones en tiempo real , Transacciones IEEE en redes neuronales, vol 19 (2), 212-229, febrero de 2008
- ^ Sutherland, John G. (1 de enero de 1990). "Un modelo holográfico de memoria, aprendizaje y expresión". Revista internacional de sistemas neuronales . 01 (3): 259–267. doi : 10.1142 / S0129065790000163 .
- ^ S. Das, CL Giles, GZ Sun, "Gramáticas libres de contexto de aprendizaje: limitaciones de una red neuronal recurrente con una memoria de pila externa", Proc. 14a Conf. Anual del Cog. Sci. Soc., Pág. 79, 1992.
- ^ Mozer, MC; Das, S. (1993). Un manipulador de símbolos conexionista que descubre la estructura de los lenguajes libres de contexto . NIPS 5. págs. 863–870.
- ^ Schmidhuber, J. (1992). "Aprender a controlar las memorias de peso rápido: una alternativa a las redes recurrentes". Computación neuronal . 4 (1): 131-139. doi : 10.1162 / neco.1992.4.1.131 . S2CID 16683347 .
- ^ Gers, F .; Schraudolph, N .; Schmidhuber, J. (2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . JMLR . 3 : 115-143.
- ^ Jürgen Schmidhuber (1993). "Una red introspectiva que puede aprender a ejecutar su propio algoritmo de cambio de peso" . En Proc. del Intl. Conf. sobre redes neuronales artificiales, Brighton . IEE. págs. 191-195.
- ^ Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). "Aprender a aprender usando Gradient Descent". ICANN . 2130 : 87–94. CiteSeerX 10.1.1.5.323 .
- ^ Schmidhuber, Juergen (2015). "Aprender a transducir con memoria ilimitada". arXiv : 1506.02516 [ cs.NE ].
- ^ Schmidhuber, Juergen (2014). "Máquinas de Turing neuronales". arXiv : 1410,5401 [ cs.NE ].
- ^ Burgess, Matt. "La IA de DeepMind aprendió a viajar en el metro de Londres usando la razón y la memoria humana" . REINO UNIDO CON CABLE . Consultado el 19 de octubre de 2016 .
- ^ "DeepMind AI 'aprende' a navegar el metro de Londres" . PCMAG . Consultado el 19 de octubre de 2016 .
- ^ Mannes, John. "La computadora neuronal diferenciable de DeepMind te ayuda a navegar en el metro con su memoria" . TechCrunch . Consultado el 19 de octubre de 2016 .
- ^ Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (12 de octubre de 2016). "Computación híbrida utilizando una red neuronal con memoria externa dinámica" . Naturaleza . 538 (7626): 471–476. Código bibliográfico : 2016Natur.538..471G . doi : 10.1038 / nature20101 . ISSN 1476-4687 . PMID 27732574 . S2CID 205251479 .
- ^ "Computadoras neuronales diferenciables | DeepMind" . DeepMind . Consultado el 19 de octubre de 2016 .
- ^ Atkeson, Christopher G .; Schaal, Stefan (1995). "Redes neuronales basadas en la memoria para el aprendizaje de robots". Neurocomputación . 9 (3): 243–269. doi : 10.1016 / 0925-2312 (95) 00033-6 .
- ^ Salakhutdinov, Ruslan y Geoffrey Hinton. "Hash semántico". Revista Internacional de Razonamiento Aproximado 50.7 (2009): 969–978.
- ^ Le, Quoc V .; Mikolov, Tomas (2014). "Representaciones distribuidas de frases y documentos". arXiv : 1405.4053 [ cs.CL ].
- ^ Schmidhuber, Juergen (2015). "Redes de punteros". arXiv : 1506.03134 [ stat.ML ].
- ^ Schmidhuber, Juergen (2015). "Máquinas neuronales de acceso aleatorio". arXiv : 1511.06392 [ cs.LG ].
- ^ Kalchbrenner, N .; Blunsom, P. (2013). "Modelos de traducción continua recurrente" . EMNLP'2013: 1700–1709. Cite journal requiere
|journal=
( ayuda ) - ^ Sutskever, I .; Vinyals, O .; Le, QV (2014). "Aprendizaje secuencial a secuencial con redes neuronales" (PDF) . Vigésimo Octava Conferencia sobre Sistemas de Procesamiento de Información Neural . arXiv : 1409,3215 .
- ^ Schmidhuber, Juergen (2014). "Aprendizaje de representaciones de frases mediante codificador-decodificador RNN para traducción automática estadística". arXiv : 1406.1078 [ cs.CL ].
- ^ Schmidhuber, Juergen; Courville, Aaron; Bengio, Yoshua (2015). "Descripción de contenido multimedia mediante codificador basado en la atención: redes de decodificadores". Transacciones IEEE sobre multimedia . 17 (11): 1875–1886. arXiv : 1507.01053 . Código bibliográfico : 2015arXiv150701053C . doi : 10.1109 / TMM.2015.2477044 . S2CID 1179542 .