La memoria a largo plazo a corto plazo ( LSTM ) es una arquitectura de red neuronal recurrente artificial (RNN) [1] utilizada en el campo del aprendizaje profundo . A diferencia de las redes neuronales de retroalimentación estándar , LSTM tiene conexiones de retroalimentación. No solo puede procesar puntos de datos individuales (como imágenes), sino también secuencias completas de datos (como voz o video). Por ejemplo, LSTM es aplicable a tareas tales como no segmentado, conectado de reconocimiento de escritura , [2] el reconocimiento de voz [3] [4] y la detección de anomalías en el tráfico de red o IDS (sistemas de detección de intrusos).
Una unidad LSTM común se compone de una celda , una puerta de entrada , una puerta de salida y una puerta de olvido . La celda recuerda valores en intervalos de tiempo arbitrarios y las tres puertas regulan el flujo de información dentro y fuera de la celda.
Las redes LSTM son adecuadas para clasificar , procesar y hacer predicciones basadas en datos de series de tiempo , ya que puede haber retrasos de duración desconocida entre eventos importantes en una serie de tiempo. Los LSTM se desarrollaron para hacer frente al problema del gradiente de desaparición que se puede encontrar al entrenar a los RNN tradicionales. La insensibilidad relativa a la longitud del espacio es una ventaja de LSTM sobre los RNN, los modelos ocultos de Markov y otros métodos de aprendizaje de secuencias en numerosas aplicaciones. [ cita requerida ]
Ocurrencia
En teoría, clásicos (o "vainilla") RNNs pueden hacer un seguimiento de las dependencias arbitrarias a largo plazo en las secuencias de entrada. El problema con los RNN vainilla es de naturaleza computacional (o práctica): cuando se entrena un RNN vainilla usando retropropagación , los gradientes que se propagan hacia atrás pueden "desaparecer" (es decir, pueden tender a cero) o "explotar" ( es decir, pueden tender al infinito), debido a los cálculos involucrados en el proceso, que utilizan números de precisión finita . Los RNN que utilizan unidades LSTM resuelven parcialmente el problema del gradiente de desaparición , porque las unidades LSTM permiten que los gradientes también fluyan sin cambios . Sin embargo, las redes LSTM aún pueden sufrir el problema del gradiente explosivo. [ cita requerida ]
Variantes
En las siguientes ecuaciones, las variables en minúsculas representan vectores. Matrices y contienen, respectivamente, los pesos de las conexiones de entrada y recurrentes, donde el subíndice puede ser la puerta de entrada , puerta de salida , la puerta del olvido o la celda de memoria , dependiendo de la activación que se esté calculando. En esta sección, usamos una "notación vectorial". Así por ejemplo, no es solo una celda de una unidad LSTM, sino que contiene Celdas de la unidad LSTM.
LSTM con puerta de olvido
Las formas compactas de las ecuaciones para el pase directo de una unidad LSTM con una puerta de olvido son: [1] [5]
donde los valores iniciales son y y el operador denota el producto Hadamard ( producto de elemento sabio). El subíndice indexa el paso de tiempo.
Variables
- : vector de entrada a la unidad LSTM
- : olvídese del vector de activación de la puerta
- : entrada / actualización del vector de activación de la puerta
- : vector de activación de la puerta de salida
- : vector de estado oculto también conocido como vector de salida de la unidad LSTM
- : vector de activación de entrada de celda
- : vector de estado de celda
- , y : matrices de peso y parámetros de vector de sesgo que deben aprenderse durante el entrenamiento
donde los superíndices y se refieren al número de funciones de entrada y al número de unidades ocultas, respectivamente.
Funciones de activación
- : función sigmoidea .
- : función tangente hiperbólica .
- : función de tangente hiperbólica o, como sugiere el papel LSTM de mirilla [6] [7] ,.
Mirilla LSTM
La figura de la derecha es una representación gráfica de una unidad LSTM con conexiones de mirilla (es decir, una mirilla LSTM). [6] [7] Las conexiones de mirilla permiten que las puertas accedan al carrusel de error constante (CEC), cuya activación es el estado de la celda. [9] no se usa, se utiliza en su lugar en la mayoría de lugares.
Mirilla convolucional LSTM
Mirilla convolucional LSTM. [10] Eldenota el operador de convolución .
Capacitación
Un RNN que usa unidades LSTM puede entrenarse de manera supervisada, en un conjunto de secuencias de entrenamiento, usando un algoritmo de optimización, como el descenso de gradiente , combinado con retropropagación a través del tiempo para calcular los gradientes necesarios durante el proceso de optimización, con el fin de cambiar cada peso. de la red LSTM en proporción a la derivada del error (en la capa de salida de la red LSTM) con respecto al peso correspondiente.
Un problema con el uso del descenso de gradiente para RNN estándar es que los gradientes de error desaparecen exponencialmente rápidamente con el tamaño del lapso de tiempo entre eventos importantes. Esto es debido asi el radio espectral dees menor que 1. [11] [12]
Sin embargo, con las unidades LSTM, cuando los valores de error se propagan hacia atrás desde la capa de salida, el error permanece en la celda de la unidad LSTM. Este "carrusel de errores" continuamente retroalimenta el error a cada una de las puertas de la unidad LSTM, hasta que aprenden a cortar el valor.
Función de puntuación CTC
Muchas aplicaciones utilizan pilas de LSTM RNN [13] y las entrenan mediante la clasificación temporal conexionista (CTC) [14] para encontrar una matriz de ponderación RNN que maximice la probabilidad de las secuencias de etiquetas en un conjunto de entrenamiento, dadas las secuencias de entrada correspondientes. CTC logra tanto la alineación como el reconocimiento.
Alternativas
A veces, puede ser ventajoso capacitar (partes de) un LSTM por neuroevolución [15] o por métodos de gradiente de políticas, especialmente cuando no hay un "maestro" (es decir, etiquetas de capacitación).
Éxito
Ha habido varias historias exitosas de capacitación, de manera no supervisada, RNN con unidades LSTM.
En 2018, Bill Gates lo llamó un "gran hito en el avance de la inteligencia artificial" cuando los bots desarrollados por OpenAI pudieron vencer a los humanos en el juego de Dota 2. [16] OpenAI Five consta de cinco redes neuronales independientes pero coordinadas. Cada red se entrena mediante un método de gradiente de políticas sin un maestro supervisor y contiene una memoria de largo-corto plazo de 1024 unidades de una sola capa que ve el estado actual del juego y emite acciones a través de varios cabezales de acción posibles. [dieciséis]
En 2018, OpenAI también entrenó un LSTM similar por gradientes de políticas para controlar una mano de robot similar a un humano que manipula objetos físicos con una destreza sin precedentes. [17]
En 2019, el programa AlphaStar de DeepMind utilizó un núcleo profundo de LSTM para sobresalir en el complejo videojuego Starcraft II . [18] Esto fue visto como un progreso significativo hacia la Inteligencia General Artificial. [18]
Aplicaciones
Las aplicaciones de LSTM incluyen:
- Control de robot [19]
- Predicción de series de tiempo [15]
- Reconocimiento de voz [20] [21] [22]
- Aprendizaje del ritmo [7]
- Composición musical [23]
- Aprendizaje gramatical [24] [6] [25]
- Reconocimiento de escritura a mano [26] [27]
- Reconocimiento de la acción humana [28]
- Traducción de lengua de signos [29]
- Detección de homología de proteínas [30]
- Predicción de la localización subcelular de proteínas [31]
- Detección de anomalías en series temporales [32]
- Varias tareas de predicción en el ámbito de la gestión de procesos empresariales [33]
- Predicción en vías de atención médica [34]
- Análisis semántico [35]
- Co-segmentación de objetos [36] [37]
- Gestión de pasajeros en aeropuertos [38]
- Previsión de tráfico a corto plazo [39]
- Diseño de fármacos [40]
- Predicción de mercado [41]
Cronología de desarrollo
De 1995 - de 1997: LSTM fue propuesto por Joseph Hochreiter y Jürgen Schmidhuber . [42] [43] [1] Al introducir unidades de carrusel de error constante (CEC), LSTM se ocupa del problema del gradiente de fuga . La versión inicial del bloque LSTM incluía celdas, puertas de entrada y salida. [8]
1999: Felix Gers y su asesor Jürgen Schmidhuber y Fred Cummins introdujeron la puerta de olvido (también llamada "puerta de seguridad") en la arquitectura LSTM, [44] permitiendo que LSTM restablezca su propio estado. [8]
2000: Gers & Schmidhuber & Cummins agregaron conexiones de mirilla (conexiones desde la celda a las puertas) en la arquitectura. [5] Además, se omitió la función de activación de salida. [8]
2009: Un modelo basado en LSTM ganó el concurso de reconocimiento de escritura a mano conectada ICDAR . Tres de estos modelos fueron presentados por un equipo dirigido por Alex Graves . [45] Uno fue el modelo más preciso de la competencia y otro fue el más rápido. [46]
2013: Las redes LSTM fueron un componente importante de una red que logró una tasa de error de fonemas récord del 17,7% en el conjunto de datos clásico de voz natural TIMIT . [47]
2014: Kyunghyun Cho y col. presentó una variante simplificada llamada Unidad recurrente cerrada (GRU). [48]
2015: Google comenzó a utilizar un LSTM para el reconocimiento de voz en Google Voice. [49] [50] Según la publicación oficial del blog, el nuevo modelo redujo los errores de transcripción en un 49%. [51]
2016: Google comenzó a usar un LSTM para sugerir mensajes en la aplicación de conversación Allo. [52] Ese mismo año, Google lanzó el sistema de traducción automática neuronal de Google para Google Translate, que utilizaba LSTM para reducir los errores de traducción en un 60%. [53] [54] [55]
Apple anunció en su Conferencia Mundial de Desarrolladores que comenzaría a usar LSTM para quicktype [56] [57] [58] en el iPhone y para Siri. [59] [60]
Amazon lanzó Polly , que genera las voces detrás de Alexa, utilizando un LSTM bidireccional para la tecnología de texto a voz. [61]
2017: Facebook realizó alrededor de 4.500 millones de traducciones automáticas todos los días utilizando redes de memoria a corto plazo. [62]
Investigadores de Michigan State University , IBM Research y Cornell University publicaron un estudio en la conferencia Knowledge Discovery and Data Mining (KDD). [63] [64] [65] Su estudio describe una red neuronal novedosa que funciona mejor en ciertos conjuntos de datos que la red neuronal de memoria a largo y corto plazo ampliamente utilizada.
Microsoft informó haber alcanzado una precisión de reconocimiento del 94,9% en el corpus de Switchboard , incorporando un vocabulario de 165.000 palabras. El enfoque utilizó "memoria a corto y largo plazo basada en sesiones de diálogo". [66]
2019: Investigadores de la Universidad de Waterloo propusieron una arquitectura RNN relacionada que representa ventanas de tiempo continuas. Se derivó utilizando los polinomios de Legendre y supera al LSTM en algunos puntos de referencia relacionados con la memoria. [67]
Un modelo de LSTM subió al tercer lugar en el índice de referencia de compresión de texto grande. [68] [69]
Ver también
- Red neuronal recurrente
- Aprendizaje profundo
- Unidad recurrente cerrada
- Computadora neuronal diferenciable
- La potenciación a largo plazo
- Memoria de trabajo de los ganglios basales de la corteza prefrontal
- Series de tiempo
- Seq2seq
- Red de carreteras
Referencias
- ^ a b c Sepp Hochreiter ; Jürgen Schmidhuber (1997). "Memoria larga a corto plazo" . Computación neuronal . 9 (8): 1735-1780. doi : 10.1162 / neco.1997.9.8.1735 . PMID 9377276 . S2CID 1915014 .
- ^ Graves, A .; Liwicki, M .; Fernandez, S .; Bertolami, R .; Bunke, H .; Schmidhuber, J. (2009). "Un nuevo sistema conexionista para un mejor reconocimiento de escritura sin restricciones" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi : 10.1109 / tpami.2008.137 . PMID 19299860 . S2CID 14635907 .
- ^ Sak, Hasim; Mayor, Andrew; Beaufays, Francoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a largo plazo a corto plazo para el modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
- ^ Li, Xiangang; Wu, Xihong (15 de octubre de 2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria a corto plazo para el reconocimiento de voz de gran vocabulario". arXiv : 1410.4281 [ cs.CL ].
- ^ a b Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). "Aprender a olvidar: predicción continua con LSTM". Computación neuronal . 12 (10): 2451–2471. CiteSeerX 10.1.1.55.5709 . doi : 10.1162 / 089976600300015015 . PMID 11032042 . S2CID 11598600 .
- ^ a b c Gers, FA; Schmidhuber, J. (2001). "LSTM Recurrent Networks aprende lenguajes sencillos, libres de contexto y sensibles al contexto" (PDF) . Transacciones IEEE en redes neuronales . 12 (6): 1333-1340. doi : 10.1109 / 72.963769 . PMID 18249962 .
- ^ a b c Gers, F .; Schraudolph, N .; Schmidhuber, J. (2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . Revista de investigación sobre aprendizaje automático . 3 : 115-143.
- ^ a b c d Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink; Jürgen Schmidhuber (2015). "LSTM: una odisea del espacio de búsqueda". Transacciones IEEE en redes neuronales y sistemas de aprendizaje . 28 (10): 2222–2232. arXiv : 1503.04069 . Código bibliográfico : 2015arXiv150304069G . doi : 10.1109 / TNNLS.2016.2582924 . PMID 27411231 . S2CID 3356463 .
- ^ Gers, FA; Schmidhuber, E. (noviembre de 2001). "Las redes recurrentes de LSTM aprenden lenguajes sencillos, libres de contexto y sensibles al contexto" (PDF) . Transacciones IEEE en redes neuronales . 12 (6): 1333-1340. doi : 10.1109 / 72.963769 . ISSN 1045-9227 . PMID 18249962 .
- ^ Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). "Red convolucional LSTM: un enfoque de aprendizaje automático para la precipitación inmediata". Actas de la 28ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural : 802–810. arXiv : 1506.04214 . Código bibliográfico : 2015arXiv150604214S .
- ^ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Tesis de diploma, Institut f. Informatik, Technische Univ. Múnich, 1991.
- ^ Hochreiter, S .; Bengio, Y .; Frasconi, P .; Schmidhuber, J. (2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo (Descarga PDF disponible)" . En Kremer y, SC; Kolen, JF (eds.). Una guía de campo para redes neuronales dinámicas recurrentes . Prensa IEEE.
- ^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Etiquetado de secuencias en dominios estructurados con redes neuronales recurrentes jerárquicas". Proc. 20 ° Int. Conf. Conjunta Sobre inteligencia artificial, Ijcai 2007 : 774–779. CiteSeerX 10.1.1.79.1887 .
- ^ Graves, Alex; Fernández, Santiago; Gómez, Faustino (2006). "Clasificación temporal conexionista: etiquetado de datos de secuencia no segmentados con redes neuronales recurrentes". En Actas de la Conferencia Internacional sobre Aprendizaje Automático, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 .
- ^ a b Wierstra, Daan; Schmidhuber, J .; Gómez, FJ (2005). "Evolino: neuroevolución híbrida / búsqueda lineal óptima para el aprendizaje de secuencias" . Actas de la 19ª Conferencia Conjunta Internacional sobre Inteligencia Artificial (IJCAI), Edimburgo : 853–858.
- ^ a b Rodríguez, Jesús (2 de julio de 2018). "La ciencia detrás de OpenAI Five que acaba de producir uno de los mayores avances en la historia de la IA" . Hacia la ciencia de datos . Consultado el 15 de enero de 2019 .
- ^ "Aprendizaje de destreza" . Blog de OpenAI . 30 de julio de 2018 . Consultado el 15 de enero de 2019 .
- ^ a b Stanford, Stacy (25 de enero de 2019). "IA de DeepMind, AlphaStar muestra un progreso significativo hacia AGI" . Memorias ML medianas . Consultado el 15 de enero de 2019 .
- ^ Mayer, H .; Gómez, F .; Wierstra, D .; Nagy, I .; Knoll, A .; Schmidhuber, J. (octubre de 2006). Un sistema para cirugía robótica del corazón que aprende a atar nudos utilizando redes neuronales recurrentes . 2006 Conferencia Internacional IEEE / RSJ sobre Robots y Sistemas Inteligentes . págs. 543–548. CiteSeerX 10.1.1.218.3399 . doi : 10.1109 / IROS.2006.282190 . ISBN 978-1-4244-0258-8. S2CID 12284900 .
- ^ Graves, A .; Schmidhuber, J. (2005). "Clasificación de fonemas framewise con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi : 10.1016 / j.neunet.2005.06.042 . PMID 16112549 .
- ^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). Una aplicación de redes neuronales recurrentes para detectar palabras clave discriminatorias . Actas de la 17ª Conferencia Internacional sobre Redes Neuronales Artificiales . ICANN'07. Berlín, Heidelberg: Springer-Verlag. págs. 220-229. ISBN 978-3540746935.
- ^ Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". Procesamiento de acústica, habla y señales (ICASSP), Conferencia internacional IEEE 2013 en : 6645–6649. arXiv : 1303.5778 . doi : 10.1109 / ICASSP.2013.6638947 . ISBN 978-1-4799-0356-6. S2CID 206741496 .
- ^ Eck, Douglas; Schmidhuber, Jürgen (28 de agosto de 2002). Aprendiendo la estructura a largo plazo del blues . Redes neuronales artificiales - ICANN 2002 . Apuntes de conferencias en Ciencias de la Computación. 2415 . Springer, Berlín, Heidelberg. págs. 284-289. CiteSeerX 10.1.1.116.3620 . doi : 10.1007 / 3-540-46084-5_47 . ISBN 978-3540460848.
- ^ Schmidhuber, J .; Gers, F .; Eck, D .; Schmidhuber, J .; Gers, F. (2002). "Aprendizaje de idiomas no regulares: una comparación de redes recurrentes simples y LSTM". Computación neuronal . 14 (9): 2039-2041. CiteSeerX 10.1.1.11.7369 . doi : 10.1162 / 089976602320263980 . PMID 12184841 . S2CID 30459046 .
- ^ Pérez-Ortiz, JA; Gers, FA; Eck, D .; Schmidhuber, J. (2003). "Los filtros de Kalman mejoran el rendimiento de la red LSTM en problemas que las redes tradicionales recurrentes no pueden resolver". Redes neuronales . 16 (2): 241–250. CiteSeerX 10.1.1.381.1992 . doi : 10.1016 / s0893-6080 (02) 00219-8 . PMID 12628609 .
- ^ A. Graves, J. Schmidhuber. Reconocimiento de escritura sin conexión con redes neuronales recurrentes multidimensionales. Avances en los sistemas de procesamiento de información neuronal 22, NIPS'22, págs. 545–552, Vancouver, MIT Press, 2009.
- ^ Graves, Alex; Fernández, Santiago; Liwicki, Marcus; Bunke, Horst; Schmidhuber, Jürgen (2007). Reconocimiento de escritura a mano en línea sin restricciones con redes neuronales recurrentes . Actas de la 20ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'07. Estados Unidos: Curran Associates Inc. págs. 577–584. ISBN 9781605603520.
- ^ Baccouche, M .; Mamalet, F .; Wolf, C .; García, C .; Baskurt, A. (2011). "Deep Learning secuencial para el reconocimiento de la acción humana". En Salah, AA; Lepri, B. (eds.). 2do Taller Internacional de Comprensión del Comportamiento Humano (HBU) . Apuntes de conferencias en Ciencias de la Computación. 7065 . Amsterdam, Holanda: Springer. págs. 29–39. doi : 10.1007 / 978-3-642-25446-8_4 .
- ^ Huang, Jie; Zhou, Wengang; Zhang, Qilin; Li, Houqiang; Li, Weiping (30 de enero de 2018). "Reconocimiento de lenguaje de señas basado en video sin segmentación temporal". arXiv : 1801.10111 .
- ^ Hochreiter, S .; Heusel, M .; Obermayer, K. (2007). "Detección rápida de homología de proteínas basada en modelos sin alineación" . Bioinformática . 23 (14): 1728-1736. doi : 10.1093 / bioinformatics / btm247 . PMID 17488755 .
- ^ Thireou, T .; Reczko, M. (2007). "Redes de memoria bidireccionales a largo y corto plazo para predecir la localización subcelular de proteínas eucariotas". Transacciones IEEE / ACM sobre biología computacional y bioinformática . 4 (3): 441–446. doi : 10.1109 / tcbb.2007.1015 . PMID 17666763 . S2CID 11787259 .
- ^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautam; Agarwal, Puneet (abril de 2015). "Redes de memoria a corto plazo para la detección de anomalías en series de tiempo" (PDF) . Simposio europeo sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático - ESANN 2015 .
- ^ Impuesto, N .; Verenich, I .; La Rosa, M .; Dumas, M. (2017). Monitoreo predictivo de procesos de negocios con redes neuronales LSTM . Actas de la Conferencia Internacional sobre Ingeniería de Sistemas de Información Avanzada (CAiSE) . Apuntes de conferencias en Ciencias de la Computación. 10253 . págs. 477–492. arXiv : 1612.02130 . doi : 10.1007 / 978-3-319-59536-8_30 . ISBN 978-3-319-59535-1. S2CID 2192354 .
- ^ Choi, E .; Bahadori, MT; Schuetz, E .; Stewart, W .; Sol, J. (2016). "Doctor AI: predicción de eventos clínicos a través de redes neuronales recurrentes" . Actas de la 1ª Conferencia sobre aprendizaje automático para el cuidado de la salud . 56 : 301–318. arXiv : 1511.05942 . Código Bibliográfico : 2015arXiv151105942C . PMC 5341604 . PMID 28286600 .
- ^ Jia, Robin; Liang, Percy (2016). "Recombinación de datos para análisis semántico neuronal". arXiv : 1606.03622 .
- ^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en videos sin recortar con segmentación por cuadro" (PDF) . Sensores . 18 (5): 1657. doi : 10.3390 / s18051657 . ISSN 1424-8220 . PMC 5982167 . PMID 29789447 .
- ^ Duan, Xuhuan; Wang, Le; Zhai, Changbo; Zheng, Nanning; Zhang, Qilin; Niu, Zhenxing; Hua, Gang (2018). Localización de acciones conjuntas espacio-temporales en videos sin recortar con segmentación por fotograma . 25th IEEE International Conference on Image Processing (ICIP). doi : 10.1109 / icip.2018.8451692 . ISBN 978-1-4799-7061-2.
- ^ Orsini, F .; Gastaldi, M .; Mantecchini, L .; Rossi, R. (2019). Redes neuronales entrenadas con trazas WiFi para predecir el comportamiento de los pasajeros del aeropuerto . VI Congreso Internacional de Modelos y Tecnologías para Sistemas de Transporte Inteligentes. Cracovia: IEEE. arXiv : 1910.14026 . doi : 10.1109 / MTITS.2019.8883365 . 8883365.
- ^ Zhao, Z .; Chen, W .; Wu, X .; Chen, PCY; Liu, J. (2017). "Red LSTM: un enfoque de aprendizaje profundo para el pronóstico de tráfico a corto plazo". Sistemas de transporte inteligentes IET . 11 (2): 68–75. doi : 10.1049 / iet-its.2016.0208 .
- ^ Gupta A, Müller AT, Huisman BJH, Fuchs JA, Schneider P, Schneider G (2018). "Redes recurrentes generativas para el diseño de fármacos de Novo" . Mol Inform . 37 (1-2). doi : 10.1002 / minf.201700111 . PMC 5836943 . PMID 29095571 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Saiful Islam, Md .; Hossain, Emam (26 de octubre de 2020). "Predicción de tipo de cambio de moneda extranjera utilizando una red híbrida GRU-LSTM" . Soft Computing Letters : 100009. doi : 10.1016 / j.socl.2020.100009 . ISSN 2666-2221 .
- ^ Sepp Hochreiter ; Jürgen Schmidhuber (21 de agosto de 1995), Memoria a corto plazo , Wikidata Q98967430
- ^ Sepp Hochreiter ; Jürgen Schmidhuber (1997). "LSTM puede resolver problemas difíciles de retrasos prolongados" (PDF) . Avances en los sistemas de procesamiento de información neuronal 9 . Avances en sistemas de procesamiento de información neuronal. Wikidata Q77698282 .
- ^ Gers, FA (1999). "Aprender a olvidar: predicción continua con LSTM". Novena Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99 . 1999 . págs. 850–855. doi : 10.1049 / cp: 19991218 . ISBN 0-85296-721-7.
- ^ Graves, A .; Liwicki, M .; Fernández, S .; Bertolami, R .; Bunke, H .; Schmidhuber, J. (mayo de 2009). "Un nuevo sistema conexionista para el reconocimiento de escritura sin restricciones". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi : 10.1109 / tpami.2008.137 . ISSN 0162-8828 . PMID 19299860 . S2CID 14635907 .
- ^ Märgner, Volker; Abed, Haikal El (julio de 2009). "Concurso de reconocimiento de escritura árabe ICDAR 2009". 2009 Décima Conferencia Internacional sobre Análisis y Reconocimiento de Documentos : 1383-1387. doi : 10.1109 / ICDAR.2009.256 . ISBN 978-1-4244-4500-4. S2CID 52851337 .
- ^ Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (22 de marzo de 2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". arXiv : 1303,5778 [ cs.NE ].
- ^ Cho, Kyunghyun; van Merrienboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). "Aprendizaje de representaciones de frases mediante codificador-decodificador RNN para traducción automática estadística". arXiv : 1406.1078 [ cs.CL ].
- ^ Beaufays, Françoise (11 de agosto de 2015). "Las redes neuronales detrás de la transcripción de Google Voice" . Blog de investigación . Consultado el 27 de junio de 2017 .
- ^ Sak, Haşim; Mayor, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (24 de septiembre de 2015). "Búsqueda por voz de Google: más rápida y precisa" . Blog de investigación . Consultado el 27 de junio de 2017 .
- ^ "Receta de neón ... o mejor dicho, nueva transcripción para Google Voice" . Blog oficial de Google . Consultado el 25 de abril de 2020 .
- ^ Khaitan, Pranav (18 de mayo de 2016). "Chatea de forma más inteligente con Allo" . Blog de investigación . Consultado el 27 de junio de 2017 .
- ^ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V .; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin (26 de septiembre de 2016). "Sistema de traducción automática neuronal de Google: cerrar la brecha entre traducción humana y automática". arXiv : 1609.08144 [ cs.CL ].
- ^ Metz, Cade (27 de septiembre de 2016). "Una infusión de IA hace que Google Translate sea más potente que nunca | WIRED" . Cableado . Consultado el 27 de junio de 2017 .
- ^ "Una red neuronal para la traducción automática, a escala de producción" . Blog de IA de Google . Consultado el 25 de abril de 2020 .
- ^ Efrati, Amir (13 de junio de 2016). "Las máquinas de Apple también pueden aprender" . La información . Consultado el 27 de junio de 2017 .
- ^ Ranger, Steve (14 de junio de 2016). "iPhone, IA y big data: así es como Apple planea proteger su privacidad | ZDNet" . ZDNet . Consultado el 27 de junio de 2017 .
- ^ "¿Puede el contexto semántico global mejorar los modelos de lenguaje neuronal? - Apple" . Diario de aprendizaje automático de Apple . Consultado el 30 de abril de 2020 .
- ^ Smith, Chris (13 de junio de 2016). "iOS 10: Siri ahora funciona en aplicaciones de terceros, viene con funciones adicionales de inteligencia artificial" . BGR . Consultado el 27 de junio de 2017 .
- ^ Capes, Tim; Coles, Paul; Conkie, Alistair; Golipour, Ladan; Hadjitarkhani, Abie; Hu, Qiong; Huddleston, Nancy; Hunt, Melvyn; Li, Jiangchuan; Neeracher, Matthias; Prahallad, Kishore (20 de agosto de 2017). "Siri On-Device Deep Learning-Guided Unit Selection Text-to-Speech System" . Interspeech 2017 . ISCA: 4011–4015. doi : 10.21437 / Interspeech.2017-1798 .
- ^ Vogels, Werner (30 de noviembre de 2016). "Llevando la magia de Amazon AI y Alexa a las aplicaciones en AWS. Todas las cosas distribuidas" . www.allthingsdistributed.com . Consultado el 27 de junio de 2017 .
- ^ Ong, Thuy (4 de agosto de 2017). "Las traducciones de Facebook ahora funcionan completamente con inteligencia artificial" . www.allthingsdistributed.com . Consultado el 15 de febrero de 2019 .
- ^ "Subtipado de pacientes a través de redes LSTM conscientes del tiempo" (PDF) . msu.edu . Consultado el 21 de noviembre de 2018 .
- ^ "Subtipado de pacientes a través de redes LSTM conscientes del tiempo" . Kdd.org . Consultado el 24 de mayo de 2018 .
- ^ "SIGKDD" . Kdd.org . Consultado el 24 de mayo de 2018 .
- ^ Haridy, Rich (21 de agosto de 2017). "El sistema de reconocimiento de voz de Microsoft ahora es tan bueno como un humano" . newatlas.com . Consultado el 27 de agosto de 2017 .
- ^ Voelker, Aaron R .; Kajić, Ivana; Eliasmith, Chris (2019). Unidades de memoria de Legendre: representación en tiempo continuo en redes neuronales recurrentes (PDF) . Avances en sistemas de procesamiento de información neuronal .
- ^ "El punto de referencia de compresión de texto grande" . Consultado el 13 de enero de 2017 .
- ^ Fabrice Bellard (2019), " Compresión de datos sin pérdida con redes neuronales "
enlaces externos
- Redes neuronales recurrentes con más de 30 artículos sobre LSTM del grupo de Jürgen Schmidhuber en IDSIA
- Gers, Felix (2001). "Memoria a corto plazo en redes neuronales recurrentes" (PDF) . Tesis doctoral .
- Gers, Felix A .; Schraudolph, Nicol N .; Schmidhuber, Jürgen (agosto de 2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . Revista de investigación sobre aprendizaje automático . 3 : 115-143.
- Abidogun, Olusola Adeniyi (2005). Minería de datos, detección de fraudes y telecomunicaciones móviles: análisis de patrones de llamadas con redes neuronales no supervisadas . Tesis de Maestría (Tesis). Universidad del Cabo Occidental. hdl : 11394/249 . Archivado (PDF) desde el original el 22 de mayo de 2012.
- original con dos capítulos dedicados a explicar las redes neuronales recurrentes, especialmente LSTM.
- Monner, Derek D .; Reggia, James A. (2010). "Un algoritmo de entrenamiento generalizado similar a LSTM para redes neuronales recurrentes de segundo orden" (PDF) . Redes neuronales . 25 (1): 70–83. doi : 10.1016 / j.neunet.2011.07.003 . PMC 3217173 . PMID 21803542 .
Extensión de alto rendimiento de LSTM que se ha simplificado a un solo tipo de nodo y puede entrenar arquitecturas arbitrarias
- Dolphin, R. "LSTM Networks - Una explicación detallada" . Articulo .
- Herta, Christian. "Cómo implementar LSTM en Python con Theano" . Tutorial .