Interferencia catastrófica

La interferencia catastrófica , también conocida como olvido catastrófico , es la tendencia de una red neuronal artificial a olvidar completa y abruptamente la información previamente aprendida al aprender nueva información. ^[1]^[2] Las redes neuronales son una parte importante del enfoque de red y el enfoque conexionista de la ciencia cognitiva . Con estas redes, las capacidades humanas como la memoria y el aprendizaje se pueden modelar mediante simulaciones por computadora. La interferencia catastrófica es un tema importante a considerar al crear modelos conexionistas de memoria. Originalmente, fue llamado la atención de la comunidad científica por la investigación de McCloskey y Cohen (1989), ^[1]y Ratcliff (1990). ^[2] Es una manifestación radical del dilema 'sensibilidad-estabilidad' ^[3] o del dilema 'estabilidad-plasticidad'. ^[4] Específicamente, estos problemas se refieren al desafío de crear una red neuronal artificial que sea sensible a, pero no alterada por, nueva información. Las tablas de búsqueda y las redes conexionistas se encuentran en los lados opuestos del espectro de plasticidad de estabilidad. ^[5] El primero permanece completamente estable en presencia de nueva información, pero carece de la capacidad de generalizar , es decir, inferir principios generales, a partir de nuevos insumos. Por otro lado, las redes conexionistas como la red de retropropagación estándar pueden generalizarse a entradas invisibles, pero son muy sensibles a la nueva información. Los modelos de retropropagación pueden considerarse buenos modelos de la memoria humana en la medida en que reflejan la capacidad humana de generalizar ^{[¿ según quién? ]}^{[ cita requerida ]} pero estas redes a menudo exhiben menos estabilidad que la memoria humana. En particular, estas redes de retropropagación son susceptibles a interferencias catastróficas. Este es un problema al modelar la memoria humana, porque a diferencia de estas redes, los humanos generalmente no muestran un olvido catastrófico. ^[6]

Historia de interferencia catastrófica

El término interferencia catastrófica fue acuñado originalmente por McCloskey y Cohen (1989), pero también fue llamado la atención de la comunidad científica por la investigación de Ratcliff (1990). ^[2]

El problema del aprendizaje secuencial : McCloskey y Cohen (1989)

McCloskey y Cohen (1989) señalaron el problema de la interferencia catastrófica durante dos experimentos diferentes con el modelado de redes neuronales de retropropagación.

Experimento 1: Aprender las operaciones de suma de unos y de dos

En su primer experimento, entrenaron una red neuronal de retropropagación estándar en un solo conjunto de entrenamiento que constaba de 17 problemas de unidades de un solo dígito (es decir, 1 + 1 a 9 + 1, y 1 + 2 a 1 + 9) hasta que la red pudiera representar y responder adecuadamente a todos ellos. El error entre el resultado real y el resultado deseado disminuyó constantemente a lo largo de las sesiones de capacitación, lo que reflejó que la red aprendió a representar mejor los resultados deseados en las pruebas. A continuación, entrenaron a la red en un solo conjunto de entrenamiento que constaba de 17 problemas de dos dígitos de un solo dígito (es decir, 2 + 1 a 2 + 9, y 1 + 2 a 9 + 2) hasta que la red pudiera representar, responder adecuadamente a todos los ellos. Notaron que su procedimiento era similar a cómo un niño aprendería sus operaciones de suma. Después de cada prueba de aprendizaje sobre los hechos de dos, se evaluó el conocimiento de la red sobre los hechos de suma de dos y de uno. Al igual que los hechos de uno, los dos hechos fueron fácilmente aprendidos por la red. Sin embargo, McCloskey y Cohen notaron que la red ya no podía responder adecuadamente los problemas de adición de uno incluso después de una prueba de aprendizaje de los problemas de adición de dos. El patrón de salida producido en respuesta a los hechos de unos a menudo se asemejaba más a un patrón de salida para un número incorrecto que el patrón de salida para un número correcto. Esto se considera una cantidad drástica de error. Además, los problemas 2 + 1 y 2 + 1, que se incluyeron en ambos conjuntos de entrenamiento, incluso mostraron una interrupción dramática durante las primeras pruebas de aprendizaje de los dos hechos.

Experimento 2: Estudio de replicación de Barnes y Underwood (1959) ^[7] En su segundo modelo conexionista, McCloskey y Cohen intentaron replicar el estudio sobre interferencia retroactiva en humanos de Barnes y Underwood (1959). Entrenaron el modelo en listas AB y AC y usaron un patrón de contexto en el vector de entrada (patrón de entrada) para diferenciar entre las listas. Específicamente, la red fue entrenada para responder con la respuesta B correcta cuando se muestra el estímulo A y el patrón de contexto AB y para responder con la respuesta C correcta cuando se muestra el estímulo A y el patrón de contexto AC. Cuando el modelo se entrenó simultáneamente en los elementos AB y AC, la red aprendió rápidamente todas las asociaciones correctamente. En el entrenamiento secuencial se entrenó primero la lista AB, seguida de la lista AC. Después de cada presentación de la lista AC, se midió el rendimiento de las listas AB y AC. Descubrieron que la cantidad de entrenamiento en la lista AC en el estudio de Barnes and Underwood que conduce a un 50% de respuestas correctas, conduce a casi un 0% de respuestas correctas por parte de la red de retropropagación. Además, encontraron que la red tendía a mostrar respuestas que se parecían al patrón de respuesta C cuando se le solicitaba a la red que diera el patrón de respuesta B. Esto indicó que la lista AC aparentemente había sobrescrito la lista AB. Esto podría compararse con aprender la palabra perro, seguido de aprender la palabra taburete y luego descubrir que no puede reconocer bien la palabra gato, sino pensar en la palabra taburete cuando se le presenta la palabra perro.

McCloskey y Cohen intentaron reducir la interferencia a través de una serie de manipulaciones que incluyen cambiar el número de unidades ocultas, cambiar el valor del parámetro de tasa de aprendizaje, sobreentrenamiento en la lista AB, congelar ciertos pesos de conexión, cambiar los valores objetivo 0 y 1 en lugar de 0,1 y 0,9 . Sin embargo, ninguna de estas manipulaciones redujo satisfactoriamente la catastrófica interferencia exhibida por las redes.

En general, McCloskey y Cohen (1989) concluyeron que:

al menos alguna interferencia ocurrirá siempre que el nuevo aprendizaje altere los pesos involucrados que representan
Cuanto mayor sea la cantidad de aprendizaje nuevo, mayor será la interrupción del conocimiento antiguo
La interferencia fue catastrófica en las redes de retropropagación cuando el aprendizaje fue secuencial pero no concurrente.

Restricciones impuestas por las funciones de aprendizaje y olvido : Ratcliff (1990)

Ratcliff (1990) utilizó múltiples conjuntos de modelos de retropropagación aplicados a procedimientos de memoria de reconocimiento estándar, en los que los elementos se aprendían secuencialmente. ^[2] Después de inspeccionar los modelos de rendimiento de reconocimiento, encontró dos problemas importantes:

La información bien aprendida se olvidó catastróficamente a medida que se aprendía nueva información en redes de retropropagación tanto pequeñas como grandes.

Incluso una prueba de aprendizaje con nueva información resultó en una pérdida significativa de la información anterior, en paralelo con los hallazgos de McCloskey y Cohen (1989). ^[1] Ratcliff también encontró que las salidas resultantes eran a menudo una combinación de la entrada anterior y la nueva entrada. En redes más grandes, los elementos aprendidos en grupos (p. Ej., AB y luego CD) eran más resistentes al olvido que los elementos aprendidos individualmente (p. Ej., A, luego B, luego C ...). Sin embargo, el olvido de los elementos aprendidos en grupos aún era grande. Agregar nuevas unidades ocultas a la red no redujo la interferencia.

La discriminación entre los elementos estudiados y los elementos no vistos anteriormente disminuyó a medida que la red aprendía más.

Este hallazgo contradice los estudios sobre la memoria humana, que indicaron que la discriminación aumenta con el aprendizaje. Ratcliff intentó aliviar este problema agregando 'nodos de respuesta' que responderían selectivamente a entradas nuevas y antiguas. Sin embargo, este método no funcionó ya que estos nodos de respuesta se activarían para todas las entradas. Un modelo que utilizó un patrón de contexto tampoco logró aumentar la discriminación entre elementos nuevos y antiguos.

Soluciones propuestas

La principal causa de la interferencia catastrófica parece ser la superposición de las representaciones en la capa oculta de las redes neuronales distribuidas. ^[8]^[9]^[10] En una representación distribuida, cada entrada tiende a crear cambios en los pesos de muchos de los nodos. El olvido catastrófico ocurre porque cuando se cambian muchos de los pesos en los que "se almacena el conocimiento", es poco probable que el conocimiento previo se mantenga intacto. Durante el aprendizaje secuencial, las entradas se mezclan y las nuevas entradas se superponen a las antiguas. ^[9] Otra forma de conceptualizar esto es visualizando el aprendizaje como un movimiento a través de un espacio de peso. ^[11] Este espacio de ponderaciones se puede comparar con una representación espacial de todas las posibles combinaciones de ponderaciones que podría poseer la red. Cuando una red aprende por primera vez a representar un conjunto de patrones, encuentra un punto en el espacio de peso que le permite reconocer todos esos patrones. ^[10] Sin embargo, cuando la red aprenda un nuevo conjunto de patrones, se moverá a un lugar en el espacio de peso para el que la única preocupación es el reconocimiento de los nuevos patrones. ^[10] Para reconocer ambos conjuntos de patrones, la red debe encontrar un lugar en el espacio de peso adecuado para reconocer tanto los patrones nuevos como los antiguos.

A continuación se muestran una serie de técnicas que tienen apoyo empírico para reducir con éxito la interferencia catastrófica en las redes neuronales de retropropagación:

Ortogonalidad

Muchas de las primeras técnicas para reducir la superposición de representaciones implicaban hacer que los vectores de entrada o los patrones de activación de unidades ocultas fueran ortogonales entre sí. Lewandowsky y Li (1995) ^[12] observaron que la interferencia entre patrones aprendidos secuencialmente se minimiza si los vectores de entrada son ortogonales entre sí. Se dice que los vectores de entrada son ortogonales entre sí si el producto por pares de sus elementos a través de los dos vectores suma cero. Por ejemplo, se dice que los patrones [0,0,1,0] y [0,1,0,0] son ortogonales porque (0 × 0 + 0 × 1 + 1 × 0 + 0 × 0) = 0. Una de las técnicas que pueden crear representaciones ortogonales en las capas ocultas implica la codificación de características bipolares (es decir, la codificación utilizando -1 y 1 en lugar de 0 y 1). ^[10] Los patrones ortogonales tienden a producir menos interferencias entre sí. Sin embargo, no todos los problemas de aprendizaje se pueden representar utilizando este tipo de vectores y algunos estudios informan que el grado de interferencia sigue siendo problemático con los vectores ortogonales. ^[2]

Técnica de afilado de nodos

Según French (1991), ^[8] surge interferencia catastrófica en feedforward redes de retropropagación debido a la interacción de activaciones de nodo, o superposición de activación, que se produce en las representaciones distribuidas en la capa oculta. Las redes neuronales que emplean representaciones muy localizadas no muestran una interferencia catastrófica debido a la falta de superposición en la capa oculta. Por lo tanto, French sugirió que reducir el valor de la superposición de activación en la capa oculta reduciría la interferencia catastrófica en las redes distribuidas. Específicamente, propuso que esto podría hacerse cambiando las representaciones distribuidas en la capa oculta a representaciones "semidistribuidas". Una representación 'semidistribuida' tiene menos nodos ocultos que están activos, y / o un valor de activación más bajo para estos nodos, para cada representación, lo que hará que las representaciones de las diferentes entradas se superpongan menos en la capa oculta. French recomendó que esto se pudiera hacer a través del 'afilado de activación', una técnica que aumenta ligeramente la activación de un cierto número de los nodos más activos en la capa oculta, reduce ligeramente la activación de todas las demás unidades y luego cambia la entrada a - ponderaciones de capa oculta para reflejar estos cambios de activación (similar a la propagación inversa de errores).

Regla de novedad

Kortge (1990) ^[13] propuso una regla de aprendizaje para entrenar redes neuronales, llamada "regla de la novedad", para ayudar a aliviar la interferencia catastrófica. Como sugiere su nombre, esta regla ayuda a la red neuronal a aprender solo los componentes de una nueva entrada que difieren de una entrada anterior. En consecuencia, la regla de la novedad cambia solo los pesos que no se dedicaron previamente a almacenar información, reduciendo así la superposición en las representaciones en las unidades ocultas. Para aplicar la regla de novedad, durante el aprendizaje, el patrón de entrada se reemplaza por un vector de novedad que representa los componentes que difieren. Cuando la regla de la novedad se usa en una red de retropropagación estándar, no se olvidan, o disminuyen, los elementos antiguos cuando los elementos nuevos se presentan secuencialmente. ^[13] Sin embargo, una limitación es que esta regla solo se puede utilizar con redes autocodificadoras o autoasociativas, en las que la respuesta de destino para la capa de salida es idéntica al patrón de entrada.

Redes de preentrenamiento

McRae y Hetherington (1993) ^[9] argumentaron que los humanos, a diferencia de la mayoría de las redes neuronales, no asumen nuevas tareas de aprendizaje con un conjunto aleatorio de pesos. Más bien, las personas tienden a aportar una gran cantidad de conocimientos previos a una tarea y esto ayuda a evitar el problema de la interferencia. Demostraron que cuando una red se entrena previamente con una muestra aleatoria de datos antes de comenzar una tarea de aprendizaje secuencial, este conocimiento previo naturalmente limitará cómo se puede incorporar la nueva información. Esto ocurriría porque una muestra aleatoria de datos de un dominio que tiene un alto grado de estructura interna, como el idioma inglés, la capacitación capturaría las regularidades o patrones recurrentes que se encuentran dentro de ese dominio. Dado que el dominio se basa en regularidades, un elemento recién aprendido tenderá a ser similar a la información aprendida previamente, lo que permitirá que la red incorpore nuevos datos con poca interferencia con los datos existentes. Específicamente, un vector de entrada que sigue el mismo patrón de regularidades que los datos previamente entrenados no debería causar un patrón de activación drásticamente diferente en la capa oculta o alterar drásticamente los pesos.

Ensayo

Robins (1995) ^[14] describió que el olvido catastrófico se puede prevenir mediante mecanismos de ensayo. Esto significa que cuando se agrega nueva información, la red neuronal se vuelve a entrenar en parte de la información aprendida previamente. En general, sin embargo, la información aprendida previamente puede no estar disponible para tal reentrenamiento. Una solución para esto es el "pseudo-ensayo", en el que la red no se vuelve a entrenar con los datos anteriores reales, sino con las representaciones de los mismos. Varios métodos se basan en este mecanismo general.

Figura 2: La arquitectura de una red pseudo-recurrente

Redes pseudo-recurrentes

French (1997) propuso una red de retropropagación pseudo-recurrente (ver Figura 2). ^[5] En este modelo, la red se divide en dos subredes funcionalmente distintas pero que interactúan. Este modelo está inspirado biológicamente y se basa en la investigación de McClelland et al. (1995) ^[15] McClelland y sus colegas sugirieron que el hipocampo y el neocórtex actúan como sistemas de memoria separables pero complementarios, con el hipocampo para el almacenamiento de la memoria a corto plazo y el neocórtex para el almacenamiento de la memoria a largo plazo . La información almacenada inicialmente en el hipocampo se puede "transferir" al neocórtex mediante reactivación o reproducción. En la red pseudo-recurrente, una de las subredes actúa como un área de procesamiento temprano, similar al hipocampo, y funciona para aprender nuevos patrones de entrada. La otra subred actúa como un área de almacenamiento final, similar a la neocorteza. Sin embargo, a diferencia de McClelland et al. (1995), el área de almacenamiento final envía la representación generada internamente al área de procesamiento inicial. Esto crea una red recurrente. French propuso que este entrelazado de viejas representaciones con nuevas representaciones es la única forma de reducir el olvido radical. Dado que lo más probable es que el cerebro no tenga acceso a los patrones de entrada originales, los patrones que se retroalimentarían al neocórtex serían representaciones generadas internamente llamadas pseudopatrones . Estos pseudopatrones son aproximaciones de entradas previas ^[14] y se pueden intercalar con el aprendizaje de nuevas entradas.

Memoria auto-refrescante

Inspirándose en ^[14] e independientemente de ^[5] Ans y Rousset (1997) ^[16] también propusieron una arquitectura neuronal artificial de dos redes con auto-actualización de la memoria que supera la interferencia catastrófica cuando las tareas de aprendizaje secuencial se llevan a cabo en redes distribuidas entrenadas por retropropagación. El principio es aprender nuevos patrones externos simultáneamente con pseudopatrones generados internamente, o 'pseudo-memorias', que reflejan la información previamente aprendida. Lo que distingue principalmente a este modelo de los que utilizan el pseudorehearsal clásico ^[14]^[5] en redes multicapa feedforward es un proceso reverberante ^{[ se necesita una explicación adicional ]} que se utiliza para generar pseudopatterns. Después de una serie de reinyecciones de actividad a partir de una única semilla aleatoria, este proceso tiende a ascender a atractores de red no lineales que son más adecuados para capturar de manera óptima la estructura profunda del conocimiento distribuido dentro de los pesos de conexión que el único pase de actividad de feedforward utilizado en pseudo -ensayo. El procedimiento de auto-actualización de la memoria resultó ser muy eficiente en los procesos de transferencia ^[17] y en el aprendizaje en serie de secuencias temporales de patrones sin un olvido catastrófico. ^[18]

Reproducción generativa

En los últimos años, el pseudo-ensayo ha vuelto a ganar popularidad gracias al progreso en las capacidades de los modelos generativos profundos . Cuando se utilizan tales modelos generativos profundos para generar los "pseudodatos" que se van a ensayar, este método se denomina típicamente reproducción generativa. ^[19] Esta reproducción generativa puede prevenir eficazmente el olvido catastrófico, especialmente cuando la reproducción se realiza en las capas ocultas en lugar de en el nivel de entrada. ^[20]^[21]

Aprendizaje latente

El aprendizaje latente es una técnica utilizada por Gutstein y Stump (2015) ^[22] para mitigar la interferencia catastrófica aprovechando el aprendizaje por transferencia . Este enfoque intenta encontrar codificaciones óptimas para cualquier clase nueva que se aprenda, de modo que sea menos probable que interfieran catastróficamente con las respuestas existentes. Dada una red que ha aprendido a discriminar entre un conjunto de clases usando Códigos de salida de corrección de errores (ECOC) ^[23] (en contraposición a 1 código activo ), las codificaciones óptimas para nuevas clases se eligen observando las respuestas promedio de la red a ellas. Dado que estas respuestas promedio surgieron mientras se aprendía el conjunto original de clases sin ninguna exposición a las nuevas clases , se las conoce como "Codificaciones aprendidas latentemente". Esta terminología toma prestado del concepto de aprendizaje latente , introducido por Tolman en 1930. ^[24] En efecto, esta técnica utiliza el aprendizaje por transferencia para evitar interferencias catastróficas, al hacer que las respuestas de una red a las nuevas clases sean lo más coherentes posible con las respuestas existentes a las clases. ya aprendido.

Consolidación de peso elástica

Kirkpatrick y col. (2017) ^[25] propuso la consolidación de peso elástico (EWC), un método para entrenar secuencialmente una sola red neuronal artificial en múltiples tareas. Esta técnica supone que algunos pesos de la red neuronal entrenada son más importantes para tareas aprendidas previamente que otros. Durante el entrenamiento de la red neuronal en una nueva tarea, los cambios en los pesos de la red se hacen menos probables cuanto mayor es su importancia. Para estimar la importancia de las ponderaciones de la red, EWC utiliza mecanismos probabilísticos, en particular la matriz de información de Fisher, pero esto también se puede hacer de otras formas. ^[26]^[27]^[28]

Referencias

^ a b c McCloskey, Michael; Cohen, Neal J. (1989). Interferencia catastrófica en redes conexionistas: el problema del aprendizaje secuencial . Psicología del Aprendizaje y la Motivación. 24 . págs. 109-165. doi : 10.1016 / S0079-7421 (08) 60536-8 . ISBN 978-0-12-543324-2.
^ a b c d e Ratcliff, Roger (1990). "Modelos conexionistas de memoria de reconocimiento: limitaciones impuestas por las funciones de aprendizaje y olvido". Revisión psicológica . 97 (2): 285-308. doi : 10.1037 / 0033-295x.97.2.285 . PMID 2186426 .
^ Hebb, Donald Olding (1949). La organización del comportamiento: una teoría neuropsicológica . Wiley. ISBN 978-0-471-36727-7. OCLC 569043119 .^{[ página necesaria ]}
^ Carpenter, Gail A .; Grossberg, Stephen (1 de diciembre de 1987). "ART 2: autoorganización de códigos de reconocimiento de categoría estable para patrones de entrada analógica". Óptica aplicada . 26 (23): 4919–4930. Código bibliográfico : 1987ApOpt..26.4919C . doi : 10.1364 / AO.26.004919 . PMID 20523470 .
^ a b c d Francés, Robert M (diciembre de 1997). "Redes conexionistas pseudo-recurrentes: una aproximación al dilema 'sensibilidad-estabilidad'". Ciencia de la conexión . 9 (4): 353–380. doi : 10.1080 / 095400997116595 .
^ González, Oscar C; Sokolov, Yury; Krishnan, Giri P; Delanois, Jean Erik; Bazhenov, Maxim (4 de agosto de 2020). "¿Puede el sueño proteger los recuerdos de un olvido catastrófico?" . eLife . 9 : e51005. doi : 10.7554 / eLife.51005 . PMC 7440920 . PMID 32748786 .
^ Barnes, Jean M .; Underwood, Benton J. (agosto de 1959). " ' Destino' de las asociaciones de primera lista en la teoría de la transferencia". Revista de Psicología Experimental . 58 (2): 97-105. doi : 10.1037 / h0047507 . PMID 13796886 .
^ a b Francés, Robert M. (1991). Uso de representaciones semidistribuidas para superar el olvido catastrófico en redes conexionistas (PDF) . Actas de la 13ª Conferencia Anual de la Sociedad de Ciencias Cognitivas. Nueva Jersey: Lawrence Erlbaum. págs. 173-178. CiteSeerX 10.1.1.1040.3564 .
^ a b c "La interferencia catastrófica se elimina en redes pre-entrenadas" . Actas de la Decimoquinta Conferencia Anual de la Sociedad de Ciencias Cognitivas: 18 al 21 de junio de 1993, Instituto de Ciencias Cognitivas, Universidad de Colorado-Boulder . Prensa de psicología. 1993. págs. 723–728. ISBN 978-0-8058-1487-3.
^ a b c d French, R (1 de abril de 1999). "Olvido catastrófico en redes conexionistas". Tendencias en ciencias cognitivas . 3 (4): 128-135. doi : 10.1016 / S1364-6613 (99) 01294-2 . PMID 10322466 . S2CID 2691726 .
^ Lewandowsky, Stephan (1991). "Desaprendizaje gradual e interferencia catastrófica: una comparación de arquitecturas distribuidas" . En Hockley, William E .; Lewandowsky, Stephan (eds.). Relacionar teoría y datos: ensayos sobre la memoria humana en honor a Bennet B. Murdock . Prensa de psicología. págs. 445–476. ISBN 978-1-317-76013-9.
^ Lewandowsky, Stephan; Li, Shu-Chen (1995). "Interferencia catastrófica en redes neuronales". Interferencia e inhibición en la cognición . págs. 329–361. doi : 10.1016 / B978-012208930-5 / 50011-8 . ISBN 978-0-12-208930-5.
↑ a b Kortge, CA (1990). Memoria episódica en redes conexionistas. En: Duodécima Conferencia Anual de la Sociedad de Ciencias Cognitivas , (págs. 764-771). Hillsdale, Nueva Jersey: Lawrence Erlbaum.
^ a b c d Robins, Anthony (junio de 1995). "Catastrófico olvido, ensayo y pseudorrehearsal". Ciencia de la conexión . 7 (2): 123-146. doi : 10.1080 / 09540099550039318 .
^ McClelland, James L .; McNaughton, Bruce L .; O'Reilly, Randall C. (julio de 1995). "Por qué hay sistemas de aprendizaje complementarios en el hipocampo y la neocorteza: ideas de los éxitos y fracasos de los modelos conexionistas de aprendizaje y memoria". Revisión psicológica . 102 (3): 419–457. doi : 10.1037 / 0033-295X.102.3.419 . PMID 7624455 .
^ Ans, Bernard; Rousset, Stéphane (diciembre de 1997). "Evitar el olvido catastrófico mediante el acoplamiento de dos redes neuronales reverberantes". Comptes Rendus de l'Académie des Sciences, Série III . 320 (12): 989–997. Código bibliográfico : 1997CRASG.320..989A . doi : 10.1016 / S0764-4469 (97) 82472-9 .
^ Ans, Bernard; Rousset, Stéphane (marzo de 2000). "Redes neuronales con memoria auto-refrescante: transferencia de conocimiento en tareas de aprendizaje secuencial sin olvidos catastróficos". Ciencia de la conexión . 12 (1): 1–19. doi : 10.1080 / 095400900116177 .
^ Ans, Bernard; Rousset, Stéphane; Francés, Robert M .; Musca, Serban (junio de 2004). "Memoria autorrefrescante en redes neuronales artificiales: aprendizaje de secuencias temporales sin olvidos catastróficos". Ciencia de la conexión . 16 (2): 71–99. doi : 10.1080 / 09540090412331271199 .
^ Mocanu, Decebal Constantin; Torres Vega, María; Eaton, Eric; Stone, Peter; Liotta, Antonio (18 de octubre de 2016). "Divergencia de contraste en línea con reproducción generativa: experiencia de reproducción sin almacenar datos". arXiv : 1610.05555 [ cs.LG ]. Parámetro desconocido |url=ignorado ( ayuda )
^ Shin, Hanul; Lee, Jung Kwon; Kim, Jaehong; Kim, Jiwon (diciembre de 2017). Aprendizaje continuo con repetición generativa profunda . NIPS'17: Actas de la 31ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural. Asociados Curran. págs. 2994–3003. ISBN 978-1-5108-6096-4.
^ van de Ven, Gido M .; Siegelmann, Hava T .; Tolias, Andreas S. (13 de agosto de 2020). "Reproducción inspirada en el cerebro para el aprendizaje continuo con redes neuronales artificiales" . Comunicaciones de la naturaleza . 11 (1): 4069. Bibcode : 2020NatCo..11.4069V . doi : 10.1038 / s41467-020-17866-2 . PMC 7426273 . PMID 32792531 .
^ Gutstein, Steven; Stump, Ethan (2015). "Reducción del olvido catastrófico con aprendizaje de transferencia y códigos de salida ternarios". 2015 Conferencia conjunta internacional sobre redes neuronales (IJCNN) . págs. 1–8. doi : 10.1109 / IJCNN.2015.7280416 . ISBN 978-1-4799-1960-4. S2CID 18745466 .
^ Dietterich, TG; Bakiri, G. (1 de enero de 1995). "Resolver problemas de aprendizaje multiclase mediante códigos de salida de corrección de errores" . Revista de Investigación en Inteligencia Artificial . 2 : 263-286. doi : 10.1613 / jair.105 . S2CID 47109072 .
^ Tolman, EC; Honzik, CH (1930). " ' Insight' en ratas". Publicaciones en Psicología . Universidad de California. 4 : 215-232.
^ Kirkpatrick, James; Pascanu, Razvan; Rabinowitz, Neil; Veness, Joel; Desjardins, Guillaume; Rusu, Andrei A .; Milán, Kieran; Quan, John; Ramalho, Tiago; Grabska-Barwinska, Agnieszka; Hassabis, Demis; Clopath, Claudia; Kumaran, Dharshan; Hadsell, Raia (14 de marzo de 2017). "Superar el olvido catastrófico en las redes neuronales" . Actas de la Academia Nacional de Ciencias . 114 (13): 3521–3526. doi : 10.1073 / pnas.1611835114 . PMC 5380101 . PMID 28292907 .
^ Zenke, Friedemann; Poole, Ben; Ganguli, Surya (2017). "Aprendizaje continuo a través de la inteligencia sináptica" . Actas de la investigación sobre aprendizaje automático . 70 : 3987–3995. arXiv : 1703.04200 . PMC 6944509 . PMID 31909397 .
^ Aljundi, Rahaf; Babiloni, Francesca; Elhoseiny, Mohamed; Rohrbach, Marcus; Tuytelaars, Tinne (2018). "Sinapsis conscientes de la memoria: aprender qué (no) olvidar". Visión por computadora - ECCV 2018 . Apuntes de conferencias en informática. 11207 . págs. 144-161. arXiv : 1711.09601 . doi : 10.1007 / 978-3-030-01219-9_9 . ISBN 978-3-030-01218-2. S2CID 4254748 .
^ Kutalev, Alexey (2020). "Forma natural de superar el olvido catastrófico en las redes neuronales". Tecnologías de la información modernas y educación informática . 16 (2): 331–337. arXiv : 2005.07107 . doi : 10.25559 / SITITO.16.202002.331-337 .

[McCloskey1989-1] McCloskey, Michael; Cohen, Neal J. (1989). Interferencia catastrófica en redes conexionistas: el problema del aprendizaje secuencial . Psicología del Aprendizaje y la Motivación. 24 . págs. 109-165. doi : 10.1016 / S0079-7421 (08) 60536-8 . ISBN 978-0-12-543324-2.

[Ratcliff1990-2] Ratcliff, Roger (1990). "Modelos conexionistas de memoria de reconocimiento: limitaciones impuestas por las funciones de aprendizaje y olvido". Revisión psicológica . 97 (2): 285-308. doi : 10.1037 / 0033-295x.97.2.285 . PMID 2186426 .

[3] Hebb, Donald Olding (1949). La organización del comportamiento: una teoría neuropsicológica . Wiley. ISBN 978-0-471-36727-7. OCLC 569043119 .^{[ página necesaria ]}

[4] Carpenter, Gail A .; Grossberg, Stephen (1 de diciembre de 1987). "ART 2: autoorganización de códigos de reconocimiento de categoría estable para patrones de entrada analógica". Óptica aplicada . 26 (23): 4919–4930. Código bibliográfico : 1987ApOpt..26.4919C . doi : 10.1364 / AO.26.004919 . PMID 20523470 .

[French1997-5] Francés, Robert M (diciembre de 1997). "Redes conexionistas pseudo-recurrentes: una aproximación al dilema 'sensibilidad-estabilidad'". Ciencia de la conexión . 9 (4): 353–380. doi : 10.1080 / 095400997116595 .

[6] González, Oscar C; Sokolov, Yury; Krishnan, Giri P; Delanois, Jean Erik; Bazhenov, Maxim (4 de agosto de 2020). "¿Puede el sueño proteger los recuerdos de un olvido catastrófico?" . eLife . 9 : e51005. doi : 10.7554 / eLife.51005 . PMC 7440920 . PMID 32748786 .

[Barnes1959-7] Barnes, Jean M .; Underwood, Benton J. (agosto de 1959). " ' Destino' de las asociaciones de primera lista en la teoría de la transferencia". Revista de Psicología Experimental . 58 (2): 97-105. doi : 10.1037 / h0047507 . PMID 13796886 .

[French1991-8] Francés, Robert M. (1991). Uso de representaciones semidistribuidas para superar el olvido catastrófico en redes conexionistas (PDF) . Actas de la 13ª Conferencia Anual de la Sociedad de Ciencias Cognitivas. Nueva Jersey: Lawrence Erlbaum. págs. 173-178. CiteSeerX 10.1.1.1040.3564 .

[McRae1993-9] "La interferencia catastrófica se elimina en redes pre-entrenadas" . Actas de la Decimoquinta Conferencia Anual de la Sociedad de Ciencias Cognitivas: 18 al 21 de junio de 1993, Instituto de Ciencias Cognitivas, Universidad de Colorado-Boulder . Prensa de psicología. 1993. págs. 723–728. ISBN 978-0-8058-1487-3.

[French1999-10] French, R (1 de abril de 1999). "Olvido catastrófico en redes conexionistas". Tendencias en ciencias cognitivas . 3 (4): 128-135. doi : 10.1016 / S1364-6613 (99) 01294-2 . PMID 10322466 . S2CID 2691726 .

[Lewandowsky1991-11] Lewandowsky, Stephan (1991). "Desaprendizaje gradual e interferencia catastrófica: una comparación de arquitecturas distribuidas" . En Hockley, William E .; Lewandowsky, Stephan (eds.). Relacionar teoría y datos: ensayos sobre la memoria humana en honor a Bennet B. Murdock . Prensa de psicología. págs. 445–476. ISBN 978-1-317-76013-9.

[Lewandowsky1995-12] Lewandowsky, Stephan; Li, Shu-Chen (1995). "Interferencia catastrófica en redes neuronales". Interferencia e inhibición en la cognición . págs. 329–361. doi : 10.1016 / B978-012208930-5 / 50011-8 . ISBN 978-0-12-208930-5.

[Kortge1990-13] Kortge, CA (1990). Memoria episódica en redes conexionistas. En: Duodécima Conferencia Anual de la Sociedad de Ciencias Cognitivas , (págs. 764-771). Hillsdale, Nueva Jersey: Lawrence Erlbaum.

[Robins1995-14] Robins, Anthony (junio de 1995). "Catastrófico olvido, ensayo y pseudorrehearsal". Ciencia de la conexión . 7 (2): 123-146. doi : 10.1080 / 09540099550039318 .

[McClelland1995-15] McClelland, James L .; McNaughton, Bruce L .; O'Reilly, Randall C. (julio de 1995). "Por qué hay sistemas de aprendizaje complementarios en el hipocampo y la neocorteza: ideas de los éxitos y fracasos de los modelos conexionistas de aprendizaje y memoria". Revisión psicológica . 102 (3): 419–457. doi : 10.1037 / 0033-295X.102.3.419 . PMID 7624455 .

[16] Ans, Bernard; Rousset, Stéphane (diciembre de 1997). "Evitar el olvido catastrófico mediante el acoplamiento de dos redes neuronales reverberantes". Comptes Rendus de l'Académie des Sciences, Série III . 320 (12): 989–997. Código bibliográfico : 1997CRASG.320..989A . doi : 10.1016 / S0764-4469 (97) 82472-9 .

[17] Ans, Bernard; Rousset, Stéphane (marzo de 2000). "Redes neuronales con memoria auto-refrescante: transferencia de conocimiento en tareas de aprendizaje secuencial sin olvidos catastróficos". Ciencia de la conexión . 12 (1): 1–19. doi : 10.1080 / 095400900116177 .

[18] Ans, Bernard; Rousset, Stéphane; Francés, Robert M .; Musca, Serban (junio de 2004). "Memoria autorrefrescante en redes neuronales artificiales: aprendizaje de secuencias temporales sin olvidos catastróficos". Ciencia de la conexión . 16 (2): 71–99. doi : 10.1080 / 09540090412331271199 .

[Mocanu2016-19] Mocanu, Decebal Constantin; Torres Vega, María; Eaton, Eric; Stone, Peter; Liotta, Antonio (18 de octubre de 2016). "Divergencia de contraste en línea con reproducción generativa: experiencia de reproducción sin almacenar datos". arXiv : 1610.05555 [ cs.LG ]. Parámetro desconocido |url=ignorado ( ayuda )

[Shin2017-20] Shin, Hanul; Lee, Jung Kwon; Kim, Jaehong; Kim, Jiwon (diciembre de 2017). Aprendizaje continuo con repetición generativa profunda . NIPS'17: Actas de la 31ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural. Asociados Curran. págs. 2994–3003. ISBN 978-1-5108-6096-4.

[vandeVen2020-21] van de Ven, Gido M .; Siegelmann, Hava T .; Tolias, Andreas S. (13 de agosto de 2020). "Reproducción inspirada en el cerebro para el aprendizaje continuo con redes neuronales artificiales" . Comunicaciones de la naturaleza . 11 (1): 4069. Bibcode : 2020NatCo..11.4069V . doi : 10.1038 / s41467-020-17866-2 . PMC 7426273 . PMID 32792531 .

[22] Gutstein, Steven; Stump, Ethan (2015). "Reducción del olvido catastrófico con aprendizaje de transferencia y códigos de salida ternarios". 2015 Conferencia conjunta internacional sobre redes neuronales (IJCNN) . págs. 1–8. doi : 10.1109 / IJCNN.2015.7280416 . ISBN 978-1-4799-1960-4. S2CID 18745466 .

[23] Dietterich, TG; Bakiri, G. (1 de enero de 1995). "Resolver problemas de aprendizaje multiclase mediante códigos de salida de corrección de errores" . Revista de Investigación en Inteligencia Artificial . 2 : 263-286. doi : 10.1613 / jair.105 . S2CID 47109072 .

[24] Tolman, EC; Honzik, CH (1930). " ' Insight' en ratas". Publicaciones en Psicología . Universidad de California. 4 : 215-232.

[25] Kirkpatrick, James; Pascanu, Razvan; Rabinowitz, Neil; Veness, Joel; Desjardins, Guillaume; Rusu, Andrei A .; Milán, Kieran; Quan, John; Ramalho, Tiago; Grabska-Barwinska, Agnieszka; Hassabis, Demis; Clopath, Claudia; Kumaran, Dharshan; Hadsell, Raia (14 de marzo de 2017). "Superar el olvido catastrófico en las redes neuronales" . Actas de la Academia Nacional de Ciencias . 114 (13): 3521–3526. doi : 10.1073 / pnas.1611835114 . PMC 5380101 . PMID 28292907 .

[26] Zenke, Friedemann; Poole, Ben; Ganguli, Surya (2017). "Aprendizaje continuo a través de la inteligencia sináptica" . Actas de la investigación sobre aprendizaje automático . 70 : 3987–3995. arXiv : 1703.04200 . PMC 6944509 . PMID 31909397 .

[27] Aljundi, Rahaf; Babiloni, Francesca; Elhoseiny, Mohamed; Rohrbach, Marcus; Tuytelaars, Tinne (2018). "Sinapsis conscientes de la memoria: aprender qué (no) olvidar". Visión por computadora - ECCV 2018 . Apuntes de conferencias en informática. 11207 . págs. 144-161. arXiv : 1711.09601 . doi : 10.1007 / 978-3-030-01219-9_9 . ISBN 978-3-030-01218-2. S2CID 4254748 .

[28] Kutalev, Alexey (2020). "Forma natural de superar el olvido catastrófico en las redes neuronales". Tecnologías de la información modernas y educación informática . 16 (2): 331–337. arXiv : 2005.07107 . doi : 10.25559 / SITITO.16.202002.331-337 .

[1]