De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

El aprendizaje por diferencia temporal ( TD ) se refiere a una clase de métodos de aprendizaje por refuerzo sin modelo que aprenden mediante el arranque de la estimación actual de la función de valor. Estos métodos toman muestras del entorno, como los métodos de Monte Carlo , y realizan actualizaciones basadas en estimaciones actuales, como los métodos de programación dinámica . [1]

Mientras que los métodos de Monte Carlo solo ajustan sus estimaciones una vez que se conoce el resultado final, los métodos de TD ajustan las predicciones para coincidir con predicciones posteriores y más precisas sobre el futuro antes de que se conozca el resultado final. [2] Esta es una forma de bootstrapping , como se ilustra con el siguiente ejemplo:

"Suponga que desea predecir el clima para el sábado y tiene algún modelo que predice el clima del sábado, dado el clima de cada día de la semana. En el caso estándar, esperaría hasta el sábado y luego ajustaría todos sus modelos. Sin embargo, cuando es, por ejemplo, viernes, debería tener una idea bastante clara del tiempo que hará el sábado, y así poder cambiar, digamos, el modelo del sábado antes de que llegue el sábado ". [2]

Los métodos de diferencia temporal están relacionados con el modelo de diferencia temporal del aprendizaje animal. [3] [4] [5] [6] [7]

Formulación matemática [ editar ]

El método tabular TD (0) es uno de los métodos TD más simples. Es un caso especial de métodos de aproximación estocásticos más generales. Estima la función de valor de estado de un proceso de decisión de Markov de estado finito (MDP) bajo una política . Dejar que denotan la función de valor de estado del MDP con los estados , las recompensas y la tasa de descuento [8] en virtud de la política :

Eliminamos la acción de la notación por conveniencia. satisface la ecuación de Hamilton-Jacobi-Bellman :

también lo es una estimación insesgada de . Esta observación motiva el siguiente algoritmo para estimar .

El algoritmo comienza inicializando una tabla arbitrariamente, con un valor para cada estado del MDP. Se elige una tasa de aprendizaje positiva .

Luego evaluamos repetidamente la política , obtenemos una recompensa y actualizamos la función de valor para el estado anterior usando la regla: [9]

donde y son los estados antiguo y nuevo, respectivamente. El valor se conoce como objetivo TD.

TD-Lambda [ editar ]

TD-Lambda es un algoritmo de aprendizaje inventado por Richard S. Sutton basado en un trabajo anterior sobre el aprendizaje de diferencias temporales de Arthur Samuel . [1] Este algoritmo fue aplicado por Gerald Tesauro para crear TD-Gammon , un programa que aprendió a jugar al backgammon al nivel de jugadores humanos expertos. [10]

El parámetro lambda ( ) se refiere al parámetro de caída de seguimiento, con . Los ajustes más altos conducen a trazas más duraderas; es decir, se puede otorgar una mayor proporción de crédito de una recompensa a estados y acciones más distantes cuando es mayor, produciendo un aprendizaje paralelo a los algoritmos Monte Carlo RL.

Algoritmo TD en neurociencia [ editar ]

El algoritmo TD también ha recibido atención en el campo de la neurociencia . Los investigadores descubrieron que la tasa de activación de las neuronas de dopamina en el área tegmental ventral (VTA) y la sustancia negra (SNc) parecen imitar la función de error en el algoritmo. [3] [4] [5] [6] [7]La función de error informa la diferencia entre la recompensa estimada en cualquier estado o paso de tiempo dado y la recompensa real recibida. Cuanto mayor sea la función de error, mayor será la diferencia entre la recompensa esperada y la real. Cuando esto se combina con un estímulo que refleja con precisión una recompensa futura, el error se puede utilizar para asociar el estímulo con la recompensa futura .

Las células de dopamina parecen comportarse de manera similar. En un experimento, se realizaron mediciones de las células de dopamina mientras se entrenaba a un mono para asociar un estímulo con la recompensa del jugo. [11] Inicialmente, las células de dopamina aumentaron las tasas de disparo cuando el mono recibió jugo, lo que indica una diferencia en las recompensas esperadas y reales. Con el tiempo, este aumento en la respuesta se propagó al primer estímulo confiable para la recompensa. Una vez que el mono estuvo completamente entrenado, no hubo un aumento en la velocidad de disparo al presentar la recompensa prevista. Posteriormente, la tasa de activación de las células de dopamina disminuyó por debajo de la activación normal cuando no se produjo la recompensa esperada. Esto imita de cerca cómo se usa la función de error en TD para el aprendizaje por refuerzo .

La relación entre el modelo y la función neurológica potencial ha producido investigaciones que intentan utilizar la TD para explicar muchos aspectos de la investigación del comportamiento. [12] También se ha utilizado para estudiar afecciones como la esquizofrenia o las consecuencias de las manipulaciones farmacológicas de la dopamina en el aprendizaje. [13]

Ver también [ editar ]

  • Q-aprendizaje
  • SARSA
  • Modelo Rescorla-Wagner
  • PVLV

Notas [ editar ]

  1. ↑ a b Richard Sutton y Andrew Barto (1998). Aprendizaje por refuerzo . MIT Press. ISBN 978-0-585-02445-5. Archivado desde el original el 30 de marzo de 2017.
  2. ↑ a b Richard Sutton (1988). "Aprender a predecir por los métodos de las diferencias temporales" . Aprendizaje automático . 3 (1): 9–44. doi : 10.1007 / BF00115009 .(Una versión revisada está disponible en la página de publicación de Richard Sutton Archivado 2017-03-30 en Wayback Machine )
  3. ↑ a b Schultz, W, Dayan, P & Montague, PR. (1997). "Un sustrato neural de la predicción y la recompensa". Ciencia . 275 (5306): 1593-1599. CiteSeerX 10.1.1.133.6176 . doi : 10.1126 / science.275.5306.1593 . PMID 9054347 .  CS1 maint: multiple names: authors list (link)
  4. ↑ a b Montague, PR; Dayan, P .; Sejnowski, TJ (1 de marzo de 1996). "Un marco para los sistemas de dopamina mesencefálica basados ​​en el aprendizaje predictivo de Hebb" (PDF) . La Revista de Neurociencia . 16 (5): 1936-1947. doi : 10.1523 / JNEUROSCI.16-05-01936.1996 . ISSN 0270-6474 . PMC 6578666 . PMID 8774460 .    
  5. ↑ a b Montague, PR; Dayan, P .; Nowlan, SJ; Pouget, A .; Sejnowski, TJ (1993). "Uso de refuerzo aperiódico para la autoorganización dirigida" (PDF) . Avances en sistemas de procesamiento de información neuronal . 5 : 969–976.
  6. ↑ a b Montague, PR; Sejnowski, TJ (1994). "El cerebro predictivo: coincidencia temporal y orden temporal en los mecanismos de aprendizaje sináptico". Aprendizaje y memoria . 1 (1): 1–33. ISSN 1072-0502 . PMID 10467583 .  
  7. ^ a b Sejnowski, TJ; Dayan, P .; Montague, PR (1995). "Aprendizaje predictivo de hebbian" (PDF) . Actas de la octava conferencia de ACM sobre teoría del aprendizaje computacional : 15-18. doi : 10.1145 / 225298.225300 .
  8. ^ El parámetro de tasa de descuento permite una preferencia temporal hacia recompensas más inmediatas y lejos de recompensas futuras distantes
  9. ^ Aprendizaje por refuerzo: una introducción (PDF) . pag. 130. Archivado desde el original (PDF) el 12 de julio de 2017.
  10. ^ Tesauro, Gerald (marzo de 1995). "Aprendizaje de la diferencia temporal y TD-Gammon" . Comunicaciones de la ACM . 38 (3): 58–68. doi : 10.1145 / 203330.203343 . Consultado el 8 de febrero de 2010 .
  11. ^ Schultz, W. (1998). "Señal de recompensa predictiva de las neuronas de dopamina". Revista de neurofisiología . 80 (1): 1–27. CiteSeerX 10.1.1.408.5994 . doi : 10.1152 / jn.1998.80.1.1 . PMID 9658025 .  
  12. ^ Dayan, P. (2001). "Aprendizaje por refuerzo motivado" (PDF) . Avances en sistemas de procesamiento de información neuronal . MIT Press. 14 : 11-18.
  13. ^ Smith, A., Li, M., Becker, S. y Kapur, S. (2006). "Dopamina, error de predicción y aprendizaje asociativo: una cuenta basada en modelos". Red: Computación en sistemas neuronales . 17 (1): 61–84. doi : 10.1080 / 09548980500361624 . PMID 16613795 . CS1 maint: multiple names: authors list (link)

Bibliografía [ editar ]

  • Sutton, RS, Barto AG (1990). "Modelos derivados del tiempo de refuerzo pavloviano" (PDF) . Aprendizaje y neurociencia computacional: fundamentos de las redes adaptativas : 497–537.CS1 maint: multiple names: authors list (link)
  • Gerald Tesauro (marzo de 1995). "Aprendizaje de la diferencia temporal y TD-Gammon" . Comunicaciones de la ACM . 38 (3): 58–68. doi : 10.1145 / 203330.203343 .
  • Imran Ghory. Aprendizaje por refuerzo en juegos de mesa .
  • SP Meyn, 2007. Control Techniques for Complex Networks , Cambridge University Press, 2007. Véase el capítulo final y el apéndice con Meyn & Tweedie abreviado .

Enlaces externos [ editar ]

  • Scholarpedia Aprendizaje de diferencia temporal
  • TD-Gammon
  • Grupo de investigación TD-Networks
  • Connect Four TDGravity Applet (+ versión de teléfono móvil): autoaprendizaje mediante el método TD-Leaf (combinación de TD-Lambda con búsqueda de árbol superficial)
  • Self Learning Meta-Tic-Tac-Toe Ejemplo de aplicación web que muestra cómo se puede usar el aprendizaje de diferencias temporales para aprender las constantes de evaluación de estado para una IA minimax que juega un juego de mesa simple.
  • Problema de aprendizaje por refuerzo , documento que explica cómo se puede utilizar el aprendizaje de diferencias temporales para acelerar el Q-learning
  • TD-Simulator Simulador de diferencia temporal para acondicionamiento clásico