El aprendizaje por refuerzo ( RL ) es un área del aprendizaje automático que se ocupa de cómo los agentes inteligentes deben tomar acciones en un entorno para maximizar la noción de recompensa acumulativa. [1] El aprendizaje por refuerzo es uno de los tres paradigmas básicos del aprendizaje automático, junto con el aprendizaje supervisado y el aprendizaje no supervisado .
El aprendizaje reforzado se diferencia del aprendizaje supervisado en que no necesita que se presenten pares de entrada / salida etiquetados y en que no necesita que se corrijan explícitamente acciones subóptimas. En cambio, la atención se centra en encontrar un equilibrio entre la exploración (de un territorio inexplorado) y la explotación (del conocimiento actual). [2]
El entorno se establece típicamente en forma de un proceso de decisión de Markov (MDP), porque muchos algoritmos de aprendizaje por refuerzo para este contexto utilizan técnicas de programación dinámica . [3] La principal diferencia entre los métodos clásicos de programación dinámica y los algoritmos de aprendizaje por refuerzo es que estos últimos no asumen el conocimiento de un modelo matemático exacto del MDP y se dirigen a MDP grandes donde los métodos exactos se vuelven inviables.
Introducción
Debido a su generalidad, el aprendizaje por refuerzo se estudia en muchas disciplinas, como la teoría de juegos , la teoría de control , la investigación de operaciones , la teoría de la información , la optimización basada en simulación , los sistemas multiagente , la inteligencia de enjambre y la estadística . En la literatura de investigación y control de operaciones, el aprendizaje por refuerzo se denomina programación dinámica aproximada o programación neurodinámica. Los problemas de interés en el aprendizaje por refuerzo también se han estudiado en la teoría del control óptimo , que se ocupa mayoritariamente de la existencia y caracterización de soluciones óptimas y algoritmos para su cálculo exacto, y menos del aprendizaje o aproximación, particularmente en ausencia de un modelo matemático del medio ambiente. En economía y teoría de juegos , el aprendizaje por refuerzo se puede utilizar para explicar cómo puede surgir el equilibrio bajo la racionalidad limitada .
El refuerzo básico se modela como un proceso de decisión de Markov (MDP) :
- un conjunto de estados ambientales y de agentes, S ;
- un conjunto de acciones, A , del agente;
- es la probabilidad de transición (en el momento ) del estado a estado en acción .
- es la recompensa inmediata después de la transición de a con accion .
El propósito del aprendizaje por refuerzo es que el agente aprenda una política óptima, o casi óptima, que maximice la "función de recompensa" u otra señal de refuerzo proporcionada por el usuario que se acumula a partir de las recompensas inmediatas. Esto es similar a los procesos que parecen ocurrir en la psicología animal. Por ejemplo, los cerebros biológicos están programados para interpretar señales como el dolor y el hambre como refuerzos negativos e interpretar el placer y la ingesta de alimentos como refuerzos positivos. En algunas circunstancias, los animales pueden aprender a adoptar comportamientos que optimicen estas recompensas. Esto sugiere que los animales son capaces de aprender por refuerzo. [4] [5]
La IA de un agente de aprendizaje por refuerzo básico interactúa con su entorno en pasos de tiempo discretos. En cada momento t , el agente recibe el estado actual y recompensa . Luego elige una accióndel conjunto de acciones disponibles, que posteriormente se envía al entorno. El medio ambiente se mueve a un nuevo estado y la recompensa asociado con la transición está determinado. El objetivo de un agente de aprendizaje por refuerzo es aprender una política :, que maximiza la recompensa acumulativa esperada.
La formulación del problema como un MDP supone que el agente observa directamente el estado ambiental actual; en este caso, se dice que el problema es completamente observable . Si el agente solo tiene acceso a un subconjunto de estados, o si los estados observados están corrompidos por el ruido, se dice que el agente tiene observabilidad parcial y formalmente el problema debe formularse como un proceso de decisión de Markov parcialmente observable . En ambos casos, se puede restringir el conjunto de acciones disponibles para el agente. Por ejemplo, el estado del saldo de una cuenta podría restringirse a positivo; si el valor actual del estado es 3 y la transición de estado intenta reducir el valor en 4, no se permitirá la transición.
Cuando se compara el desempeño del agente con el de un agente que actúa de manera óptima, la diferencia en el desempeño da lugar a la noción de arrepentimiento . Para actuar de manera casi óptima, el agente debe razonar sobre las consecuencias a largo plazo de sus acciones (es decir, maximizar los ingresos futuros), aunque la recompensa inmediata asociada con esto podría ser negativa.
Por lo tanto, el aprendizaje por refuerzo es particularmente adecuado para problemas que incluyen una compensación de recompensa a largo plazo versus a corto plazo. Se ha aplicado con éxito a varios problemas, incluido el control de robots , [6] programación de ascensores, telecomunicaciones , backgammon , damas [7] y Go ( AlphaGo ).
Dos elementos hacen que el aprendizaje por refuerzo sea poderoso: el uso de muestras para optimizar el rendimiento y el uso de la aproximación de funciones para tratar con entornos grandes. Gracias a estos dos componentes clave, el aprendizaje por refuerzo se puede utilizar en entornos grandes en las siguientes situaciones:
- Se conoce un modelo del entorno, pero no se dispone de una solución analítica ;
- Solo se proporciona un modelo de simulación del entorno (el tema de la optimización basada en simulación ); [8]
- La única forma de recopilar información sobre el medio ambiente es interactuar con él.
Los dos primeros de estos problemas podrían considerarse problemas de planificación (ya que se dispone de algún tipo de modelo), mientras que el último podría considerarse un problema de aprendizaje genuino. Sin embargo, el aprendizaje por refuerzo convierte ambos problemas de planificación en problemas de aprendizaje automático .
Exploración
La compensación entre exploración y explotación se ha estudiado más a fondo a través del problema de los bandidos con múltiples brazos y para los MDP de espacios de estados finitos en Burnetas y Katehakis (1997). [9]
El aprendizaje por refuerzo requiere mecanismos de exploración inteligentes; La selección de acciones al azar, sin referencia a una distribución de probabilidad estimada, muestra un desempeño deficiente. El caso de los (pequeños) procesos de decisión finitos de Markov se comprende relativamente bien. Sin embargo, debido a la falta de algoritmos que escalen bien con el número de estados (o escalen a problemas con espacios de estados infinitos), los métodos de exploración simples son los más prácticos.
Uno de esos métodos es codicioso, donde es un parámetro que controla la cantidad de exploración versus explotación. Con probabilidad, se elige la explotación y el agente elige la acción que cree que tiene el mejor efecto a largo plazo (los vínculos entre las acciones se rompen uniformemente al azar). Alternativamente, con probabilidad, se elige la exploración y la acción se elige uniformemente al azar. suele ser un parámetro fijo, pero se puede ajustar de acuerdo con un programa (haciendo que el agente explore cada vez menos) o de forma adaptativa según la heurística. [10]
Algoritmos para el aprendizaje de control
Incluso si se ignora el tema de la exploración e incluso si el estado era observable (asumido de aquí en adelante), el problema sigue siendo utilizar la experiencia pasada para descubrir qué acciones conducen a mayores recompensas acumulativas.
Criterio de optimalidad
Política
La selección de acciones del agente se modela como un mapa llamado política :
El mapa de políticas da la probabilidad de emprender acciones. cuando en el estado . [11] : 61 También hay políticas deterministas.
Función de valor de estado
Función de valor se define como el rendimiento esperado que comienza con el estado, es decir y siguiendo sucesivamente la política . Por lo tanto, hablando en términos generales, la función de valor estima "qué tan bueno" es estar en un estado dado. [11] : 60
donde la variable aleatoria denota la devolución y se define como la suma de las futuras recompensas con descuento:
dónde es la recompensa al paso , es la tasa de descuento . Gamma es menor que 1, por lo que los eventos en el futuro distante tienen una ponderación menor que los eventos en el futuro inmediato.
El algoritmo debe encontrar una política con el máximo rendimiento esperado. De la teoría de los PMD se sabe que, sin pérdida de generalidad, la búsqueda puede restringirse al conjunto de las llamadas políticas estacionarias . Una política es estacionaria si la distribución de acciones que devuelve depende solo del último estado visitado (del historial del agente de observación). La búsqueda puede restringirse aún más a políticas estacionarias deterministas . Una política estacionaria determinista selecciona de manera determinista acciones basadas en el estado actual. Dado que cualquier política de este tipo se puede identificar con un mapeo del conjunto de estados al conjunto de acciones, estas políticas se pueden identificar con dichos mapeos sin pérdida de generalidad.
Fuerza bruta
El enfoque de fuerza bruta implica dos pasos:
- Para cada política posible, muestre las devoluciones mientras la sigue
- Elija la póliza con el mayor rendimiento esperado
Un problema con esto es que la cantidad de políticas puede ser grande o incluso infinita. Otra es que la varianza de los rendimientos puede ser grande, lo que requiere muchas muestras para estimar con precisión el rendimiento de cada póliza.
Estos problemas pueden mejorarse si asumimos alguna estructura y permitimos que las muestras generadas a partir de una política influyan en las estimaciones realizadas para otras. Los dos enfoques principales para lograr esto son la estimación de la función de valor y la búsqueda directa de políticas .
Función de valor
Los enfoques de función de valor intentan encontrar una política que maximice el rendimiento manteniendo un conjunto de estimaciones de los rendimientos esperados para alguna política (generalmente la "actual" [dentro de la política] o la óptima [fuera de la política]).
Estos métodos se basan en la teoría de los procesos de decisión de Markov, donde la optimalidad se define en un sentido que es más fuerte que el anterior: una política se llama óptima si logra el mejor rendimiento esperado de cualquier estado inicial (es decir, las distribuciones iniciales no juegan ningún papel en esta definición). Una vez más, siempre se puede encontrar una política óptima entre las políticas estacionarias.
Para definir la optimalidad de manera formal, defina el valor de una política por
dónde representa el retorno asociado con los siguientes desde el estado inicial . Definiendo como el valor máximo posible de , dónde se le permite cambiar,
Una política que logra estos valores óptimos en cada estado se llama óptima . Claramente, una política que es óptima en este sentido fuerte también es óptima en el sentido de que maximiza el rendimiento esperado., desde , dónde es un estado muestreado aleatoriamente de la distribución [ aclaración necesaria ] .
Aunque los valores de estado son suficientes para definir la optimalidad, es útil definir valores de acción. Dado un estado, una acción y una política , el valor de acción del par debajo es definido por
dónde ahora representa el retorno aleatorio asociado con la primera acción en estado y siguiendo , después de eso.
La teoría de los MDP establece que si es una política óptima, actuamos de manera óptima (tomamos la acción óptima) eligiendo la acción de con el valor más alto en cada estado, . La función de valor de acción de una política tan óptima () se llama función óptima de valor de acción y comúnmente se denota por. En resumen, el conocimiento de la función óptima de valor de acción por sí solo es suficiente para saber cómo actuar de manera óptima.
Suponiendo un conocimiento completo del MDP, los dos enfoques básicos para calcular la función de valor de acción óptima son la iteración del valor y la iteración de la política . Ambos algoritmos calculan una secuencia de funciones () que convergen en . El cálculo de estas funciones implica el cálculo de expectativas sobre todo el espacio de estados, lo que no es práctico para todos, excepto para los MDP más pequeños (finitos). En los métodos de aprendizaje por refuerzo, las expectativas se aproximan promediando muestras y utilizando técnicas de aproximación de funciones para hacer frente a la necesidad de representar funciones de valor en grandes espacios de acción de estado.
Métodos de Montecarlo
Los métodos de Monte Carlo se pueden utilizar en un algoritmo que imita la iteración de políticas. La iteración de políticas consta de dos pasos: evaluación de políticas y mejora de políticas .
Monte Carlo se utiliza en el paso de evaluación de políticas. En este paso, dada una política estacionaria y determinista, el objetivo es calcular los valores de la función (o una buena aproximación a ellos) para todos los pares estado-acción . Suponiendo (para simplificar) que el MDP es finito, que hay suficiente memoria disponible para acomodar los valores de acción y que el problema es episódico y después de cada episodio uno nuevo comienza desde algún estado inicial aleatorio. Entonces, la estimación del valor de un par estado-acción dado se puede calcular promediando los rendimientos muestreados que se originaron en tiempo extraordinario. Con tiempo suficiente, este procedimiento puede construir una estimación precisa de la función de valor de acción . Con esto finaliza la descripción del paso de evaluación de la política.
En el paso de mejora de la política, la siguiente política se obtiene calculando una política codiciosa con respecto a: Dado un estado , esta nueva política devuelve una acción que maximiza . En la práctica, la evaluación perezosa puede diferir el cálculo de las acciones maximizadoras hasta el momento en que sean necesarias.
Los problemas con este procedimiento incluyen:
- El procedimiento puede dedicar demasiado tiempo a evaluar una política subóptima.
- Utiliza muestras de manera ineficiente en el sentido de que una trayectoria larga mejora la estimación solo del par único estado-acción que inició la trayectoria.
- Cuando los rendimientos a lo largo de las trayectorias tienen una gran varianza , la convergencia es lenta.
- Funciona solo en problemas episódicos ;
- Funciona solo en MDP pequeños y finitos.
Métodos de diferencia temporal
El primer problema se corrige permitiendo que el procedimiento cambie la política (en algunos o en todos los estados) antes de que se establezcan los valores. Esto también puede ser problemático, ya que podría evitar la convergencia. La mayoría de los algoritmos actuales hacen esto, dando lugar a la clase de algoritmos de iteración de políticas generalizados . Muchos métodos de crítica de actores pertenecen a esta categoría.
El segundo problema puede corregirse permitiendo que las trayectorias contribuyan a cualquier par estado-acción en ellas. Esto también puede ayudar hasta cierto punto con el tercer problema, aunque una mejor solución cuando los rendimientos tienen una alta varianza son los métodos de diferencia temporal (TD) de Sutton que se basan en la ecuación recursiva de Bellman . [12] [13] El cálculo en los métodos TD puede ser incremental (cuando después de cada transición se cambia la memoria y la transición se desecha), o por lotes (cuando las transiciones se agrupan y las estimaciones se calculan una vez basadas en el lote) . Los métodos por lotes, como el método de diferencia temporal de mínimos cuadrados, [14] pueden utilizar mejor la información de las muestras, mientras que los métodos incrementales son la única opción cuando los métodos por lotes no son viables debido a su alta complejidad computacional o de memoria. Algunos métodos intentan combinar los dos enfoques. Los métodos basados en diferencias temporales también superan el cuarto problema.
Para abordar el quinto problema, se utilizan métodos de aproximación de funciones . La aproximación de función lineal comienza con un mapeoque asigna un vector de dimensión finita a cada par estado-acción. Entonces, los valores de acción de un par estado-acción se obtienen combinando linealmente los componentes de con algunas pesas :
Luego, los algoritmos ajustan los pesos, en lugar de ajustar los valores asociados con los pares de estado-acción individuales. Se han explorado métodos basados en ideas de estadísticas no paramétricas (que se puede ver que construyen sus propias características).
La iteración de valor también se puede utilizar como punto de partida, dando lugar al algoritmo Q-learning y sus muchas variantes. [15]
El problema con el uso de valores de acción es que pueden necesitar estimaciones muy precisas de los valores de acción en competencia que pueden ser difíciles de obtener cuando los retornos son ruidosos, aunque este problema se mitiga en cierta medida mediante métodos de diferencia temporal. El uso del llamado método de aproximación de funciones compatibles compromete la generalidad y la eficiencia. Otro problema específico de TD proviene de su dependencia de la ecuación recursiva de Bellman. La mayoría de los métodos TD tienen un llamado parámetro que puede interpolar continuamente entre los métodos de Monte Carlo que no se basan en las ecuaciones de Bellman y los métodos básicos de TD que se basan completamente en las ecuaciones de Bellman. Esto puede ser eficaz para paliar este problema.
Búsqueda directa de políticas
Un método alternativo es buscar directamente en (algún subconjunto de) el espacio de políticas, en cuyo caso el problema se convierte en un caso de optimización estocástica . Los dos enfoques disponibles son métodos basados en gradiente y métodos sin gradiente.
Los métodos basados en gradientes (métodos de gradiente de políticas ) comienzan con un mapeo de un espacio (de parámetros) de dimensión finita al espacio de políticas: dado el vector de parámetros, dejar denotar la política asociada a . Definiendo la función de desempeño por
en condiciones suaves, esta función será diferenciable en función del vector de parámetros . Si el gradiente dese conocía, se podría usar el ascenso en gradiente . Dado que no se dispone de una expresión analítica para el gradiente, solo se dispone de una estimación ruidosa. Tal estimación puede construirse de muchas formas, dando lugar a algoritmos como el método REINFORCE de Williams [16] (que se conoce como el método de razón de verosimilitud en la literatura de optimización basada en simulación ). [17] Se han utilizado métodos de búsqueda de políticas en el contexto de la robótica . [18] Muchos métodos de búsqueda de políticas pueden quedarse atascados en los óptimos locales (ya que se basan en la búsqueda local ).
Una gran clase de métodos evita depender de la información del gradiente. Estos incluyen recocido simulado , búsqueda de entropía cruzada o métodos de cálculo evolutivo . Muchos métodos sin gradientes pueden lograr (en teoría y en el límite) un óptimo global.
Los métodos de búsqueda de políticas pueden converger lentamente dados los datos ruidosos. Por ejemplo, esto ocurre en problemas episódicos cuando las trayectorias son largas y la varianza de los retornos es grande. Los métodos basados en funciones de valor que se basan en diferencias temporales pueden ayudar en este caso. En los últimos años, se han propuesto métodos de actor-crítico y se han desempeñado bien en varios problemas. [19]
Teoría
Se comprenden bien los comportamientos asintóticos y de muestra finita de la mayoría de los algoritmos. Se conocen algoritmos con un rendimiento en línea comprobablemente bueno (que abordan el problema de la exploración).
En Burnetas y Katehakis (1997) se ofrece una exploración eficiente de los MDP. [9] También han aparecido límites de rendimiento en tiempo finito para muchos algoritmos, pero se espera que estos límites sean bastante flexibles y, por lo tanto, se necesita más trabajo para comprender mejor las ventajas y limitaciones relativas.
Para los algoritmos incrementales, los problemas de convergencia asintótica se han resuelto [ aclaración necesaria ] . Los algoritmos basados en diferencias temporales convergen en un conjunto de condiciones más amplio de lo que era posible anteriormente (por ejemplo, cuando se utilizan con una aproximación de función uniforme y arbitraria).
Investigar
Los temas de investigación incluyen
- métodos adaptativos que funcionan con menos (o ningún) parámetros en una gran cantidad de condiciones
- abordar el problema de la exploración en grandes MDP
- combinaciones con marcos basados en lógica [20]
- evaluaciones empíricas a gran escala
- aprender y actuar bajo información parcial (p. ej., usando la representación predictiva del estado )
- aprendizaje por refuerzo modular y jerárquico [21]
- mejorar los métodos de búsqueda de políticas y función de valor existentes
- algoritmos que funcionan bien con espacios de acción grandes (o continuos)
- transferencia de aprendizaje [22]
- el aprendizaje permanente
- planificación eficiente basada en muestras (por ejemplo, basada en la búsqueda de árboles de Monte Carlo ).
- detección de errores en proyectos de software [23]
- Motivación intrínseca que diferencia las conductas de búsqueda de información de tipo curiosidad de las conductas dirigidas a objetivos dependientes de la tarea (típicamente) mediante la introducción de una función de recompensa basada en la maximización de la información nueva [24] [25] [26]
- El modelado cognitivo mediante el aprendizaje por refuerzo se ha perseguido activamente en la psicología computacional [27].
- El aprendizaje por refuerzo distribuido o de múltiples agentes es un tema de interés. Las aplicaciones se están expandiendo. [28]
- Aprendizaje reforzado actor-crítico
- Se están investigando algoritmos de aprendizaje por refuerzo, como el aprendizaje TD, como modelo para el aprendizaje cerebral basado en la dopamina . En este modelo, las proyecciones dopaminérgicas de la sustancia negra a los ganglios basales funcionan como el error de predicción. El aprendizaje reforzado se ha utilizado como parte del modelo para el aprendizaje de habilidades humanas, especialmente en relación con la interacción entre el aprendizaje implícito y explícito en la adquisición de habilidades (la primera publicación sobre esta aplicación fue en 1995-1996). [29]
- Control centrado en el ocupante
- Trading algorítmico y ejecución óptima. [30]
Comparación de algoritmos de aprendizaje por refuerzo
Algoritmo | Descripción | Modelo | Política | Espacio de acción | Espacio de Estados | Operador |
---|---|---|---|---|---|---|
Monte Carlo | Cada visita a Montecarlo | Sin modelo | Ya sea | Discreto | Discreto | Muestra-medias |
Q-aprendizaje | Estado-acción-recompensa-estado | Sin modelo | Fuera de la política | Discreto | Discreto | Valor Q |
SARSA | Estado-acción-recompensa-estado-acción | Sin modelo | En política | Discreto | Discreto | Valor Q |
Q-learning - Lambda | Estado-acción-recompensa-estado con trazas de elegibilidad | Sin modelo | Fuera de la política | Discreto | Discreto | Valor Q |
SARSA - Lambda | Estado-acción-recompensa-estado-acción con trazas de elegibilidad | Sin modelo | En política | Discreto | Discreto | Valor Q |
DQN | Red Q profunda | Sin modelo | Fuera de la política | Discreto | Continuo | Valor Q |
DDPG | Gradiente de política determinista profundo | Sin modelo | Fuera de la política | Continuo | Continuo | Valor Q |
A3C | Algoritmo actor-crítico de ventaja asincrónica | Sin modelo | En política | Continuo | Continuo | Ventaja |
NAF | Q-Learning con funciones de ventaja normalizadas | Sin modelo | Fuera de la política | Continuo | Continuo | Ventaja |
TRPO | Optimización de la política de la región de confianza | Sin modelo | En política | Continuo | Continuo | Ventaja |
PPO | Optimización de políticas próximas | Sin modelo | En política | Continuo | Continuo | Ventaja |
TD3 | Gradiente de política determinista profundo retardado gemelo | Sin modelo | Fuera de la política | Continuo | Continuo | Valor Q |
SACO | Actor-crítico suave | Sin modelo | Fuera de la política | Continuo | Continuo | Ventaja |
Aprendizaje por refuerzo asociativo
Las tareas de aprendizaje por refuerzo asociativo combinan las facetas de las tareas de autómatas de aprendizaje estocástico y las tareas de clasificación de patrones de aprendizaje supervisado. En las tareas de aprendizaje por refuerzo asociativo, el sistema de aprendizaje interactúa en un circuito cerrado con su entorno. [31]
Aprendizaje por refuerzo profundo
Este enfoque amplía el aprendizaje por refuerzo mediante el uso de una red neuronal profunda y sin diseñar explícitamente el espacio de estados. [32] El trabajo de aprendizaje de juegos ATARI de Google DeepMind aumentó la atención al aprendizaje por refuerzo profundo o al aprendizaje por refuerzo de un extremo a otro . [33]
Aprendizaje por refuerzo inverso
En el aprendizaje por refuerzo inverso (IRL), no se proporciona ninguna función de recompensa. En cambio, la función de recompensa se infiere dado un comportamiento observado por un experto. La idea es imitar el comportamiento observado, que a menudo es óptimo o cercano al óptimo. [34]
Aprendizaje por refuerzo seguro
El Aprendizaje por refuerzo seguro (SRL) se puede definir como el proceso de políticas de aprendizaje que maximizan la expectativa de retorno en problemas en los que es importante garantizar un rendimiento razonable del sistema y / o respetar las restricciones de seguridad durante los procesos de aprendizaje y / o implementación. [35]
Ver también
- Aprendizaje de la diferencia temporal
- Q-aprendizaje
- Estado-acción-recompensa-estado-acción (SARSA)
- Juego ficticio
- Sistema clasificador de aprendizaje
- Control optimo
- Regímenes de tratamiento dinámicos
- Aprendizaje basado en errores
- Sistema de agentes múltiples
- Inteligencia artificial distribuida
- Motivación intrínseca
- Algoritmos genéticos
- aprendizaje de aprendizaje
Referencias
- ^ Hu, J .; Niu, H .; Carrasco, J .; Lennox, B .; Arvin, F. (2020). "Exploración autónoma de varios robots basados en Voronoi en entornos desconocidos a través del aprendizaje de refuerzo profundo" . Transacciones IEEE sobre tecnología vehicular . 69 (12): 14413-14423.
- ^ Kaelbling, Leslie P .; Littman, Michael L .; Moore, Andrew W. (1996). "Aprendizaje por refuerzo: una encuesta" . Revista de Investigación en Inteligencia Artificial . 4 : 237-285. arXiv : cs / 9605103 . doi : 10.1613 / jair.301 . S2CID 1708582 . Archivado desde el original el 20 de noviembre de 2001.
- ^ van Otterlo, M .; Wiering, M. (2012). Aprendizaje por refuerzo y procesos de decisión de Markov . Aprendizaje por refuerzo . Adaptación, aprendizaje y optimización. 12 . págs. 3-42. doi : 10.1007 / 978-3-642-27645-3_1 . ISBN 978-3-642-27644-6.
- ^ Russell, Stuart J .; Norvig, Peter (2010). Inteligencia artificial: un enfoque moderno (Tercera ed.). Upper Saddle River, Nueva Jersey. págs. 830, 831. ISBN 978-0-13-604259-4.
- ^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 de julio de 2012). "Base neural del aprendizaje por refuerzo y toma de decisiones" . Revisión anual de neurociencia . 35 (1): 287–308. doi : 10.1146 / annurev-neuro-062111-150512 . PMC 3490621 .
- ^ Xie, Zhaoming, et al. " ALLSTEPS: Aprendizaje guiado por el plan de estudios de las habilidades de Stepping Stone ". Foro de Gráficos por Computadora. Vol. 39. No. 8. 2020.
- ^ Sutton y Barto 1998 , Capítulo 11.
- ^ Gosavi, Abhijit (2003). Optimización basada en simulación: técnicas de optimización paramétrica y refuerzo . Serie de interfaces de investigación de operaciones / ciencias de la computación. Saltador. ISBN 978-1-4020-7454-7.
- ^ a b Burnetas, Apostolos N .; Katehakis, Michael N. (1997), "Políticas de adaptación óptimas para los procesos de decisión de Markov", Matemáticas de la investigación de operaciones , 22 : 222-255, doi : 10.1287 / moor.22.1.222
- ^ Tokic, Michel; Palm, Günther (2011), "Exploración basada en diferencias de valor: control adaptativo entre Epsilon-Greedy y Softmax" (PDF) , KI 2011: Avances en inteligencia artificial , Lecture Notes in Computer Science, 7006 , Springer, págs. 335–346 , ISBN 978-3-642-24455-1
- ^ a b "Aprendizaje por refuerzo: una introducción" (PDF) .
- ^ Sutton, Richard S. (1984). Asignación temporal de créditos en aprendizaje reforzado (tesis doctoral). Universidad de Massachusetts, Amherst, MA.
- ^ Sutton y Barto 1998 , §6. Aprendizaje por diferencia temporal .
- ^ Bradtke, Steven J .; Barto, Andrew G. (1996). "Aprender a predecir por el método de las diferencias temporales". Aprendizaje automático . 22 : 33–57. CiteSeerX 10.1.1.143.857 . doi : 10.1023 / A: 1018056104778 . S2CID 20327856 .
- ^ Watkins, Christopher JCH (1989). Aprender de las recompensas retrasadas (PDF) (tesis doctoral). King's College, Cambridge, Reino Unido.
- ^ Williams, Ronald J. (1987). "Una clase de algoritmos de estimación de gradientes para el aprendizaje por refuerzo en redes neuronales". Actas de la Primera Conferencia Internacional IEEE sobre Redes Neuronales . CiteSeerX 10.1.1.129.8871 .
- ^ Peters, Jan ; Vijayakumar, Sethu ; Schaal, Stefan (2003). "Aprendizaje por refuerzo para la robótica humanoide" (PDF) . Conferencia internacional IEEE-RAS sobre robots humanoides .
- ^ Deisenroth, Marc Peter ; Neumann, Gerhard ; Peters, enero (2013). Una encuesta sobre la búsqueda de políticas para la robótica (PDF) . Fundamentos y Tendencias en Robótica. 2 . NOW Publishers. págs. 1-142. doi : 10.1561 / 2300000021 . hdl : 10044/1/12051 .
- ^ Juliani, Arthur (17 de diciembre de 2016). "Aprendizaje por refuerzo simple con Tensorflow Parte 8: Agentes actor-crítico asincrónicos (A3C)" . Medio . Consultado el 22 de febrero de 2018 .
- ^ Riveret, Regis; Gao, Yang (2019). "Un marco de argumentación probabilística para agentes de aprendizaje por refuerzo". Agentes autónomos y sistemas multiagente . 33 (1–2): 216–274. doi : 10.1007 / s10458-019-09404-2 . S2CID 71147890 .
- ^ Kulkarni, Tejas D .; Narasimhan, Karthik R .; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Aprendizaje jerárquico de refuerzo profundo: integración de la abstracción temporal y la motivación intrínseca" . Actas de la 30ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'16. Estados Unidos: Curran Associates Inc .: 3682–3690. arXiv : 1604.06057 . Código bibliográfico : 2016arXiv160406057K . ISBN 978-1-5108-3881-9.
- ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). "Mapas autoorganizados para el almacenamiento y transferencia de conocimientos en el aprendizaje por refuerzo". Comportamiento adaptativo . 27 (2): 111-126. arXiv : 1811.08318 . doi : 10.1177 / 1059712318818568 . ISSN 1059-7123 . S2CID 53774629 .
- ^ "Sobre el uso del aprendizaje por refuerzo para probar la mecánica del juego: ACM - Computadoras en el entretenimiento" . cie.acm.org . Consultado el 27 de noviembre de 2018 .
- ^ Kaplan, F .; Oudeyer, P. (2004). "Maximizar el progreso del aprendizaje: un sistema de recompensa interno para el desarrollo". En Iida, F .; Pfeifer, R .; Aceros, L .; Kuniyoshi, Y. (eds.). Inteligencia artificial incorporada . Berlina; Heidelberg: Springer. págs. 259-270. doi : 10.1007 / 978-3-540-27833-7_19 .
- ^ Klyubin, A .; Polani, D .; Nehaniv, C. (2008). "Mantenga sus opciones abiertas: un principio de conducción basado en la información para los sistemas sensoriomotores" . PLOS ONE . 3 (12): e4018. doi : 10.1371 / journal.pone.0004018 .
- ^ Barto, AG (2013). "Motivación intrínseca y aprendizaje por refuerzo". Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales . Berlina; Heidelberg: Springer. págs. 17–47.
- ^ Sun, R .; Merrill, E .; Peterson, T. (2001). "De las habilidades implícitas al conocimiento explícito: un modelo de abajo hacia arriba de aprendizaje de habilidades" . Ciencia cognitiva . 25 (2): 203–244. doi : 10.1207 / s15516709cog2502_2 .
- ^ "Aprendizaje por refuerzo / Éxitos del aprendizaje por refuerzo" . umichrl.pbworks.com . Consultado el 6 de agosto de 2017 .
- ^ [1] Archivado el 26 de abril de 2017 en la Wayback Machine.
- ^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "Ejecución profunda - Aprendizaje de refuerzo basado en políticas y valor para negociar y superar los puntos de referencia del mercado" . The Journal of Machine Learning in Finance . 1 .
- ^ Soucek, Branko. Programación dinámica, genética y caótica: la serie de tecnología informática de sexta generación . John Wiley & Sons, Inc. pág. 38. ISBN 0-471-55717-X.
- ^ Francois-Lavet, Vincent; et al. (2018). "Una introducción al aprendizaje por refuerzo profundo". Fundamentos y Tendencias en Machine Learning . 11 (3–4): 219–354. arXiv : 1811.12560 . Código bibliográfico : 2018arXiv181112560F . doi : 10.1561 / 2200000071 . S2CID 54434537 .
- ^ Mnih, Volodymyr; et al. (2015). "Control a nivel humano a través del aprendizaje por refuerzo profundo" . Naturaleza . 518 (7540): 529–533. Código bibliográfico : 2015Natur.518..529M . doi : 10.1038 / nature14236 . PMID 25719670 . S2CID 205242740 .
- ^ Ng, AY; Russell, SJ (2000). "Algoritmos para el aprendizaje por refuerzo inverso" (PDF) . Proceeding ICML '00 Proceedings of the 17th International Conference on Machine Learning . págs. 663–670. ISBN 1-55860-707-2.
- ^ Horie, Naoto; Matsui, Tohgoroh; Moriyama, Koichi; Mutoh, Atsuko; Inuzuka, Nobuhiro (18 de enero de 2019). "Aprendizaje por refuerzo seguro multiobjetivo" . Vida artificial y robótica . doi : 10.1007 / s10015-019-00524-2 . ISSN 1433-5298 .
Otras lecturas
- Auer, Peter ; Jaksch, Thomas; Ortner, Ronald (2010). "Límites de arrepentimiento casi óptimos para el aprendizaje por refuerzo" . Revista de investigación sobre aprendizaje automático . 11 : 1563-1600.
- Busoniu, Lucian; Babuska, Robert; De Schutter, Bart ; Ernst, Damien (2010). Aprendizaje por refuerzo y programación dinámica mediante aproximadores de funciones . Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
- François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G .; Pineau, Joelle (2018). "Una introducción al aprendizaje por refuerzo profundo". Fundamentos y Tendencias en Machine Learning . 11 (3–4): 219–354. arXiv : 1811.12560 . Código bibliográfico : 2018arXiv181112560F . doi : 10.1561 / 2200000071 . S2CID 54434537 .
- Powell, Warren (2007). Programación dinámica aproximada: resolviendo las maldiciones de la dimensionalidad . Wiley-Interscience. ISBN 978-0-470-17155-4.
- Sutton, Richard S .; Barto, Andrew G. (2018). Aprendizaje por refuerzo: una introducción (2 ed.). Prensa del MIT. ISBN 978-0-262-03924-6.
- Sutton, Richard S. (1988). "Aprendiendo a predecir por el método de las diferencias temporales" . Aprendizaje automático . 3 : 9–44. doi : 10.1007 / BF00115009 .
- Szita, Istvan; Szepesvari, Csaba (2010). "Aprendizaje por refuerzo basado en modelos con límites de complejidad de exploración casi estrictos" (PDF) . ICML 2010 . Omnipress. págs. 1031–1038. Archivado desde el original (PDF) el 14 de julio de 2010.
enlaces externos
- Repositorio de aprendizaje reforzado
- Aprendizaje reforzado e inteligencia artificial (RLAI, laboratorio de Rich Sutton en la Universidad de Alberta )
- Laboratorio de aprendizaje autónomo (ALL, el laboratorio de Andrew Barto en la Universidad de Massachusetts Amherst )
- Aprendizaje por refuerzo híbrido
- Experimentos de aprendizaje por refuerzo del mundo real en la Universidad Tecnológica de Delft
- Conferencia Andrew Ng de la Universidad de Stanford sobre aprendizaje reforzado
- Disección de la serie de aprendizaje por refuerzo de publicaciones de blog sobre RL con código Python