Sin modelo (aprendizaje por refuerzo)

En el aprendizaje por refuerzo (RL), un algoritmo sin modelo (a diferencia de uno basado en modelo ) es un algoritmo que no utiliza la distribución de probabilidad de transición (y la función de recompensa ) asociada con el proceso de decisión de Markov (MDP), ^{[ 1]} que, en RL, representa el problema a resolver. La distribución de probabilidad de transición (o modelo de transición) y la función de recompensa a menudo se denominan colectivamente el "modelo" del entorno (o MDP), de ahí el nombre "sin modelo". Un algoritmo RL sin modelo se puede considerar como un algoritmo de prueba y error "explícito" . ^[1] Un ejemplo de algoritmo sin modelo es Q-learning..

Algoritmos clave de aprendizaje por refuerzo 'sin modelos'

Algoritmo	Descripción	Modelo	Política	Espacio de acción	Espacio de Estados	Operador
DQN	Red Q profunda	Sin modelo	Fuera de la política	Discreto	Continuo	Valor Q
DDPG	Gradiente de política determinista profundo	Sin modelo	Fuera de la política	Continuo	Continuo	Valor Q
A3C	Algoritmo actor-crítico de ventaja asincrónica	Sin modelo	En política	Continuo	Continuo	Ventaja
TRPO	Optimización de la política de la región de confianza	Sin modelo	En política	Continuo	Continuo	Ventaja
PPO	Optimización de políticas próximas	Sin modelo	En política	Continuo	Continuo	Ventaja
TD3	Gradiente de política determinista profundo retardado gemelo	Sin modelo	Fuera de la política	Continuo	Continuo	Valor Q
SACO	Actor-crítico suave	Sin modelo	Fuera de la política	Continuo	Continuo	Ventaja

Referencias

↑ ^a ^b Sutton, Richard S .; Barto, Andrew G. (13 de noviembre de 2018). Aprendizaje por refuerzo: una introducción (PDF) (Segunda ed.). Un libro de Bradford. pag. 552. ISBN 0262039249. Consultado el 18 de febrero de 2019 .

[sutton2018-1] Sutton, Richard S .; Barto, Andrew G. (13 de noviembre de 2018). Aprendizaje por refuerzo: una introducción (PDF) (Segunda ed.). Un libro de Bradford. pag. 552. ISBN 0262039249. Consultado el 18 de febrero de 2019 .

[ 1]