En el aprendizaje por refuerzo (RL), un algoritmo sin modelo (a diferencia de uno basado en modelo ) es un algoritmo que no utiliza la distribución de probabilidad de transición (y la función de recompensa ) asociada con el proceso de decisión de Markov (MDP), [ 1] que, en RL, representa el problema a resolver. La distribución de probabilidad de transición (o modelo de transición) y la función de recompensa a menudo se denominan colectivamente el "modelo" del entorno (o MDP), de ahí el nombre "sin modelo". Un algoritmo RL sin modelo se puede considerar como un algoritmo de prueba y error "explícito" . [1] Un ejemplo de algoritmo sin modelo es Q-learning..
Algoritmos clave de aprendizaje por refuerzo 'sin modelos'
Algoritmo | Descripción | Modelo | Política | Espacio de acción | Espacio de Estados | Operador |
---|---|---|---|---|---|---|
DQN | Red Q profunda | Sin modelo | Fuera de la política | Discreto | Continuo | Valor Q |
DDPG | Gradiente de política determinista profundo | Sin modelo | Fuera de la política | Continuo | Continuo | Valor Q |
A3C | Algoritmo actor-crítico de ventaja asincrónica | Sin modelo | En política | Continuo | Continuo | Ventaja |
TRPO | Optimización de la política de la región de confianza | Sin modelo | En política | Continuo | Continuo | Ventaja |
PPO | Optimización de políticas próximas | Sin modelo | En política | Continuo | Continuo | Ventaja |
TD3 | Gradiente de política determinista profundo retardado gemelo | Sin modelo | Fuera de la política | Continuo | Continuo | Valor Q |
SACO | Actor-crítico suave | Sin modelo | Fuera de la política | Continuo | Continuo | Ventaja |
Referencias
- ↑ a b Sutton, Richard S .; Barto, Andrew G. (13 de noviembre de 2018). Aprendizaje por refuerzo: una introducción (PDF) (Segunda ed.). Un libro de Bradford. pag. 552. ISBN 0262039249. Consultado el 18 de febrero de 2019 .