En la teoría de la probabilidad , un modelo de recompensa de Markov o un proceso de recompensa de Markov es un proceso estocástico que extiende una cadena de Markov o una cadena de Markov de tiempo continuo agregando una tasa de recompensa a cada estado. Una variable adicional registra la recompensa acumulada hasta el momento actual. [1] Las características de interés en el modelo incluyen la recompensa esperada en un momento dado y el tiempo esperado para acumular una recompensa determinada. [2] El modelo aparece en el libro de Ronald A. Howard . [3] Los modelos se estudian a menudo en el contexto de los procesos de decisión de Markov. donde una estrategia de decisión puede afectar las recompensas recibidas.
La herramienta Verificador de modelos de recompensa de Markov se puede utilizar para calcular numéricamente las propiedades transitorias y estacionarias de los modelos de recompensa de Markov.
Cadena de Markov
Ver cadena de Markov
Cadena de Markov en tiempo continuo
La recompensa acumulada en un tiempo t se puede calcular numéricamente en el dominio del tiempo o evaluando el sistema hiperbólico lineal de ecuaciones que describen la recompensa acumulada utilizando métodos de transformación o métodos de diferencias finitas. [4]
Referencias
- ^ Begain, K .; Bolch, G .; Herold, H. (2001). "Antecedentes teóricos". Modelado de rendimiento práctico . pp. 9 . doi : 10.1007 / 978-1-4615-1387-2_2 . ISBN 978-1-4613-5528-1.
- ^ Li, QL (2010). "Procesos de recompensa de Markov". Computación constructiva en modelos estocásticos con aplicaciones . págs. 526–573. doi : 10.1007 / 978-3-642-11492-2_10 . ISBN 978-3-642-11491-5.
- ^ Howard, RA (1971). Sistemas probabilísticos dinámicos, Vol II: Semi-Markov y procesos de decisión . Nueva York: Wiley. ISBN 0471416657.
- ^ Reibman, A .; Smith, R .; Trivedi, K. (1989). "Análisis transitorio del modelo de recompensa de Markov y Markov: una descripción general de los enfoques numéricos" (PDF) . Revista europea de investigación operativa . 40 (2): 257. doi : 10.1016 / 0377-2217 (89) 90335-4 .