Programación dinámica estocástica

Introducida originalmente por Richard E. Bellman en ( Bellman 1957 ), la programación dinámica estocástica es una técnica para modelar y resolver problemas de toma de decisiones bajo incertidumbre . Estrechamente relacionada con la programación estocástica y la programación dinámica , la programación dinámica estocástica representa el problema bajo escrutinio en la forma de una ecuación de Bellman . El objetivo es calcular una política que prescriba cómo actuar de manera óptima ante la incertidumbre.

Un ejemplo motivador: juego de apuestas

Un jugador tiene $ 2, se le permite jugar un juego de azar 4 veces y su objetivo es maximizar su probabilidad de terminar con al menos $ 6. Si el jugador apuesta $ ${\ Displaystyle b}$ en una jugada del juego, luego, con probabilidad de 0.4, gana el juego, recupera la apuesta inicial y aumenta su posición de capital en $ ${\ Displaystyle b}$ ; con probabilidad de 0.6, pierde el monto de la apuesta $ ${\ Displaystyle b}$ ; todas las jugadas son independientes por parejas . En cualquier juego del juego, el jugador no puede apostar más dinero del que tiene disponible al comienzo de ese juego. ^[1]

Se puede emplear programación dinámica estocástica para modelar este problema y determinar una estrategia de apuestas que, por ejemplo, maximice la probabilidad del jugador de obtener una riqueza de al menos $ 6 al final del horizonte de apuestas.

Tenga en cuenta que si no hay límite en la cantidad de juegos que se pueden jugar, el problema se convierte en una variante de la conocida paradoja de San Petersburgo .

Una estrategia de apuestas óptima que maximiza la probabilidad del jugador de obtener una riqueza de al menos $ 6 al final del horizonte de apuestas;

{\ Displaystyle b_ {t} (\ $ x)}

representa el monto de la apuesta para el juego

{\ Displaystyle t}

cuando el jugador tiene $

{\ Displaystyle x}

al comienzo de esa obra. Si la persona que toma las decisiones sigue esta política, con una probabilidad de 0.1984, obtendrá una riqueza de al menos $ 6.

Antecedentes formales

Considere un sistema discreto definido en ${\ Displaystyle n}$ etapas en las que cada etapa ${\ Displaystyle t = 1, \ ldots, n}$ Es caracterizado por

un estado inicial ${\ Displaystyle s_ {t} \ in S_ {t}}$ , dónde ${\ Displaystyle S_ {t}}$ es el conjunto de estados factibles al comienzo de la etapa ${\ Displaystyle t}$ ;
una variable de decisión ${\ Displaystyle x_ {t} \ in X_ {t}}$ , dónde ${\ Displaystyle X_ {t}}$ es el conjunto de acciones factibles en la etapa ${\ Displaystyle t}$ - tenga en cuenta que ${\ Displaystyle X_ {t}}$ puede ser una función del estado inicial ${\ Displaystyle s_ {t}}$ ;
una función de costo / recompensa inmediata ${\ Displaystyle p_ {t} (s_ {t}, x_ {t})}$ , que representa el costo / recompensa en la etapa ${\ Displaystyle t}$ Si ${\ Displaystyle s_ {t}}$ es el estado inicial y ${\ Displaystyle x_ {t}}$ la acción seleccionada;
una función de transición de estado ${\ Displaystyle g_ {t} (s_ {t}, x_ {t})}$ que lleva al sistema hacia el estado ${\ Displaystyle s_ {t + 1} = g_ {t} (s_ {t}, x_ {t})}$ .

Dejar ${\ Displaystyle f_ {t} (s_ {t})}$ representar el costo / recompensa óptimo obtenido al seguir una política óptima en etapas ${\ Displaystyle t, t + 1, \ ldots, n}$ . Sin pérdida de generalidad en lo que sigue, consideraremos un escenario de maximización de recompensas. En la programación dinámica determinista , uno suele tratar con ecuaciones funcionales que adoptan la siguiente estructura

{\ Displaystyle f_ {t} (s_ {t}) = \ max _ {x_ {t} \ in X_ {t}} \ {p_ {t} (s_ {t}, x_ {t}) + f_ {t +1} (s_ {t + 1}) \}}

dónde ${\ Displaystyle s_ {t + 1} = g_ {t} (s_ {t}, x_ {t})}$ y la condición de frontera del sistema es

{\ Displaystyle f_ {n} (s_ {n}) = \ max _ {x_ {n} \ in X_ {n}} \ {p_ {n} (s_ {n}, x_ {n}) \}.}

El objetivo es determinar el conjunto de acciones óptimas que maximizan ${\ Displaystyle f_ {1} (s_ {1})}$ . Dado el estado actual ${\ Displaystyle s_ {t}}$ y la acción actual ${\ Displaystyle x_ {t}}$ , sabemos con certeza la recompensa obtenida durante la etapa actual y, gracias a la función de transición de estado ${\ Displaystyle g_ {t}}$ - el estado futuro hacia el que transita el sistema.

En la práctica, sin embargo, incluso si conocemos el estado del sistema al comienzo de la etapa actual, así como la decisión tomada, el estado del sistema al comienzo de la etapa siguiente y la recompensa del período actual son a menudo variables aleatorias que solo se puede observar al final de la etapa actual.

La programación dinámica estocástica se ocupa de problemas en los que la recompensa del período actual y / o el estado del período siguiente son aleatorios, es decir, con sistemas estocásticos de varias etapas. El objetivo del tomador de decisiones es maximizar la recompensa esperada (descontada) durante un horizonte de planificación dado.

En su forma más general, los programas dinámicos estocásticos tratan con ecuaciones funcionales tomando la siguiente estructura

{\ displaystyle f_ {t} (s_ {t}) = \ max _ {x_ {t} \ in X_ {t} (s_ {t})} \ left \ {({\ text {recompensa esperada durante la etapa}} t \ mid s_ {t}, x_ {t}) + \ alpha \ sum _ {s_ {t + 1}} \ Pr (s_ {t + 1} \ mid s_ {t}, x_ {t}) f_ { t + 1} (s_ {t + 1}) \ right \}}

dónde

${\ Displaystyle f_ {t} (s_ {t})}$ es la recompensa máxima esperada que se puede obtener durante las etapas ${\ Displaystyle t, t + 1, \ ldots, n}$ , estado dado ${\ Displaystyle s_ {t}}$ al comienzo de la etapa ${\ Displaystyle t}$ ;
${\ Displaystyle x_ {t}}$ pertenece al conjunto ${\ Displaystyle X_ {t} (s_ {t})}$ de acciones factibles en etapa ${\ Displaystyle t}$ dado el estado inicial ${\ Displaystyle s_ {t}}$ ;
${\ Displaystyle \ alpha}$ es el factor de descuento ;
${\ Displaystyle \ Pr (s_ {t + 1} \ mid s_ {t}, x_ {t})}$ es la probabilidad condicional de que el estado al comienzo de la etapa ${\ Displaystyle t}$ es ${\ Displaystyle s_ {t + 1}}$ dado el estado actual ${\ Displaystyle s_ {t}}$ y acción seleccionada ${\ Displaystyle x_ {t}}$ .

El proceso de decisión de Markov representa una clase especial de programas dinámicos estocásticos en los que el proceso estocástico subyacente es un proceso estacionario que presenta la propiedad de Markov .

El juego de azar como programa dinámico estocástico

El juego de apuestas se puede formular como un programa dinámico estocástico de la siguiente manera: hay ${\ Displaystyle n = 4}$ juegos (es decir, etapas ) en el horizonte de planificación

el estado ${\ Displaystyle s}$ en período ${\ Displaystyle t}$ representa la riqueza inicial al comienzo del período ${\ Displaystyle t}$ ;
la acción dada el estado ${\ Displaystyle s}$ en período ${\ Displaystyle t}$ es el monto de la apuesta ${\ Displaystyle b}$ ;
la probabilidad de transición ${\ Displaystyle p_ {i, j} ^ {a}}$ del estado ${\ Displaystyle i}$ a estado ${\ Displaystyle j}$ cuando la acción ${\ Displaystyle a}$ se toma en estado ${\ Displaystyle i}$ se deriva fácilmente de la probabilidad de ganar (0,4) o perder (0,6) un juego.

Dejar ${\ Displaystyle f_ {t} (s)}$ será la probabilidad de que, al final del juego 4, el jugador tenga al menos $ 6, dado que tiene $ ${\ Displaystyle s}$ al comienzo del juego ${\ Displaystyle t}$ .

el beneficio inmediato incurrido si la acción ${\ Displaystyle b}$ se toma en estado ${\ Displaystyle s}$ viene dado por el valor esperado ${\ Displaystyle p_ {t} (s, b) = 0.4f_ {t + 1} (s + b) + 0.6f_ {t + 1} (sb)}$ .

Para derivar la ecuación funcional , defina ${\ Displaystyle b_ {t} (s)}$ como una apuesta que logra ${\ Displaystyle f_ {t} (s)}$ , luego al comienzo del juego ${\ Displaystyle t = 4}$

Si ${\ Displaystyle s <3}$ es imposible alcanzar la meta, es decir ${\ Displaystyle f_ {4} (s) = 0}$ por ${\ Displaystyle s <3}$ ;
Si ${\ Displaystyle s \ geq 6}$ se alcanza la meta, es decir ${\ Displaystyle f_ {4} (s) = 1}$ por ${\ Displaystyle s \ geq 6}$ ;
Si ${\ Displaystyle 3 \ leq s \ leq 5}$ el jugador debe apostar lo suficiente para alcanzar el objetivo, es decir ${\ Displaystyle f_ {4} (s) = 0.4}$ por ${\ Displaystyle 3 \ leq s \ leq 5}$ .

Para ${\ Displaystyle t <4}$ la ecuación funcional es ${\ Displaystyle f_ {t} (s) = \ max _ {b_ {t} (s)} \ {0.4f_ {t + 1} (s + b) + 0.6f_ {t + 1} (sb) \} }$ , dónde ${\ Displaystyle b_ {t} (s)}$ rangos en ${\ Displaystyle 0, ..., s}$ ; el objetivo es encontrar ${\ Displaystyle f_ {1} (2)}$ .

Dada la ecuación funcional, se puede obtener una política de apuestas óptima mediante algoritmos de recursión hacia adelante o hacia atrás, como se describe a continuación.

Métodos de solución

Los programas dinámicos estocásticos se pueden resolver de manera óptima mediante el uso de algoritmos de recursividad hacia atrás o hacia adelante . La memorización se emplea normalmente para mejorar el rendimiento. Sin embargo, al igual que la programación dinámica determinista, también su variante estocástica sufre la maldición de la dimensionalidad . Por esta razón , los métodos de solución aproximada se emplean típicamente en aplicaciones prácticas.

Recursividad hacia atrás

Dado un espacio de estado limitado, la recursividad hacia atrás ( Bertsekas 2000 ) comienza tabulando ${\ Displaystyle f_ {n} (k)}$ para cada estado posible ${\ Displaystyle k}$ perteneciente a la etapa final ${\ Displaystyle n}$ . Una vez que estos valores se tabulan, junto con las acciones óptimas dependientes del estado asociadas ${\ Displaystyle x_ {n} (k)}$ , es posible pasar al escenario ${\ Displaystyle n-1}$ y tabular ${\ Displaystyle f_ {n-1} (k)}$ para todos los estados posibles pertenecientes al escenario ${\ Displaystyle n-1}$ . El proceso continúa considerando al revés todas las etapas restantes hasta la primera. Una vez que se complete este proceso de tabulación, ${\ Displaystyle f_ {1} (s)}$ - el valor de una política óptima dado el estado inicial ${\ Displaystyle s}$ - así como la acción óptima asociada ${\ Displaystyle x_ {1} (s)}$ se puede recuperar fácilmente de la mesa. Dado que el cálculo avanza hacia atrás, está claro que la recursividad hacia atrás puede conducir al cálculo de un gran número de estados que no son necesarios para el cálculo de ${\ Displaystyle f_ {1} (s)}$ .

Ejemplo: juego de apuestas

Recursión hacia adelante

Dado el estado inicial ${\ Displaystyle s}$ del sistema al comienzo del período 1, la recursividad hacia adelante ( Bertsekas 2000 ) calcula ${\ Displaystyle f_ {1} (s)}$ ampliando progresivamente la ecuación funcional ( pase directo ). Esto implica llamadas recursivas para todos. ${\ Displaystyle f_ {t + 1} (\ cdot), f_ {t + 2} (\ cdot), \ ldots}$ que son necesarios para calcular un determinado ${\ Displaystyle f_ {t} (\ cdot)}$ . El valor de una política óptima y su estructura se recuperan a través de un ( pase hacia atrás ) en el que se resuelven estas llamadas recursivas suspendidas. Una diferencia clave con la recursividad hacia atrás es el hecho de que ${\ Displaystyle f_ {t}}$ se calcula solo para los estados que son relevantes para el cálculo de ${\ Displaystyle f_ {1} (s)}$ . La memorización se emplea para evitar volver a calcular los estados que ya se han considerado.

Ejemplo: juego de apuestas

Ilustraremos la recursividad hacia adelante en el contexto de la instancia de juego de Apuestas discutida anteriormente. Comenzamos el pase hacia adelante considerando ${\ displaystyle f_ {1} (2) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 1, 2, 3, 4}} \\\ hline 0 y 0. 4f_ {2} (2 + 0) + 0.6f_ {2} (2-0) \\ 1 y 0.4f_ {2} (2 + 1) + 0.6f_ {2} (2-1) \\ 2 y 0.4f_ { 2} (2 + 2) + 0.6f_ {2} (2-2) \\\ end {matriz}} \ right.}$

En este punto aún no hemos calculado ${\ Displaystyle f_ {2} (4), f_ {2} (3), f_ {2} (2), f_ {2} (1), f_ {2} (0)}$ , que son necesarios para calcular ${\ Displaystyle f_ {1} (2)}$ ; procedemos y calculamos estos elementos. Tenga en cuenta que ${\ Displaystyle f_ {2} (2 + 0) = f_ {2} (2-0) = f_ {2} (2)}$ , por lo tanto, se puede aprovechar la memorización y realizar los cálculos necesarios solo una vez.

Computación de ${\ Displaystyle f_ {2} (4), f_ {2} (3), f_ {2} (2), f_ {2} (1), f_ {2} (0)}$

${\ displaystyle f_ {2} (0) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 2,3,4}} \\\ hline 0 & 0.4f_ { 3} (0 + 0) + 0.6f_ {3} (0-0) \\\ end {array}} \ right.}$

${\ displaystyle f_ {2} (1) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 2,3,4}} \\\ hline 0 & 0.4f_ { 3} (1 + 0) + 0.6f_ {3} (1-0) \\ 1 y 0.4f_ {3} (1 + 1) + 0.6f_ {3} (1-1) \\\ end {array}} \derecho.}$

${\ displaystyle f_ {2} (2) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 2,3,4}} \\\ hline 0 & 0.4f_ { 3} (2 + 0) + 0.6f_ {3} (2-0) \\ 1 y 0.4f_ {3} (2 + 1) + 0.6f_ {3} (2-1) \\ 2 y 0.4f_ {3} (2 + 2) + 0.6f_ {3} (2-2) \\\ end {array}} \ right.}$

${\ displaystyle f_ {2} (3) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 2,3,4}} \\\ hline 0 & 0.4f_ { 3} (3 + 0) + 0.6f_ {3} (3-0) \\ 1 y 0.4f_ {3} (3 + 1) + 0.6f_ {3} (3-1) \\ 2 y 0.4f_ {3} (3 + 2) + 0.6f_ {3} (3-2) \\ 3 & 0.4f_ {3} (3 + 3) + 0.6f_ {3} (3-3) \\\ end {array}} \ right .}$

${\ displaystyle f_ {2} (4) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 2,3,4}} \\\ hline 0 & 0.4f_ { 3} (4 + 0) + 0.6f_ {3} (4-0) \\ 1 y 0.4f_ {3} (4 + 1) + 0.6f_ {3} (4-1) \\ 2 y 0.4f_ {3} (4 + 2) + 0.6f_ {3} (4-2) \ end {matriz}} \ right.}$

Ahora hemos calculado ${\ Displaystyle f_ {2} (k)}$ para todos ${\ Displaystyle k}$ que son necesarios para calcular ${\ Displaystyle f_ {1} (2)}$ . Sin embargo, esto ha llevado a recurrencias suspendidas adicionales que involucran ${\ Displaystyle f_ {3} (4), f_ {3} (3), f_ {3} (2), f_ {3} (1), f_ {3} (0)}$ . Procedemos y calculamos estos valores.

Computación de ${\ Displaystyle f_ {3} (4), f_ {3} (3), f_ {3} (2), f_ {3} (1), f_ {3} (0)}$

${\ displaystyle f_ {3} (0) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 3,4}} \\\ hline 0 y 0.4f_ {4} (0 + 0) + 0.6f_ {4} (0-0) \\\ end {array}} \ right.}$

${\ displaystyle f_ {3} (1) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 3,4}} \\\ hline 0 y 0.4f_ {4} (1 + 0) + 0.6f_ {4} (1-0) \\ 1 & 0.4f_ {4} (1 + 1) + 0.6f_ {4} (1-1) \\\ end {array}} \ right .}$

${\ displaystyle f_ {3} (2) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 3,4}} \\\ hline 0 y 0.4f_ {4} (2 + 0) + 0.6f_ {4} (2-0) \\ 1 y 0.4f_ {4} (2 + 1) + 0.6f_ {4} (2-1) \\ 2 y 0.4f_ {4} (2 +2) + 0.6f_ {4} (2-2) \\\ end {array}} \ right.}$

${\ displaystyle f_ {3} (3) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 3,4}} \\\ hline 0 y 0.4f_ {4} (3 + 0) + 0.6f_ {4} (3-0) \\ 1 y 0.4f_ {4} (3 + 1) + 0.6f_ {4} (3-1) \\ 2 y 0.4f_ {4} (3 +2) + 0.6f_ {4} (3-2) \\ 3 & 0.4f_ {4} (3 + 3) + 0.6f_ {4} (3-3) \\\ end {array}} \ right.}$

${\ displaystyle f_ {3} (4) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en períodos 3,4}} \\\ hline 0 y 0.4f_ {4} (4 + 0) + 0.6f_ {4} (4-0) \\ 1 y 0.4f_ {4} (4 + 1) + 0.6f_ {4} (4-1) \\ 2 y 0.4f_ {4} (4 +2) + 0.6f_ {4} (4-2) \ end {matriz}} \ right.}$

${\ displaystyle f_ {3} (5) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en los períodos 3,4}} \\\ hline 0 y 0.4f_ {4} (5 + 0) + 0.6f_ {4} (5-0) \\ 1 & 0.4f_ {4} (5 + 1) + 0.6f_ {4} (5-1) \ end {array}} \ right.}$

Dado que la etapa 4 es la última etapa de nuestro sistema, ${\ Displaystyle f_ {4} (\ cdot)}$ representan condiciones de contorno que se calculan fácilmente de la siguiente manera.

Condiciones de borde

${\ Displaystyle {\ begin {array} {ll} f_ {4} (0) = 0 & b_ {4} (0) = 0 \\ f_ {4} (1) = 0 & b_ {4} (1) = \ {0 , 1 \} \\ f_ {4} (2) = 0 & b_ {4} (2) = \ {0,1,2 \} \\ f_ {4} (3) = 0.4 & b_ {4} (3) = \ {3 \} \\ f_ {4} (4) = 0.4 & b_ {4} (4) = \ {2,3,4 \} \\ f_ {4} (5) = 0.4 & b_ {4} (5 ) = \ {1,2,3,4,5 \} \\ f_ {4} (d) = 1 & b_ {4} (d) = \ {0, \ ldots, d-6 \} {\ text {para }} d \ geq 6 \ end {matriz}}}$

En este punto es posible proceder y recuperar la póliza óptima y su valor mediante un retroceso que involucra, en un primer momento, la etapa 3

Pase hacia atrás que involucra ${\ Displaystyle f_ {3} (\ cdot)}$

${\ displaystyle f_ {3} (0) = \ min \ left \ {{\ begin {array} {rr} b & {\ text {probabilidad de éxito en períodos 3,4}} \\\ hline 0 y 0,4 (0) +0.6 (0) = 0 \\\ end {matriz}} \ right.}$

${\ Displaystyle f_ {3} (1) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 3,4}} & {\ mbox {max}} \\ \ hline 0 & 0.4 (0) +0.6 (0) = 0 & \ leftarrow b_ {3} (1) = 0 \\ 1 & 0.4 (0) +0.6 (0) = 0 & \ leftarrow b_ {3} (1) = 1 \\\ end {matriz}} \ right.}$

${\ displaystyle f_ {3} (2) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 3,4}} & {\ mbox {max}} \\ \ hline 0 y 0.4 (0) +0.6 (0) = 0 \\ 1 y 0.4 (0.4) +0.6 (0) = 0.16 & \ leftarrow b_ {3} (2) = 1 \\ 2 y 0.4 (0.4) +0.6 (0) = 0.16 & \ leftarrow b_ {3} (2) = 2 \\\ end {matriz}} \ right.}$

${\ displaystyle f_ {3} (3) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 3,4}} & {\ mbox {max}} \\ \ hline 0 y 0.4 (0.4) +0.6 (0.4) = 0.4 & \ leftarrow b_ {3} (3) = 0 \\ 1 & 0.4 (0.4) +0.6 (0) = 0.16 \\ 2 y 0.4 (0.4) +0.6 (0) = 0.16 \\ 3 & 0.4 (1) +0.6 (0) = 0.4 & \ leftarrow b_ {3} (3) = 3 \\\ end {array}} \ right.}$

${\ Displaystyle f_ {3} (4) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 3,4}} & {\ mbox {max}} \\ \ hline 0 & 0.4 (0.4) +0.6 (0.4) = 0.4 & \ leftarrow b_ {3} (4) = 0 \\ 1 & 0.4 (0.4) +0.6 (0.4) = 0.4 & \ leftarrow b_ {3} ( 4) = 1 \\ 2 & 0.4 (1) +0.6 (0) = 0.4 & \ leftarrow b_ {3} (4) = 2 \\\ end {array}} \ right.}$

${\ displaystyle f_ {3} (5) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 3,4}} & {\ mbox {max}} \\ \ hline 0 & 0.4 (0.4) +0.6 (0.4) = 0.4 \\ 1 & 0.4 (1) +0.6 (0.4) = 0.64 & \ leftarrow b_ {3} (5) = 1 \\\ end {array}} \derecho.}$

y luego la etapa 2.

Pase hacia atrás que involucra ${\ Displaystyle f_ {2} (\ cdot)}$

${\ displaystyle f_ {2} (0) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 2, 3, 4}} y {\ mbox {max}} \\\ hline 0 & 0.4 (0) +0.6 (0) = 0 & \ leftarrow b_ {2} (0) = 0 \\\ end {array}} \ right.}$

${\ displaystyle f_ {2} (1) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 2,3,4}} & {\ mbox {max}} \\\ hline 0 & 0.4 (0) +0.6 (0) = 0 \\ 1 & 0.4 (0.16) +0.6 (0) = 0.064 & \ leftarrow b_ {2} (1) = 1 \\\ end {matriz }}\derecho.}$

${\ displaystyle f_ {2} (2) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 2, 3, 4}} y {\ mbox {max}} \\\ hline 0 & 0.4 (0.16) +0.6 (0.16) = 0.16 & \ leftarrow b_ {2} (2) = 0 \\ 1 & 0.4 (0.4) +0.6 (0) = 0.16 & \ leftarrow b_ {2 } (2) = 1 \\ 2 & 0.4 (0.4) +0.6 (0) = 0.16 & \ leftarrow b_ {2} (2) = 2 \\\ end {array}} \ right.}$

${\ displaystyle f_ {2} (3) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 2, 3, 4}} y {\ mbox {max}} \\\ hline 0 & 0.4 (0.4) +0.6 (0.4) = 0.4 & \ leftarrow b_ {2} (3) = 0 \\ 1 & 0.4 (0.4) +0.6 (0.16) = 0.256 \\ 2 & 0.4 ( 0.64) +0.6 (0) = 0.256 \\ 3 & 0.4 (1) +0.6 (0) = 0.4 & \ leftarrow b_ {2} (3) = 3 \\\ end {array}} \ right.}$

${\ displaystyle f_ {2} (4) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 2, 3, 4}} y {\ mbox {max}} \\\ hline 0 y 0.4 (0.4) +0.6 (0.4) = 0.4 \\ 1 y 0.4 (0.64) +0.6 (0.4) = 0.496 & \ leftarrow b_ {2} (4) = 1 \\ 2 y 0.4 ( 1) +0,6 (0,16) = 0,496 & \ leftarrow b_ {2} (4) = 2 \\\ end {array}} \ right.}$

Finalmente recuperamos el valor ${\ Displaystyle f_ {1} (2)}$ de una política óptima

${\ displaystyle f_ {1} (2) = \ min \ left \ {{\ begin {array} {rrr} b & {\ text {probabilidad de éxito en los períodos 1,2,3,4}} & {\ mbox {max }} \\\ hline 0 & 0.4 (0.16) +0.6 (0.16) = 0.16 \\ 1 & 0.4 (0.4) +0.6 (0.064) = 0.1984 & \ leftarrow b_ {1} (2) = 1 \\ 2 & 0. 4 (0.496) +0.6 (0) = 0.1984 & \ leftarrow b_ {1} (2) = 2 \\\ end {array}} \ right.}$

Esta es la política óptima que se ha ilustrado anteriormente. Tenga en cuenta que hay varias políticas óptimas que conducen al mismo valor óptimo ${\ Displaystyle f_ {1} (2) = 0.1984}$ ; por ejemplo, en el primer juego se puede apostar $ 1 o $ 2.

Implementación de Python. El que sigue es una implementación Python completa de este ejemplo.

de  tipificación  de importación  de lista ,  tupla importación  memoize  como  mem importar  functools clase  memoize :   def  __init__ ( self ,  func ):  self . func  =  func  self . memoized  =  {}  self . method_cache  =  {}  def  __call__ ( self ,  * args ):  return  self . cache_get ( self . memoized ,  args ,  lambda :  self . func ( * args ))  def  __get__ ( self ,  obj ,  objtype ):  return  self . cache_get ( self . method_cache ,  obj ,  lambda :  self . __class__ ( funciones . parcial ( self . func ,  obj )))  def  cache_get ( self ,  cache ,  key ,  func ):  try :  return  cache [ key ]  excepto  KeyError :  cache [ key ]  =  func ()  return  cache [ key ]   def  reset ( self ):  self . memoized  =  {}  self . method_cache  =  {}  Estado de clase :  '' 'el estado del problema de ruina del jugador  ' '' def  __init__ ( self ,  t :  int ,  riqueza :  float ):  '' 'constructor del estado  Argumentos:  t {int} - período de tiempo  riqueza {float} - riqueza inicial  ' '' self . t , yo . riqueza = t , riqueza       def  __eq__ ( self ,  other ):  return  self . __dict__  ==  otro . __dict__ def  __str__ ( self ):  return  str ( self . t )  +  ""  +  str ( self . riqueza ) def  __hash__ ( self ):  return  hash ( str ( self ))clase  Jugadores Ruina : def  __init__ ( self ,  BettingHorizon : int ,  targetWealth :  float ,  pmf :  List [ List [ Tuple [ int ,  float ]]]):  '' 'el problema de la ruina del jugador  Argumentos:  BetHorizon {int} - horizonte de apuestas  targetWealth {float} - objetivo de riqueza  pmf {List [List [Tuple [int, float]]]} - función de masa de probabilidad  '' '  # inicializar las variables de instancia  self . BettingHorizon ,  self . targetWealth ,  uno mismo . pmf  =  BettingHorizon ,  targetWealth ,  pmf # lambdas  self . ag  =  lambda  s :  [ i  para  i  en  rango ( 0 ,  min ( self . targetWealth // 2 ,  s . riqueza )  +  1 )]  # generador de acciones  self . st  =  lambda  s ,  a ,  r :  Estado ( s . t  +  1 ,  s . riqueza  -  a  +  a * r )  # estado transición  self . iv  =  lambda  s ,  a ,  r :  1  si  s . riqueza  -  a  +  a * r  > =  yo . targetWealth  else  0  # función de valor inmediato yo . cache_actions  =  {}  # caché con pares de acción / estado óptimos def  f ( yo ,  riqueza :  flotar )  ->  flotar :  s  =  Estado ( 0 ,  riqueza )  retorno  yo . _f ( s ) def  q ( yo ,  t :  int ,  riqueza :  flotar )  ->  flotar :  s  =  Estado ( t ,  riqueza )  retorno  yo . cache_actions [ str ( s )] @memoize  def  _f ( self ,  s :  State )  ->  float :  #Recursión hacia adelante  v  =  max (  [ sum ([ p [ 1 ] * ( self . _f ( self . st ( s ,  a ,  p [ 0 ]))  if  s . t  <  self . BettingHorizon  -  1  else  self . iv ( s ,  a ,  p [ 0 ]))  # valor futuro  para  p  en  self . pmf [ s . t ]])  # realizaciones de variables aleatorias  para  a  en  self . ag ( s )])  # acciones opt_a  =  lambda  a :  sum ([ p [ 1 ] * ( self . _f ( self . st ( s ,  a ,  p [ 0 ]))  if  s . t  <  self . BettingHorizon  -  1  else  self . iv ( s ,  a ,  p [ 0 ]))  para  p  en  self . pmf [ s . t ]])  ==  v  q  =  [ k  para  k  en  filtro ( opt_a ,  self . ag ( s ))]  # recuperar la mejor lista de acciones  self . cache_actions [ str ( s )] = q [ 0 ]  if  bool ( q )  else  None  # almacena una acción en el diccionario  return  v  # valor de retornoinstancia  =  { "BettingHorizon" :  4 ,  "targetWealth" :  6 ,  "pmf" :  [[( 0 ,  0.6 ), ( 2 ,  0.4 )]  para  i  en el  rango ( 0 , 4 )]} gr ,  initial_wealth  =  GamblersRuin ( ** instancia ),  2# f_1 (x) es la probabilidad del jugador de alcanzar $ targetWealth al final de la apuestaHorizon print ( "f_1 (" + str ( initial_wealth ) + "):"  +  str ( gr . f ( initial_wealth ))) #Recupere la acción óptima para el período 2 cuando la riqueza inicial al comienzo del período 2 sea $ 1. t ,  riqueza_inicial  =  1 ,  1 print ( "b_" + str ( t + 1 ) + "(" + str ( riqueza_inicial ) + "):"  +  str ( gr . q ( t ,  riqueza_inicial )))

Implementación de Java. GamblersRuin.java es una implementación independiente de Java 8 del ejemplo anterior.

Programación dinámica aproximada

( Powell 2009 ) proporciona una introducción a la programación dinámica aproximada .

Otras lecturas

Bellman, R. (1957), Programación dinámica , Princeton University Press, ISBN 978-0-486-42809-3. Edición de bolsillo de Dover (2003).
Ross, SM; Bimbaum, ZW; Lukacs, E. (1983), Introducción a la programación dinámica estocástica , Elsevier, ISBN 978-0-12-598420-1.
Bertsekas, DP (2000), Programación dinámica y control óptimo (2a ed.), Athena Scientific, ISBN 978-1-886529-09-0. En dos tomos.
Powell, WB (2009), "Lo que debe saber sobre la programación dinámica aproximada", Logística de investigación naval , 56 (1): 239–249, CiteSeerX 10.1.1.150.1854 , doi : 10.1002 / nav.20347

Ver también

Referencias

^ Este problema está adaptado de WL Winston, Investigación de operaciones: Aplicaciones y algoritmos (7ª edición), Duxbury Press, 2003, cap. 19, ejemplo 3.

[1] Este problema está adaptado de WL Winston, Investigación de operaciones: Aplicaciones y algoritmos (7ª edición), Duxbury Press, 2003, cap. 19, ejemplo 3.

[1]