Función de valor

La función de valor de un problema de optimización da el valor alcanzado por la función objetivo en una solución, mientras que solo depende de los parámetros del problema. ^[1]^[2] En un sistema dinámico controlado , la función de valor representa el pago óptimo del sistema en el intervalo [t, t ₁ ] cuando se inicia en el tiempo t variable de estado x (t) = x . ^[3] Si la función objetivo representa algún costo que debe minimizarse, la función de valor se puede interpretar como el costo para terminar el programa óptimo y, por lo tanto, se denomina "función de costo para llevar". ^[4]^[5] En un contexto económico, donde la función objetivo generalmente representa la utilidad , la función de valor es conceptualmente equivalente a la función de utilidad indirecta . ^[6]^[7]

En un problema de control óptimo , la función de valor se define como el supremo de la función objetivo asumida sobre el conjunto de controles admisibles. Dado ${\ Displaystyle (t_ {0}, x_ {0}) \ in [0, t_ {1}] \ times \ mathbb {R} ^ {d}}$ , un problema típico de control óptimo es

{\ Displaystyle {\ text {maximizar}} \ quad J (t_ {0}, x_ {0}; u) = \ int _ {t_ {0}} ^ {t_ {1}} I (t, x (t ), u (t)) \, \ mathrm {d} t + \ phi (x (t_ {1}))}

sujeto a

{\ Displaystyle {\ frac {\ mathrm {d} x (t)} {\ mathrm {d} t}} = f (t, x (t), u (t))}

con variable de estado inicial ${\ Displaystyle x (t_ {0}) = x_ {0}}$ . ^[8] La función objetivo ${\ Displaystyle J (t_ {0}, x_ {0}; u)}$ debe maximizarse sobre todos los controles admisibles ${\ Displaystyle u \ en U [t_ {0}, t_ {1}]}$ , dónde ${\ Displaystyle u}$ es una función medible de Lebesgue de ${\ Displaystyle [t_ {0}, t_ {1}]}$ a un conjunto arbitrario prescrito en ${\ Displaystyle \ mathbb {R} ^ {m}}$ . La función de valor se define entonces como

${\ Displaystyle V (t, x (t)) = \ max _ {u \ in U} \ int _ {t} ^ {t_ {1}} I (\ tau, x (\ tau), u (\ tau )) \, \ mathrm {d} \ tau + \ phi (x (t_ {1}))}$

con ${\ Displaystyle V (t_ {1}, x (t_ {1})) = \ phi (x (t_ {1}))}$ , dónde ${\ Displaystyle \ phi (x (t_ {1}))}$ es el valor de desecho . Si el par óptimo de trayectorias de control y estado es ${\ Displaystyle (x ^ {\ ast}, u ^ {\ ast})}$ , luego ${\ Displaystyle V (t_ {0}, x_ {0}) = J (t_ {0}, x_ {0}; u ^ {\ ast})}$ . La función ${\ Displaystyle h}$ que da el control optimo ${\ Displaystyle u ^ {\ ast}}$ basado en el estado actual ${\ Displaystyle x}$ se denomina política de control de retroalimentación, ^[4] o simplemente una función de política. ^[9]

El principio de optimalidad de Bellman establece aproximadamente que cualquier política óptima en un momento ${\ Displaystyle t}$ , ${\ Displaystyle t_ {0} \ leq t \ leq t_ {1}}$ tomando el estado actual ${\ Displaystyle x (t)}$ ya que la condición inicial "nueva" debe ser óptima para el problema restante. Si la función de valor es continuamente diferenciable , ^[10] esto da lugar a una importante ecuación diferencial parcial conocida como ecuación de Hamilton-Jacobi-Bellman ,

{\ Displaystyle - {\ frac {\ V parcial (t, x)} {\ parcial t}} = \ max _ {u} \ izquierda \ {I (t, x, u) + {\ frac {\ V parcial (t, x)} {\ parcial x}} f (t, x, u) \ derecha \}}

donde el máximo en el lado derecho también se puede reescribir como el hamiltoniano , ${\ Displaystyle H \ left (t, x, u, \ lambda \ right) = I (t, x, u) + \ lambda f (t, x, u)}$ , como

{\ Displaystyle - {\ frac {\ parcial V (t, x)} {\ parcial t}} = \ max _ {u} H (t, x, u, \ lambda)}

con ${\ Displaystyle \ V parcial (t, x) / \ Parcial x = \ lambda (t)}$ desempeñando el papel de las variables de costa . ^[11] Dada esta definición, además tenemos ${\ Displaystyle \ mathrm {d} \ lambda (t) / \ mathrm {d} t = \ parcial ^ {2} V (t, x) / \ parcial x \ parcial t + \ parcial ^ {2} V (t, x) / \ parcial x ^ {2} \ cdot f (x)}$ , y después de diferenciar ambos lados de la ecuación HJB con respecto a ${\ Displaystyle x}$ ,

{\ Displaystyle - {\ frac {\ parcial ^ {2} V (t, x)} {\ t parcial \ parcial x}} = {\ frac {\ parcial I} {\ parcial x}} + {\ frac { \ parcial ^ {2} V (t, x)} {\ parcial x ^ {2}}} f (x) + {\ frac {\ parcial V (t, x)} {\ parcial x}} {\ frac {\ parcial f (x)} {\ parcial x}}}

que luego de reemplazar los términos apropiados recupera la ecuación de costate

{\ Displaystyle - {\ dot {\ lambda}} (t) = {\ frac {\ parcial I} {\ parcial x}} + \ lambda (t) {\ frac {\ parcial f (x)} {\ parcial x}} = {\ frac {\ parcial H} {\ parcial x}}}

dónde ${\ Displaystyle {\ dot {\ lambda}} (t)}$ es la notación de Newton para la derivada con respecto al tiempo. ^[12]

La función de valor es la solución de viscosidad única para la ecuación de Hamilton – Jacobi – Bellman. ^[13] En un control óptimo aproximado de bucle cerrado en línea , la función de valor es también una función de Lyapunov que establece la estabilidad asintótica global del sistema de bucle cerrado. ^[14]

Referencias

^ Fleming, Wendell H .; Rishel, Raymond W. (1975). Control óptimo determinista y estocástico . Nueva York: Springer. págs. 81–83. ISBN 0-387-90155-8.
^ Caputo, Michael R. (2005). Fundamentos del análisis económico dinámico: teoría y aplicaciones del control óptimo . Nueva York: Cambridge University Press. pag. 185. ISBN 0-521-60368-4.
^ Weber, Thomas A. (2011). Teoría del control óptimo: con aplicaciones en economía . Cambridge: The MIT Press. pag. 82. ISBN 978-0-262-01573-8.
^ a b Bertsekas, Dimitri P .; Tsitsiklis, John N. (1996). Programación neurodinámica . Belmont: Athena Scientific. pag. 2. ISBN 1-886529-10-8.
^ "EE365: Programación dinámica" (PDF) .
^ Mas-Colell, Andreu ; Whinston, Michael D .; Green, Jerry R. (1995). Teoría microeconómica . Nueva York: Oxford University Press. pag. 964. ISBN 0-19-507340-1.
^ Corbae, Dean; Stinchcombe, Maxwell B .; Zeman, Juraj (2009). Introducción al análisis matemático para la teoría económica y la econometría . Prensa de la Universidad de Princeton. pag. 145. ISBN 978-0-691-11867-3.
^ Kamien, Morton I .; Schwartz, Nancy L. (1991). Optimización dinámica: el cálculo de variaciones y el control óptimo en economía y gestión (2ª ed.). Amsterdam: Holanda Septentrional. pag. 259. ISBN 0-444-01609-0.
^ Ljungqvist, Lars ; Sargent, Thomas J. (2018). Teoría macroeconómica recursiva (Cuarta ed.). Cambridge: MIT Press. pag. 106. ISBN 978-0-262-03866-9.
↑ Benveniste y Scheinkman establecieron condiciones suficientes para la diferenciabilidad de la función de valor, que a su vez permite la aplicación del teorema de la envolvente , ver Benveniste, LM; Scheinkman, JA (1979). "Sobre la diferenciabilidad de la función de valor en modelos dinámicos de economía". Econometrica . 47 (3): 727–732. doi : 10.2307 / 1910417 . JSTOR 1910417 . Ver también Seierstad, Atle (1982). "Propiedades de diferenciabilidad de la función de valor óptimo en la teoría de control". Revista de Control y Dinámica Económica . 4 : 303–310. doi : 10.1016 / 0165-1889 (82) 90019-7 .
^ Kirk, Donald E. (1970). Teoría del control óptimo . Englewood Cliffs, Nueva Jersey: Prentice-Hall. pag. 88. ISBN 0-13-638098-0.
^ Zhou, XY (1990). "Principio máximo, programación dinámica y su conexión en el control determinista". Revista de teoría y aplicaciones de la optimización . 65 (2): 363–373. doi : 10.1007 / BF01102352 . S2CID 122333807 .
^ Teorema 10.1 en Bressan, Alberto (2019). "Soluciones de viscosidad de ecuaciones de Hamilton-Jacobi y problemas de control óptimo" (PDF) . Notas de la conferencia .
^ Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). "Control óptimo y estabilidad de Lyapunov" . Aprendizaje por refuerzo para un control óptimo de la retroalimentación: un enfoque basado en Lyapunov . Berlín: Springer. págs. 26-27. ISBN 978-3-319-78383-3.

Otras lecturas

Caputo, Michael R. (2005). "Condiciones necesarias y suficientes para problemas isoperimétricos" . Fundamentos del análisis económico dinámico: teoría y aplicaciones del control óptimo . Nueva York: Cambridge University Press. págs. 174–210. ISBN 0-521-60368-4.
Clarke, Frank H .; Loewen, Philip D. (1986). "La función de valor en el control óptimo: sensibilidad, controlabilidad y tiempo óptimo". Revista SIAM de Control y Optimización . 24 (2): 243–263. doi : 10.1137 / 0324014 .
LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "El teorema de la envolvente en la optimización dinámica" (PDF) . Revista de Control y Dinámica Económica . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
Stengel, Robert F. (1994). "Condiciones para la Optimidad" . Control y estimación óptimos . Nueva York: Dover. págs. 201–222. ISBN 0-486-68200-5.

[1] Fleming, Wendell H .; Rishel, Raymond W. (1975). Control óptimo determinista y estocástico . Nueva York: Springer. págs. 81–83. ISBN 0-387-90155-8.

[2] Caputo, Michael R. (2005). Fundamentos del análisis económico dinámico: teoría y aplicaciones del control óptimo . Nueva York: Cambridge University Press. pag. 185. ISBN 0-521-60368-4.

[3] Weber, Thomas A. (2011). Teoría del control óptimo: con aplicaciones en economía . Cambridge: The MIT Press. pag. 82. ISBN 978-0-262-01573-8.

[Bertsekas_Tsitsiklis-4] Bertsekas, Dimitri P .; Tsitsiklis, John N. (1996). Programación neurodinámica . Belmont: Athena Scientific. pag. 2. ISBN 1-886529-10-8.

[5] "EE365: Programación dinámica" (PDF) .

[6] Mas-Colell, Andreu ; Whinston, Michael D .; Green, Jerry R. (1995). Teoría microeconómica . Nueva York: Oxford University Press. pag. 964. ISBN 0-19-507340-1.

[7] Corbae, Dean; Stinchcombe, Maxwell B .; Zeman, Juraj (2009). Introducción al análisis matemático para la teoría económica y la econometría . Prensa de la Universidad de Princeton. pag. 145. ISBN 978-0-691-11867-3.

[8] Kamien, Morton I .; Schwartz, Nancy L. (1991). Optimización dinámica: el cálculo de variaciones y el control óptimo en economía y gestión (2ª ed.). Amsterdam: Holanda Septentrional. pag. 259. ISBN 0-444-01609-0.

[9] Ljungqvist, Lars ; Sargent, Thomas J. (2018). Teoría macroeconómica recursiva (Cuarta ed.). Cambridge: MIT Press. pag. 106. ISBN 978-0-262-03866-9.

[10] Benveniste y Scheinkman establecieron condiciones suficientes para la diferenciabilidad de la función de valor, que a su vez permite la aplicación del teorema de la envolvente , ver Benveniste, LM; Scheinkman, JA (1979). "Sobre la diferenciabilidad de la función de valor en modelos dinámicos de economía". Econometrica . 47 (3): 727–732. doi : 10.2307 / 1910417 . JSTOR 1910417 . Ver también Seierstad, Atle (1982). "Propiedades de diferenciabilidad de la función de valor óptimo en la teoría de control". Revista de Control y Dinámica Económica . 4 : 303–310. doi : 10.1016 / 0165-1889 (82) 90019-7 .

[11] Kirk, Donald E. (1970). Teoría del control óptimo . Englewood Cliffs, Nueva Jersey: Prentice-Hall. pag. 88. ISBN 0-13-638098-0.

[12] Zhou, XY (1990). "Principio máximo, programación dinámica y su conexión en el control determinista". Revista de teoría y aplicaciones de la optimización . 65 (2): 363–373. doi : 10.1007 / BF01102352 . S2CID 122333807 .

[13] Teorema 10.1 en Bressan, Alberto (2019). "Soluciones de viscosidad de ecuaciones de Hamilton-Jacobi y problemas de control óptimo" (PDF) . Notas de la conferencia .

[14] Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). "Control óptimo y estabilidad de Lyapunov" . Aprendizaje por refuerzo para un control óptimo de la retroalimentación: un enfoque basado en Lyapunov . Berlín: Springer. págs. 26-27. ISBN 978-3-319-78383-3.

[1]