Función de valor


De Wikipedia, la enciclopedia libre
  (Redirigido desde la función Cost-to-go )
Saltar a navegación Saltar a búsqueda

La función de valor de un problema de optimización da el valor alcanzado por la función objetivo en una solución, mientras que solo depende de los parámetros del problema. [1] [2] En un sistema dinámico controlado , la función de valor representa el pago óptimo del sistema en el intervalo [t, t 1 ] cuando se inicia en el tiempo t variable de estado x (t) = x . [3] Si la función objetivo representa algún costo que debe minimizarse, la función de valor se puede interpretar como el costo para terminar el programa óptimo y, por lo tanto, se denomina "función de costo para llevar". [4] [5] En un contexto económico, donde la función objetivo generalmente representa la utilidad , la función de valor es conceptualmente equivalente a la función de utilidad indirecta . [6] [7]

En un problema de control óptimo , la función de valor se define como el supremo de la función objetivo asumida sobre el conjunto de controles admisibles. Dado , un problema típico de control óptimo es

sujeto a

con variable de estado inicial . [8] La función objetivo debe maximizarse en todos los controles admisibles , donde es una función medible de Lebesgue desde un conjunto arbitrario prescrito . La función de valor se define entonces como

con , donde es el valor de desecho . Si el par óptimo de trayectorias de control y estado es , entonces . La función que proporciona el control óptimo en función del estado actual se denomina política de control de retroalimentación [4] o simplemente función de política. [9]

El principio de optimalidad de Bellman establece aproximadamente que cualquier política óptima en el momento , tomando el estado actual como una condición inicial "nueva", debe ser óptima para el problema restante. Si la función de valor es continuamente diferenciable , [10] esto da lugar a una importante ecuación diferencial parcial conocida como ecuación de Hamilton-Jacobi-Bellman ,

donde el maximando en el lado derecho también puede ser re-escrito como el de Hamilton , como

con jugar el papel de las variables de costa . [11] Dada esta definición, además tenemos , y después de diferenciar ambos lados de la ecuación HJB con respecto a ,

que luego de reemplazar los términos apropiados recupera la ecuación de costate

donde es la notación de Newton para la derivada con respecto al tiempo. [12]

La función de valor es la solución de viscosidad única para la ecuación de Hamilton – Jacobi – Bellman. [13] En un control óptimo aproximado de bucle cerrado en línea , la función de valor es también una función de Lyapunov que establece la estabilidad asintótica global del sistema de bucle cerrado. [14]

Referencias

  1. ^ Fleming, Wendell H .; Rishel, Raymond W. (1975). Control óptimo determinista y estocástico . Nueva York: Springer. págs. 81–83. ISBN 0-387-90155-8.
  2. ^ Caputo, Michael R. (2005). Fundamentos del análisis económico dinámico: teoría y aplicaciones del control óptimo . Nueva York: Cambridge University Press. pag. 185. ISBN 0-521-60368-4.
  3. ^ Weber, Thomas A. (2011). Teoría del control óptimo: con aplicaciones en economía . Cambridge: The MIT Press. pag. 82. ISBN 978-0-262-01573-8.
  4. ↑ a b Bertsekas, Dimitri P .; Tsitsiklis, John N. (1996). Programación neurodinámica . Belmont: Athena Scientific. pag. 2. ISBN 1-886529-10-8.
  5. ^ "EE365: Programación dinámica" (PDF) .
  6. ^ Mas-Colell, Andreu ; Whinston, Michael D .; Green, Jerry R. (1995). Teoría microeconómica . Nueva York: Oxford University Press. pag. 964. ISBN 0-19-507340-1.
  7. Corbae, Dean; Stinchcombe, Maxwell B .; Zeman, Juraj (2009). Introducción al análisis matemático para la teoría económica y la econometría . Prensa de la Universidad de Princeton. pag. 145. ISBN 978-0-691-11867-3.
  8. ^ Kamien, Morton I .; Schwartz, Nancy L. (1991). Optimización dinámica: el cálculo de variaciones y el control óptimo en economía y gestión (2ª ed.). Amsterdam: Holanda Septentrional. pag. 259. ISBN 0-444-01609-0.
  9. ^ Ljungqvist, Lars ; Sargent, Thomas J. (2018). Teoría macroeconómica recursiva (Cuarta ed.). Cambridge: MIT Press. pag. 106. ISBN 978-0-262-03866-9.
  10. Benveniste y Scheinkman establecieron condiciones suficientes para la diferenciabilidad de la función de valor, que a su vez permite la aplicación del teorema de la envolvente , ver Benveniste, LM; Scheinkman, JA (1979). "Sobre la diferenciabilidad de la función de valor en modelos dinámicos de economía". Econometrica . 47 (3): 727–732. doi : 10.2307 / 1910417 . JSTOR 1910417 . Véase también Seierstad, Atle (1982). "Propiedades de diferenciabilidad de la función de valor óptimo en la teoría de control". Revista de Control y Dinámica Económica . 4 : 303–310. doi : 10.1016 / 0165-1889 (82) 90019-7 .
  11. ^ Kirk, Donald E. (1970). Teoría del control óptimo . Englewood Cliffs, Nueva Jersey: Prentice-Hall. pag. 88. ISBN 0-13-638098-0.
  12. ^ Zhou, XY (1990). "Principio máximo, programación dinámica y su conexión en el control determinista". Revista de teoría y aplicaciones de la optimización . 65 (2): 363–373. doi : 10.1007 / BF01102352 . S2CID 122333807 . 
  13. ^ Teorema 10.1 en Bressan, Alberto (2019). "Soluciones de viscosidad de ecuaciones de Hamilton-Jacobi y problemas de control óptimo" (PDF) . Notas de la conferencia .
  14. ^ Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). "Control óptimo y estabilidad de Lyapunov" . Aprendizaje por refuerzo para un control óptimo de la retroalimentación: un enfoque basado en Lyapunov . Berlín: Springer. págs. 26-27. ISBN 978-3-319-78383-3.

Otras lecturas

  • Caputo, Michael R. (2005). "Condiciones necesarias y suficientes para problemas isoperimétricos" . Fundamentos del análisis económico dinámico: teoría y aplicaciones del control óptimo . Nueva York: Cambridge University Press. págs. 174–210. ISBN 0-521-60368-4.
  • Clarke, Frank H .; Loewen, Philip D. (1986). "La función de valor en el control óptimo: sensibilidad, controlabilidad y tiempo óptimo". Revista SIAM de Control y Optimización . 24 (2): 243–263. doi : 10.1137 / 0324014 .
  • LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). "El teorema de la envolvente en la optimización dinámica" (PDF) . Revista de Control y Dinámica Económica . 15 (2): 355–385. doi : 10.1016 / 0165-1889 (91) 90018-V .
  • Stengel, Robert F. (1994). "Condiciones para la Optimidad" . Control y estimación óptimos . Nueva York: Dover. págs. 201–222. ISBN 0-486-68200-5.
Obtenido de " https://en.wikipedia.org/w/index.php?title=Value_function&oldid=996316523 "