En la teoría del control óptimo , la ecuación de Hamilton – Jacobi – Bellman ( HJB ) da una condición necesaria y suficiente para la optimización de un control con respecto a una función de pérdida . [1] Es, en general, una ecuación diferencial parcial no lineal en la función de valor , lo que significa que su solución es la función de valor en sí. Una vez que se conoce esta solución, se puede utilizar para obtener el control óptimo tomando el maximizador (o minimizador) del hamiltoniano involucrado en la ecuación HJB. [2] [3]
La ecuación es el resultado de la teoría de la programación dinámica que fue pionera en la década de 1950 por Richard Bellman y sus colaboradores. [4] [5] [6] La conexión con la ecuación de Hamilton-Jacobi de la física clásica fue dibujada por primera vez por Rudolf Kálmán . [7] En problemas de tiempo discreto , la ecuación en diferencia correspondiente se suele denominar ecuación de Bellman .
Si bien los problemas variacionales clásicos , como el problema de la braquistocrona , se pueden resolver mediante la ecuación de Hamilton-Jacobi-Bellman, [8] el método se puede aplicar a un espectro más amplio de problemas. Además, se puede generalizar a sistemas estocásticos , en cuyo caso la ecuación HJB es una ecuación diferencial parcial elíptica de segundo orden . [9] Sin embargo, un gran inconveniente es que la ecuación HJB admite soluciones clásicas solo para una función de valor suficientemente suave , lo que no está garantizado en la mayoría de las situaciones. En cambio, se requiere la noción de una solución de viscosidad , en la que los derivados convencionales se reemplazan por subderivadas (valoradas en conjunto) . [10]
Problemas de control óptimo
Considere el siguiente problema en el control óptimo determinista sobre el período de tiempo :
dónde es la función de tasa de costo escalar y es una función que da el valor del legado en el estado final, es el vector de estado del sistema, se supone dado, y por es el vector de control que estamos tratando de encontrar.
El sistema también debe estar sujeto a
dónde da el vector que determina la evolución física del vector de estado a lo largo del tiempo.
La ecuación diferencial parcial
Para este sistema simple (dejando ), la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es
sujeto a la condición terminal
El escalar desconocido En la ecuación diferencial parcial anterior está la función de valor de Bellman , que representa el costo incurrido al comenzar en el estado en el momento y controlando el sistema de manera óptima desde entonces hasta el momento .
Derivando la ecuación
Intuitivamente, la ecuación HJB se puede derivar de la siguiente manera. Sies la función óptima de costo para llevar (también llamada la 'función de valor'), luego, según el principio de optimalidad de Richard Bellman , yendo del tiempo t al t + dt , tenemos
Tenga en cuenta que la expansión de Taylor del primer término en el lado derecho es
dónde denota los términos de la expansión de Taylor de orden superior de uno de cada poco- o notación . Entonces si restamosde ambos lados, dividir por dt , y tomar el límite cuando dt se acerca a cero, obtenemos la ecuación HJB definida anteriormente.
Resolver la ecuación
La ecuación HJB generalmente se resuelve hacia atrás en el tiempo , comenzando desde y termina en . [ cita requerida ]
Cuando se resuelve en todo el espacio de estados y es continuamente diferenciable, la ecuación HJB es una condición necesaria y suficiente para un óptimo cuando el estado terminal no está restringido. [11] Si podemos resolver entonces podemos encontrar un control que consigue el mínimo coste.
En el caso general, la ecuación HJB no tiene una solución clásica (suave). Se han desarrollado varias nociones de soluciones generalizadas para cubrir tales situaciones, incluida la solución de viscosidad ( Pierre-Louis Lions y Michael Crandall ), [12] solución minimax ( Andrei Izmailovich Subbotin
) y otras.La programación dinámica aproximada ha sido introducida por DP Bertsekas y JN Tsitsiklis con el uso de redes neuronales artificiales ( perceptrones multicapa ) para aproximar la función de Bellman en general. [13] Esta es una estrategia de mitigación efectiva para reducir el impacto de la dimensionalidad al reemplazar la memorización del mapeo de funciones completo para todo el dominio del espacio con la memorización de los únicos parámetros de la red neuronal. En particular, para los sistemas de tiempo continuo, se introdujo un enfoque de programación dinámica aproximada que combina ambas iteraciones de políticas con redes neuronales. [14] En tiempo discreto, se introdujo un enfoque para resolver la ecuación HJB que combina iteraciones de valor y redes neuronales. [15]
Alternativamente, se ha demostrado que la optimización de suma de cuadrados puede producir una solución polinomial aproximada a la ecuación de Hamilton-Jacobi-Bellman arbitrariamente bien con respecto a lanorma. [dieciséis]
Extensión a problemas estocásticos
La idea de resolver un problema de control aplicando el principio de optimización de Bellman y luego trabajando hacia atrás en el tiempo una estrategia de optimización puede generalizarse a problemas de control estocásticos. Considere similar al anterior
ahora con el proceso estocástico para optimizar y la dirección. Al usar Bellman primero y luego expandircon la regla de Itô , se encuentra la ecuación estocástica HJB
dónde representa el operador de diferenciación estocástica , y sujeto a la condición terminal
Tenga en cuenta que la aleatoriedad ha desaparecido. En este caso una soluciónde este último no necesariamente resuelve el problema principal, es solo un candidato y se requiere un argumento de verificación adicional. Esta técnica se usa ampliamente en matemáticas financieras para determinar estrategias de inversión óptimas en el mercado (ver, por ejemplo, el problema de cartera de Merton ).
Aplicación al control de LQG
Como ejemplo, podemos ver un sistema con dinámica estocástica lineal y costo cuadrático. Si la dinámica del sistema está dada por
y el costo se acumula a una tasa , la ecuación HJB viene dada por
con acción óptima dada por
Suponiendo una forma cuadrática para la función de valor, obtenemos la ecuación de Riccati habitual para el hessiano de la función de valor, como es habitual para el control lineal-cuadrático-gaussiano .
Ver también
- Ecuación de Bellman , contraparte en tiempo discreto de la ecuación de Hamilton-Jacobi-Bellman.
- El principio máximo de Pontryagin , condición necesaria pero no suficiente para un óptimo, al maximizar un hamiltoniano , pero esto tiene la ventaja sobre HJB de que solo necesita ser satisfecho sobre la trayectoria única que se está considerando.
Referencias
- ^ Kirk, Donald E. (1970). Teoría del control óptimo: una introducción . Englewood Cliffs, Nueva Jersey: Prentice-Hall. págs. 86–90. ISBN 0-13-638098-0.
- ^ Yong, Jiongmin; Zhou, Xun Yu (1999). "Programación dinámica y ecuaciones HJB" . Controles estocásticos: sistemas hamiltonianos y ecuaciones HJB . Saltador. págs. 157–215 [pág. 163]. ISBN 0-387-98723-1.
- ^ Naidu, Desineni S. (2003). "La ecuación de Hamilton-Jacobi-Bellman" . Sistemas de control óptimos . Boca Ratón: CRC Press. págs. 277–283 [pág. 280]. ISBN 0-8493-0892-5.
- ^ Bellman, RE (1954). "Programación dinámica y un nuevo formalismo en el cálculo de variaciones" . Proc. Natl. Acad. Sci. 40 (4): 231-235. Código Bibliográfico : 1954PNAS ... 40..231B . doi : 10.1073 / pnas.40.4.231 . PMC 527981 . PMID 16589462 .
- ^ Bellman, RE (1957). Programación dinámica . Princeton, Nueva Jersey.
- ^ Bellman, R .; Dreyfus, S. (1959). "Una aplicación de la programación dinámica para la determinación de trayectorias óptimas de satélite". J. Br. Interplaneta. Soc . 17 : 78–83.
- ^ Kálmán, Rudolf E. (1963). "La teoría del control óptimo y el cálculo de variaciones". En Bellman, Richard (ed.). Técnicas de optimización matemática . Berkeley: Prensa de la Universidad de California. págs. 309–331. OCLC 1033974 .
- ^ Kemajou-Brown, Isabelle (2016). "Breve historia de la teoría del control óptimo y algunos desarrollos recientes". En Budzban, Gregory; Hughes, Harry Randolph; Schurz, Henri (eds.). Probabilidad en estructuras algebraicas y geométricas . Matemáticas contemporáneas. 668 . págs. 119–130. doi : 10.1090 / conm / 668/13400 . ISBN 9781470419455.
- ^ Chang, Fwu-Ranq (2004). Optimización estocástica en tiempo continuo . Cambridge, Reino Unido: Cambridge University Press. págs. 113-168. ISBN 0-521-83406-6.
- ^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Soluciones óptimas de control y viscosidad de las ecuaciones de Hamilton – Jacobi – Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.
- ^ Bertsekas, Dimitri P. (2005). Programación dinámica y control óptimo . Athena Scientific.
- ^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Soluciones óptimas de control y viscosidad de las ecuaciones de Hamilton-Jacobi-Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.
- ^ Bertsekas, Dimitri P .; Tsitsiklis, John N. (1996). Programación neurodinámica . Athena Scientific. ISBN 978-1-886529-10-6.
- ^ Abu-Khalaf, Murad; Lewis, Frank L. (2005). "Leyes de control casi óptimas para sistemas no lineales con actuadores de saturación utilizando un enfoque de red neuronal HJB". Automatica . 41 (5): 779–791. doi : 10.1016 / j.automatica.2004.11.034 .
- ^ Al-Tamimi, Asma; Lewis, Frank L .; Abu-Khalaf, Murad (2008). "Solución HJB no lineal de tiempo discreto utilizando programación dinámica aproximada: prueba de convergencia". Transacciones IEEE sobre sistemas, hombre y cibernética, parte B (cibernética) . 38 (4): 943–949. doi : 10.1109 / TSMCB.2008.926614 . PMID 18632382 . S2CID 14202785 .
- ^ Jones, Morgan; Peet, Matthew (2020). "Aproximación polinomial de funciones de valor y diseño de controlador no lineal con límites de rendimiento". arXiv : 2010.06828 . Cite journal requiere
|journal=
( ayuda )
Otras lecturas
- Bertsekas, Dimitri P. (2005). Programación dinámica y control óptimo . Athena Scientific.
- Pham, Huyên (2009). "El enfoque PDE clásico para la programación dinámica" . Optimización y control estocástico en tiempo continuo con aplicaciones financieras . Saltador. págs. 37–60. ISBN 978-3-540-89499-5.
- Stengel, Robert F. (1994). "Condiciones para la Optimidad" . Control y estimación óptimos . Nueva York: Dover. págs. 201–222. ISBN 0-486-68200-5.