Ecuación de Hamilton – Jacobi – Bellman

En la teoría del control óptimo , la ecuación de Hamilton – Jacobi – Bellman ( HJB ) da una condición necesaria y suficiente para la optimización de un control con respecto a una función de pérdida . ^[1] Es, en general, una ecuación diferencial parcial no lineal en la función de valor , lo que significa que su solución es la función de valor en sí. Una vez que se conoce esta solución, se puede utilizar para obtener el control óptimo tomando el maximizador (o minimizador) del hamiltoniano involucrado en la ecuación HJB. ^[2]^[3]

La ecuación es el resultado de la teoría de la programación dinámica que fue pionera en la década de 1950 por Richard Bellman y sus colaboradores. ^[4]^[5]^[6] La conexión con la ecuación de Hamilton-Jacobi de la física clásica fue dibujada por primera vez por Rudolf Kálmán . ^[7] En problemas de tiempo discreto , la ecuación en diferencia correspondiente se suele denominar ecuación de Bellman .

Si bien los problemas variacionales clásicos , como el problema de la braquistocrona , se pueden resolver mediante la ecuación de Hamilton-Jacobi-Bellman, ^[8] el método se puede aplicar a un espectro más amplio de problemas. Además, se puede generalizar a sistemas estocásticos , en cuyo caso la ecuación HJB es una ecuación diferencial parcial elíptica de segundo orden . ^[9] Sin embargo, un gran inconveniente es que la ecuación HJB admite soluciones clásicas solo para una función de valor suficientemente suave , lo que no está garantizado en la mayoría de las situaciones. En cambio, se requiere la noción de una solución de viscosidad , en la que los derivados convencionales se reemplazan por subderivadas (valoradas en conjunto) . ^[10]

Problemas de control óptimo

Considere el siguiente problema en el control óptimo determinista sobre el período de tiempo ${\ Displaystyle [0, T]}$ :

{\ Displaystyle V_ {T} (x (0), 0) = \ min _ {u} \ left \ {\ int _ {0} ^ {T} C [x (t), u (t)] \, dt + D [x (T)] \ right \}}

dónde ${\ Displaystyle C [\ cdot]}$ es la función de tasa de costo escalar y ${\ Displaystyle D [\ cdot]}$ es una función que da el valor del legado en el estado final, ${\ Displaystyle x (t)}$ es el vector de estado del sistema, ${\ Displaystyle x (0)}$ se supone dado, y ${\ Displaystyle u (t)}$ por ${\ Displaystyle 0 \ leq t \ leq T}$ es el vector de control que estamos tratando de encontrar.

El sistema también debe estar sujeto a

{\ Displaystyle {\ dot {x}} (t) = F [x (t), u (t)] \,}

dónde ${\ Displaystyle F [\ cdot]}$ da el vector que determina la evolución física del vector de estado a lo largo del tiempo.

La ecuación diferencial parcial

Para este sistema simple (dejando ${\ Displaystyle V = V_ {T}}$ ), la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es

{\ Displaystyle {\ frac {\ V parcial (x, t)} {\ t parcial}} + \ min _ {u} \ izquierda \ {{\ frac {\ V parcial (x, t)} {\ x parcial }} \ cdot F (x, u) + C (x, u) \ right \} = 0}

sujeto a la condición terminal

{\ Displaystyle V (x, T) = D (x), \,}

El escalar desconocido ${\ Displaystyle V (x, t)}$ En la ecuación diferencial parcial anterior está la función de valor de Bellman , que representa el costo incurrido al comenzar en el estado ${\ Displaystyle x}$ en el momento ${\ Displaystyle t}$ y controlando el sistema de manera óptima desde entonces hasta el momento ${\ Displaystyle T}$ .

Derivando la ecuación

Intuitivamente, la ecuación HJB se puede derivar de la siguiente manera. Si ${\ Displaystyle V (x (t), t)}$ es la función óptima de costo para llevar (también llamada la 'función de valor'), luego, según el principio de optimalidad de Richard Bellman , yendo del tiempo t al t + dt , tenemos

{\ Displaystyle V (x (t), t) = \ min _ {u} \ left \ {V (x (t + dt), t + dt) + \ int _ {t} ^ {t + dt} C (x (s), u (s)) \, ds \ derecha \}.}

Tenga en cuenta que la expansión de Taylor del primer término en el lado derecho es

{\ Displaystyle V (x (t + dt), t + dt) = V (x (t), t) + {\ frac {\ parcial V (x, t)} {\ parcial t}} \, dt + { \ frac {\ parcial V (x, t)} {\ parcial x}} \ cdot {\ dot {x}} (t) \, dt + {\ mathcal {o}} (dt),}

dónde ${\ Displaystyle {\ mathcal {o}} (dt)}$ denota los términos de la expansión de Taylor de orden superior de uno de cada poco- o notación . Entonces si restamos ${\ Displaystyle V (x (t), t)}$ de ambos lados, dividir por dt , y tomar el límite cuando dt se acerca a cero, obtenemos la ecuación HJB definida anteriormente.

Resolver la ecuación

La ecuación HJB generalmente se resuelve hacia atrás en el tiempo , comenzando desde ${\ Displaystyle t = T}$ y termina en ${\ Displaystyle t = 0}$ . ^{[ cita requerida ]}

Cuando se resuelve en todo el espacio de estados y ${\ Displaystyle V (x)}$ es continuamente diferenciable, la ecuación HJB es una condición necesaria y suficiente para un óptimo cuando el estado terminal no está restringido. ^[11] Si podemos resolver ${\ Displaystyle V}$ entonces podemos encontrar un control ${\ Displaystyle u}$ que consigue el mínimo coste.

En el caso general, la ecuación HJB no tiene una solución clásica (suave). Se han desarrollado varias nociones de soluciones generalizadas para cubrir tales situaciones, incluida la solución de viscosidad ( Pierre-Louis Lions y Michael Crandall ), ^[12] solución minimax ( Andrei Izmailovich Subbotin [ ru ] ) y otras.

La programación dinámica aproximada ha sido introducida por DP Bertsekas y JN Tsitsiklis con el uso de redes neuronales artificiales ( perceptrones multicapa ) para aproximar la función de Bellman en general. ^[13] Esta es una estrategia de mitigación efectiva para reducir el impacto de la dimensionalidad al reemplazar la memorización del mapeo de funciones completo para todo el dominio del espacio con la memorización de los únicos parámetros de la red neuronal. En particular, para los sistemas de tiempo continuo, se introdujo un enfoque de programación dinámica aproximada que combina ambas iteraciones de políticas con redes neuronales. ^[14] En tiempo discreto, se introdujo un enfoque para resolver la ecuación HJB que combina iteraciones de valor y redes neuronales. ^[15]

Alternativamente, se ha demostrado que la optimización de suma de cuadrados puede producir una solución polinomial aproximada a la ecuación de Hamilton-Jacobi-Bellman arbitrariamente bien con respecto a la ${\ Displaystyle L ^ {1}}$ norma. ^[dieciséis]

Extensión a problemas estocásticos

La idea de resolver un problema de control aplicando el principio de optimización de Bellman y luego trabajando hacia atrás en el tiempo una estrategia de optimización puede generalizarse a problemas de control estocásticos. Considere similar al anterior

{\ Displaystyle \ min _ {u} \ mathbb {E} \ left \ {\ int _ {0} ^ {T} C (t, X_ {t}, u_ {t}) \, dt + D (X_ { T}) \ derecha \}}

ahora con ${\ Displaystyle (X_ {t}) _ {t \ in [0, T]} \, \!}$ el proceso estocástico para optimizar y ${\ Displaystyle (u_ {t}) _ {t \ in [0, T]} \, \!}$ la dirección. Al usar Bellman primero y luego expandir ${\ Displaystyle V (X_ {t}, t)}$ con la regla de Itô , se encuentra la ecuación estocástica HJB

{\ Displaystyle \ min _ {u} \ left \ {{\ mathcal {A}} V (x, t) + C (t, x, u) \ right \} = 0,}

dónde ${\ Displaystyle {\ mathcal {A}}}$ representa el operador de diferenciación estocástica , y sujeto a la condición terminal

{\ Displaystyle V (x, T) = D (x) \, \ !.}

Tenga en cuenta que la aleatoriedad ha desaparecido. En este caso una solución ${\ Displaystyle V \, \!}$ de este último no necesariamente resuelve el problema principal, es solo un candidato y se requiere un argumento de verificación adicional. Esta técnica se usa ampliamente en matemáticas financieras para determinar estrategias de inversión óptimas en el mercado (ver, por ejemplo, el problema de cartera de Merton ).

Aplicación al control de LQG

Como ejemplo, podemos ver un sistema con dinámica estocástica lineal y costo cuadrático. Si la dinámica del sistema está dada por

{\ Displaystyle dx_ {t} = (ax_ {t} + bu_ {t}) dt + \ sigma dw_ {t},}

y el costo se acumula a una tasa ${\ Displaystyle C (x_ {t}, u_ {t}) = r (t) u_ {t} ^ {2} / 2 + q (t) x_ {t} ^ {2} / 2}$ , la ecuación HJB viene dada por

{\ estilo de visualización - {\ frac {\ parcial V (x, t)} {\ parcial t}} = {\ frac {1} {2}} q (t) x ^ {2} + {\ frac {\ parcial V (x, t)} {\ Partical X}} ax - {\ frac {b ^ {2}} {2r (t)}} \ left ({\ frac {\ Particular V (x, t)} {\ parcial x}} \ derecha) ^ {2} + {\ frac {\ sigma ^ {2}} {2}} {\ frac {\ parcial ^ {2} V (x, t)} {\ parcial x ^ { 2}}}.}

con acción óptima dada por

{\ Displaystyle u_ {t} = - {\ frac {b} {r (t)}} {\ frac {\ parcial V (x, t)} {\ parcial x}}}

Suponiendo una forma cuadrática para la función de valor, obtenemos la ecuación de Riccati habitual para el hessiano de la función de valor, como es habitual para el control lineal-cuadrático-gaussiano .

Ver también

Ecuación de Bellman , contraparte en tiempo discreto de la ecuación de Hamilton-Jacobi-Bellman.
El principio máximo de Pontryagin , condición necesaria pero no suficiente para un óptimo, al maximizar un hamiltoniano , pero esto tiene la ventaja sobre HJB de que solo necesita ser satisfecho sobre la trayectoria única que se está considerando.

Referencias

^ Kirk, Donald E. (1970). Teoría del control óptimo: una introducción . Englewood Cliffs, Nueva Jersey: Prentice-Hall. págs. 86–90. ISBN 0-13-638098-0.
^ Yong, Jiongmin; Zhou, Xun Yu (1999). "Programación dinámica y ecuaciones HJB" . Controles estocásticos: sistemas hamiltonianos y ecuaciones HJB . Saltador. págs. 157–215 [pág. 163]. ISBN 0-387-98723-1.
^ Naidu, Desineni S. (2003). "La ecuación de Hamilton-Jacobi-Bellman" . Sistemas de control óptimos . Boca Ratón: CRC Press. págs. 277–283 [pág. 280]. ISBN 0-8493-0892-5.
^ Bellman, RE (1954). "Programación dinámica y un nuevo formalismo en el cálculo de variaciones" . Proc. Natl. Acad. Sci. 40 (4): 231-235. Código Bibliográfico : 1954PNAS ... 40..231B . doi : 10.1073 / pnas.40.4.231 . PMC 527981 . PMID 16589462 .
^ Bellman, RE (1957). Programación dinámica . Princeton, Nueva Jersey.
^ Bellman, R .; Dreyfus, S. (1959). "Una aplicación de la programación dinámica para la determinación de trayectorias óptimas de satélite". J. Br. Interplaneta. Soc . 17 : 78–83.
^ Kálmán, Rudolf E. (1963). "La teoría del control óptimo y el cálculo de variaciones". En Bellman, Richard (ed.). Técnicas de optimización matemática . Berkeley: Prensa de la Universidad de California. págs. 309–331. OCLC 1033974 .
^ Kemajou-Brown, Isabelle (2016). "Breve historia de la teoría del control óptimo y algunos desarrollos recientes". En Budzban, Gregory; Hughes, Harry Randolph; Schurz, Henri (eds.). Probabilidad en estructuras algebraicas y geométricas . Matemáticas contemporáneas. 668 . págs. 119–130. doi : 10.1090 / conm / 668/13400 . ISBN 9781470419455.
^ Chang, Fwu-Ranq (2004). Optimización estocástica en tiempo continuo . Cambridge, Reino Unido: Cambridge University Press. págs. 113-168. ISBN 0-521-83406-6.
^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Soluciones óptimas de control y viscosidad de las ecuaciones de Hamilton – Jacobi – Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.
^ Bertsekas, Dimitri P. (2005). Programación dinámica y control óptimo . Athena Scientific.
^ Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Soluciones óptimas de control y viscosidad de las ecuaciones de Hamilton-Jacobi-Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.
^ Bertsekas, Dimitri P .; Tsitsiklis, John N. (1996). Programación neurodinámica . Athena Scientific. ISBN 978-1-886529-10-6.
^ Abu-Khalaf, Murad; Lewis, Frank L. (2005). "Leyes de control casi óptimas para sistemas no lineales con actuadores de saturación utilizando un enfoque de red neuronal HJB". Automatica . 41 (5): 779–791. doi : 10.1016 / j.automatica.2004.11.034 .
^ Al-Tamimi, Asma; Lewis, Frank L .; Abu-Khalaf, Murad (2008). "Solución HJB no lineal de tiempo discreto utilizando programación dinámica aproximada: prueba de convergencia". Transacciones IEEE sobre sistemas, hombre y cibernética, parte B (cibernética) . 38 (4): 943–949. doi : 10.1109 / TSMCB.2008.926614 . PMID 18632382 . S2CID 14202785 .
^ Jones, Morgan; Peet, Matthew (2020). "Aproximación polinomial de funciones de valor y diseño de controlador no lineal con límites de rendimiento". arXiv : 2010.06828 . Cite journal requiere |journal=( ayuda )

Otras lecturas

Bertsekas, Dimitri P. (2005). Programación dinámica y control óptimo . Athena Scientific.
Pham, Huyên (2009). "El enfoque PDE clásico para la programación dinámica" . Optimización y control estocástico en tiempo continuo con aplicaciones financieras . Saltador. págs. 37–60. ISBN 978-3-540-89499-5.
Stengel, Robert F. (1994). "Condiciones para la Optimidad" . Control y estimación óptimos . Nueva York: Dover. págs. 201–222. ISBN 0-486-68200-5.

[1] Kirk, Donald E. (1970). Teoría del control óptimo: una introducción . Englewood Cliffs, Nueva Jersey: Prentice-Hall. págs. 86–90. ISBN 0-13-638098-0.

[2] Yong, Jiongmin; Zhou, Xun Yu (1999). "Programación dinámica y ecuaciones HJB" . Controles estocásticos: sistemas hamiltonianos y ecuaciones HJB . Saltador. págs. 157–215 [pág. 163]. ISBN 0-387-98723-1.

[3] Naidu, Desineni S. (2003). "La ecuación de Hamilton-Jacobi-Bellman" . Sistemas de control óptimos . Boca Ratón: CRC Press. págs. 277–283 [pág. 280]. ISBN 0-8493-0892-5.

[4] Bellman, RE (1954). "Programación dinámica y un nuevo formalismo en el cálculo de variaciones" . Proc. Natl. Acad. Sci. 40 (4): 231-235. Código Bibliográfico : 1954PNAS ... 40..231B . doi : 10.1073 / pnas.40.4.231 . PMC 527981 . PMID 16589462 .

[5] Bellman, RE (1957). Programación dinámica . Princeton, Nueva Jersey.

[6] Bellman, R .; Dreyfus, S. (1959). "Una aplicación de la programación dinámica para la determinación de trayectorias óptimas de satélite". J. Br. Interplaneta. Soc . 17 : 78–83.

[7] Kálmán, Rudolf E. (1963). "La teoría del control óptimo y el cálculo de variaciones". En Bellman, Richard (ed.). Técnicas de optimización matemática . Berkeley: Prensa de la Universidad de California. págs. 309–331. OCLC 1033974 .

[8] Kemajou-Brown, Isabelle (2016). "Breve historia de la teoría del control óptimo y algunos desarrollos recientes". En Budzban, Gregory; Hughes, Harry Randolph; Schurz, Henri (eds.). Probabilidad en estructuras algebraicas y geométricas . Matemáticas contemporáneas. 668 . págs. 119–130. doi : 10.1090 / conm / 668/13400 . ISBN 9781470419455.

[9] Chang, Fwu-Ranq (2004). Optimización estocástica en tiempo continuo . Cambridge, Reino Unido: Cambridge University Press. págs. 113-168. ISBN 0-521-83406-6.

[10] Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Soluciones óptimas de control y viscosidad de las ecuaciones de Hamilton – Jacobi – Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.

[11] Bertsekas, Dimitri P. (2005). Programación dinámica y control óptimo . Athena Scientific.

[12] Bardi, Martino; Capuzzo-Dolcetta, Italo (1997). Soluciones óptimas de control y viscosidad de las ecuaciones de Hamilton-Jacobi-Bellman . Boston: Birkhäuser. ISBN 0-8176-3640-4.

[NeuroDynProg-13] Bertsekas, Dimitri P .; Tsitsiklis, John N. (1996). Programación neurodinámica . Athena Scientific. ISBN 978-1-886529-10-6.

[CTHJB-14] Abu-Khalaf, Murad; Lewis, Frank L. (2005). "Leyes de control casi óptimas para sistemas no lineales con actuadores de saturación utilizando un enfoque de red neuronal HJB". Automatica . 41 (5): 779–791. doi : 10.1016 / j.automatica.2004.11.034 .

[DTHJB-15] Al-Tamimi, Asma; Lewis, Frank L .; Abu-Khalaf, Murad (2008). "Solución HJB no lineal de tiempo discreto utilizando programación dinámica aproximada: prueba de convergencia". Transacciones IEEE sobre sistemas, hombre y cibernética, parte B (cibernética) . 38 (4): 943–949. doi : 10.1109 / TSMCB.2008.926614 . PMID 18632382 . S2CID 14202785 .

[16] Jones, Morgan; Peet, Matthew (2020). "Aproximación polinomial de funciones de valor y diseño de controlador no lineal con límites de rendimiento". arXiv : 2010.06828 . Cite journal requiere |journal=( ayuda )

[1]