Ecuación de Bellman

Una ecuación de Bellman , llamada así por Richard E. Bellman , es una condición necesaria para la optimización asociada con el método de optimización matemática conocido como programación dinámica . ^[1] Escribe el "valor" de un problema de decisión en un determinado momento en términos de la recompensa de algunas elecciones iniciales y el "valor" del problema de decisión restante que resulta de esas elecciones iniciales. ^{[ cita requerida ]} Esto divide un problema de optimización dinámica en una secuencia de subproblemas más simples, como prescribe el "principio de optimización" de Bellman. ^[2]

La ecuación de Bellman se aplicó por primera vez a la teoría del control de la ingeniería y a otros temas de las matemáticas aplicadas, y posteriormente se convirtió en una herramienta importante en la teoría económica ; aunque los conceptos básicos de la programación dinámica están prefigurados en la Teoría de los juegos y el comportamiento económico de John von Neumann y Oskar Morgenstern y en el análisis secuencial de Abraham Wald . ^[^{cita requerida}^] El término 'ecuación de Bellman' generalmente se refiere a la ecuación de programación dinámica asociada con problemas de optimización de tiempo discreto . ^[3]En problemas de optimización de tiempo continuo, la ecuación análoga es una ecuación diferencial parcial que se llama ecuación de Hamilton-Jacobi-Bellman . ^[4]^[5]

En tiempo discreto, cualquier problema de optimización de múltiples etapas se puede resolver analizando la ecuación de Bellman apropiada. La ecuación de Bellman adecuada se puede encontrar introduciendo nuevas variables de estado (aumento de estado). ^[6] Sin embargo, el problema de optimización de múltiples etapas de estado aumentado resultante tiene un espacio de estado dimensional más alto que el problema de optimización de múltiples etapas original, un problema que potencialmente puede hacer que el problema aumentado sea intratable debido a la “ maldición de la dimensionalidad ”. Alternativamente, se ha demostrado que si la función de costo del problema de optimización de múltiples etapas satisface una estructura "separable hacia atrás", entonces se puede encontrar la ecuación de Bellman apropiada sin aumento de estado. ^[7]

Para comprender la ecuación de Bellman, se deben comprender varios conceptos subyacentes. Primero, cualquier problema de optimización tiene algún objetivo: minimizar el tiempo de viaje, minimizar el costo, maximizar las ganancias, maximizar la utilidad, etc. La función matemática que describe este objetivo se llama función objetivo .

La programación dinámica divide un problema de planificación de varios períodos en pasos más simples en diferentes puntos en el tiempo. Por lo tanto, requiere hacer un seguimiento de cómo evoluciona la situación de decisión a lo largo del tiempo. La información sobre la situación actual que se necesita para tomar una decisión correcta se llama "estado". ^[8]^[9] Por ejemplo, para decidir cuánto consumir y gastar en cada momento, las personas necesitarían saber (entre otras cosas) su riqueza inicial. Por tanto, la riqueza sería una de sus variables de estado , pero probablemente habría otras. ${\ estilo de visualización (W)}$

Las variables elegidas en un momento determinado se denominan a menudo variables de control . Por ejemplo, dada su riqueza actual, la gente podría decidir cuánto consumir ahora. Elegir las variables de control ahora puede ser equivalente a elegir el siguiente estado; de manera más general, el siguiente estado se ve afectado por otros factores además del control actual. Por ejemplo, en el caso más simple, la riqueza de hoy (el estado) y el consumo (el control) podrían determinar exactamente la riqueza de mañana (el nuevo estado), aunque normalmente otros factores también afectarán la riqueza de mañana.

Diagrama de flujo de Bellman