El control estocástico o control óptimo estocástico es un subcampo de la teoría del control que se ocupa de la existencia de incertidumbre en las observaciones o en el ruido que impulsa la evolución del sistema. El diseñador del sistema asume, de manera bayesiana basada en la probabilidad , que el ruido aleatorio con distribución de probabilidad conocida afecta la evolución y observación de las variables de estado. El control estocástico tiene como objetivo diseñar la trayectoria temporal de las variables controladas que realiza la tarea de control deseada con un costo mínimo, de alguna manera definido, a pesar de la presencia de este ruido. [1] El contexto puede ser tiempo discreto o tiempo continuo .
Equivalencia de certeza
Una formulación extremadamente bien estudiada en el control estocástico es la del control cuadrático lineal de Gauss . Aquí el modelo es lineal, la función objetivo es el valor esperado de una forma cuadrática y las perturbaciones son puramente aditivas. Un resultado básico para los sistemas centralizados en tiempo discreto con solo incertidumbre aditiva es la propiedad de equivalencia de certeza : [2] que la solución de control óptima en este caso es la misma que se obtendría en ausencia de las perturbaciones aditivas. Esta propiedad es aplicable a todos los sistemas centralizados con ecuaciones lineales de evolución, función de costo cuadrático y ruido que ingresa al modelo solo de manera aditiva; el supuesto cuadrático permite que las leyes de control óptimas, que siguen la propiedad de certeza-equivalencia, sean funciones lineales de las observaciones de los controladores.
Cualquier desviación de los supuestos anteriores (una ecuación de estado no lineal, una función objetivo no cuadrática, ruido en los parámetros multiplicativos del modelo o descentralización del control) hace que la propiedad de equivalencia de certeza no se mantenga. Por ejemplo, su fracaso en mantener el control descentralizado quedó demostrado en el contraejemplo de Witsenhausen .
Tiempo discreto
En un contexto de tiempo discreto, el tomador de decisiones observa la variable de estado, posiblemente con ruido de observación, en cada período de tiempo. El objetivo puede ser optimizar la suma de los valores esperados de una función objetivo no lineal (posiblemente cuadrática) durante todos los períodos de tiempo desde el período actual hasta el último período de interés, o optimizar el valor de la función objetivo a partir del período final únicamente. . En cada período de tiempo se realizan nuevas observaciones y las variables de control deben ajustarse de manera óptima. Encontrar la solución óptima para el momento presente puede implicar iterar una ecuación de Riccati matricial hacia atrás en el tiempo desde el último período hasta el período actual.
En el caso de tiempo discreto con incertidumbre sobre los valores de los parámetros en la matriz de transición (dando el efecto de los valores actuales de las variables de estado en su propia evolución) y / o la matriz de respuesta de control de la ecuación de estado, pero aún con un estado lineal ecuación y función objetivo cuadrática, aún se puede obtener una ecuación de Riccati para iterar hacia atrás a la solución de cada período, aunque no se aplique la equivalencia de certeza. [2] cap.13 [3] El caso de tiempo discreto de una función de pérdida no cuadrática pero solo alteraciones aditivas también se puede manejar, aunque con más complicaciones. [4]
Ejemplo
Una especificación típica del problema de control cuadrático lineal estocástico en tiempo discreto es minimizar [2] : cap. 13; [3] [5]
donde E 1 es el operador de valor esperado condicional en y 0 , el superíndice T indica una transposición de matriz y S es el horizonte de tiempo, sujeto a la ecuación de estado
donde y es un vector n × 1 de variables de estado observables, u es un vector k × 1 de variables de control, A t es el tiempo t de realización de la matriz de transición de estado n × n estocástica , B t es el tiempo t de realización de la matriz estocástica n × k de multiplicadores de control, y Q ( n × n ) y R ( k × k ) son matrices de costos definidas positivas simétricas conocidas. Suponemos que cada elemento de A y B se distribuye conjuntamente de forma independiente e idéntica a lo largo del tiempo, por lo que las operaciones de valor esperado no necesitan estar condicionadas por el tiempo.
La inducción hacia atrás en el tiempo se puede utilizar para obtener la solución de control óptima en cada momento, [2] : cap. 13
con la matriz X simétrica positiva de costo para llevar definido evolucionando hacia atrás en el tiempo desde de acuerdo a
que se conoce como la ecuación dinámica de Riccati en tiempo discreto de este problema. La única información necesaria con respecto a los parámetros desconocidos en las matrices A y B es el valor esperado y la varianza de cada elemento de cada matriz y las covarianzas entre elementos de la misma matriz y entre elementos a través de matrices.
La solución de control óptima no se ve afectada si también aparecen choques aditivos iid de media cero en la ecuación de estado, siempre que no estén correlacionados con los parámetros de las matrices A y B. Pero si están tan correlacionados, entonces la solución de control óptima para cada período contiene un vector constante aditivo adicional. Si aparece un vector constante aditivo en la ecuación de estado, entonces nuevamente la solución de control óptima para cada período contiene un vector constante aditivo adicional.
La caracterización de estado estable de X (si existe), relevante para el problema del horizonte infinito en el que S va al infinito, se puede encontrar iterando la ecuación dinámica para X repetidamente hasta que converja; entonces X se caracteriza por eliminar los subíndices de tiempo de su ecuación dinámica.
Tiempo continuo
Si el modelo está en tiempo continuo, el controlador conoce el estado del sistema en cada instante de tiempo. El objetivo es maximizar ya sea una integral de, por ejemplo, una función cóncava de una variable de estado en un horizonte de tiempo cero (el presente) a un terminal tiempo T , o una función cóncava de una variable de estado en una fecha futura T . A medida que pasa el tiempo, se realizan continuamente nuevas observaciones y las variables de control se ajustan continuamente de manera óptima.
Control predictivo del modelo estocástico
En la literatura, hay dos tipos de MPC para sistemas estocásticos; Control predictivo de modelo robusto y Control predictivo de modelo estocástico (SMPC). El control predictivo de modelo robusto es un método más conservador que considera el peor escenario en el procedimiento de optimización. Sin embargo, este método, similar a otros controles robustos, deteriora el rendimiento general del controlador y también es aplicable solo para sistemas con incertidumbres limitadas. El método alternativo, SMPC, considera restricciones suaves que limitan el riesgo de violación por una desigualdad probabilística. [6]
En finanzas
En un enfoque de tiempo continuo en un contexto financiero , la variable de estado en la ecuación diferencial estocástica suele ser la riqueza o el patrimonio neto, y los controles son las participaciones colocadas en cada momento en los distintos activos. Dada la asignación de activos elegida en cualquier momento, los determinantes del cambio en la riqueza suelen ser los rendimientos estocásticos de los activos y la tasa de interés del activo libre de riesgo. El campo del control estocástico se ha desarrollado mucho desde la década de 1970, particularmente en sus aplicaciones a las finanzas. Robert Merton utilizó el control estocástico para estudiar carteras óptimas de activos seguros y riesgosos. [7] Su trabajo y el de Black-Scholes cambiaron la naturaleza de la literatura financiera . Tratamientos de libros de texto de matemáticas fueron influyentes por Fleming y Rishel , [8] y por Fleming y Soner . [9] Stein aplicó estas técnicas a la crisis financiera de 2007-08 . [10]
La maximización, digamos del logaritmo esperado del valor neto en una fecha terminal T , está sujeta a procesos estocásticos sobre los componentes de la riqueza. [11] En este caso, en tiempo continuo la ecuación de Itô es la principal herramienta de análisis. En el caso de que la maximización sea una integral de una función cóncava de utilidad sobre un horizonte (0, T ), se utiliza la programación dinámica. No existe una equivalencia de certeza como en la literatura anterior, porque los coeficientes de las variables de control, es decir, los rendimientos recibidos por las acciones elegidas de los activos, son estocásticos.
Ver también
Referencias
- ^ Definición de Answers.com
- ↑ a b c d Chow, Gregory P. (1976). Análisis y control de sistemas económicos dinámicos . Nueva York: Wiley. ISBN 0-471-15616-7.
- ^ a b Turnovsky, Stephen (1976). "Políticas de estabilización óptima para sistemas lineales estocásticos: el caso de perturbaciones multiplicativas y aditivas correlacionadas". Revisión de estudios económicos . 43 (1): 191–94. doi : 10.2307 / 2296614 . JSTOR 2296614 .
- ^ Mitchell, Douglas W. (1990). "Control sensible al riesgo tratable basado en la utilidad esperada aproximada". Modelización económica . 7 (2): 161-164. doi : 10.1016 / 0264-9993 (90) 90018-Y .
- ^ Turnovsky, Stephen (1974). "Las propiedades de estabilidad de las políticas económicas óptimas". American Economic Review . 64 (1): 136-148. JSTOR 1814888 .
- ^ Hashemian; Armaou (2017). "Diseño estocástico MPC para un proceso de granulación de dos componentes". Actas de IEEE : 4386–4391. arXiv : 1704.04710 . Código bibliográfico : 2017arXiv170404710H .
- ^ Merton, Robert (1990). Financiamiento continuo del tiempo . Blackwell.
- ^ Fleming, W .; Rishel, R. (1975). Control óptimo determinista y estocástico . ISBN 0-387-90155-8.
- ^ Fleming, W .; Soner, M. (2006). Procesos controlados de Markov y soluciones de viscosidad . Saltador.
- ^ Stein, JL (2012). Control óptimo estocástico y la crisis financiera estadounidense . Springer-Science.
- ^ Barreiro-Gómez, J .; Tembine, H. (2019). "Economía de Token Blockchain: una perspectiva de juego de tipo campo medio" . Acceso IEEE . 7 : 64603–64613. doi : 10.1109 / ACCESS.2019.2917517 . ISSN 2169-3536 .
Otras lecturas
- Dixit, Avinash (1991). "Un tratamiento simplificado de la teoría de la regulación óptima del movimiento browniano". Revista de Control y Dinámica Económica . 15 (4): 657–673. doi : 10.1016 / 0165-1889 (91) 90037-2 .
- Yong, Jiongmin; Zhou, Xun Yu (1999). Controles estocásticos: sistemas hamiltonianos y ecuaciones HJB . Nueva York: Springer. ISBN 0-387-98723-1.