Control estocástico


El control estocástico o control estocástico óptimo es un subcampo de la teoría de control que se ocupa de la existencia de incertidumbre en las observaciones o en el ruido que impulsa la evolución del sistema. El diseñador del sistema asume, de manera impulsada por la probabilidad bayesiana , que el ruido aleatorio con distribución de probabilidad conocida afecta la evolución y la observación de las variables de estado. El control estocástico tiene como objetivo diseñar la trayectoria temporal de las variables controladas que realiza la tarea de control deseada con un costo mínimo, de alguna manera definido, a pesar de la presencia de este ruido. [1] El contexto puede ser tiempo discreto o tiempo continuo .

Una formulación extremadamente bien estudiada en el control estocástico es la del control Gaussiano cuadrático lineal . Aquí el modelo es lineal, la función objetivo es el valor esperado de una forma cuadrática y las perturbaciones son puramente aditivas. Un resultado básico para sistemas centralizados de tiempo discreto con solo incertidumbre aditiva es la propiedad de equivalencia de certeza : [2]que la solución de control óptima en este caso es la misma que se obtendría en ausencia de las perturbaciones aditivas. Esta propiedad es aplicable a todos los sistemas centralizados con ecuaciones lineales de evolución, función de costo cuadrático y ruido que ingresa al modelo solo de manera aditiva; la suposición cuadrática permite que las leyes de control óptimas, que siguen la propiedad de certeza-equivalencia, sean funciones lineales de las observaciones de los controladores.

Cualquier desviación de los supuestos anteriores (una ecuación de estado no lineal, una función objetivo no cuadrática, ruido en los parámetros multiplicativos del modelo o descentralización del control) hace que la propiedad de equivalencia de certeza no se cumpla. Por ejemplo, su fracaso para mantener el control descentralizado se demostró en el contraejemplo de Witsenhausen .

En un contexto de tiempo discreto, el tomador de decisiones observa la variable de estado, posiblemente con ruido de observación, en cada período de tiempo. El objetivo puede ser optimizar la suma de los valores esperados de una función objetivo no lineal (posiblemente cuadrática) en todos los períodos de tiempo desde el presente hasta el último período de interés, u optimizar el valor de la función objetivo solo en el período final. . En cada período de tiempo se realizan nuevas observaciones y las variables de control se ajustan de manera óptima. Encontrar la solución óptima para el momento actual puede implicar iterar una ecuación matricial de Riccati hacia atrás en el tiempo desde el último período hasta el período actual.

En el caso de tiempo discreto con incertidumbre sobre los valores de los parámetros en la matriz de transición (dando el efecto de los valores actuales de las variables de estado en su propia evolución) y/o la matriz de respuesta de control de la ecuación de estado, pero aún con un estado lineal ecuación y función objetivo cuadrática, aún se puede obtener una ecuación de Riccati para iterar hacia atrás hasta la solución de cada período, aunque no se aplique la equivalencia de certeza. [2] cap.13 [3] El caso de tiempo discreto de una función de pérdida no cuadrática pero solo perturbaciones aditivas también puede manejarse, aunque con más complicaciones. [4]

Una especificación típica del problema de control cuadrático lineal estocástico en tiempo discreto es minimizar [2] : cap. 13,   [3] [5]