Control lineal-cuadrático-gaussiano

En la teoría de control , el problema de control lineal-cuadrático-gaussiano ( LQG ) es uno de los problemas de control óptimo más fundamentales . Se trata de sistemas lineales impulsados por ruido blanco gaussiano aditivo . El problema es determinar una ley de retroalimentación de salida que sea óptima en el sentido de minimizar el valor esperado de un criterio de costo cuadrático . Se supone que las medidas de salida están dañadas por el ruido gaussiano y, de igual forma, se supone que el estado inicial es un vector aleatorio gaussiano.

Bajo estos supuestos, un esquema de control óptimo dentro de la clase de leyes de control lineal puede derivarse mediante un argumento de compleción de cuadrados. ^[1] Esta ley de control, conocida como controlador LQG , es única y es simplemente una combinación de un filtro de Kalman (un estimador de estado lineal cuadrático (LQE)) junto con un regulador lineal cuadrático (LQR). El principio de separación establece que el estimador de estado y la retroalimentación de estado se pueden diseñar de forma independiente. El control LQG se aplica tanto a sistemas lineales invariantes en el tiempo como a sistemas lineales variables en el tiempo, y constituye una ley de control de retroalimentación dinámica lineal que se calcula e implementa fácilmente: el controlador LQG en sí es un sistema dinámico como el sistema que controla. Ambos sistemas tienen la misma dimensión de estado.

Una declaración más profunda del principio de separación es que el controlador LQG sigue siendo óptimo en una clase más amplia de controladores posiblemente no lineales. Es decir, utilizar un esquema de control no lineal no mejorará el valor esperado del costo funcional. Esta versión del principio de separación es un caso especial del principio de separación del control estocástico que establece que incluso cuando las fuentes de ruido de proceso y de salida son posiblemente martingalas no gaussianas , siempre que la dinámica del sistema sea lineal, el control óptimo se separa en un estimador de estado óptimo (que puede que ya no sea un filtro de Kalman) y un regulador LQR. ^[2]^[3]

En la configuración clásica de LQG, la implementación del controlador LQG puede ser problemática cuando la dimensión del estado del sistema es grande. El problema de LQG de orden reducido ( problema de LQG de orden fijo) lo supera fijando a priori el número de estados del controlador LQG. Este problema es más difícil de resolver porque ya no es separable. Además, la solución ya no es única. A pesar de estos hechos, se dispone de algoritmos numéricos ^[4]^[5]^[6]^[7] para resolver las ecuaciones de proyección óptima asociadas ^[8]^[9] que constituyen condiciones necesarias y suficientes para un controlador LQG de orden reducido localmente óptimo. ^[4]

La optimización de LQG no garantiza automáticamente buenas propiedades de robustez. ^[10] La sólida estabilidad del sistema de circuito cerrado debe comprobarse por separado después de que se haya diseñado el controlador LQG. Para promover la robustez, algunos de los parámetros del sistema pueden asumirse como estocásticos en lugar de deterministas. El problema de control más difícil asociado conduce a un controlador óptimo similar del que solo son diferentes los parámetros del controlador. ^[5]

Es posible calcular el valor esperado de la función de costo para las ganancias óptimas, así como cualquier otro conjunto de ganancias estables. ^[11]

Finalmente, el controlador LQG también se utiliza para controlar sistemas no lineales perturbados. ^[12]

Descripción matemática del problema y la solución.

Tiempo continuo

Considere el sistema dinámico lineal de tiempo continuo

{\ Displaystyle {\ dot {\ mathbf {x}}} (t) = A (t) \ mathbf {x} (t) + B (t) \ mathbf {u} (t) + \ mathbf {v} ( t),}

{\ Displaystyle \ mathbf {y} (t) = C (t) \ mathbf {x} (t) + \ mathbf {w} (t),}

dónde ${\ Displaystyle {\ mathbf {x}}}$ representa el vector de variables de estado del sistema, ${\ Displaystyle {\ mathbf {u}}}$ el vector de entradas de control y ${\ Displaystyle {\ mathbf {y}}}$ el vector de salidas medidas disponibles para retroalimentación. Tanto el ruido del sistema gaussiano blanco aditivo ${\ Displaystyle \ mathbf {v} (t)}$ y ruido de medición gaussiano blanco aditivo ${\ Displaystyle \ mathbf {w} (t)}$ afectar el sistema. Dado este sistema, el objetivo es encontrar el historial de entrada de control ${\ Displaystyle {\ mathbf {u}} (t)}$ que en cada momento ${\ displaystyle {\ mathbf {}} t}$ puede depender linealmente solo de las mediciones pasadas ${\ displaystyle {\ mathbf {y}} (t '), 0 \ leq t' }>$ de manera que se minimice la siguiente función de costo:

{\ displaystyle J = \ mathbb {E} \ left [{\ mathbf {x} ^ {\ mathrm {T}}} (T) F {\ mathbf {x}} (T) + \ int _ {0} ^ {T} {\ mathbf {x} ^ {\ mathrm {T}}} (t) Q (t) {\ mathbf {x}} (t) + {\ mathbf {u} ^ {\ mathrm {T}} } (t) R (t) {\ mathbf {u}} (t) \, dt \ right],}

{\ Displaystyle F \ geq 0, \ quad Q (t) \ geq 0, \ quad R (t)> 0,}

dónde ${\ Displaystyle \ mathbb {E}}$ denota el valor esperado . El tiempo final (horizonte) ${\ displaystyle {\ mathbf {}} T}$ puede ser finito o infinito. Si el horizonte tiende al infinito el primer término ${\ Displaystyle {\ mathbf {x}} ^ {\ mathrm {T}} (T) F {\ mathbf {x}} (T)}$ de la función de costo se vuelve insignificante e irrelevante para el problema. Además, para mantener los costos finitos, la función de costos debe tomarse como ${\ displaystyle {\ mathbf {}} J / T}$ .

El controlador LQG que resuelve el problema de control LQG se especifica mediante las siguientes ecuaciones:

{\ Displaystyle {\ dot {\ hat {\ mathbf {x}}}} (t) = A (t) {\ hat {\ mathbf {x}}} (t) + B (t) {\ mathbf {u }} (t) + L (t) \ left ({\ mathbf {y}} (t) -C (t) {\ hat {\ mathbf {x}}} (t) \ right), \ quad {\ sombrero {\ mathbf {x}}} (0) = \ mathbb {E} \ left [{\ mathbf {x}} (0) \ right],}

{\ Displaystyle {\ mathbf {u}} (t) = - K (t) {\ hat {\ mathbf {x}}} (t).}

La matriz ${\ Displaystyle {\ mathbf {}} L (t)}$ se denomina ganancia de Kalman del filtro de Kalman asociado representado por la primera ecuación. En cada momento ${\ displaystyle {\ mathbf {}} t}$ este filtro genera estimaciones ${\ Displaystyle {\ hat {\ mathbf {x}}} (t)}$ del Estado ${\ Displaystyle {\ mathbf {x}} (t)}$ utilizando las medidas y entradas pasadas. La ganancia de Kalman ${\ Displaystyle {\ mathbf {}} L (t)}$ se calcula a partir de las matrices ${\ Displaystyle {\ mathbf {}} A (t), C (t)}$ , las dos matrices de intensidad ${\ Displaystyle \ mathbf {} V (t), W (t)}$ asociado a los ruidos blancos gaussianos ${\ Displaystyle \ mathbf {v} (t)}$ y ${\ Displaystyle \ mathbf {w} (t)}$ y finalmente ${\ Displaystyle \ mathbb {E} \ left [{\ mathbf {x}} (0) {\ mathbf {x}} ^ {\ mathrm {T}} (0) \ right]}$ . Estas cinco matrices determinan la ganancia de Kalman a través de la siguiente ecuación diferencial de matriz asociada de Riccati:

{\ Displaystyle {\ dot {P}} (t) = A (t) P (t) + P (t) A ^ {\ mathrm {T}} (t) -P (t) C ^ {\ mathrm { T}} (t) {\ mathbf {}} W ^ {- 1} (t) C (t) P (t) + V (t),}

{\ displaystyle P (0) = \ mathbb {E} \ left [{\ mathbf {x}} (0) {\ mathbf {x}} ^ {\ mathrm {T}} (0) \ right].}

Dada la solución ${\ Displaystyle P (t), 0 \ leq t \ leq T}$ la ganancia de Kalman es igual a

{\ Displaystyle {\ mathbf {}} L (t) = P (t) C ^ {\ mathrm {T}} (t) W ^ {- 1} (t).}

La matriz ${\ Displaystyle {\ mathbf {}} K (t)}$ se llama matriz de ganancia de retroalimentación . Esta matriz está determinada por las matrices ${\ Displaystyle {\ mathbf {}} A (t), B (t), Q (t), R (t)}$ y ${\ displaystyle {\ mathbf {}} F}$ a través de la siguiente matriz asociada de la ecuación diferencial de Riccati:

{\ Displaystyle - {\ dot {S}} (t) = A ^ {\ mathrm {T}} (t) S (t) + S (t) A (t) -S (t) B (t) R ^ {- 1} (t) B ^ {\ mathrm {T}} (t) S (t) + Q (t),}

{\ Displaystyle {\ mathbf {}} S (T) = F.}

Dada la solución ${\ displaystyle {\ mathbf {}} S (t), 0 \ leq t \ leq T}$ la ganancia de retroalimentación es igual a

{\ Displaystyle {\ mathbf {}} K (t) = R ^ {- 1} (t) B ^ {\ mathrm {T}} (t) S (t).}

Observe la similitud de las dos ecuaciones diferenciales matriciales de Riccati, la primera avanzando en el tiempo y la segunda hacia atrás. Esta similitud se llama dualidad . La primera ecuación diferencial de matriz de Riccati resuelve el problema de estimación lineal-cuadrática (LQE). La segunda ecuación diferencial de matriz de Riccati resuelve el problema del regulador lineal cuadrático (LQR). Estos problemas son duales y juntos resuelven el problema de control lineal-cuadrático-gaussiano (LQG). Por lo tanto, el problema de LQG se divide en el problema de LQE y LQR que se pueden resolver de forma independiente. Por lo tanto, el problema de LQG se denomina separable .

Cuándo ${\ Displaystyle {\ mathbf {}} A (t), B (t), C (t), Q (t), R (t)}$ y las matrices de intensidad de ruido ${\ Displaystyle \ mathbf {} V (t)}$ , ${\ Displaystyle \ mathbf {} W (t)}$ no dependas de ${\ displaystyle {\ mathbf {}} t}$ y cuando ${\ displaystyle {\ mathbf {}} T}$ tiende al infinito, el controlador LQG se convierte en un sistema dinámico invariante en el tiempo. En ese caso, la segunda ecuación diferencial de matriz de Riccati puede reemplazarse por la ecuación algebraica de Riccati asociada .

Tiempo discreto

Dado que el problema de control de LQG en tiempo discreto es similar al de tiempo continuo, la siguiente descripción se centra en las ecuaciones matemáticas.

Las ecuaciones del sistema lineal de tiempo discreto son

{\ Displaystyle {\ mathbf {x}} _ {i + 1} = A_ {i} \ mathbf {x} _ {i} + B_ {i} \ mathbf {u} _ {i} + \ mathbf {v} _{I},}

{\ Displaystyle \ mathbf {y} _ {i} = C_ {i} \ mathbf {x} _ {i} + \ mathbf {w} _ {i}.}

Aquí ${\ Displaystyle \ mathbf {} i}$ representa el índice de tiempo discreto y ${\ Displaystyle \ mathbf {v} _ {i}, \ mathbf {w} _ {i}}$ representar procesos de ruido blanco gaussiano en tiempo discreto con matrices de covarianza ${\ Displaystyle \ mathbf {} V_ {i}, W_ {i}}$ respectivamente.

La función de costo cuadrático a minimizar es

{\ Displaystyle J = \ mathbb {E} \ left [{\ mathbf {x}} _ {N} ^ {\ mathrm {T}} F {\ mathbf {x}} _ {N} + \ sum _ {i = 0} ^ {N-1} (\ mathbf {x} _ {i} ^ {\ mathrm {T}} Q_ {i} \ mathbf {x} _ {i} + \ mathbf {u} _ {i} ^ {\ mathrm {T}} R_ {i} \ mathbf {u} _ {i}) \ right],}

{\ Displaystyle F \ geq 0, Q_ {i} \ geq 0, R_ {i}> 0. \,}

El controlador LQG de tiempo discreto es

{\ Displaystyle {\ hat {\ mathbf {x}}} _ {i + 1} = A_ {i} {\ hat {\ mathbf {x}}} _ {i} + B_ {i} {\ mathbf {u }} _ {i} + L_ {i + 1} \ left ({\ mathbf {y}} _ {i + 1} -C_ {i + 1} \ left \ {A_ {i} {\ hat {\ mathbf {x}}} _ {i} + B_ {i} \ mathbf {u} _ {i} \ right \} \ right), \ qquad {\ hat {\ mathbf {x}}} _ {0} = \ mathbb {E} [{\ mathbf {x}} _ {0}]}

,

{\ Displaystyle \ mathbf {u} _ {i} = - K_ {i} {\ hat {\ mathbf {x}}} _ {i}. \,}

La ganancia de Kalman es igual a

{\ Displaystyle {\ mathbf {}} L_ {i} = P_ {i} C_ {i} ^ {\ mathrm {T}} (C_ {i} P_ {i} C_ {i} ^ {\ mathrm {T} } + W_ {i}) ^ {- 1},}

dónde ${\ displaystyle {\ mathbf {}} P_ {i}}$ está determinada por la siguiente ecuación de diferencias de matriz de Riccati que avanza en el tiempo:

{\ Displaystyle P_ {i + 1} = A_ {i} \ left (P_ {i} -P_ {i} C_ {i} ^ {\ mathrm {T}} \ left (C_ {i} P_ {i} C_ {i} ^ {\ mathrm {T}} + W_ {i} \ right) ^ {- 1} C_ {i} P_ {i} \ right) A_ {i} ^ {\ mathrm {T}} + V_ { i}, \ qquad P_ {0} = \ mathbb {E} [\ left ({\ mathbf {x}} _ {0} - {\ hat {\ mathbf {x}}} _ {0} \ right) \ izquierda ({\ mathbf {x}} _ {0} - {\ hat {\ mathbf {x}}} _ {0} \ right) ^ {\ mathrm {T}}].}

La matriz de ganancia de retroalimentación es igual a

{\ Displaystyle {\ mathbf {}} K_ {i} = (B_ {i} ^ {\ mathrm {T}} S_ {i + 1} B_ {i} + R_ {i}) ^ {- 1} B_ { i} ^ {\ mathrm {T}} S_ {i + 1} A_ {i}}

dónde ${\ Displaystyle {\ mathbf {}} S_ {i}}$ está determinada por la siguiente ecuación de diferencias de matriz de Riccati que corre hacia atrás en el tiempo:

{\ Displaystyle S_ {i} = A_ {i} ^ {\ mathrm {T}} \ left (S_ {i + 1} -S_ {i + 1} B_ {i} \ left (B_ {i} ^ {\ mathrm {T}} S_ {i + 1} B_ {i} + R_ {i} \ right) ^ {- 1} B_ {i} ^ {\ mathrm {T}} S_ {i + 1} \ right) A_ {i} + Q_ {i}, \ quad S_ {N} = F.}

Si todas las matrices en la formulación del problema son invariantes en el tiempo y si el horizonte ${\ displaystyle {\ mathbf {}} N}$ tiende al infinito, el controlador LQG de tiempo discreto se vuelve invariante en el tiempo. En ese caso, las ecuaciones en diferencias matriciales de Riccati pueden reemplazarse por sus ecuaciones de Riccati algebraicas de tiempo discreto asociadas . Estos determinan el estimador lineal cuadrático invariante en el tiempo y el regulador lineal cuadrático invariante en el tiempo en tiempo discreto. Para mantener los costos finitos en lugar de ${\ displaystyle {\ mathbf {}} J}$ uno tiene que considerar ${\ displaystyle {\ mathbf {}} J / N}$ en este caso.

Ver también

Referencias

^ Karl Johan Astrom (1970). Introducción a la teoría del control estocástico . 58 . Prensa académica. ISBN 0-486-44531-3.
^ Anders Lindquist (1973). "Sobre el control de retroalimentación de sistemas estocásticos lineales". Revista SIAM de Control . 11 (2): 323–343. doi : 10.1137 / 0311025 ..
^ Tryphon T. Georgiou y Anders Lindquist (2013). "El principio de separación en el control estocástico, Redux". Transacciones IEEE sobre control automático . 58 (10): 2481–2494. arXiv : 1103.3005 . doi : 10.1109 / TAC.2013.2259207 .
^ a b Van Willigenburg LG; De Koning WL (2000). "Algoritmos numéricos y cuestiones relativas a las ecuaciones de proyección óptima en tiempo discreto". Revista europea de control . 6 (1): 93–100. doi : 10.1016 / s0947-3580 (00) 70917-4 . Descarga de software asociado desde Matlab Central .
^ a b Van Willigenburg LG; De Koning WL (1999). "Compensadores óptimos de orden reducido para sistemas de tiempo discreto variables en el tiempo con parámetros deterministas y blancos". Automatica . 35 : 129-138. doi : 10.1016 / S0005-1098 (98) 00138-1 . Descarga de software asociado desde Matlab Central .
^ Zigic D .; Watson LT; Collins EG; Haddad WM; Ying S. (1996). "Métodos de homotopía para resolver las ecuaciones de proyección óptimas para el problema del modelo de orden reducido H2". Revista Internacional de Control . 56 (1): 173-191. doi : 10.1080 / 00207179208934308 .
^ Collins Jr. EG; Haddad WM; Ying S. (1996). "Un algoritmo de homotopía para la compensación dinámica de orden reducido utilizando las ecuaciones de proyección óptima de Hyland-Bernstein". Revista de control y dinámica de la orientación . 19 (2): 407–417. doi : 10,2514 / 3,21633 .
^ Hyland DC; Bernstein DS (1984). "Las ecuaciones de proyección óptimas para la compensación dinámica de orden fijo" (PDF) . Transacciones IEEE sobre control automático . AC-29 (11): 1034–1037. doi : 10.1109 / TAC.1984.1103418 . hdl : 2027,42 / 57875 .
^ Bernstein DS; Davis LD; Hyland DC (1986). "Las ecuaciones de proyección óptimas para la estimación y el control de modelos de tiempo discreto de orden reducido" (PDF) . Revista de Control y Dinámica de la Orientación . 9 (3): 288-293. Código bibliográfico : 1986JGCD .... 9..288B . doi : 10.2514 / 3.20105 . hdl : 2027,42 / 57880 .
^ Green, Michael; Limebeer, David JN (1995). Control robusto lineal . Acantilados de Englewood: Prentice Hall. pag. 27. ISBN 0-13-102278-4.
^ Matsakis, Demetrios (8 de marzo de 2019). "Los efectos de las estrategias de dirección proporcional sobre el comportamiento de los relojes controlados" . Metrologia . 56 (2): 025007. doi : 10.1088 / 1681-7575 / ab0614 .
^ Athans M. (1971). "El papel y uso del problema estocástico Lineal-Cuadrático-Gaussiano en el diseño de sistemas de control". Transacciones IEEE sobre control automático . AC-16 (6): 529–552. doi : 10.1109 / TAC.1971.1099818 .

Otras lecturas

Stengel, Robert F. (1994). Control y estimación óptimos . Nueva York: Dover. ISBN 0-486-68200-5.

[astrom-1] Karl Johan Astrom (1970). Introducción a la teoría del control estocástico . 58 . Prensa académica. ISBN 0-486-44531-3.

[lindquist-2] Anders Lindquist (1973). "Sobre el control de retroalimentación de sistemas estocásticos lineales". Revista SIAM de Control . 11 (2): 323–343. doi : 10.1137 / 0311025 ..

[GL2013-3] Tryphon T. Georgiou y Anders Lindquist (2013). "El principio de separación en el control estocástico, Redux". Transacciones IEEE sobre control automático . 58 (10): 2481–2494. arXiv : 1103.3005 . doi : 10.1109 / TAC.2013.2259207 .

[Wil1-4] Van Willigenburg LG; De Koning WL (2000). "Algoritmos numéricos y cuestiones relativas a las ecuaciones de proyección óptima en tiempo discreto". Revista europea de control . 6 (1): 93–100. doi : 10.1016 / s0947-3580 (00) 70917-4 . Descarga de software asociado desde Matlab Central .

[Wil2-5] Van Willigenburg LG; De Koning WL (1999). "Compensadores óptimos de orden reducido para sistemas de tiempo discreto variables en el tiempo con parámetros deterministas y blancos". Automatica . 35 : 129-138. doi : 10.1016 / S0005-1098 (98) 00138-1 . Descarga de software asociado desde Matlab Central .

[Bern3-6] Zigic D .; Watson LT; Collins EG; Haddad WM; Ying S. (1996). "Métodos de homotopía para resolver las ecuaciones de proyección óptimas para el problema del modelo de orden reducido H2". Revista Internacional de Control . 56 (1): 173-191. doi : 10.1080 / 00207179208934308 .

[Had1-7] Collins Jr. EG; Haddad WM; Ying S. (1996). "Un algoritmo de homotopía para la compensación dinámica de orden reducido utilizando las ecuaciones de proyección óptima de Hyland-Bernstein". Revista de control y dinámica de la orientación . 19 (2): 407–417. doi : 10,2514 / 3,21633 .

[Bern1-8] Hyland DC; Bernstein DS (1984). "Las ecuaciones de proyección óptimas para la compensación dinámica de orden fijo" (PDF) . Transacciones IEEE sobre control automático . AC-29 (11): 1034–1037. doi : 10.1109 / TAC.1984.1103418 . hdl : 2027,42 / 57875 .

[Bern2-9] Bernstein DS; Davis LD; Hyland DC (1986). "Las ecuaciones de proyección óptimas para la estimación y el control de modelos de tiempo discreto de orden reducido" (PDF) . Revista de Control y Dinámica de la Orientación . 9 (3): 288-293. Código bibliográfico : 1986JGCD .... 9..288B . doi : 10.2514 / 3.20105 . hdl : 2027,42 / 57880 .

[10] Green, Michael; Limebeer, David JN (1995). Control robusto lineal . Acantilados de Englewood: Prentice Hall. pag. 27. ISBN 0-13-102278-4.

[11] Matsakis, Demetrios (8 de marzo de 2019). "Los efectos de las estrategias de dirección proporcional sobre el comportamiento de los relojes controlados" . Metrologia . 56 (2): 025007. doi : 10.1088 / 1681-7575 / ab0614 .

[Athans-12] Athans M. (1971). "El papel y uso del problema estocástico Lineal-Cuadrático-Gaussiano en el diseño de sistemas de control". Transacciones IEEE sobre control automático . AC-16 (6): 529–552. doi : 10.1109 / TAC.1971.1099818 .

[1]