El principio de separación es uno de los principios fundamentales de la teoría del control estocástico , que establece que los problemas de control óptimo y estimación del estado pueden desacoplarse bajo ciertas condiciones. En su formulación más básica se trata de un sistema estocástico lineal
con un proceso estatal , un proceso de salida y un control , dónde es un proceso de Wiener con valores vectoriales ,es un vector aleatorio gaussiano de media cero independiente de, , y , , , , son funciones matriciales que generalmente se toman como continuas de variación acotada. Es más, no es singular en algún intervalo . El problema es diseñar una ley de retroalimentación de salida que mapea el proceso observado a la entrada de control de una manera no participativa para minimizar la funcionalidad
dónde denota valor esperado, primo () denota transposición. y y son funciones de matriz continua de variación acotada, es positivo semi-definido y es positivo definido para todos . En condiciones adecuadas, que deben establecerse adecuadamente, la política óptima se puede elegir en la forma
dónde es la estimación lineal de mínimos cuadrados del vector de estado obtenido del filtro de Kalman
dónde es la ganancia del regulador lineal-cuadrático óptimo obtenido tomando y determinista, y donde es la ganancia de Kalman . También hay una versión no gaussiana de este problema (que se discutirá a continuación) donde el proceso de Wienerse sustituye por una martingala integrable en escuadra más general con posibles saltos. [1] En este caso, el filtro de Kalman debe reemplazarse por un filtro no lineal que proporcione una estimación de la media condicional (en sentido estricto)
dónde
es la filtración generada por el proceso de salida; es decir, la familia de campos sigma crecientes que representan los datos a medida que se producen.
En la literatura inicial sobre el principio de separación era común permitir como controles admisibles todos los procesos que se adaptan a la filtración. Esto equivale a permitir que todas las funciones de Borel no anticipatorias sean leyes de retroalimentación, lo que plantea la cuestión de la existencia de una solución única para las ecuaciones del ciclo de retroalimentación. Además, es necesario excluir la posibilidad de que un controlador no lineal extraiga más información de los datos de lo que es posible con una ley de control lineal. [2]
Elecciones de la clase de leyes de control admisibles
Los problemas de control lineal-cuadrático a menudo se resuelven mediante un argumento de compleción de cuadrados. En nuestro contexto actual tenemos
en el que el primer término toma la forma [3]
dónde es la matriz de covarianza
El principio de separación seguiría ahora inmediatamente si eran independientes del control. Sin embargo, esto debe establecerse.
La ecuación de estado se puede integrar para tomar la forma
dónde es el proceso de estado obtenido al establecer y es la función de matriz de transición. Por linealidad, es igual a
dónde . Como consecuencia,
pero tenemos que establecer que no depende del control. Este sería el caso si
dónde es el proceso de salida obtenido al configurar . Este tema fue discutido en detalle por Lindquist. [2] De hecho, dado que el proceso de controles en general una función no lineal de los datos y, por lo tanto, no gaussiana, entonces también lo es el proceso de salida. Para evitar estos problemas, uno podría comenzar desacoplando el circuito de retroalimentación y determinar un proceso de control óptimo en la clase de procesos estocásticos. que se adaptan a la familia de campos sigma. Este problema, en el que se optimiza la clase de todos los procesos de control adaptados a una filtración fija, se denomina problema estocástico de bucle abierto (SOL) . [2] No es raro en la literatura suponer desde el principio que el control está adaptado a; ver, por ejemplo, la Sección 2.3 en Bensoussan, [4] también van Handel [5] y Willems. [6]
En Lindquist 1973 [2] se propuso un procedimiento para incrustar la clase de controles admisibles en varias clases SOL de una manera dependiente del problema, y luego construir la ley de retroalimentación correspondiente. La clase mas grande de las leyes de retroalimentación admisibles consta de las funciones no anticipatorias tal que la ecuación de retroalimentación tenga una solución única y el correspondiente proceso de control está adaptado a . A continuación, damos algunos ejemplos de clases específicas de leyes de retroalimentación que pertenecen a esta clase general, así como algunas otras estrategias en la literatura para superar los problemas descritos anteriormente.
Leyes de control lineal
La clase admisible de las leyes de control podría restringirse para contener solo ciertas leyes lineales como en Davis. [7] De manera más general, la clase lineal
dónde es una función determinista y es un kernel, asegura que es independiente del control. [8] [2] De hecho, la propiedad gaussiana se conservará yserá generado por el filtro de Kalman. Entonces el proceso de error es generado por
que es claramente independiente de la elección del control, y por lo tanto también lo es .
Leyes de control continuo de Lipschitz
Wonham demostró un teorema de separación para controles en la clase., incluso para un costo funcional más general que J (u). [9] Sin embargo, la prueba está lejos de ser simple y hay muchos supuestos técnicos. Por ejemplo,debe cuadrar y tener un determinante acotado lejos de cero, lo cual es una restricción seria. Una demostración posterior de Fleming y Rishel [10] es considerablemente más sencilla. También prueban el teorema de separación con costo cuadrático funcional para una clase de leyes de retroalimentación continua de Lipschitz, a saber , dónde es una función no anticipatoria de que es Lipschitz continuo en este argumento. Kushner [11] propuso una clase más restringida, donde el proceso de estado modificado es dado por
que lleva a la identidad .
Imponer retraso
Si hay un retraso en el procesamiento de los datos observados para que, para cada , es una función de , luego , , consulte el Ejemplo 3 en Georgiou y Lindquist. [1] En consecuencia,es independiente del control. Sin embargo, la política de control debe ser tal que las ecuaciones de retroalimentación tengan una solución única.
En consecuencia, el problema con los campos sigma posiblemente dependientes del control no se produce en la formulación habitual de tiempo discreto. Sin embargo, un procedimiento utilizado en varios libros de texto para construir el tiempo continuo como el límite de los cocientes en diferencias finitas del tiempo discreto , que no depende del control, es circular o mejor incompleto; ver Observación 4 en Georgiou y Lindquist. [1]
Soluciones débiles
Un enfoque introducido por Duncan y Varaiya [12] y Davis y Varaiya, [13] ver también la Sección 2.4 en Bensoussan [4] se basa en soluciones débiles de la ecuación diferencial estocástica. Considerando tales soluciones de
podemos cambiar la medida de probabilidad (que depende de ) a través de una transformación de Girsanov para que
se convierte en un nuevo proceso de Wiener, que (según la nueva medida de probabilidad) se puede suponer que no se ve afectado por el control. Queda abierta la cuestión de cómo se podría implementar esto en un sistema de ingeniería.
Soluciones de filtrado no lineal
Aunque una ley de control no lineal producirá un proceso de estado no gaussiano, se puede demostrar, utilizando la teoría de filtrado no lineal (Capítulos 16.1 en Lipster y Shirayev [14] ), que el proceso de estado es condicionalmente gaussiano dada la filtración. Este hecho puede usarse para demostrar queen realidad se genera mediante un filtro de Kalman (véanse los capítulos 11 y 12 en Lipster y Shirayev [14] ). Sin embargo, esto requiere un análisis bastante sofisticado y se limita al caso en el que el ruido de conducción es un proceso de Wiener.
Se puede encontrar una perspectiva histórica adicional en Mitter. [15]
Problemas de retroalimentación en sistemas estocásticos lineales
En este punto es conveniente considerar una clase más general de sistemas estocásticos lineales controlados que también cubre sistemas con retardos de tiempo, a saber
con un proceso de vector estocástico que no depende del control. [2] El sistema estocástico estándar se obtiene entonces como un caso especial donde, y . Usaremos la notación abreviada
para el sistema de retroalimentación, donde
es un operador de Volterra.
En esta formulación más general, el procedimiento de inclusión de Lindquist [2] define la clase de las leyes de retroalimentación admisibles como la clase de funciones no anticipatorias tal que la ecuación de retroalimentación tiene una solución única y está adaptado a .
En Georgiou y Lindquist [1] se propuso un nuevo marco para el principio de separación. Este enfoque considera los sistemas estocásticos como mapas bien definidos entre caminos de muestra en lugar de entre procesos estocásticos y nos permite extender el principio de separación a sistemas impulsados por martingalas con posibles saltos. El enfoque está motivado por el pensamiento de ingeniería donde los sistemas y los bucles de retroalimentación procesan señales, y no procesos estocásticos per se o transformaciones de medidas de probabilidad. Por lo tanto, el propósito es crear una clase natural de leyes de control admisibles que tengan sentido para la ingeniería, incluidas aquellas que son no lineales y discontinuas.
La ecuación de retroalimentación tiene una solución fuerte única si existe una función no anticipada tal que satisface la ecuación con probabilidad uno y todas las demás soluciones coinciden con con probabilidad uno. Sin embargo, en el entorno de la muestra, se requiere más, es decir, que exista una solución única y que se mantiene para todos , no solo casi todos. El ciclo de retroalimentación resultante está determinísticamente bien planteado en el sentido de que las ecuaciones de retroalimentación admiten una solución única que depende causalmente de la entrada para cada ruta de muestra de entrada.
En este contexto, una señal se define como una ruta de muestra de un proceso estocástico con posibles discontinuidades. Más precisamente, las señales pertenecerán al espacio Skorohod. , es decir, el espacio de funciones que son continuas a la derecha y tienen un límite a la izquierda en todos los puntos ( funciones càdlàg ). En particular, el espacio de funciones continuas es un subespacio propio de . Por tanto, la respuesta de una operación no lineal típica que implica umbralización y conmutación puede modelarse como una señal. Lo mismo ocurre con las rutas de muestra de los procesos de conteo y otras martingalas. Un sistema se define como un mapa no anticipatorio medible enviar rutas de muestra a rutas de muestra para que sus salidas en cualquier momento es una función medible de los valores pasados de la entrada y el tiempo. Por ejemplo, las ecuaciones diferenciales estocásticas con coeficientes de Lipschitz controlados por un proceso de Wiener inducen mapas entre los espacios de trayectoria correspondientes, consulte la página 127 en Rogers y Williams, [16] y las páginas 126-128 en Klebaner. [17] Además, en condiciones bastante generales (véase, por ejemplo, el Capítulo V en Protter [18] ), las ecuaciones diferenciales estocásticas impulsadas por martingalas con trayectorias muestrales en tenemos soluciones fuertes que son semi-martingalas.
Para el ajuste de la hora , el sistema de retroalimentación puede ser escrito , dónde se puede interpretar como una entrada.
Definición. Un bucle de retroalimentaciónestá determinísticamente bien planteado si tiene una solución única para todas las entradas y es un sistema.
Esto implica que los procesos y definir filtraciones idénticas. [1] En consecuencia, el bucle no crea nueva información. Sin embargo, lo que necesitamos es que por . Esto está asegurado por el siguiente lema (Lema 8 en Georgiou y Lindquist [1] ).
Lema clave. Si el bucle de retroalimentación está deterministamente bien planteado, es un sistema, y es un sistema lineal que tiene una inversa a la derecha que también es un sistema, entonces es un sistema y por .
La condición en en este lema se satisface claramente en el sistema estocástico lineal estándar, para el cual , y por lo tanto . Las condiciones restantes se recogen en la siguiente definición.
Definición. Una ley de retroalimentaciónestá determinísticamente bien posicionado para el sistema Si es un sistema y el sistema de retroalimentación deterministamente bien planteado.
En la Observación 12 de Georgiou y Lindquist se dan ejemplos de sistemas simples que no están bien planteados de manera determinista. [1]
Un principio de separación para leyes de control físicamente realizables
Al considerar solo las leyes de retroalimentación que están bien planteadas de manera determinista, todas las leyes de control admisibles son físicamente realizables en el sentido de ingeniería de que inducen una señal que viaja a través del circuito de retroalimentación. La prueba del siguiente teorema se puede encontrar en Georgiou y Lindquist 2013. [1]
Teorema de la separación. Dado el sistema estocástico lineal
dónde es un proceso de Wiener con valores vectoriales, es un vector aleatorio gaussiano de media cero independiente de , considere el problema de minimizar la función cuadrática J (u) sobre la clase de todas las leyes de retroalimentación determinísticamente bien planteadas . Entonces la ley de control óptima única viene dada por dónde se define como arriba y viene dado por el filtro de Kalman. De manera más general, si es una martingala cuadrada integrable y es un vector aleatorio arbitrario de media cero, , dónde , es la ley de control óptimo siempre que esté bien planteada de manera determinista.
En el caso general no gaussiano, que puede involucrar procesos de conteo, el filtro de Kalman debe ser reemplazado por un filtro no lineal.
Un principio de separación para sistemas diferenciales de retardo
El control estocástico para sistemas de retardo de tiempo se estudió por primera vez en Lindquist, [19] [20] [8] [2] y Brooks, [21] aunque Brooks se basa en la fuerte suposición de que laes funcionalmente independiente del control, evitando así la cuestión clave de la retroalimentación.
Considere el sistema diferencial de retardo [8]
dónde es ahora una martingala gaussiana (vectorial) (integrable en cuadrado), y donde y son de variación limitada en el primer argumento y continuos a la derecha en el segundo, es determinista para , y . Más precisamente, por , por , y la variación total de está acotado por una función integrable en la variable , y lo mismo vale para .
Queremos determinar una ley de control que minimice
dónde es una medida de Stieltjes positiva. El correspondiente problema determinista obtenido al establecer es dado por
con [8] .
El siguiente principio de separación para el sistema de retardo anterior se puede encontrar en Georgiou y Lindquist 2013 [1] y generaliza el resultado correspondiente en Lindquist 1973 [8]
Teorema. Existe una ley de retroalimentación única en la clase de leyes de control determinísticamente bien planteadas que minimizan , y está dado por
dónde es la ganancia de control determinista y viene dado por el filtro lineal (distribuido)
dónde es el proceso de innovación
y la ganancia es como se define en la página 120 en Lindquist. [8]
Referencias
- ↑ a b c d e f g h i Tryphon T. Georgiou y Anders Lindquist (2013). "El principio de separación en el control estocástico, Redux". Transacciones IEEE sobre control automático . 58 (10): 2481–2494. arXiv : 1103.3005 . doi : 10.1109 / TAC.2013.2259207 ..
- ^ a b c d e f g h Anders Lindquist (1973). "Sobre el control de retroalimentación de sistemas estocásticos lineales". Revista SIAM de Control . 11 (2): 323–343. doi : 10.1137 / 0311025 ..
- ^ Karl Johan Astrom (1970). Introducción a la teoría del control estocástico . 58 . Prensa académica. ISBN 978-0-486-44531-1..
- ^ a b A. Bensoussan (1992). Control estocástico de sistemas parcialmente observables . Prensa de la Universidad de Cambridge..
- ^ Ramon van Handel (2007). Cálculo estocástico, filtrado y control estocástico (PDF) . notas inéditas.
- ^ Jan C. Willems. (1978). "Filtrado recursivo". Statistica Neerlandica . 32 (1): 1–39. doi : 10.1111 / j.1467-9574.1978.tb01382.x ..
- ^ MHA Davis (1978). Estimación lineal y control estocástico . Chapman y Hall..
- ^ a b c d e f Anders Lindquist (1973). "Control óptimo de sistemas estocásticos lineales con aplicaciones a sistemas timelag". Ciencias de la información . 5 : 81-126. doi : 10.1016 / 0020-0255 (73) 90005-4 ..
- ^ Murray Wonham (1968). "Sobre el teorema de separación del control estocástico". SIAM J. Control . 6 (2): 312–326. doi : 10.1137 / 0306023 .
- ^ WH Fleming y RW Rishel (1968). Control óptimo determinista y estocástico . Springer-Verlag..
- ^ H. Kushner (1971). Introducción al control estocástico . Holt, Rinehart y Winston..
- ^ Tyrone Duncan y Pravin Varaiya (1971). "Sobre las soluciones de un sistema de control estocástico" (PDF) . SIAM J. Control . 9 (3): 354–371. doi : 10.1137 / 0309026 . hdl : 1808/16692 ..
- ^ MHA Davis y P. Varaiya (1972). "Estados de información para sistemas estocásticos" . J. Math. Anal. Aplicaciones . 37 : 384–402. doi : 10.1016 / 0022-247X (72) 90281-8 ..
- ^ a b RS Liptser y AN Shirayev (1978). Estadística de Procesos Aleatorios II, Aplicaciones . Springer-Verlag..
- ^ S. Mitter (1996). "Filtrado y control estocástico: una perspectiva histórica". Revista IEEE Control Systems . 13 (3): 67–76..
- ^ Rogers, L. Chris G. y David Williams (2000). Difusiones, procesos de Markov y martingalas: Volumen 2, Cálculo de Itô . Prensa de la Universidad de Cambridge.CS1 maint: varios nombres: lista de autores ( enlace ).
- ^ Klebaner, Fima C. (2012). Introducción al cálculo estocástico con aplicaciones . Compañía Editorial Científica Mundial..
- ^ Protter, PE (2004). Integración estocástica y ecuaciones diferenciales . Saltador..
- ^ Anders Lindquist (1968). "En control estocástico óptimo con información suavizada". Ciencias de la información . 1 : 55–85. doi : 10.1016 / 0020-0255 (68) 90007-8 ..
- ^ Anders Lindquist (1969). "Un enfoque de innovaciones para el control óptimo de sistemas estocásticos lineales con retardo de tiempo". Ciencias de la información . 1 (3): 279–295. doi : 10.1016 / S0020-0255 (69) 80014-9 ..
- ^ R. Brooks (1972). "Control estocástico lineal: un principio de separación extendido" . J. Math. Anal. Apl . 38 (3): 569–587. doi : 10.1016 / 0022-247X (72) 90069-8 ..