Principio de separación en control estocástico

El principio de separación es uno de los principios fundamentales de la teoría del control estocástico , que establece que los problemas de control óptimo y estimación del estado pueden desacoplarse bajo ciertas condiciones. En su formulación más básica se trata de un sistema estocástico lineal

{\ Displaystyle {\ begin {alineado} dx & = A (t) x (t) \, dt + B_ {1} (t) u (t) \, dt + B_ {2} (t) \, dw \\ dy & = C (t) x (t) \, dt + D (t) \, dw \ end {alineado}}}

con un proceso estatal ${\ Displaystyle x}$ , un proceso de salida ${\ Displaystyle y}$ y un control ${\ Displaystyle u}$ , dónde ${\ Displaystyle w}$ es un proceso de Wiener con valores vectoriales , ${\ Displaystyle x (0)}$ es un vector aleatorio gaussiano de media cero independiente de ${\ Displaystyle w}$ , ${\ Displaystyle y (0) = 0}$ , y ${\ Displaystyle A}$ , ${\ Displaystyle B_ {1}}$ , ${\ Displaystyle B_ {2}}$ , ${\ Displaystyle C}$ , ${\ Displaystyle D}$ son funciones matriciales que generalmente se toman como continuas de variación acotada. Es más, ${\ Displaystyle DD '}$ no es singular en algún intervalo ${\ Displaystyle [0, T]}$ . El problema es diseñar una ley de retroalimentación de salida ${\ Displaystyle \ pi: \, y \ mapsto u}$ que mapea el proceso observado ${\ Displaystyle y}$ a la entrada de control ${\ Displaystyle u}$ de una manera no participativa para minimizar la funcionalidad

{\ Displaystyle J (u) = \ mathbb {E} \ left \ {\ int _ {0} ^ {T} x (t) 'Q (t) x (t) \, dt + \ int _ {0} ^ {T} u (t) 'R (t) u (t) \, dt + x (T)' Sx (T) \ right \},}

dónde ${\ Displaystyle \ mathbb {E}}$ denota valor esperado, primo ( ${\ displaystyle '}$ ) denota transposición. y ${\ displaystyle Q}$ y ${\ Displaystyle R}$ son funciones de matriz continua de variación acotada, ${\ Displaystyle Q (t)}$ es positivo semi-definido y ${\ Displaystyle R (t)}$ es positivo definido para todos ${\ Displaystyle t}$ . En condiciones adecuadas, que deben establecerse adecuadamente, la política óptima ${\ Displaystyle \ pi}$ se puede elegir en la forma

{\ Displaystyle u (t) = K (t) {\ hat {x}} (t),}

dónde ${\ Displaystyle {\ hat {x}} (t)}$ es la estimación lineal de mínimos cuadrados del vector de estado ${\ Displaystyle x (t)}$ obtenido del filtro de Kalman

{\ Displaystyle d {\ hat {x}} = A (t) {\ hat {x}} (t) \, dt + B_ {1} (t) u (t) \, dt + L (t) ( dy-C (t) {\ hat {x}} (t) \, dt), \ quad {\ hat {x}} (0) = 0,}

dónde ${\ Displaystyle K}$ es la ganancia del regulador lineal-cuadrático óptimo obtenido tomando ${\ Displaystyle B_ {2} = D = 0}$ y ${\ Displaystyle x (0)}$ determinista, y donde ${\ Displaystyle L}$ es la ganancia de Kalman . También hay una versión no gaussiana de este problema (que se discutirá a continuación) donde el proceso de Wiener ${\ Displaystyle w}$ se sustituye por una martingala integrable en escuadra más general con posibles saltos. ^[1] En este caso, el filtro de Kalman debe reemplazarse por un filtro no lineal que proporcione una estimación de la media condicional (en sentido estricto)

{\ Displaystyle {\ hat {x}} (t) = \ operatorname {E} \ {x (t) \ mid {\ cal {Y}} _ {t} \},}

dónde

{\ Displaystyle {\ cal {Y}} _ {t}: = \ sigma \ {y (\ tau), \ tau \ in [0, t] \}, \ quad 0 \ leq t \ leq T,}

es la filtración generada por el proceso de salida; es decir, la familia de campos sigma crecientes que representan los datos a medida que se producen.

En la literatura inicial sobre el principio de separación era común permitir como controles admisibles ${\ Displaystyle u}$ todos los procesos que se adaptan a la filtración ${\ Displaystyle \ {{\ cal {Y}} _ {t}, \, 0 \ leq t \ leq T \}}$ . Esto equivale a permitir que todas las funciones de Borel no anticipatorias sean leyes de retroalimentación, lo que plantea la cuestión de la existencia de una solución única para las ecuaciones del ciclo de retroalimentación. Además, es necesario excluir la posibilidad de que un controlador no lineal extraiga más información de los datos de lo que es posible con una ley de control lineal. ^[2]

Elecciones de la clase de leyes de control admisibles

Los problemas de control lineal-cuadrático a menudo se resuelven mediante un argumento de compleción de cuadrados. En nuestro contexto actual tenemos

{\ Displaystyle J (u) = \ operatorname {E} \ left \ {\ int _ {0} ^ {T} (u-Kx) 'R (u-Kx) \, dt \ right \} + {\ text {términos que no dependen de}} u,}

en el que el primer término toma la forma ^[3]

{\ Displaystyle {\ begin {alineado} \ operatorname {E} \ left \ {\ int _ {0} ^ {T} (u-Kx) 'R (u-Kx) \, dt \ right \} = \ operatorname {E} \ left \ {\ int _ {0} ^ {T} [(uK {\ hat {x}}) 'R (uK {\ hat {x}}) + \ operatorname {tr} (K'RK \ Sigma)] \, dt \ right \}, \ end {alineado}}}

dónde ${\ Displaystyle \ Sigma}$ es la matriz de covarianza

{\ Displaystyle \ Sigma (t): = \ operatorname {E} \ {[x (t) - {\ hat {x}} (t)] [x (t) - {\ hat {x}} (t) ] '\}.}

El principio de separación seguiría ahora inmediatamente si ${\ Displaystyle {\ begin {alineado} \ Sigma \ end {alineado}}}$ eran independientes del control. Sin embargo, esto debe establecerse.

La ecuación de estado se puede integrar para tomar la forma

{\ Displaystyle x (t) = x_ {0} (t) + \ int _ {0} ^ {t} \ Phi (t, s) B_ {1} (s) u (s) \, ds,}

dónde ${\ Displaystyle x_ {0}}$ es el proceso de estado obtenido al establecer ${\ Displaystyle u = 0}$ y ${\ Displaystyle \ Phi}$ es la función de matriz de transición. Por linealidad, ${\ Displaystyle {\ hat {x}} (t) = \ operatorname {E} \ {x (t) \ mid {\ cal {Y}} _ {t} \}}$ es igual a

{\ Displaystyle {\ hat {x}} (t) = {\ hat {x}} _ {0} (t) + \ int _ {0} ^ {t} \ Phi (t, s) B_ {1} (s) u (s) \, ds,}

dónde ${\ displaystyle {\ hat {x}} _ {0} (t) = \ operatorname {E} \ {x_ {0} (t) \ mid {\ cal {Y}} _ {t} \}}$ . Como consecuencia,

{\ Displaystyle \ Sigma (t): = \ mathbb {E} \ {[x_ {0} (t) - {\ hat {x}} _ {0} (t)] [x_ {0} (t) - {\ hat {x}} _ {0} (t)] '\},}

pero tenemos que establecer que ${\ displaystyle {\ begin {alineado} {\ hat {x}} _ {0} \ end {alineado}}}$ no depende del control. Este sería el caso si

{\ Displaystyle {\ cal {Y}} _ {t} = {\ cal {Y}} _ {t} ^ {0}: = \ sigma \ {y_ {0} (\ tau), \ tau \ in [ 0, t] \}, \ quad 0 \ leq t \ leq T,}

dónde ${\ Displaystyle y_ {0}}$ es el proceso de salida obtenido al configurar ${\ Displaystyle u = 0}$ . Este tema fue discutido en detalle por Lindquist. ^[2] De hecho, dado que el proceso de control ${\ Displaystyle u}$ es en general una función no lineal de los datos y, por lo tanto, no gaussiana, entonces también lo es el proceso de salida ${\ Displaystyle y}$ . Para evitar estos problemas, uno podría comenzar desacoplando el circuito de retroalimentación y determinar un proceso de control óptimo en la clase de procesos estocásticos. ${\ Displaystyle u}$ que se adaptan a la familia ${\ Displaystyle \ {{\ cal {Y}} _ {t} ^ {0} \}}$ de campos sigma. Este problema, en el que se optimiza la clase de todos los procesos de control adaptados a una filtración fija, se denomina problema estocástico de bucle abierto (SOL) . ^[2] No es raro en la literatura suponer desde el principio que el control está adaptado a ${\ Displaystyle \ {{\ mathcal {Y}} _ {t} ^ {0} \}}$ ; ver, por ejemplo, la Sección 2.3 en Bensoussan, ^[4] también van Handel ^[5] y Willems. ^[6]

En Lindquist 1973 ^[2] se propuso un procedimiento para incrustar la clase de controles admisibles en varias clases SOL de una manera dependiente del problema, y luego construir la ley de retroalimentación correspondiente. La clase mas grande ${\ Displaystyle \ Pi}$ de las leyes de retroalimentación admisibles ${\ Displaystyle \ pi}$ consta de las funciones no anticipatorias ${\ Displaystyle u: = \ pi (y)}$ tal que la ecuación de retroalimentación tenga una solución única y el correspondiente proceso de control ${\ Displaystyle u _ {\ pi}}$ está adaptado a ${\ Displaystyle \ {{\ mathcal {Y}} _ {t} ^ {0} \}}$ . A continuación, damos algunos ejemplos de clases específicas de leyes de retroalimentación que pertenecen a esta clase general, así como algunas otras estrategias en la literatura para superar los problemas descritos anteriormente.

Leyes de control lineal

La clase admisible ${\ Displaystyle \ Pi}$ de las leyes de control podría restringirse para contener solo ciertas leyes lineales como en Davis. ^[7] De manera más general, la clase lineal

{\ Displaystyle ({\ mathcal {L}}) \ quad u (t) = {\ bar {u}} (t) + \ int _ {0} ^ {t} F (t, \ tau) \, dy ,}

dónde ${\ Displaystyle {\ bar {u}}}$ es una función determinista y ${\ Displaystyle F}$ es un ${\ Displaystyle L_ {2}}$ kernel, asegura que ${\ Displaystyle \ Sigma}$ es independiente del control. ^[8]^[2] De hecho, la propiedad gaussiana se conservará y ${\ Displaystyle {\ hat {x}}}$ será generado por el filtro de Kalman. Entonces el proceso de error ${\ Displaystyle {\ tilde {x}}: = x - {\ hat {x}}}$ es generado por

{\ Displaystyle d {\ tilde {x}} = (A-LC) {\ tilde {x}} \, dt + (B_ {2} -LD) \, dw, \ quad {\ tilde {x}} (0 ) = x (0),}

que es claramente independiente de la elección del control, y por lo tanto también lo es ${\ Displaystyle \ Sigma}$ .

Leyes de control continuo de Lipschitz

Wonham demostró un teorema de separación para controles en la clase. ${\ Displaystyle {\ begin {alineado} \ pi: \, u (t) = \ psi (t, {\ hat {x}} (t)) \ end {alineado}}}$ , incluso para un costo funcional más general que J (u). ^[9] Sin embargo, la prueba está lejos de ser simple y hay muchos supuestos técnicos. Por ejemplo, ${\ Displaystyle {\ begin {alineado} C (t) \ end {alineado}}}$ debe cuadrar y tener un determinante acotado lejos de cero, lo cual es una restricción seria. Una demostración posterior de Fleming y Rishel ^[10] es considerablemente más sencilla. También prueban el teorema de separación con costo cuadrático funcional ${\ Displaystyle J (u)}$ para una clase de leyes de retroalimentación continua de Lipschitz, a saber ${\ Displaystyle u (t) = \ phi (t, y)}$ , dónde ${\ Displaystyle \ phi: \, [0, T] \ times C ^ {n} [0, T] \ to {\ mathbb {R}} ^ {m}}$ es una función no anticipatoria de ${\ Displaystyle y}$ que es Lipschitz continuo en este argumento. Kushner ^[11] propuso una clase más restringida ${\ Displaystyle u (t) = \ psi (t, {\ hat {\ xi}} (t))}$ , donde el proceso de estado modificado ${\ Displaystyle {\ hat {\ xi}}}$ es dado por

{\ Displaystyle {\ hat {\ xi}} (t) = \ operatorname {E} \ {x_ {0} (t) \ mid {\ mathcal {Y}} _ {t} ^ {0} \} + \ int _ {0} ^ {t} \ Phi (t, s) B_ {1} (s) u (s) \, ds,}

que lleva a la identidad ${\ Displaystyle {\ begin {alineado} {\ hat {x}} = {\ hat {\ xi}} \ end {alineado}}}$ .

Imponer retraso

Si hay un retraso en el procesamiento de los datos observados para que, para cada ${\ Displaystyle t}$ , ${\ Displaystyle u (t)}$ es una función de ${\ Displaystyle y (\ tau); \, 0 \ leq \ tau \ leq t- \ varepsilon}$ , luego ${\ displaystyle {\ cal {Y}} _ {t} = {\ cal {Y}} _ {t} ^ {0}}$ , ${\ Displaystyle 0 \ leq t \ leq T}$ , consulte el Ejemplo 3 en Georgiou y Lindquist. ^[1] En consecuencia, ${\ Displaystyle \ Sigma}$ es independiente del control. Sin embargo, la política de control ${\ Displaystyle \ pi}$ debe ser tal que las ecuaciones de retroalimentación tengan una solución única.

En consecuencia, el problema con los campos sigma posiblemente dependientes del control no se produce en la formulación habitual de tiempo discreto. Sin embargo, un procedimiento utilizado en varios libros de texto para construir el tiempo continuo ${\ Displaystyle \ Sigma}$ como el límite de los cocientes en diferencias finitas del tiempo discreto ${\ Displaystyle \ Sigma}$ , que no depende del control, es circular o mejor incompleto; ver Observación 4 en Georgiou y Lindquist. ^[1]

Soluciones débiles

Un enfoque introducido por Duncan y Varaiya ^[12] y Davis y Varaiya, ^[13] ver también la Sección 2.4 en Bensoussan ^[4] se basa en soluciones débiles de la ecuación diferencial estocástica. Considerando tales soluciones de

{\ Displaystyle dx = A (t) x (t) \, dt + B_ {1} (t) u (t) \, dt + B_ {2} (t) \, dw}

podemos cambiar la medida de probabilidad (que depende de ${\ Displaystyle {\ begin {alineado} u \ end {alineado}}}$ ) a través de una transformación de Girsanov para que

{\ Displaystyle d {\ tilde {w}}: = B_ {1} (t) u (t) \, dt + B_ {2} (t) \, dw}

se convierte en un nuevo proceso de Wiener, que (según la nueva medida de probabilidad) se puede suponer que no se ve afectado por el control. Queda abierta la cuestión de cómo se podría implementar esto en un sistema de ingeniería.

Soluciones de filtrado no lineal

Aunque una ley de control no lineal producirá un proceso de estado no gaussiano, se puede demostrar, utilizando la teoría de filtrado no lineal (Capítulos 16.1 en Lipster y Shirayev ^[14] ), que el proceso de estado es condicionalmente gaussiano dada la filtración ${\ Displaystyle {\ begin {alineado} \ {{\ mathcal {Y}} _ {t} \} \ end {alineado}}}$ . Este hecho puede usarse para demostrar que ${\ Displaystyle {\ begin {alineado} {\ hat {x}} \ end {alineado}}}$ en realidad se genera mediante un filtro de Kalman (véanse los capítulos 11 y 12 en Lipster y Shirayev ^[14] ). Sin embargo, esto requiere un análisis bastante sofisticado y se limita al caso en el que el ruido de conducción ${\ displaystyle {\ begin {alineado} w \ end {alineado}}}$ es un proceso de Wiener.

Se puede encontrar una perspectiva histórica adicional en Mitter. ^[15]

Problemas de retroalimentación en sistemas estocásticos lineales

En este punto es conveniente considerar una clase más general de sistemas estocásticos lineales controlados que también cubre sistemas con retardos de tiempo, a saber

{\ Displaystyle {\ begin {alineado} z (t) & = z_ {0} (t) + \ int _ {0} ^ {t} G (t, s) u (s) \, ds \\ y ( t) & = Hz (t) \ end {alineado}}}

con ${\ Displaystyle {\ begin {alineado} z_ {0} \ end {alineado}}}$ un proceso de vector estocástico que no depende del control. ^[2] El sistema estocástico estándar se obtiene entonces como un caso especial donde ${\ Displaystyle z = [x ', y'] '}$ , ${\ Displaystyle z_ {0} = [x_ {0} ', y_ {0}'] '}$ y ${\ Displaystyle H = [I, 0]}$ . Usaremos la notación abreviada

{\ Displaystyle z = z_ {0} + g \ pi Hz}

para el sistema de retroalimentación, donde

{\ Displaystyle g \;: \; (t, u) \ mapsto \ int _ {0} ^ {t} G (t, \ tau) u (\ tau) \, d \ tau}

es un operador de Volterra.

En esta formulación más general, el procedimiento de inclusión de Lindquist ^[2] define la clase ${\ Displaystyle \ Pi}$ de las leyes de retroalimentación admisibles ${\ Displaystyle \ pi}$ como la clase de funciones no anticipatorias ${\ Displaystyle u: = \ pi (y)}$ tal que la ecuación de retroalimentación ${\ Displaystyle z = z_ {0} + g \ pi Hz}$ tiene una solución única ${\ Displaystyle z _ {\ pi}}$ y ${\ Displaystyle u = \ pi (Hz _ {\ pi})}$ está adaptado a ${\ Displaystyle \ {{\ mathcal {Y}} _ {t} ^ {0} \}}$ .

En Georgiou y Lindquist ^[1] se propuso un nuevo marco para el principio de separación. Este enfoque considera los sistemas estocásticos como mapas bien definidos entre caminos de muestra en lugar de entre procesos estocásticos y nos permite extender el principio de separación a sistemas impulsados por martingalas con posibles saltos. El enfoque está motivado por el pensamiento de ingeniería donde los sistemas y los bucles de retroalimentación procesan señales, y no procesos estocásticos per se o transformaciones de medidas de probabilidad. Por lo tanto, el propósito es crear una clase natural de leyes de control admisibles que tengan sentido para la ingeniería, incluidas aquellas que son no lineales y discontinuas.

La ecuación de retroalimentación ${\ Displaystyle z = z_ {0} + g \ pi Hz}$ tiene una solución fuerte única si existe una función no anticipada ${\ Displaystyle F}$ tal que ${\ Displaystyle z = F (z_ {0})}$ satisface la ecuación con probabilidad uno y todas las demás soluciones coinciden con ${\ Displaystyle z}$ con probabilidad uno. Sin embargo, en el entorno de la muestra, se requiere más, es decir, que exista una solución única y que ${\ Displaystyle z = z_ {0} + g \ pi Hz}$ se mantiene para todos ${\ Displaystyle z_ {0}}$ , no solo casi todos. El ciclo de retroalimentación resultante está determinísticamente bien planteado en el sentido de que las ecuaciones de retroalimentación admiten una solución única que depende causalmente de la entrada para cada ruta de muestra de entrada.

En este contexto, una señal se define como una ruta de muestra de un proceso estocástico con posibles discontinuidades. Más precisamente, las señales pertenecerán al espacio Skorohod. ${\ Displaystyle D}$ , es decir, el espacio de funciones que son continuas a la derecha y tienen un límite a la izquierda en todos los puntos ( funciones càdlàg ). En particular, el espacio ${\ Displaystyle C}$ de funciones continuas es un subespacio propio de ${\ Displaystyle D}$ . Por tanto, la respuesta de una operación no lineal típica que implica umbralización y conmutación puede modelarse como una señal. Lo mismo ocurre con las rutas de muestra de los procesos de conteo y otras martingalas. Un sistema se define como un mapa no anticipatorio medible ${\ Displaystyle D \ a D}$ enviar rutas de muestra a rutas de muestra para que sus salidas en cualquier momento ${\ Displaystyle t}$ es una función medible de los valores pasados de la entrada y el tiempo. Por ejemplo, las ecuaciones diferenciales estocásticas con coeficientes de Lipschitz controlados por un proceso de Wiener inducen mapas entre los espacios de trayectoria correspondientes, consulte la página 127 en Rogers y Williams, ^[16] y las páginas 126-128 en Klebaner. ^[17] Además, en condiciones bastante generales (véase, por ejemplo, el Capítulo V en Protter ^[18] ), las ecuaciones diferenciales estocásticas impulsadas por martingalas con trayectorias muestrales en ${\ Displaystyle D}$ tenemos soluciones fuertes que son semi-martingalas.

Para el ajuste de la hora ${\ Displaystyle f (z): = g \ pi Hz}$ , el sistema de retroalimentación ${\ Displaystyle z = z_ {0} + g \ pi Hz}$ puede ser escrito ${\ Displaystyle z = z_ {0} + f (z)}$ , dónde ${\ Displaystyle z_ {0}}$ se puede interpretar como una entrada.

Definición. Un bucle de retroalimentación ${\ Displaystyle z = z_ {0} + f (z)}$ está determinísticamente bien planteado si tiene una solución única ${\ Displaystyle z \ in D}$ para todas las entradas ${\ Displaystyle z_ {0} \ in D}$ y ${\ Displaystyle (1-f) ^ {- 1}}$ es un sistema.

Esto implica que los procesos ${\ Displaystyle z}$ y ${\ Displaystyle z_ {0}}$ definir filtraciones idénticas. ^[1] En consecuencia, el bucle no crea nueva información. Sin embargo, lo que necesitamos es que ${\ displaystyle {\ cal {Y}} _ {t} = {\ cal {Y}} _ {t} ^ {0}}$ por ${\ Displaystyle 0 \ leq t \ leq T}$ . Esto está asegurado por el siguiente lema (Lema 8 en Georgiou y Lindquist ^[1] ).

Lema clave. Si el bucle de retroalimentación ${\ Displaystyle z = z_ {0} + g \ pi Hz}$ está deterministamente bien planteado, ${\ Displaystyle g \ pi}$ es un sistema, y ${\ Displaystyle H}$ es un sistema lineal que tiene una inversa a la derecha ${\ Displaystyle H ^ {- R}}$ que también es un sistema, entonces ${\ Displaystyle (1-Hg \ pi) ^ {- 1}}$ es un sistema y ${\ displaystyle {\ cal {Y}} _ {t} = {\ cal {Y}} _ {t} ^ {0}}$ por ${\ Displaystyle 0 \ leq t \ leq T}$ .

La condición en ${\ Displaystyle H}$ en este lema se satisface claramente en el sistema estocástico lineal estándar, para el cual ${\ Displaystyle H = [0, I]}$ , y por lo tanto ${\ Displaystyle H ^ {- R} = H '}$ . Las condiciones restantes se recogen en la siguiente definición.

Definición. Una ley de retroalimentación ${\ Displaystyle \ pi}$ está determinísticamente bien posicionado para el sistema ${\ Displaystyle z = z_ {0} + g \ pi Hz}$ Si ${\ Displaystyle g \ pi}$ es un sistema y el sistema de retroalimentación ${\ Displaystyle z = z_ {0} + g \ pi Hz}$ deterministamente bien planteado.

En la Observación 12 de Georgiou y Lindquist se dan ejemplos de sistemas simples que no están bien planteados de manera determinista. ^[1]

Un principio de separación para leyes de control físicamente realizables

Al considerar solo las leyes de retroalimentación que están bien planteadas de manera determinista, todas las leyes de control admisibles son físicamente realizables en el sentido de ingeniería de que inducen una señal que viaja a través del circuito de retroalimentación. La prueba del siguiente teorema se puede encontrar en Georgiou y Lindquist 2013. ^[1]

Teorema de la separación. Dado el sistema estocástico lineal

{\ Displaystyle {\ begin {alineado} dx & = A (t) x (t) \, dt + B_ {1} (t) u (t) \, dt + B_ {2} (t) \, dw \\ dy & = C (t) x (t) \, dt + D (t) \, dw \ end {alineado}}}

dónde ${\ Displaystyle w}$ es un proceso de Wiener con valores vectoriales, ${\ Displaystyle x (0)}$ es un vector aleatorio gaussiano de media cero independiente de ${\ Displaystyle w}$ , considere el problema de minimizar la función cuadrática J (u) sobre la clase de todas las leyes de retroalimentación determinísticamente bien planteadas ${\ Displaystyle \ pi}$ . Entonces la ley de control óptima única viene dada por ${\ Displaystyle u (t) = K (t) {\ hat {x}} (t)}$ dónde ${\ Displaystyle K}$ se define como arriba y ${\ Displaystyle {\ hat {x}}}$ viene dado por el filtro de Kalman. De manera más general, si ${\ Displaystyle w}$ es una martingala cuadrada integrable y ${\ Displaystyle x (0)}$ es un vector aleatorio arbitrario de media cero, ${\ Displaystyle u (t) = K (t) {\ hat {x}} (t)}$ , dónde ${\ Displaystyle {\ hat {x}} (t) = \ operatorname {E} \ {x (t) \ mid {\ cal {Y}} _ {t} \}}$ , es la ley de control óptimo siempre que esté bien planteada de manera determinista.

En el caso general no gaussiano, que puede involucrar procesos de conteo, el filtro de Kalman debe ser reemplazado por un filtro no lineal.

Un principio de separación para sistemas diferenciales de retardo

El control estocástico para sistemas de retardo de tiempo se estudió por primera vez en Lindquist, ^[19]^[20]^[8]^[2] y Brooks, ^[21] aunque Brooks se basa en la fuerte suposición de que la ${\ Displaystyle y}$ es funcionalmente independiente del control ${\ Displaystyle u}$ , evitando así la cuestión clave de la retroalimentación.

Considere el sistema diferencial de retardo ^[8]

{\ Displaystyle {\ begin {alineado} dx & = \ left (\ int _ {th} ^ {t} d_ {s} \, A (t, s) x (s) \ right) \, dt + B_ {1 } (t) u (t) \, dt + B_ {2} (t) \, dw \\ dy & = \ left (\ int _ {th} ^ {t} d_ {s} \, C (t, s ) x (s) \ right) \, dt + D (t) \, dw \ end {alineado}}}

dónde ${\ Displaystyle w}$ es ahora una martingala gaussiana (vectorial) (integrable en cuadrado), y donde ${\ displaystyle {\ begin {alineado} A \ end {alineado}}}$ y ${\ Displaystyle C}$ son de variación limitada en el primer argumento y continuos a la derecha en el segundo, ${\ Displaystyle x (t) = \ xi (t)}$ es determinista para ${\ Displaystyle -h \ leq t \ leq 0}$ , y ${\ Displaystyle y (0) = 0}$ . Más precisamente, ${\ Displaystyle A (t, s) = 0}$ por ${\ Displaystyle s \ geq t}$ , ${\ Displaystyle A (t, s) = A (t, th)}$ por ${\ Displaystyle t \ leq th}$ , y la variación total de ${\ Displaystyle s \ mapsto A (t, s)}$ está acotado por una función integrable en la variable ${\ Displaystyle t}$ , y lo mismo vale para ${\ Displaystyle C}$ .

Queremos determinar una ley de control que minimice

{\ Displaystyle J (u) = \ operatorname {E} \ left (\ int _ {0} ^ {T} x (t) 'Q (t) x (t) \, d \ alpha (t) + \ int _ {0} ^ {T} u (t) 'R (t) u (t) \, dt \ right),}

dónde ${\ displaystyle {\ begin {alineado} d \ alpha \ end {alineado}}}$ es una medida de Stieltjes positiva. El correspondiente problema determinista obtenido al establecer ${\ Displaystyle {\ begin {alineado} w = 0 \ end {alineado}}}$ es dado por

{\ Displaystyle u (t) = \ int _ {th} ^ {t} d _ {\ tau} \, K (t, \ tau) x (\ tau),}

con ^[8] ${\ displaystyle {\ begin {alineado} K \ end {alineado}}}$ .

El siguiente principio de separación para el sistema de retardo anterior se puede encontrar en Georgiou y Lindquist 2013 ^[1] y generaliza el resultado correspondiente en Lindquist 1973 ^[8]

Teorema. Existe una ley de retroalimentación única ${\ displaystyle {\ begin {alineado} \ pi: \, y \ mapsto u \ end {alineado}}}$ en la clase de leyes de control determinísticamente bien planteadas que minimizan ${\ Displaystyle {\ begin {alineado} J (u) \ end {alineado}}}$ , y está dado por

{\ Displaystyle u (t) = \ int _ {th} ^ {t} d_ {s} \, K (t, s) {\ hat {x}} (s \ mid t),}

dónde ${\ Displaystyle K}$ es la ganancia de control determinista y ${\ Displaystyle {\ hat {x}} (s \ mid t): = E \ {x (s) \ mid {\ cal {Y}} _ {t} \}}$ viene dado por el filtro lineal (distribuido)

{\ Displaystyle {\ begin {alineado} d {\ hat {x}} (t \ mid t) & = \ int _ {th} ^ {t} d_ {s} \, A (t, s) {\ hat {x}} (s \ mid t) \, dt + B_ {1} u \, dt + X (t, t) \, dv \\ d {\ hat {x}} (t \ mid t) & = \ int _ {th} ^ {t} d_ {s} \, A (t, s) {\ hat {x}} (s \ mid t) \, dt + B_ {1} u \, dt + X ( t, t) \, dv \ end {alineado}}}

dónde ${\ Displaystyle v}$ es el proceso de innovación

{\ Displaystyle dv = dy- \ int _ {th} ^ {t} d_ {s} C (t, s) {\ hat {x}} (s \ mid t) \, dt, \ quad v (0) = 0,}

y la ganancia ${\ Displaystyle x}$ es como se define en la página 120 en Lindquist. ^[8]

Referencias

↑ a b c d e f g h i Tryphon T. Georgiou y Anders Lindquist (2013). "El principio de separación en el control estocástico, Redux". Transacciones IEEE sobre control automático . 58 (10): 2481–2494. arXiv : 1103.3005 . doi : 10.1109 / TAC.2013.2259207 ..
^ a b c d e f g h Anders Lindquist (1973). "Sobre el control de retroalimentación de sistemas estocásticos lineales". Revista SIAM de Control . 11 (2): 323–343. doi : 10.1137 / 0311025 ..
^ Karl Johan Astrom (1970). Introducción a la teoría del control estocástico . 58 . Prensa académica. ISBN 978-0-486-44531-1..
^ a b A. Bensoussan (1992). Control estocástico de sistemas parcialmente observables . Prensa de la Universidad de Cambridge..
^ Ramon van Handel (2007). Cálculo estocástico, filtrado y control estocástico (PDF) . notas inéditas.
^ Jan C. Willems. (1978). "Filtrado recursivo". Statistica Neerlandica . 32 (1): 1–39. doi : 10.1111 / j.1467-9574.1978.tb01382.x ..
^ MHA Davis (1978). Estimación lineal y control estocástico . Chapman y Hall..
^ a b c d e f Anders Lindquist (1973). "Control óptimo de sistemas estocásticos lineales con aplicaciones a sistemas timelag". Ciencias de la información . 5 : 81-126. doi : 10.1016 / 0020-0255 (73) 90005-4 ..
^ Murray Wonham (1968). "Sobre el teorema de separación del control estocástico". SIAM J. Control . 6 (2): 312–326. doi : 10.1137 / 0306023 .
^ WH Fleming y RW Rishel (1968). Control óptimo determinista y estocástico . Springer-Verlag..
^ H. Kushner (1971). Introducción al control estocástico . Holt, Rinehart y Winston..
^ Tyrone Duncan y Pravin Varaiya (1971). "Sobre las soluciones de un sistema de control estocástico" (PDF) . SIAM J. Control . 9 (3): 354–371. doi : 10.1137 / 0309026 . hdl : 1808/16692 ..
^ MHA Davis y P. Varaiya (1972). "Estados de información para sistemas estocásticos" . J. Math. Anal. Aplicaciones . 37 : 384–402. doi : 10.1016 / 0022-247X (72) 90281-8 ..
^ a b RS Liptser y AN Shirayev (1978). Estadística de Procesos Aleatorios II, Aplicaciones . Springer-Verlag..
^ S. Mitter (1996). "Filtrado y control estocástico: una perspectiva histórica". Revista IEEE Control Systems . 13 (3): 67–76..
^ Rogers, L. Chris G. y David Williams (2000). Difusiones, procesos de Markov y martingalas: Volumen 2, Cálculo de Itô . Prensa de la Universidad de Cambridge.CS1 maint: varios nombres: lista de autores ( enlace ).
^ Klebaner, Fima C. (2012). Introducción al cálculo estocástico con aplicaciones . Compañía Editorial Científica Mundial..
^ Protter, PE (2004). Integración estocástica y ecuaciones diferenciales . Saltador..
^ Anders Lindquist (1968). "En control estocástico óptimo con información suavizada". Ciencias de la información . 1 : 55–85. doi : 10.1016 / 0020-0255 (68) 90007-8 ..
^ Anders Lindquist (1969). "Un enfoque de innovaciones para el control óptimo de sistemas estocásticos lineales con retardo de tiempo". Ciencias de la información . 1 (3): 279–295. doi : 10.1016 / S0020-0255 (69) 80014-9 ..
^ R. Brooks (1972). "Control estocástico lineal: un principio de separación extendido" . J. Math. Anal. Apl . 38 (3): 569–587. doi : 10.1016 / 0022-247X (72) 90069-8 ..

[GL2013-1] ↑ a b c d e f g h i Tryphon T. Georgiou y Anders Lindquist (2013). "El principio de separación en el control estocástico, Redux". Transacciones IEEE sobre control automático . 58 (10): 2481–2494. arXiv : 1103.3005 . doi : 10.1109 / TAC.2013.2259207 ..

[lindquist-2] Anders Lindquist (1973). "Sobre el control de retroalimentación de sistemas estocásticos lineales". Revista SIAM de Control . 11 (2): 323–343. doi : 10.1137 / 0311025 ..

[astrom-3] Karl Johan Astrom (1970). Introducción a la teoría del control estocástico . 58 . Prensa académica. ISBN 978-0-486-44531-1..

[Bensoussan-4] A. Bensoussan (1992). Control estocástico de sistemas parcialmente observables . Prensa de la Universidad de Cambridge..

[vanHandel-5] Ramon van Handel (2007). Cálculo estocástico, filtrado y control estocástico (PDF) . notas inéditas.

[Willems78-6] Jan C. Willems. (1978). "Filtrado recursivo". Statistica Neerlandica . 32 (1): 1–39. doi : 10.1111 / j.1467-9574.1978.tb01382.x ..

[Davis-7] MHA Davis (1978). Estimación lineal y control estocástico . Chapman y Hall..

[lindquist1-8] Anders Lindquist (1973). "Control óptimo de sistemas estocásticos lineales con aplicaciones a sistemas timelag". Ciencias de la información . 5 : 81-126. doi : 10.1016 / 0020-0255 (73) 90005-4 ..

[Wonham-9] Murray Wonham (1968). "Sobre el teorema de separación del control estocástico". SIAM J. Control . 6 (2): 312–326. doi : 10.1137 / 0306023 .

[FlemingRishel-10] WH Fleming y RW Rishel (1968). Control óptimo determinista y estocástico . Springer-Verlag..

[Kushner-11] H. Kushner (1971). Introducción al control estocástico . Holt, Rinehart y Winston..

[duncanvaraiya-12] Tyrone Duncan y Pravin Varaiya (1971). "Sobre las soluciones de un sistema de control estocástico" (PDF) . SIAM J. Control . 9 (3): 354–371. doi : 10.1137 / 0309026 . hdl : 1808/16692 ..

[davisvaraiya-13] MHA Davis y P. Varaiya (1972). "Estados de información para sistemas estocásticos" . J. Math. Anal. Aplicaciones . 37 : 384–402. doi : 10.1016 / 0022-247X (72) 90281-8 ..

[LipsterShirayev-14] RS Liptser y AN Shirayev (1978). Estadística de Procesos Aleatorios II, Aplicaciones . Springer-Verlag..

[mitter-15] S. Mitter (1996). "Filtrado y control estocástico: una perspectiva histórica". Revista IEEE Control Systems . 13 (3): 67–76..

[RogersWilliams-16] Rogers, L. Chris G. y David Williams (2000). Difusiones, procesos de Markov y martingalas: Volumen 2, Cálculo de Itô . Prensa de la Universidad de Cambridge.CS1 maint: varios nombres: lista de autores ( enlace ).

[Klebaner-17] Klebaner, Fima C. (2012). Introducción al cálculo estocástico con aplicaciones . Compañía Editorial Científica Mundial..

[Protter-18] Protter, PE (2004). Integración estocástica y ecuaciones diferenciales . Saltador..

[L68-19] Anders Lindquist (1968). "En control estocástico óptimo con información suavizada". Ciencias de la información . 1 : 55–85. doi : 10.1016 / 0020-0255 (68) 90007-8 ..

[L69-20] Anders Lindquist (1969). "Un enfoque de innovaciones para el control óptimo de sistemas estocásticos lineales con retardo de tiempo". Ciencias de la información . 1 (3): 279–295. doi : 10.1016 / S0020-0255 (69) 80014-9 ..

[Brooks-21] R. Brooks (1972). "Control estocástico lineal: un principio de separación extendido" . J. Math. Anal. Apl . 38 (3): 569–587. doi : 10.1016 / 0022-247X (72) 90069-8 ..

[1]