Optimización de Lyapunov

Este artículo describe la optimización de Lyapunov para sistemas dinámicos . Ofrece una aplicación de ejemplo para un control óptimo en las redes de cola .

Introducción

La optimización de Lyapunov se refiere al uso de una función de Lyapunov para controlar de manera óptima un sistema dinámico. Las funciones de Lyapunov se utilizan ampliamente en la teoría de control para garantizar diferentes formas de estabilidad del sistema. El estado de un sistema en un momento particular a menudo se describe mediante un vector multidimensional. Una función de Lyapunov es una medida escalar no negativa de este estado multidimensional. Normalmente, la función se define para crecer cuando el sistema se mueve hacia estados indeseables. La estabilidad del sistema se logra tomando acciones de control que hacen que la función de Lyapunov se desvíe en la dirección negativa hacia cero.

La deriva de Lyapunov es fundamental para el estudio del control óptimo en las redes de cola. Un objetivo típico es estabilizar todas las colas de la red mientras se optimiza algún objetivo de rendimiento, como minimizar la energía promedio o maximizar el rendimiento promedio. Minimizar la deriva de una función de Lyapunov cuadrática conduce al algoritmo de enrutamiento de contrapresión para la estabilidad de la red, también llamado algoritmo de peso máximo . ^[1]^[2] Agregar un término de penalización ponderado a la deriva de Lyapunov y minimizar la suma conduce al algoritmo de deriva más penalización para la estabilidad de la red conjunta y la minimización de penalizaciones. ^[3]^[4]^[5] El procedimiento de deriva más penalización también se puede utilizar para calcular soluciones para programas convexos y programas lineales . ^[6]

Deriva de Lyapunov para las redes de cola

Considere una red de colas que evoluciona en un tiempo discreto con intervalos de tiempo normalizados. ${\ Displaystyle t \ in \ {0,1,2, \ ldots \}.}$ Supongamos que hay ${\ Displaystyle N}$ colas en la red, y definir el vector de retrasos en la cola en el momento ${\ Displaystyle t}$ por:

{\ Displaystyle Q (t) = (Q_ {1} (t), \ ldots, Q_ {N} (t))}

Funciones cuadráticas de Lyapunov

Para cada ranura ${\ Displaystyle t,}$ definir:

{\ Displaystyle L (t) = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} Q_ {i} (t) ^ {2}}

Esta función es una medida escalar de la acumulación total de colas en la red. Se llama función de Lyapunov cuadrática en el estado de la cola. Defina la deriva de Lyapunov como el cambio en esta función de una ranura a la siguiente:

{\ Displaystyle \ Delta L (t) = L (t + 1) -L (t)}

Limitando la deriva de Lyapunov

Suponga que los atrasos de la cola cambian con el tiempo de acuerdo con la siguiente ecuación:

{\ Displaystyle Q_ {i} (t + 1) = \ max \ left \ {Q_ {i} (t) + a_ {i} (t) -b_ {i} (t), 0 \ right \}}

dónde ${\ Displaystyle a_ {i} (t)}$ y ${\ Displaystyle b_ {i} (t)}$ ¿Hay llegadas y oportunidades de servicio, respectivamente, en cola? ${\ Displaystyle i}$ en la ranura ${\ Displaystyle t.}$ Esta ecuación se puede utilizar para calcular un límite en la deriva de Lyapunov para cualquier intervalo t:

{\ Displaystyle Q_ {i} (t + 1) ^ {2} = \ left (\ max \ left \ {Q_ {i} (t) + a_ {i} (t) -b_ {i} (t), 0 \ right \} \ right) ^ {2} \ leqslant \ left (Q_ {i} (t) + a_ {i} (t) -b_ {i} (t) \ right) ^ {2}}

Reordenando esta desigualdad, sumando todo ${\ Displaystyle i,}$ y dividir por 2 conduce a:

{\ Displaystyle \ Delta L (t) \ leqslant B (t) + \ sum _ {i = 1} ^ {N} Q_ {i} (t) (a_ {i} (t) -b_ {i} (t )) \ qquad (Ec. 1)}

dónde:

{\ Displaystyle B (t) = {\ frac {1} {2}} \ sum _ {i = 1} ^ {N} \ left (a_ {i} (t) -b_ {i} (t) \ right ) ^ {2}}

Suponga que los segundos momentos de llegadas y servicio en cada cola están limitados, de modo que hay una constante finita ${\ Displaystyle B> 0}$ tal que para todos ${\ Displaystyle t}$ y todos los posibles vectores de cola ${\ Displaystyle Q (t)}$ la siguiente propiedad tiene:

{\ Displaystyle \ mathbb {E} [B (t) | Q (t)] \ leqslant B}

Tomar expectativas condicionales de (Ec. 1) conduce al siguiente límite en la deriva de Lyapunov esperada condicional :

{\ Displaystyle \ mathbb {E} [\ Delta L (t) | Q (t)] \ leqslant B + \ sum _ {i = 1} ^ {N} Q_ {i} (t) \ mathbb {E} [a_ {i} (t) -b_ {i} (t) | Q (t)] \ qquad (Ec. 2)}

Un teorema básico de la deriva de Lyapunov

En muchos casos, la red se puede controlar para que la diferencia entre llegadas y servicio en cada cola satisfaga la siguiente propiedad para algún número real ${\ Displaystyle \ varepsilon> 0}$ :

{\ Displaystyle \ mathbb {E} [a_ {i} (t) -b_ {i} (t) | Q (t)] \ leqslant - \ varepsilon}

Si lo anterior es válido para el mismo épsilon para todas las colas ${\ Displaystyle i,}$ todas las ranuras ${\ Displaystyle t,}$ y todos los vectores posibles ${\ Displaystyle Q (t),}$ entonces (Ec. 2) se reduce a la condición de deriva usada en el siguiente teorema de deriva de Lyapunov. El teorema siguiente puede verse como una variación del teorema de Foster para cadenas de Markov . Sin embargo, no requiere una estructura de cadena de Markov.

Teorema (deriva de Lyapunov). ^[5]^[7] Supongamos que hay constantes

{\ Displaystyle B \ geqslant 0, \ varepsilon> 0}

tal que para todos

{\ Displaystyle t}

y todos los vectores posibles

{\ Displaystyle Q (t)}

la deriva condicional de Lyapunov satisface:

{\ Displaystyle \ mathbb {E} [\ Delta L (t) | Q (t)] \ leqslant B- \ varepsilon \ sum _ {i = 1} ^ {N} Q_ {i} (t).}

Entonces para todas las tragamonedas

{\ Displaystyle t> 0}

el tamaño medio de la cola en el tiempo en la red satisface:

{\ Displaystyle {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} \ sum _ {i = 1} ^ {N} \ mathbb {E} [Q_ {i} (\ tau)] \ leqslant {\ frac {B} {\ varepsilon}} + {\ frac {\ mathbb {E} [L (0)]} {\ varepsilon t}}.}

Prueba. Tomando las expectativas de ambos lados de la desigualdad de deriva y usando la ley de expectativas iteradas se obtiene:

{\ Displaystyle \ mathbb {E} [\ Delta L (t)] \ leqslant B- \ varepsilon \ sum _ {i = 1} ^ {N} \ mathbb {E} [Q_ {i} (t)]}

Sumando la expresión anterior sobre ${\ Displaystyle \ tau \ in \ {0,1, \ ldots, t-1 \}}$ y usando la ley de las sumas telescópicas se obtiene:

{\ Displaystyle \ mathbb {E} [L (t)] - \ mathbb {E} [L (0)] \ leqslant Bt- \ varepsilon \ sum _ {\ tau = 0} ^ {t-1} \ sum _ {i = 1} ^ {N} \ mathbb {E} [Q_ {i} (\ tau)]}

Usando el hecho de que ${\ Displaystyle L (t)}$ no es negativo y reorganizar los términos en la expresión anterior demuestra el resultado.

Optimización de Lyapunov para redes de cola

Considere la misma red de colas que en la sección anterior. Ahora define ${\ Displaystyle p (t)}$ como una penalización de red incurrida en la ranura ${\ Displaystyle t.}$ Suponga que el objetivo es estabilizar la red de colas mientras se minimiza el tiempo promedio de ${\ Displaystyle p (t).}$ Por ejemplo, para estabilizar la red mientras se minimiza la energía promedio en el tiempo, ${\ Displaystyle p (t)}$ se puede definir como la potencia total contraída por la red en la ranura t. ^[8] Para tratar problemas de maximizar el tiempo promedio de alguna recompensa deseable. ${\ Displaystyle r (t),}$ la pena se puede definir ${\ Displaystyle p (t) = - r (t).}$ Esto es útil para maximizar la utilidad de rendimiento de la red sujeto a la estabilidad. ^[3]

Para estabilizar la red minimizando el tiempo promedio de la penalización ${\ Displaystyle p (t),}$ Los algoritmos de red se pueden diseñar para realizar acciones de control que minimicen codiciosamente un límite en la siguiente expresión de deriva más penalización en cada ranura. ${\ Displaystyle t}$ : ^[5]

{\ Displaystyle \ Delta L (t) + Vp (t)}

dónde ${\ Displaystyle V}$ es una ponderación no negativa que se elige según se desee para afectar una compensación de rendimiento. Una característica clave de este enfoque es que normalmente no requiere conocimiento de las probabilidades de los eventos aleatorios de la red (como llegadas de trabajos aleatorios o realizaciones de canales). Elegir ${\ Displaystyle V = 0}$ se reduce a minimizar un límite en la deriva en cada ranura y, para el enrutamiento en redes de colas de múltiples saltos, se reduce al algoritmo de enrutamiento de contrapresión desarrollado por Tassiulas y Ephremides. ^[1]^[2] Usando ${\ Displaystyle V> 0}$ y definiendo ${\ Displaystyle p (t)}$ como el uso de energía de la red en la ranura ${\ Displaystyle t}$ conduce al algoritmo de deriva más penalización para minimizar la potencia promedio sujeta a la estabilidad de la red desarrollado por Neely. ^[8] Utilizando ${\ Displaystyle V> 0}$ y usando ${\ Displaystyle p (t)}$ ya que el negativo de una métrica de servicios públicos de control de admisión conduce al algoritmo de deriva más penalización para el control de flujo conjunto y el enrutamiento de red desarrollado por Neely, Modiano y Li. ^[3]

En este contexto, es importante una generalización del teorema de la deriva de Lyapunov de la sección anterior. Para simplificar la exposición, suponga ${\ Displaystyle p (t)}$ está acotado desde abajo:

{\ Displaystyle p (t) \ geqslant p _ {\ min} \ quad \ forall t \ in \ {0,1,2, ... \}}

Por ejemplo, lo anterior se satisface con ${\ Displaystyle p _ {\ min} = 0}$ en los casos en que la pena ${\ Displaystyle p (t)}$ siempre es no negativo. Dejar ${\ Displaystyle p ^ {*}}$ representan un objetivo deseado para el tiempo promedio de ${\ Displaystyle p (t).}$ Dejar ${\ Displaystyle V}$ ser un parámetro utilizado para ponderar la importancia de alcanzar el objetivo. El siguiente teorema muestra que si se cumple una condición de deriva más penalización, entonces la penalización promedio de tiempo es como máximo O (1 / V) por encima del objetivo deseado, mientras que el tamaño promedio de la cola es O (V). La ${\ Displaystyle V}$ El parámetro se puede ajustar para hacer que la penalización promedio de tiempo esté tan cerca (o por debajo) del objetivo como se desee, con una compensación de tamaño de cola correspondiente.

Teorema (Optimización de Lyapunov). Supongamos que hay constantes

{\ Displaystyle \ varepsilon> 0, V, B \ geqslant 0,}

y

{\ Displaystyle p ^ {*}}

tal que para todos

{\ Displaystyle t}

y todos los vectores posibles

{\ Displaystyle Q (t)}

Se cumple la siguiente condición de deriva más penalización:

{\ Displaystyle \ mathbb {E} [\ Delta L (t) + Vp (t) | Q (t)] \ leqslant B + Vp ^ {*} - \ varepsilon \ sum _ {i = 1} ^ {N} Q_ {i} (t)}

Entonces para todos

{\ Displaystyle t> 0}

la penalización promedio de tiempo y los tamaños de cola promedio de tiempo satisfacen:

{\ Displaystyle {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} \ mathbb {E} [p (\ tau)] \ leqslant p ^ {*} + {\ frac {B} {V}} + {\ frac {\ mathbb {E} [L (0)]} {Vt}}}

{\ Displaystyle {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} \ sum _ {i = 1} ^ {N} \ mathbb {E} [Q_ {i} (\ tau)] \ leqslant {\ frac {B + V (p ^ {*} - p _ {\ min})} {\ varepsilon}} + {\ frac {\ mathbb {E} [L (0)]} {\ varepsilon t}}}

Prueba. Tomando las expectativas de ambos lados de la deriva-más-penalización postulada y usando la ley de las expectativas iteradas, tenemos:

{\ Displaystyle \ mathbb {E} [\ Delta L (t)] + V \ mathbb {E} [p (t)] \ leqslant B + Vp ^ {*} - \ varepsilon \ sum _ {i = 1} ^ {N} \ mathbb {E} [Q_ {i} (t)]}

Sumando lo anterior sobre el primero ${\ Displaystyle t}$ ranuras y el uso de la ley de las sumas telescópicas da:

{\ Displaystyle {\ begin {alineado} \ mathbb {E} [L (t)] - \ mathbb {E} [L (0)] + V \ sum _ {\ tau = 0} ^ {t-1} \ mathbb {E} [p (\ tau)] & \ leqslant (B + Vp ^ {*}) t- \ varepsilon \ sum _ {\ tau = 0} ^ {t-1} \ sum _ {i = 1} ^ {N} \ mathbb {E} [Q_ {i} (\ tau)] \\ - \ mathbb {E} [L (0)] + V \ sum _ {\ tau = 0} ^ {t-1} \ mathbb {E} [p (\ tau)] & \ leqslant (B + Vp ^ {*}) t && {\ text {Since}} L (t), Q_ {i} (t) \ geqslant 0 \\ V \ sum _ {\ tau = 0} ^ {t-1} \ mathbb {E} [p (\ tau)] & \ leqslant p ^ {*} Vt + Bt + \ mathbb {E} [L (0)] \ final {alineado}}}

Dividiendo por ${\ displaystyle Vt}$ y la reordenación de términos demuestra el límite de penalización promedio de tiempo. Un argumento similar demuestra el límite de tamaño de cola promedio de tiempo.

Enlaces relacionados

Referencias

^ ^a ^b L. Tassiulas y A. Ephremides, " Propiedades de estabilidad de los sistemas de colas restringidos y políticas de programación para un rendimiento máximo en redes de radio multisalto , transacciones IEEE sobre control automático , vol. 37, no. 12, págs. 1992.
^ ^a ^b L. Tassiulas y A. Ephremides, " Asignación dinámica de servidores a colas paralelas con conectividad que varía aleatoriamente ", IEEE Transactions on Information Theory, vol. 39, no. 2, págs. 466-478, marzo de 1993.
^ ^a ^b ^c MJ Neely, E. Modiano y C. Li, " Equidad y control estocástico óptimo para redes heterogéneas ", Proc. IEEE INFOCOM, marzo de 2005.
^ L. Georgiadis, MJ Neely y L. Tassiulas, " Asignación de recursos y control entre capas en redes inalámbricas ", Fundamentos y tendencias en redes , vol. 1, no. 1, págs. 1-149, 2006.
^ ^a ^b ^c M. J. Neely. Optimización de redes estocásticas con aplicación a sistemas de comunicación y colas , Morgan & Claypool, 2010.
^ MJ Neely, " Computación distribuida y segura de programas convexos en una red de procesadores conectados ", DCDIS Conf, Guelph, Ontario, julio de 2005
^ E. Leonardi, M. Mellia, F. Neri y M. Ajmone Marsan, " Límites en los retrasos promedio y promedios de tamaño de cola y variaciones en conmutadores basados en celdas en cola de entrada ", Proc. IEEE INFOCOM, 2001.
^ a b M. J. Neely, " Control óptimo de energía para redes inalámbricas que varían en el tiempo ", IEEE Transactions on Information Theory, vol. 52, no. 7, págs.2915-2934, julio de 2006.

Fuentes primarias

MJ Neely. Optimización de redes estocásticas con aplicación a sistemas de comunicación y colas , Morgan & Claypool, 2010.

[tass-radio-nets-1] L. Tassiulas y A. Ephremides, " Propiedades de estabilidad de los sistemas de colas restringidos y políticas de programación para un rendimiento máximo en redes de radio multisalto , transacciones IEEE sobre control automático , vol. 37, no. 12, págs. 1992.

[tass-server-allocation-2] L. Tassiulas y A. Ephremides, " Asignación dinámica de servidores a colas paralelas con conectividad que varía aleatoriamente ", IEEE Transactions on Information Theory, vol. 39, no. 2, págs. 466-478, marzo de 1993.

[neely-fairness-infocom05-3] MJ Neely, E. Modiano y C. Li, " Equidad y control estocástico óptimo para redes heterogéneas ", Proc. IEEE INFOCOM, marzo de 2005.

[now-4] L. Georgiadis, MJ Neely y L. Tassiulas, " Asignación de recursos y control entre capas en redes inalámbricas ", Fundamentos y tendencias en redes , vol. 1, no. 1, págs. 1-149, 2006.

[sno-text-5] M. J. Neely. Optimización de redes estocásticas con aplicación a sistemas de comunicación y colas , Morgan & Claypool, 2010.

[neely-dcdis-6] MJ Neely, " Computación distribuida y segura de programas convexos en una red de procesadores conectados ", DCDIS Conf, Guelph, Ontario, julio de 2005

[leonardi-7] E. Leonardi, M. Mellia, F. Neri y M. Ajmone Marsan, " Límites en los retrasos promedio y promedios de tamaño de cola y variaciones en conmutadores basados en celdas en cola de entrada ", Proc. IEEE INFOCOM, 2001.

[neely-energy-it-8] M. J. Neely, " Control óptimo de energía para redes inalámbricas que varían en el tiempo ", IEEE Transactions on Information Theory, vol. 52, no. 7, págs.2915-2934, julio de 2006.

[1]