Deriva más penalización

En la teoría matemática de la probabilidad, el método de deriva más penalización se utiliza para optimizar las redes de colas y otros sistemas estocásticos .

La técnica es para estabilizar una red en cola y al mismo tiempo minimizar el tiempo promedio de una función de penalización de la red. Se puede utilizar para optimizar los objetivos de rendimiento, como la potencia media en el tiempo, el rendimiento y la utilidad de rendimiento. ^[1]^[2] En el caso especial en el que no hay penalización que minimizar, y cuando el objetivo es diseñar una política de enrutamiento estable en una red de varios saltos, el método se reduce a enrutamiento de contrapresión . ^[3]^[4] El método de deriva más penalización también se puede utilizar para minimizar el promedio de tiempo de un proceso estocástico sujeto a restricciones de promedio de tiempo en una colección de otros procesos estocásticos. ^[5] Esto se hace definiendo un conjunto apropiado decolas virtuales . También se puede utilizar para producir soluciones promediadas en el tiempo para problemas de optimización convexa . ^[6]^[7]

Metodología

El método de deriva más penalización se aplica a los sistemas de cola que operan en tiempo discreto con ranuras de tiempo t en {0, 1, 2, ...}. Primero, una función no negativa L ( t ) se define como una medida escalar del estado de todas las colas en el tiempo t . La función L ( t ) se define típicamente como la suma de los cuadrados de todos los tamaños de cola en el momento t , y se denomina función de Lyapunov . La deriva de Lyapunov se define:

{\ Displaystyle \ Delta L (t) = L (t + 1) -L (t)}

En cada ranura t, se observa el estado actual de la cola y se toman acciones de control para minimizar codiciosamente un límite en la siguiente expresión de deriva más penalización :

{\ Displaystyle \ Delta L (t) + Vp (t),}

donde p ( t ) es la función de penalización y V es un peso no negativo. El parámetro V se puede elegir para asegurar que el tiempo promedio de p ( t ) esté arbitrariamente cerca del óptimo, con una compensación correspondiente en el tamaño promedio de la cola. Al igual que el enrutamiento de contrapresión , este método generalmente no requiere el conocimiento de las distribuciones de probabilidad para las llegadas de trabajos y la movilidad de la red. ^[5]

Orígenes y aplicaciones

Cuándo ${\ Displaystyle V = 0,}$ el método se reduce a minimizar codiciosamente la deriva de Lyapunov. Esto da como resultado el algoritmo de enrutamiento de contrapresión desarrollado originalmente por Tassiulas y Ephremides (también llamado algoritmo de peso máximo ). ^[3]^[8] El ${\ Displaystyle Vp (t)}$ El término fue agregado a la expresión de deriva por Neely ^[9] y Neely, Modiano, Li ^[2] para estabilizar una red al tiempo que maximiza una función de utilidad de rendimiento. Por esto, la pena ${\ Displaystyle p (t)}$ fue definido como ${\ Displaystyle -1}$ veces una recompensa obtenida en la tragamonedas ${\ Displaystyle t.}$ Esta técnica de deriva más penalización se utilizó posteriormente para minimizar la potencia media ^[1] y optimizar otras métricas de penalización y recompensa. ^[4]^[5]

La teoría se desarrolló principalmente para optimizar las redes de comunicación, incluidas las redes inalámbricas, las redes móviles ad-hoc y otras redes informáticas. Sin embargo, las técnicas matemáticas se pueden aplicar a la optimización y el control de otros sistemas estocásticos, incluida la asignación de energía renovable en redes eléctricas inteligentes ^[10]^[11]^[12] y el control de inventario para sistemas de ensamblaje de productos. ^[13]

Cómo funciona

Esta sección muestra cómo utilizar el método de deriva más penalización para minimizar el promedio de tiempo de una función p (t) sujeta a restricciones de promedio de tiempo en una colección de otras funciones. El análisis a continuación se basa en el material incluido en. ^[5]

El problema de la optimización estocástica

Considere un sistema de tiempo discreto que evoluciona sobre intervalos de tiempo normalizados t en {0, 1, 2, ...}. Defina p (t) como una función cuyo promedio de tiempo debe minimizarse, denominada función de penalización . Suponga que la minimización del promedio de tiempo de p (t) debe hacerse sujeta a restricciones de promedio de tiempo en una colección de otras K funciones:

${\ displaystyle p (t) = {\ text {función de penalización cuyo promedio de tiempo debe minimizarse}}}$

${\ displaystyle y_ {1} (t), y_ {2} (t), \ ldots, y_ {K} (t) = {\ text {otras funciones cuyos promedios de tiempo deben ser no positivos}}}$

En cada ranura t, el controlador de red observa un nuevo evento aleatorio. Luego realiza una acción de control basada en el conocimiento de este evento. Los valores de p (t) y y_i (t) se determinan como funciones del evento aleatorio y la acción de control en la ranura t:

${\ displaystyle \ omega (t) = {\ text {evento aleatorio en la ranura}} t {\ text {(se asume iid sobre las ranuras)}}}$

${\ displaystyle \ alpha (t) = {\ text {acción de control en el espacio}} t {\ text {(elegido después de observar}} \ omega (t) {\ text {)}}}$

${\ displaystyle p (t) = P (\ alpha (t), \ omega (t)) {\ text {(una función determinista de}} \ alpha (t), \ omega (t) {\ text {)} }}$

${\ Displaystyle y_ {i} (t) = Y_ {i} (\ alpha (t), \ omega (t)) {\ text {}} \ forall i \ in \ {1, \ ldots, K \} { \ text {(funciones deterministas de}} \ alpha (t), \ omega (t) {\ text {)}}}$

La notación de minúsculas p (t), y_i (t) y la notación de mayúsculas P (), Y_i () se utilizan para distinguir los valores de penalización de la función que determina estos valores basándose en el evento aleatorio y la acción de control para el intervalo t. El evento aleatorio ${\ Displaystyle \ omega (t)}$ se supone que toma valores en algún conjunto abstracto de eventos ${\ Displaystyle \ Omega}$ . La acción de control ${\ Displaystyle \ alpha (t)}$ se supone que se elige dentro de algún conjunto abstracto ${\ Displaystyle A}$ que contiene las opciones de control. Los conjuntos ${\ Displaystyle \ Omega}$ y ${\ Displaystyle A}$ son arbitrarios y pueden ser finitos o infinitos. Por ejemplo, ${\ Displaystyle A}$ podría ser una lista finita de elementos abstractos, una colección incontablemente infinita (y posiblemente no convexa) de vectores de valor real, etc. Las funciones P (), Y_i () también son arbitrarias y no requieren supuestos de continuidad o convexidad.

Como ejemplo en el contexto de las redes de comunicación, el evento aleatorio ${\ Displaystyle \ omega (t)}$ puede ser un vector que contiene la información de llegada del intervalo t para cada nodo y la información del estado del canal del intervalo t para cada enlace. La acción de control ${\ Displaystyle \ alpha (t)}$ puede ser un vector que contiene las decisiones de enrutamiento y transmisión para cada nodo. Las funciones P () e Y_i () pueden representar gastos de energía o rendimientos asociados con la acción de control y la condición del canal para el intervalo t.

Para simplificar la exposición, suponga que las funciones P () y Y_i () están limitadas. Asumir además el proceso de eventos aleatorios ${\ Displaystyle \ omega (t)}$ es independiente e idénticamente distribuido (iid) en los intervalos t con alguna distribución de probabilidad posiblemente desconocida. El objetivo es diseñar una política para realizar acciones de control en el tiempo para solucionar el siguiente problema:

{\ displaystyle {\ text {Minimizar:}} \ lim _ {t \ rightarrow \ infty} {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} E [p ( \ tau)]}

{\ displaystyle {\ text {Sujeto a:}} \ lim _ {t \ rightarrow \ infty} {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} E [y_ {i} (\ tau)] \ leq 0 {\ text {}} \ forall i \ in \ {1, \ ldots, K \}}

Se asume en todo momento que este problema es factible . Es decir, se supone que existe un algoritmo que puede satisfacer todas las K restricciones deseadas.

El problema anterior plantea cada restricción en la forma estándar de una expectativa promedio de tiempo de un proceso abstracto y_i (t) que no es positivo. No hay pérdida de generalidad con este enfoque. Por ejemplo, suponga que se desea que la expectativa promedio de tiempo de algún proceso a (t) sea menor o igual a una constante c dada. Entonces se puede definir una nueva función de penalización y ( t ) = a ( t ) - c , y la restricción deseada es equivalente a que la expectativa promedio de tiempo de y ( t ) no sea positiva. Asimismo, suponga que hay dos procesos a ( t ) yb ( t ) y uno desea que la expectativa promedio de tiempo de a ( t ) sea menor o igual que la de b ( t ). Esta restricción se escribe en forma estándar definiendo una nueva función de penalización y ( t ) = a ( t ) - b ( t ). El problema anterior busca minimizar el tiempo promedio de una función de penalización abstracta p '( t )'. Esto puede usarse para maximizar el tiempo promedio de alguna función de recompensa deseable r ( t ) definiendo p ( t ) = - r ('t ).

Colas virtuales

Para cada restricción i en {1, ..., K }, defina una cola virtual con dinámica sobre las ranuras t en {0, 1, 2, ...} de la siguiente manera:

{\ Displaystyle ({\ text {Eq.}} 1) {\ text {}} Q_ {i} (t + 1) = \ max [Q_ {i} (t) + y_ {i} (t), 0 ]}

Inicialice Q _i (0) = 0 para todo i en {1, ..., K }. Esta ecuación de actualización es idéntica a la de una cola de tiempo discreto virtual con acumulación Q_i (t) y siendo y_i (t) la diferencia entre las nuevas llegadas y las nuevas oportunidades de servicio en el intervalo t . Intuitivamente, la estabilización de estas colas virtuales asegura que los promedios de tiempo de las funciones de restricción sean menores o iguales a cero, por lo que se satisfacen las restricciones deseadas. Para ver esto con precisión, tenga en cuenta que (Ec. 1) implica:

{\ Displaystyle Q_ {i} (t + 1) \ geq Q_ {i} (t) + y_ {i} (t)}

Por lo tanto:

{\ Displaystyle y_ {i} (t) \ leq Q_ {i} (t + 1) -Q_ {i} (t)}

Sumar lo anterior sobre las primeras t ranuras y usar la ley de las sumas telescópicas implica:

{\ Displaystyle \ sum _ {\ tau = 0} ^ {t-1} y_ {i} (\ tau) \ leq Q_ {i} (t) -Q_ {i} (0) = Q_ {i} (t )}

Dividir por ty tomar expectativas implica:

{\ Displaystyle {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} E [y_ {i} (\ tau)] \ leq {\ frac {E [Q_ {i } (t)]} {t}}}

Por lo tanto, las restricciones deseadas del problema se satisfacen siempre que se cumpla lo siguiente para todo i en {1, ..., K }:

{\ Displaystyle \ lim _ {t \ rightarrow \ infty} {\ frac {E [Q_ {i} (t)]} {t}} = 0}

Una cola Q_i (t) que satisface la ecuación de límite anterior se dice que es estable a la velocidad media . ^[5]

La expresión deriva más penalización

Para estabilizar las colas, defina la función L (t) de Lyapunov como una medida de la acumulación total de colas en la ranura t :

{\ Displaystyle L (t) = {\ frac {1} {2}} \ sum _ {i = 1} ^ {K} Q_ {i} (t) ^ {2}}

Al cuadrar la ecuación de la cola (Ec. 1) se obtiene el siguiente límite para cada cola i en {1, ..., K}:

{\ Displaystyle Q_ {i} (t + 1) ^ {2} \ leq (Q_ {i} (t) + y_ {i} (t)) ^ {2} = Q_ {i} (t) ^ {2 } + y_ {i} (t) ^ {2} + 2Q_ {i} (t) y_ {i} (t)}

Por lo tanto,

{\ Displaystyle {\ frac {1} {2}} \ sum _ {i = 1} ^ {K} Q_ {i} (t + 1) ^ {2} \ leq {\ frac {1} {2}} \ sum _ {i = 1} ^ {K} Q_ {i} (t) ^ {2} + {\ frac {1} {2}} \ sum _ {i = 1} ^ {K} y_ {i} (t) ^ {2} + \ sum _ {i = 1} ^ {K} Q_ {i} (t) y_ {i} (t)}

Resulta que

{\ Displaystyle \ Delta L (t) = L (t + 1) -L (t) \ leq {\ frac {1} {2}} \ sum _ {i = 1} ^ {K} y_ {i} ( t) ^ {2} + \ sum _ {i = 1} ^ {K} Q_ {i} (t) y_ {i} (t)}

Ahora defina B como una constante positiva que limita el primer término en el lado derecho de la desigualdad anterior. Esta constante existe porque los valores de y_i (t) están acotados. Luego:

{\ Displaystyle \ Delta L (t) \ leq B + \ sum _ {i = 1} ^ {K} Q_ {i} (t) y_ {i} (t)}

Agregar Vp (t) a ambos lados da como resultado el siguiente límite en la expresión deriva más penalización:

{\ Displaystyle ({\ text {Eq.}} 2) {\ text {}} \ Delta L (t) + Vp (t) \ leq B + Vp (t) + \ sum _ {i = 1} ^ { K} Q_ {i} (t) y_ {i} (t)}

El algoritmo de deriva más penalización (definido a continuación) realiza acciones de control en cada ranura t que minimizan con avidez el lado derecho de la desigualdad anterior. Intuitivamente, tomar una acción que minimice la deriva por sí sola sería beneficioso en términos de estabilidad de la cola, pero no minimizaría la penalización de tiempo promedio. Tomar una acción que minimice la penalización por sí sola no necesariamente estabilizaría las colas. Por lo tanto, tomar una acción para minimizar la suma ponderada incorpora tanto los objetivos de estabilidad de la cola como la minimización de penalizaciones. El peso V se puede ajustar para poner más o menos énfasis en la minimización de la penalización, lo que da como resultado una compensación de rendimiento. ^[5]

Algoritmo de deriva más penalización

Dejar ${\ Displaystyle A}$ ser el conjunto abstracto de todas las posibles acciones de control. En cada ranura t, observe el evento aleatorio y los valores actuales de la cola:

{\ Displaystyle {\ text {Observe:}} \ omega (t), Q_ {1} (t), \ ldots, Q_ {K} (t)}

Dadas estas observaciones para la ranura t, elija con avidez una acción de control ${\ Displaystyle \ alpha (t) \ in A}$ para minimizar la siguiente expresión (rompiendo lazos arbitrariamente):

{\ Displaystyle VP (\ alpha (t), \ omega (t)) + \ sum _ {i = 1} ^ {K} Q_ {i} (t) Y_ {i} (\ alpha (t), \ omega (t))}

Luego actualice las colas para cada i en {1, ..., K} de acuerdo con (Ec. 1). Repita este procedimiento para la ranura t + 1. ^[5]

Tenga en cuenta que los eventos aleatorios y los retrasos en la cola observados en la ranura t actúan como constantes dadas al seleccionar la acción de control para la minimización de la ranura t. Por lo tanto, cada ranura consiste en una búsqueda determinista para la acción de control minimización sobre el conjunto A . Una característica clave de este algoritmo es que no requiere conocimiento de la distribución de probabilidad del proceso de eventos aleatorios.

Programación aproximada

El algoritmo anterior implica encontrar un mínimo de una función sobre un conjunto abstracto A . En casos generales, el mínimo puede no existir o puede ser difícil de encontrar. Por lo tanto, es útil asumir que el algoritmo se implementa de manera aproximada de la siguiente manera: Defina C como una constante no negativa y suponga que para todas las ranuras t , la acción de control ${\ Displaystyle \ alpha (t)}$ se elige en el conjunto A para satisfacer:

{\ Displaystyle {\ begin {alineado} & VP (\ alpha (t), \ omega (t)) + \ sum _ {i = 1} ^ {K} Q_ {i} (t) Y_ {i} (\ alpha (t), \ omega (t)) \\\ leq {} & C + \ inf _ {\ alpha \ in A} [VP (\ alpha, \ omega (t)) + \ sum _ {i = 1} ^ { K} Q_ {i} (t) Y_ {i} (\ alpha, \ omega (t))] \ end {alineado}}}

Tal acción de control se llama aproximación de C-aditivo . ^[5] El caso C = 0 corresponde a la minimización exacta de la expresión deseada en cada ranura t .

Análisis de rendimiento

Esta sección muestra los resultados del algoritmo en una penalización promedio de tiempo que está dentro de O (1 / V) de optimalidad, con una compensación O (V) correspondiente en el tamaño promedio de la cola. ^[5]

Análisis de penalización promedio

Definir un ${\ Displaystyle \ omega}$ -sólo la política debe ser una política estacionaria y aleatoria para elegir la acción de control ${\ Displaystyle \ alpha (t)}$ basado en lo observado ${\ Displaystyle \ omega (t)}$ solo. Es decir, un ${\ Displaystyle \ omega}$ -sólo la política especifica, para cada posible evento aleatorio ${\ Displaystyle \ omega \ in \ Omega}$ , una distribución de probabilidad condicional para seleccionar una acción de control ${\ Displaystyle \ alpha (t) \ in A}$ dado que ${\ Displaystyle \ omega (t) = \ omega}$ . Dicha política hace que las decisiones sean independientes de la acumulación de cola actual. Suponga que existe un ${\ Displaystyle \ omega}$ -sólo política ${\ Displaystyle \ alpha ^ {*} (t)}$ que satisfaga lo siguiente:

{\ displaystyle ({\ text {Eq.}} 3) \ qquad E [P (\ alpha ^ {*} (t), \ omega (t))] = p ^ {*} = {\ text {tiempo óptimo pena media por el problema}}}

{\ displaystyle ({\ text {Eq.}} 4) \ qquad E [Y_ {i} (\ alpha ^ {*} (t), \ omega (t))] \ leqslant 0 \ qquad \ forall i \ in \ {1, \ ldots, K \}}

Las expectativas anteriores son con respecto a la variable aleatoria ${\ Displaystyle \ omega (t)}$ para ranura ${\ Displaystyle t,}$ y la acción de control aleatorio ${\ Displaystyle \ alpha (t)}$ elegido en la ranura ${\ Displaystyle t}$ después de observar ${\ Displaystyle \ omega (t)}$ . Tal política ${\ Displaystyle \ alpha ^ {*} (t)}$ se puede demostrar que existe siempre que el problema de control deseado sea factible y el espacio de eventos para ${\ Displaystyle \ omega (t)}$ y espacio de acción para ${\ Displaystyle \ alpha (t)}$ son finitos, o cuando se satisfacen las propiedades de cierre suave. ^[5]

Dejar ${\ Displaystyle \ alpha (t)}$ representan la acción tomada por una aproximación C-aditiva del algoritmo de deriva más penalización de la sección anterior, para alguna constante C no negativa. Para simplificar la terminología, llamamos a esta acción la acción de deriva más penalización , en lugar de la C-acción aproximada de deriva más penalización aditiva . Dejar ${\ Displaystyle \ alpha ^ {*} (t)}$ representar el ${\ Displaystyle \ omega}$ -única decisión:

{\ displaystyle \ alpha (t) = {\ text {acción de deriva-más-penalización para el espacio}} t}

{\ displaystyle \ alpha ^ {*} (t) = \ omega {\ text {-sólo acción que satisface (Ec. 3) - (Ec. 4)}}}

Asume la acción de deriva más penalización ${\ Displaystyle \ alpha (t)}$ se utiliza en todas y cada una de las ranuras. Por (Ec. 2), la expresión deriva-más-penalización bajo este ${\ Displaystyle \ alpha (t)}$ acción satisface lo siguiente para cada ranura ${\ Displaystyle t:}$

{\ Displaystyle {\ begin {alineado} \ Delta L (t) + Vp (t) y \ leqslant B + Vp (t) + \ sum _ {i = 1} ^ {K} Q_ {i} (t) y_ {i} (t) \\ & = B + VP (\ alpha (t), \ omega (t)) + \ sum _ {i = 1} ^ {K} Q_ {i} (t) Y_ {i} (\ alpha (t), \ omega (t)) \\ & \ leqslant B + C + VP (\ alpha ^ {*} (t), \ omega (t)) + \ sum _ {i = 1} ^ {K} Q_ {i} (t) Y_ {i} (\ alpha ^ {*} (t), \ omega (t)) \ end {alineado}}}

donde sigue la última desigualdad porque la acción ${\ Displaystyle \ alpha (t)}$ viene dentro de una constante aditiva ${\ Displaystyle C}$ de minimizar la expresión anterior sobre todas las demás acciones del conjunto ${\ Displaystyle A,}$ incluso ${\ Displaystyle \ alpha ^ {*} (t).}$ Tomando las expectativas de la desigualdad anterior se obtiene:

{\ displaystyle {\ begin {alineado} E [\ Delta (t) + Vp (t)] & \ leqslant B + C + VE [P (\ alpha ^ {*} (t), \ omega (t))] + \ sum _ {i = 1} ^ {K} E \ left [Q_ {i} (t) Y_ {i} (\ alpha ^ {*} (t), \ omega (t)) \ right] \\ & = B + C + VE [P (\ alpha ^ {*} (t), \ omega (t))] + \ sum _ {i = 1} ^ {K} E [Q_ {i} (t)] E [Y_ {i} (\ alpha ^ {*} (t), \ omega (t))] && \ alpha ^ {*} (t), \ omega (t) {\ text {son independientes de}} Q_ {i} (t) \\ & \ leqslant B + C + Vp ^ {*} && {\ text {Usando la ecuación. 3 y Eq. 4}} \ end {alineado}}}

Note que el ${\ Displaystyle \ alpha ^ {*} (t)}$ la acción nunca se implementó realmente. Su existencia se utilizó solo con fines comparativos para llegar a la desigualdad final. Sumando la desigualdad anterior sobre la primera ${\ Displaystyle t> 0}$ ranuras da:

{\ Displaystyle {\ begin {alineado} (B + C + Vp ^ {*}) t & \ geqslant \ sum _ {\ tau = 0} ^ {t-1} E [\ Delta (\ tau) + Vp (\ tau)] \\ & = E [L (t)] - E [L (0)] + V \ sum _ {\ tau = 0} ^ {t-1} E [p (\ tau)] && \ Delta (\ tau) = L (\ tau +1) -L (\ tau) \\ & = E [L (t)] + V \ sum _ {\ tau = 0} ^ {t-1} E [p ( \ tau)] && {\ text {asumir}} L (0) = 0 \\ & \ geqslant V \ sum _ {\ tau = 0} ^ {t-1} E [p (\ tau)] && L (t ) \ geqslant 0 \ end {alineado}}}

Dividiendo lo anterior por ${\ displaystyle Vt}$ produce el siguiente resultado, que se aplica a todas las ranuras ${\ Displaystyle t> 0:}$

{\ Displaystyle {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} E [p (\ tau)] \ leqslant p ^ {*} + {\ frac {B + CV}}.}

Por lo tanto, la penalización esperada promedio en el tiempo se puede hacer arbitrariamente cerca del valor óptimo ${\ Displaystyle p ^ {*}}$ por elección ${\ Displaystyle V}$ adecuadamente grande. Se puede demostrar que todas las colas virtuales tienen una tasa media estable, por lo que se satisfacen todas las restricciones deseadas. ^[5] El parámetro ${\ Displaystyle V}$ afecta el tamaño de las colas, que determina la velocidad a la que las funciones de restricción de promedio de tiempo convergen a un número no positivo. En la siguiente subsección se ofrece un análisis más detallado del tamaño de las colas.

Análisis del tamaño medio de la cola

Supongamos que ahora existe un ${\ Displaystyle \ omega}$ -sólo política ${\ Displaystyle \ alpha ^ {*} (t)}$ , posiblemente diferente del que satisface (Ec. 3) - (Ec. 4), que satisface lo siguiente para algunos ${\ Displaystyle \ epsilon> 0}$ :

{\ Displaystyle ({\ text {Eq.}} 5) \ qquad E [Y_ {i} (\ alpha ^ {*} (t), \ omega (t))] \ leq - \ epsilon \ qquad \ forall i \ in \ {1, \ ldots, K \}}

Un argumento similar al de la sección anterior muestra:

{\ Displaystyle {\ begin {alineado} \ Delta (t) + Vp (t) y \ leqslant B + C + VP (\ alpha ^ {*} (t), \ omega (t)) + \ sum _ {i = 1} ^ {K} Q_ {i} (t) Y_ {i} (\ alpha ^ {*} (t), \ omega (t)) \\\ Delta (t) + Vp _ {\ min} & \ leqslant B + C + Vp _ {\ max} + \ sum _ {i = 1} ^ {K} Q_ {i} (t) Y_ {i} (\ alpha ^ {*} (t), \ omega (t) ) && {\ text {asumir}} p _ {\ min} \ leqslant P \ leqslant p _ {\ max} \\ E [\ Delta (t)] + Vp _ {\ min} & \ leqslant B + C + Vp _ {\ max} + \ sum _ {i = 1} ^ {K} E \ left [Q_ {i} (t)] E [Y_ {i} (\ alpha ^ {*} (t), \ omega (t)) \ right] && {\ text {tomando la expectativa}} \\ E [\ Delta (t)] + Vp _ {\ min} & \ leqslant B + C + Vp _ {\ max} + \ sum _ {i = 1} ^ {K} E [Q_ {i} (t)] (- \ epsilon) && {\ text {Usando (Ec. 5)}} \\ E [\ Delta (t)] + \ epsilon \ sum _ {i = 1} ^ {K} E [Q_ {i} (t)] & \ leqslant B + C + V (p _ {\ max} -p _ {\ min}) \ end {alineado}}}

Por tanto, se puede utilizar un argumento de serie telescópica similar al de la sección anterior para mostrar lo siguiente para todo t> 0: ^[5]

{\ Displaystyle {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} \ sum _ {i = 1} ^ {K} E [Q_ {i} (\ tau) ] \ leqslant {\ frac {B + C + V (p _ {\ max} -p _ {\ min})} {\ epsilon}}}

Esto muestra que el tamaño medio de la cola es de hecho O (V).

Probabilidad 1 convergencia

El análisis anterior considera las expectativas promedio de tiempo. Los límites de rendimiento de probabilidad 1 relacionados para el tamaño medio de la cola de horizonte infinito y la penalización se pueden derivar utilizando el método de deriva más penalización junto con la teoría de la martingala . ^[14]

Aplicación a colas con capacidad finita

Como se muestra, la deriva más penalización permite mantener el tamaño medio de la cola por debajo de un cierto umbral, que depende de la elección del parámetro V, pero en general, no ofrece ninguna garantía sobre la ocupación máxima de la cola. Sin embargo, si el conjunto de acciones respeta ciertas restricciones, es posible agregar una condición adicional en la elección de V para hacer cumplir la longitud máxima de una cola y, por lo tanto, aplicar el algoritmo también a las colas con capacidad finita. ^[15]

Tratamiento de los sistemas de colas

El análisis anterior considera la optimización restringida de los promedios de tiempo en un sistema estocástico que no tenía colas explícitas. Cada vez que la restricción de desigualdad promedio se asignó a una cola virtual de acuerdo con (Ec. 1). En el caso de optimizar una red de cola, las ecuaciones de cola virtual en (Ec. 1) son reemplazadas por las ecuaciones de cola reales.

Funciones convexas de promedios de tiempo

Un problema relacionado es la minimización de una función convexa de promedios de tiempo sujeta a restricciones, como:

{\ Displaystyle {\ text {Minimizar}} \ quad f \ left ({\ overline {y}} _ {1}, \ ldots, {\ overline {y}} _ {K} \ right) \ quad {\ text {sujeto a}} \ quad g_ {i} \ left ({\ overline {y}} _ {1}, \ ldots, {\ overline {y}} _ {K} \ right) \ leqslant 0 \ qquad \ forall i \ in \ {1, \ ldots, N \}}

dónde ${\ Displaystyle f}$ y ${\ Displaystyle g_ {i}}$ son funciones convexas , y donde se definen los promedios de tiempo:

{\ Displaystyle {\ overline {y}} _ {i} = \ lim _ {t \ to \ infty} {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} E [y_ {i} (\ tau)]}

Estos problemas de optimización de funciones convexas de promedios de tiempo se pueden transformar en problemas de optimización de promedios de tiempo de funciones mediante variables auxiliares (consulte el capítulo 5 del libro de texto de Neely). ^[2]^[5] Los últimos problemas pueden resolverse mediante el método de deriva más penalización como se describe en subsecciones anteriores. Un método alternativo primal-dual toma decisiones similares a las decisiones de deriva más penalización, pero utiliza una penalización definida por derivadas parciales de la función objetivo. ${\ Displaystyle f.}$ ^[5]^[16]^[17] El enfoque dual primario también se puede utilizar para encontrar óptimos locales en los casos en que ${\ Displaystyle f}$ no es convexo. ^[5]

Retrasar las compensaciones y el trabajo relacionado

El análisis matemático de la sección anterior muestra que el método de deriva más penalización produce una penalización promedio de tiempo que está dentro de O (1 / V ) de la optimalidad, con una compensación O ( V ) correspondiente en el tamaño promedio de la cola. Este método, junto con la compensación O (1 / V ), O ( V ), fue desarrollado en Neely ^[9] y Neely, Modiano, Li ^[2] en el contexto de maximizar la utilidad de la red sujeta a estabilidad.

Eryilmaz y Srikant desarrollaron un algoritmo relacionado para maximizar la utilidad de la red. ^[18] El trabajo de Eryilmaz y Srikant resultó en un algoritmo muy similar al algoritmo de deriva más penalización, pero utilizó una técnica analítica diferente. Esa técnica se basó en multiplicadores de Lagrange . Un uso directo de la técnica del multiplicador de Lagrange da como resultado una peor compensación de O (1 / V ), O ( V ² ). Sin embargo, el análisis del multiplicador de Lagrange fue reforzado posteriormente por Huang y Neely para recuperar las compensaciones originales de O (1 / V ), O ( V ), al tiempo que mostraba que los tamaños de cola están estrechamente agrupados alrededor del multiplicador de Lagrange de un problema de optimización determinista correspondiente. ^[19] Este resultado de agrupamiento se puede usar para modificar el algoritmo de deriva más penalización para permitir compensaciones mejoradas de O (1 / V ), O (log ² ( V )). Las modificaciones pueden utilizar la programación del marcador de posición ^[19] o la programación de último en entrar, primero en salir (LIFO) . ^[20]^[21]

Cuando se implementa para funciones no estocásticas, el método de deriva más penalización es similar al método de subgradiente dual de la teoría de optimización convexa , con la excepción de que su salida es un promedio de tiempo de las variables primarias , en lugar de las propias variables primarias. ^[4]^[6] Stolyar desarrolló una técnica dual primordial relacionada para maximizar la utilidad en una red de cola estocástica utilizando un análisis de modelo fluido. ^[16]^[17] El análisis Stolyar no proporciona resultados analíticos para una compensación de rendimiento entre la utilidad y el tamaño de la cola. Un análisis posterior del método primal-dual para redes estocásticas demuestra una utilidad O (1 / V), O (V) similar y una compensación de tamaño de cola, y también muestra resultados de optimización local para minimizar funciones no convexas de promedios de tiempo, bajo una Supuesto de convergencia adicional. ^[5] Sin embargo, este análisis no especifica cuánto tiempo se requiere para que los promedios de tiempo converjan a algo cercano a sus límites de horizonte infinito. Agrawal y Subramanian ^[22] y Kushner y Whiting desarrollaron algoritmos primarios-duales relacionados para la maximización de la utilidad sin colas . ^[23]

Extensiones a procesos de eventos no iid

El algoritmo de deriva más penalización es conocido por garantizar garantías de rendimiento similares para procesos ergódicos más generales. ${\ Displaystyle \ omega (t)}$ , por lo que el supuesto iid no es crucial para el análisis. Se puede demostrar que el algoritmo es robusto a cambios no ergódicos en las probabilidades de ${\ Displaystyle \ omega (t)}$ . En ciertos escenarios, se puede demostrar que proporciona garantías analíticas deseables, llamadas garantías de programación universales , para casos arbitrarios. ${\ Displaystyle \ omega (t)}$ Procesos. ^[5]

Extensiones a sistemas de longitud de trama variable

El método de deriva más penalización se puede extender para tratar sistemas que operan en marcos de tamaño variable. ^[24]^[25] En ese caso, las tramas se etiquetan con índices r en {0, 1, 2, ...} y las duraciones de las tramas se indican { T [0], T [1], T [2] , ...}, donde T [ r ] es un número real no negativo para cada cuadro r . Dejar ${\ Displaystyle \ Delta [r]}$ y ${\ Displaystyle p [r]}$ sea la deriva entre el fotograma r y r + 1, y la penalización total incurrida durante el fotograma r , respectivamente. El algoritmo extendido toma una acción de control sobre cada cuadro r para minimizar un límite en la siguiente proporción de expectativas condicionales:

{\ Displaystyle {\ frac {E [\ Delta [r] + Vp [r] \ mid Q [r]]} {E [T [r] \ mid Q [r]]}}}

donde Q [ r ] es el vector de retrasos en la cola al comienzo del marco r . En el caso especial en el que todas las tramas son del mismo tamaño y se normalizan a una longitud de ranura, de modo que T [ r ] = 1 para todo r , la minimización anterior se reduce a la técnica estándar de deriva más penalización. Este método basado en marcos se puede utilizar para la optimización restringida de problemas de decisión de Markov (MDP) y para otros problemas que involucran sistemas que experimentan renovaciones . ^[24]^[25]

Aplicación a la programación convexa

Sea x = ( x ₁ , ..., x _N ) un vector N -dimensional de números reales, y defina el hiper-rectángulo A por:

{\ Displaystyle A = \ {(x_ {1}, x_ {2}, \ ldots, x_ {N}) \ mid x _ {\ min, i} \ leq x_ {i} \ leq x _ {\ max, i} {\ text {}} \ forall i \ in \ {1, \ ldots, N \} \}}

donde x _{min, i} , x _{max, i} se dan números reales que satisfacen ${\ Displaystyle x _ {\ min, i}$ por todo i . Sea P ( x ) y ${\ Displaystyle Y_ {i} (x)}$ para i in {1, ..., K } ser continuo y funciones convexas de la x del vector sobre todo x en A . Considere el siguiente problema de programación convexa :

{\ displaystyle ({\ text {Eq.}} 6) {\ text {}} {\ text {Minimizar:}} P (x)}

{\ displaystyle ({\ text {Eq.}} 7) {\ text {}} {\ text {Sujeto a:}} Y_ {i} (x) \ leq 0 {\ text {}} \ forall i \ in \ {1, \ ldots, K \} {\ text {}}, {\ text {}} x = (x_ {1}, \ ldots, x_ {N}) \ in A}

Esto se puede resolver mediante el método de deriva más penalización de la siguiente manera: Considere el caso especial de un sistema determinista sin proceso de eventos aleatorios ${\ Displaystyle \ omega (t)}$ . Definir la acción de control ${\ Displaystyle \ alpha (t)}$ como:

{\ Displaystyle \ alpha (t) = x (t) = (x_ {1} (t), x_ {2} (t), \ ldots, x_ {N} (t))}

y definir el espacio de acción como el hiper-rectángulo A N -dimensional . Defina las funciones de penalización y restricción como:

${\ Displaystyle p (t) = P (x_ {1} (t), \ ldots, x_ {N} (t))}$

${\ Displaystyle y_ {i} (t) = Y_ {i} (x_ {1} (t), \ ldots, x_ {N} (t)) {\ text {}} \ forall i \ in \ {1, \ ldots, K \}}$

Defina los siguientes promedios de tiempo:

${\ Displaystyle {\ overline {x}} (t) = {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} (x_ {1} (\ tau), \ ldots, x_ {N} (\ tau))}$

${\ Displaystyle {\ overline {P}} (t) = {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} P (x_ {1} (\ tau), \ ldots, x_ {N} (\ tau))}$

${\ Displaystyle {\ overline {Y}} _ {i} (t) = {\ frac {1} {t}} \ sum _ {\ tau = 0} ^ {t-1} Y_ {i} (x_ { 1} (\ tau), \ ldots, x_ {N} (\ tau))}$

Ahora considere el siguiente problema de optimización del promedio de tiempo:

{\ displaystyle ({\ text {Eq.}} 8) {\ text {}} {\ text {Minimizar:}} \ lim _ {t \ rightarrow \ infty} {\ overline {P}} (t)}

{\ displaystyle ({\ text {Eq.}} 9) {\ text {}} {\ text {sujeto a:}} \ lim _ {t \ rightarrow \ infty} {\ overline {Y}} _ {i} (t) \ leq 0 {\ text {}} \ forall i \ in \ {1, \ ldots, K \}}

Según la desigualdad de Jensen, lo siguiente es válido para todas las ranuras t> 0:

{\ Displaystyle P ({\ overline {x}} (t)) \ leq {\ overline {P}} (t) {\ text {}}, {\ text {}} Y_ {i} ({\ overline { x}} (t)) \ leq {\ overline {Y}} _ {i} (t) {\ text {}} \ forall i \ in \ {1, \ ldots, K \}}

A partir de esto, se puede demostrar que una solución óptima al problema de promedio de tiempo (ecuación 8) - (ecuación 9) se puede lograr mediante soluciones del tipo x (t) = x * para todas las ranuras t, donde x * es un vector que resuelve el programa convexo (Ec. 6) - (Ec. 7). Además, cualquier vector promediado en el tiempo ${\ Displaystyle \ lim _ {t \ rightarrow \ infty} {\ overline {x}} (t)}$ correspondiente a una solución del problema de promedio de tiempo (Ec. 8) - (Ec. 9) debe resolver el programa convexo (Ec. 6) - (Ec. 7). Por lo tanto, el programa convexo original (Ec. 6) - (Ec. 7) se puede resolver (dentro de cualquier precisión deseada) tomando el promedio de tiempo de las decisiones tomadas cuando el algoritmo de deriva más penalización se aplica al tiempo correspondiente. -problema promediado (ecuación 8) - (ecuación 9). El algoritmo de deriva más penalización para el problema (Ec. 8) - (Ec. 9) se reduce a lo siguiente:

Algoritmo de deriva más penalización para programación convexa

Cada ranura t , elige vector ${\ Displaystyle x (t) = (x_ {1} (t), \ ldots, x_ {N} (t)) \ in A}$ para minimizar la expresión:

{\ Displaystyle VP (x (t)) + \ sum _ {i = 1} ^ {K} Q_ {i} (t) Y_ {i} (x (t))}

Luego actualice las colas de acuerdo con:

{\ Displaystyle Q_ {i} (t + 1) = \ max [Q_ {i} (t) + Y_ {i} (x (t)), 0] {\ text {}} \ forall i \ in \ { 1, \ ldots, K \}}

El vector promedio de tiempo ${\ Displaystyle {\ overline {x}} (t)}$ converge a una aproximación O (1 / V) al programa convexo. ^[6]

Este algoritmo es similar al algoritmo estándar de subgradiente dual de la teoría de optimización, utilizando un tamaño de paso fijo de 1 / V. ^[26] Sin embargo, una diferencia clave es que el algoritmo de subgrado dual se analiza típicamente bajo supuestos de convexidad estricta restrictiva que son necesarios para que las variables primarias x ( t ) converjan. Hay muchos casos importantes en los que estas variables no convergen en la solución óptima y ni siquiera se acercan a la solución óptima (este es el caso de la mayoría de los programas lineales , como se muestra a continuación). Por otro lado, el algoritmo de deriva más penalización no requiere supuestos estrictos de convexidad. Asegura que los promedios de tiempo de los primarios converjan en una solución que está dentro de O (1 / V ) de optimalidad, con límites O ( V ) en los tamaños de las colas (se puede demostrar que esto se traduce en un límite O ( V ² ) en tiempo de convergencia). ^[6]

Algoritmo de deriva más penalización para programación lineal

Considere el caso especial de un programa lineal . Específicamente, suponga:

${\ Displaystyle P (x (t)) = \ sum _ {n = 1} ^ {N} c_ {n} x_ {n} (t)}$

${\ Displaystyle Y_ {i} (x (t)) = \ sum _ {n = 1} ^ {N} a_ {in} x_ {n} (t) -b_ {i} {\ text {}} \ forall i \ in \ {1, \ ldots, K \}}$

para constantes de valor real dadas ( c ₁ ,…, c _N ), ( a _in ), ( b ₁ ,…, b _K ). Luego, el algoritmo anterior se reduce a lo siguiente: Cada ranura t y para cada variable n en {1,…, N }, elija x _n ( t ) en [ x _{min, n} , x _{max, n} ] para minimizar la expresión:

{\ Displaystyle \ left [Vc_ {n} + \ sum _ {i = 1} ^ {K} Q_ {i} (t) a_ {in} \ right] x_ {n} (t)}

Luego actualice las colas Q _i ( t ) como antes. Esto equivale a elegir cada variable x _i ( t ) de acuerdo con la política de control simple bang-bang :

{\ Displaystyle {\ text {Elija}} x_ {i} (t) = x _ {\ min, i} {\ text {if}} Vc_ {n} + \ sum _ {i = 1} ^ {K} Q_ {i} (t) a_ {in} \ geq 0}

{\ Displaystyle {\ text {Elija}} x_ {i} (t) = x _ {\ max, i} {\ text {if}} Vc_ {n} + \ sum _ {i = 1} ^ {K} Q_ {i} (t) a_ {in} <0}

Dado que las variables primarias x _i ( t ) son siempre bien x _{min, i} o x _{max, i} , nunca pueden converger a la solución óptima si la solución óptima no es un punto de vértice de la hiper-rectángulo A . Sin embargo, los promedios de tiempo de estas decisiones explosivas convergen en una aproximación O (1 / V ) de la solución óptima. Por ejemplo, suponga que x _{min, 1} = 0, x _{max, 1} = 1, y suponga que todas las soluciones óptimas del programa lineal tienen x ₁ = 3/4. Entonces, aproximadamente 3/4 de las veces, la decisión de bang-bang para la primera variable será x ₁ ( t ) = 1, y el tiempo restante será x ₁ ( t ) = 0. ^[7]

Enlaces relacionados

Enrutamiento de contrapresión
Optimización de Lyapunov
Optimizacion convexa
Programación lineal

Referencias

^ a b MJ Neely, " Control óptimo de energía para redes inalámbricas que varían en el tiempo ", IEEE Transactions on Information Theory, vol. 52, no. 7, págs. 2915-2934, julio de 2006.
^ a b c d MJ Neely, E. Modiano y C. Li, " Equidad y control estocástico óptimo para redes heterogéneas ", Proc. IEEE INFOCOM, marzo de 2005.
^ a b L. Tassiulas y A. Ephremides, "Propiedades de estabilidad de los sistemas de colas restringidos y políticas de programación para un rendimiento máximo en redes de radio de saltos múltiples, Transacciones IEEE sobre control automático , vol. 37, no. 12, págs. 1936-1948, dic. 1992.
^ a b c L. Georgiadis, MJ Neely y L. Tassiulas, " Asignación de recursos y control entre capas en redes inalámbricas ", Fundamentos y tendencias en redes , vol. 1, no. 1, págs. 1-149, 2006.
^ a b c d e f g h i j k l m n o p q MJ Neely. Optimización de redes estocásticas con aplicación a sistemas de comunicación y colas , Morgan & Claypool, 2010.
^ a b c d MJ Neely, "[Cálculo distribuido y seguro de programas convexos sobre una red de procesadores conectados Cálculo distribuido y seguro de programas convexos sobre una red de procesadores conectados]", DCDIS Conf, Guelph, Ontario, julio de 2005
^ a b S. Supittayapornpong y MJ Neely, " Maximización de la calidad de la información para redes inalámbricas a través de una política cuadrática completamente separable ", arXiv: 1211.6162v2, noviembre de 2012.
^ L. Tassiulas y A. Ephremides, "Asignación dinámica de servidores a colas paralelas con conectividad que varía aleatoriamente", IEEE Transactions on Information Theory, vol. 39, no. 2, págs. 466–478, marzo de 1993.
^ a b M. J. Neely. Asignación dinámica de energía y enrutamiento para redes satelitales e inalámbricas con canales que varían en el tiempo. Doctor. Disertación, Instituto Tecnológico de Massachusetts, LIDS. Noviembre de 2003.
^ R. Urgaonkar, B. Urgaonkar, MJ Neely, A. Sivasubramaniam, "Gestión óptima de costes de energía utilizando energía almacenada en centros de datos", Proc. SIGMETRÍA 2011.
^ M. Baghaie, S. Moeller, B. Krishnamachari, " Enrutamiento de energía en la futura red: un enfoque de optimización de red estocástica ", Proc. Conf. Internacional on Power System Technology (POWERCON), octubre de 2010.
^ MJ Neely, AS Tehrani y AG Dimakis, "Algoritmos eficientes para la asignación de energía renovable a consumidores tolerantes al retraso", 1ª Conf. Internacional IEEE. sobre Smart Grid Communications, 2010.
^ MJ Neely y L. Huang, "Control de inventario y ensamblaje de productos dinámicos para obtener el máximo beneficio", Proc. Conf. IEEE on Decision and Control, Atlanta, GA, diciembre de 2010.
^ MJ Neely, "Estabilidad de la cola y convergencia de la probabilidad 1 a través de la optimización de Lyapunov", Journal of Applied Mathematics, vol. 2012, doi : 10.1155 / 2012/831909 .
^ L. Bracciale, P. Loreti "Optimización de deriva más penalización de Lyapunov para colas con capacidad finita" IEEE Communications Letters, doi : 10.1109 / LCOMM.2020.3013125 .
^ a b A. Stolyar, " Maximización de la utilidad de red de cola sujeta a estabilidad: algoritmo codicioso primal-dual " , Sistemas de cola , vol. 50, no. 4, págs. 401–457, 2005.
^ a b A. Stolyar, " Algoritmo codicioso primal-dual para la asignación dinámica de recursos en redes complejas ", Sistemas de colas, vol. 54, no. 3, págs. 203–220, 2006.
^ A. Eryilmaz y R. Srikant, "Asignación justa de recursos en redes inalámbricas mediante programación basada en la longitud de la cola y control de la congestión", Proc. IEEE INFOCOM, marzo de 2005.
^ a b L. Huang y MJ Neely, " Reducción de retardo a través de multiplicadores de Lagrange en optimización de red estocástica ", IEEE Trans. sobre control automático, vol. 56, no. 4, págs. 842–857, abril de 2011.
^ S. Moeller, A. Sridharan, B. Krishnamachari y O. Gnawali, " Enrutamiento sin rutas: el protocolo de recolección de contrapresión ", Proc. IPSN 2010.
^ L. Huang, S. Moeller, MJ Neely y B. Krishnamachari, " LIFO-Backpressure Achieves Near Optimal Utility-Delay Tradeoff ", IEEE / ACM Transactions on Networking, para aparecer.
^ R. Agrawal y V. Subramanian, " Optimidad de determinadas políticas de programación consciente del canal ", Proc. 40a Conf. Anual de Allerton. sobre comunicación, control y computación, Monticello, IL, octubre de 2002.
^ H. Kushner y P. Whiting, " Propiedades asintóticas de los algoritmos de reparto equitativo proporcional ", Proc. 40a Conf. Anual de Allerton. sobre comunicación, control y computación, Monticello, IL, octubre de 2002.
^ a b C. Li y MJ Neely, "Maximización de la utilidad de red sobre canales de Markovia parcialmente observables", Evaluación de rendimiento, https://dx.doi.org/10.1016/j.peva.2012.10.003 .
^ a b MJ Neely, " Optimización dinámica y aprendizaje para sistemas de renovación ", IEEE Transactions on Automatic Control, vol. 58, no. 1, págs. 32–46, enero de 2013.
^ DP Bertsekas y A. Nedic y AE Ozdaglar. Optimización y análisis convexo , Boston: Athena Scientific, 2003.

Fuentes primarias

MJ Neely. Optimización de redes estocásticas con aplicación a sistemas de comunicación y colas , Morgan & Claypool, 2010.

[neely-energy-it-1] MJ Neely, " Control óptimo de energía para redes inalámbricas que varían en el tiempo ", IEEE Transactions on Information Theory, vol. 52, no. 7, págs. 2915-2934, julio de 2006.

[neely-fairness-infocom05-2] MJ Neely, E. Modiano y C. Li, " Equidad y control estocástico óptimo para redes heterogéneas ", Proc. IEEE INFOCOM, marzo de 2005.

[tass-radio-nets-3] L. Tassiulas y A. Ephremides, "Propiedades de estabilidad de los sistemas de colas restringidos y políticas de programación para un rendimiento máximo en redes de radio de saltos múltiples, Transacciones IEEE sobre control automático , vol. 37, no. 12, págs. 1936-1948, dic. 1992.

[now-4] L. Georgiadis, MJ Neely y L. Tassiulas, " Asignación de recursos y control entre capas en redes inalámbricas ", Fundamentos y tendencias en redes , vol. 1, no. 1, págs. 1-149, 2006.

[sno-text-5] ^ a b c d e f g h i j k l m n o p q MJ Neely. Optimización de redes estocásticas con aplicación a sistemas de comunicación y colas , Morgan & Claypool, 2010.

[neely-dcdis-6] MJ Neely, "[Cálculo distribuido y seguro de programas convexos sobre una red de procesadores conectados Cálculo distribuido y seguro de programas convexos sobre una red de procesadores conectados]", DCDIS Conf, Guelph, Ontario, julio de 2005

[sucha-qoi-arxiv-7] S. Supittayapornpong y MJ Neely, " Maximización de la calidad de la información para redes inalámbricas a través de una política cuadrática completamente separable ", arXiv: 1211.6162v2, noviembre de 2012.

[tass-server-allocation-8] L. Tassiulas y A. Ephremides, "Asignación dinámica de servidores a colas paralelas con conectividad que varía aleatoriamente", IEEE Transactions on Information Theory, vol. 39, no. 2, págs. 466–478, marzo de 1993.

[neely-thesis-9] M. J. Neely. Asignación dinámica de energía y enrutamiento para redes satelitales e inalámbricas con canales que varían en el tiempo. Doctor. Disertación, Instituto Tecnológico de Massachusetts, LIDS. Noviembre de 2003.

[rahul-energy-storage-10] R. Urgaonkar, B. Urgaonkar, MJ Neely, A. Sivasubramaniam, "Gestión óptima de costes de energía utilizando energía almacenada en centros de datos", Proc. SIGMETRÍA 2011.

[moeller-smartgrid2010-11] M. Baghaie, S. Moeller, B. Krishnamachari, " Enrutamiento de energía en la futura red: un enfoque de optimización de red estocástica ", Proc. Conf. Internacional on Power System Technology (POWERCON), octubre de 2010.

[neely-smartgrid-12] MJ Neely, AS Tehrani y AG Dimakis, "Algoritmos eficientes para la asignación de energía renovable a consumidores tolerantes al retraso", 1ª Conf. Internacional IEEE. sobre Smart Grid Communications, 2010.

[neely-inventory-control-13] MJ Neely y L. Huang, "Control de inventario y ensamblaje de productos dinámicos para obtener el máximo beneficio", Proc. Conf. IEEE on Decision and Control, Atlanta, GA, diciembre de 2010.

[lyap-opt-jam-14] MJ Neely, "Estabilidad de la cola y convergencia de la probabilidad 1 a través de la optimización de Lyapunov", Journal of Applied Mathematics, vol. 2012, doi : 10.1155 / 2012/831909 .

[lyap-opt-fin-15] L. Bracciale, P. Loreti "Optimización de deriva más penalización de Lyapunov para colas con capacidad finita" IEEE Communications Letters, doi : 10.1109 / LCOMM.2020.3013125 .

[stolyar-greedy-16] A. Stolyar, " Maximización de la utilidad de red de cola sujeta a estabilidad: algoritmo codicioso primal-dual " , Sistemas de cola , vol. 50, no. 4, págs. 401–457, 2005.

[stolyar-gpd-17] A. Stolyar, " Algoritmo codicioso primal-dual para la asignación dinámica de recursos en redes complejas ", Sistemas de colas, vol. 54, no. 3, págs. 203–220, 2006.

[atilla-fairness-18] A. Eryilmaz y R. Srikant, "Asignación justa de recursos en redes inalámbricas mediante programación basada en la longitud de la cola y control de la congestión", Proc. IEEE INFOCOM, marzo de 2005.

[longbo-lagrange-19] L. Huang y MJ Neely, " Reducción de retardo a través de multiplicadores de Lagrange en optimización de red estocástica ", IEEE Trans. sobre control automático, vol. 56, no. 4, págs. 842–857, abril de 2011.

[moeller-lifo-20] S. Moeller, A. Sridharan, B. Krishnamachari y O. Gnawali, " Enrutamiento sin rutas: el protocolo de recolección de contrapresión ", Proc. IPSN 2010.

[longbo-lifo-21] L. Huang, S. Moeller, MJ Neely y B. Krishnamachari, " LIFO-Backpressure Achieves Near Optimal Utility-Delay Tradeoff ", IEEE / ACM Transactions on Networking, para aparecer.

[agrawal-allerton02-22] R. Agrawal y V. Subramanian, " Optimidad de determinadas políticas de programación consciente del canal ", Proc. 40a Conf. Anual de Allerton. sobre comunicación, control y computación, Monticello, IL, octubre de 2002.

[kushner-allerton02-23] H. Kushner y P. Whiting, " Propiedades asintóticas de los algoritmos de reparto equitativo proporcional ", Proc. 40a Conf. Anual de Allerton. sobre comunicación, control y computación, Monticello, IL, octubre de 2002.

[restless-bandit-NUM-24] C. Li y MJ Neely, "Maximización de la utilidad de red sobre canales de Markovia parcialmente observables", Evaluación de rendimiento, https://dx.doi.org/10.1016/j.peva.2012.10.003 .

[neely-renewals-25] MJ Neely, " Optimización dinámica y aprendizaje para sistemas de renovación ", IEEE Transactions on Automatic Control, vol. 58, no. 1, págs. 32–46, enero de 2013.

[bertsekas-convex-26] DP Bertsekas y A. Nedic y AE Ozdaglar. Optimización y análisis convexo , Boston: Athena Scientific, 2003.

[1]