Cadena de Markov en tiempo continuo

Una cadena de Markov de tiempo continuo ( CTMC ) es un proceso estocástico continuo en el que, para cada estado, el proceso cambiará de estado de acuerdo con una variable aleatoria exponencial y luego se moverá a un estado diferente según lo especificado por las probabilidades de una matriz estocástica . Una formulación equivalente describe el proceso como un estado cambiante de acuerdo con el valor mínimo de un conjunto de variables aleatorias exponenciales, una para cada estado posible al que puede moverse, con los parámetros determinados por el estado actual.

Un ejemplo de CTMC con tres estados ${\ Displaystyle \ {0,1,2 \}}$ es como sigue: el proceso hace una transición después de la cantidad de tiempo especificada por el tiempo de espera - una variable aleatoria exponencial ${\ Displaystyle E_ {i}}$ , donde i es su estado actual. Cada variable aleatoria es independiente y tal que ${\ Displaystyle E_ {0} \ sim {\ text {Exp}} (6)}$ , ${\ Displaystyle E_ {1} \ sim {\ text {Exp}} (12)}$ y ${\ Displaystyle E_ {2} \ sim {\ text {Exp}} (18)}$ . Cuando se va a realizar una transición, el proceso se mueve de acuerdo con la cadena de salto , una cadena de Markov de tiempo discreto con matriz estocástica:

{\ displaystyle {\ begin {bmatrix} 0 y {\ frac {1} {2}} y {\ frac {1} {2}} \\ {\ frac {1} {3}} y 0 y {\ frac {2} {3}} \\ {\ frac {5} {6}} & {\ frac {1} {6}} & 0 \ end {bmatrix}}.}

De manera equivalente, según la teoría de exponenciales en competencia , esta CTMC cambia de estado desde el estado i de acuerdo con el mínimo de dos variables aleatorias, que son independientes y tales que ${\ Displaystyle E_ {i, j} \ sim {\ text {Exp}} (q_ {i, j})}$ por ${\ Displaystyle i \ neq j}$ donde los parámetros vienen dados por la matriz Q ${\ Displaystyle Q = (q_ {i, j})}$

{\ displaystyle {\ begin {bmatrix} -6 & 3 & 3 \\ 4 & -12 & 8 \\ 15 & 3 & -18 \ end {bmatrix}}.}

Cada valor no diagonal se puede calcular como el producto del tiempo de retención del estado original con la probabilidad de que la cadena de salto se mueva al estado dado. Los valores diagonales se eligen de modo que cada fila sume 0.

Una CTMC satisface la propiedad de Markov de que su comportamiento depende solo de su estado actual y no de su comportamiento pasado, debido a la falta de memoria de la distribución exponencial y de las cadenas de Markov en tiempo discreto.

Definición

Una cadena de Markov de tiempo continuo ( X _t ) _{t ≥ 0} se define por: ^[1]

un espacio de estados finito o contable S ;
una matriz de tasas de transición Q con dimensiones iguales a las de S ; y
un estado inicial ${\ Displaystyle k}$ tal que ${\ Displaystyle X_ {0} = k}$ , o una distribución de probabilidad para este primer estado.

Para i ≠ j , los elementos q _ij no son negativos y describen la velocidad de las transiciones del proceso del estado i al estado j . Los elementos q _ii podrían elegirse como cero, pero por conveniencia matemática, una convención común es elegirlos de manera que cada fila de ${\ displaystyle Q}$ sumas a cero, es decir:

{\ Displaystyle q_ {ii} = - \ sum _ {k \ neq i} q_ {ik}.}

Observe cómo esto difiere de la definición de matriz de transición para cadenas de Markov discretas , donde las sumas de las filas son todas iguales a uno.

Hay otras tres definiciones del proceso, equivalentes a la anterior. ^[2]

Definición de probabilidad de transición

Otra forma común de definir cadenas de Markov de tiempo continuo es, en lugar de la matriz de tasa de transición ${\ displaystyle Q}$ , utilice lo siguiente: ^[1]

${\ Displaystyle v_ {i}}$ , por ${\ Displaystyle i \ in S}$ , que representa la tasa de caída (de una distribución exponencial) que el sistema permanece en estado ${\ Displaystyle i}$ una vez que entra en él; y
${\ Displaystyle m_ {ij}}$ , por ${\ Displaystyle i, j \ in S}$ , que representa la probabilidad de que el sistema pase al estado ${\ Displaystyle j}$ , dado que actualmente está saliendo del estado ${\ Displaystyle i}$ .

Naturalmente, ${\ Displaystyle m_ {ii}}$ debe ser cero para todos ${\ Displaystyle i}$ .

Los valores ${\ Displaystyle v_ {i}}$ y ${\ Displaystyle m_ {ij}}$ están estrechamente relacionados con la matriz de tasas de transición ${\ displaystyle Q}$ , por las fórmulas:

{\ Displaystyle v_ {i} = \ sum _ {k \ neq i} q_ {ik} = - q_ {ii}, {\ text {para todos}} i,}

{\ Displaystyle m_ {ij} = {\ frac {q_ {ij}} {\ sum _ {k \ neq i} q_ {ik}}}, {\ text {para todos}} i \ neq j.}

Considere una secuencia ordenada de instantes de tiempo ${\ Displaystyle t_ {0}$ y los estados registrados en estos momentos ${\ Displaystyle i_ {0}, i_ {1}, \ dots, i_ {n}}$ , entonces sostiene que:

{\ Displaystyle \ Pr (X_ {t_ {n + 1}} = i_ {n + 1} \ mid X_ {t_ {0}} = i_ {0}, X_ {t_ {1}} = i_ {1}, \ ldots, X_ {t_ {n}} = i_ {n}) = \ Pr (X_ {t_ {n + 1}} = i_ {n + 1} \ mid X_ {t_ {n}} = i_ {n} ) = p_ {i_ {n} i_ {n + 1}} (t_ {n + 1} -t_ {n})}

^{[ dudoso - discutir ]}

donde p _ij es la solución de la ecuación directa (una ecuación diferencial de primer orden ):

{\ Displaystyle P '(t) = P (t) Q}

siendo la condición inicial P (0) la matriz identidad .

Definición infinitesimal

La cadena de Markov en tiempo continuo se caracteriza por las tasas de transición, las derivadas con respecto al tiempo de las probabilidades de transición entre los estados i y j.

Dejar ${\ Displaystyle X_ {t}}$ ser la variable aleatoria que describe el estado del proceso en el tiempo t , y suponga que el proceso está en un estado i en el tiempo t . Por definición de la cadena de Markov de tiempo continuo, ${\ Displaystyle X_ {t + h} = j}$ es independiente de los valores anteriores al instante ${\ Displaystyle t}$ ; es decir, es independiente de ${\ Displaystyle \ left (X_ {s}: s$ . Con eso en mente, para todos ${\ Displaystyle i, j}$ , para todos ${\ Displaystyle t}$ y para pequeños valores de ${\ Displaystyle h}$ , lo siguiente es válido:

{\ Displaystyle \ Pr (X (t + h) = j \ mid X (t) = i) = \ delta _ {ij} + q_ {ij} h + o (h)}

,

dónde ${\ Displaystyle \ delta _ {ij}}$ es el delta de Kronecker y se ha empleado la notación pequeña-o .

La ecuación anterior muestra que ${\ Displaystyle q_ {ij}}$ puede verse como una medida de la rapidez con que se realiza la transición ${\ Displaystyle i}$ a ${\ Displaystyle j}$ pasa por ${\ Displaystyle i \ neq j}$ y la rapidez con la que se aleja de ${\ Displaystyle i}$ pasa por ${\ Displaystyle i = j}$ .

Definición de cadena de salto / tiempo de espera

Defina una cadena de Markov de tiempo discreto Y _n para describir el n- ésimo salto del proceso y las variables S ₁ , S ₂ , S ₃ , ... para describir los tiempos de retención en cada uno de los estados donde S _i sigue la distribución exponencial con tasa parámetro - q _{Y _i Y _i} .

Propiedades

Comunicando clases

Las clases comunicantes, la transitoriedad, la recurrencia y la recurrencia positiva y nula se definen de manera idéntica a las cadenas de Markov de tiempo discreto .

Comportamiento transitorio

Escriba P ( t ) para la matriz con entradas p _ij = P ( X _t = j | X ₀ = i ). Entonces la matriz P ( t ) satisface la ecuación directa, una ecuación diferencial de primer orden

{\ Displaystyle P '(t) = P (t) Q}

donde el primo denota diferenciación con respecto a t . La solución a esta ecuación viene dada por una matriz exponencial

{\ Displaystyle P (t) = e ^ {tQ}}

En un caso simple como una CTMC en el espacio de estado {1,2}. La matriz Q general para tal proceso es la siguiente matriz 2 × 2 con α , β > 0

{\ Displaystyle Q = {\ begin {pmatrix} - \ alpha & \ alpha \\\ beta & - \ beta \ end {pmatrix}}.}

La relación anterior para la matriz directa se puede resolver explícitamente en este caso para dar

{\ Displaystyle P (t) = {\ begin {pmatrix} {\ frac {\ beta} {\ alpha + \ beta}} + {\ frac {\ alpha} {\ alpha + \ beta}} e ^ {- ( \ alpha + \ beta) t} & {\ frac {\ alpha} {\ alpha + \ beta}} - {\ frac {\ alpha} {\ alpha + \ beta}} e ^ {- (\ alpha + \ beta ) t} \\ {\ frac {\ beta} {\ alpha + \ beta}} - {\ frac {\ beta} {\ alpha + \ beta}} e ^ {- (\ alpha + \ beta) t} & {\ frac {\ alpha} {\ alpha + \ beta}} + {\ frac {\ beta} {\ alpha + \ beta}} e ^ {- (\ alpha + \ beta) t} \ end {pmatrix}} }

Sin embargo, las soluciones directas son complicadas de calcular para matrices más grandes. El hecho de que Q es el generador de un semigrupo de matrices

{\ Displaystyle P (t + s) = e ^ {(t + s) Q} = e ^ {tQ} e ^ {sQ} = P (t) P (s)}

se utiliza.

Distribución estacionaria

La distribución estacionaria para una CTMC recurrente irreducible es la distribución de probabilidad a la que converge el proceso para valores grandes de t . Observe que para el proceso de dos estados considerado anteriormente con P ( t ) dado por

{\ Displaystyle P (t) = {\ begin {pmatrix} {\ frac {\ beta} {\ alpha + \ beta}} + {\ frac {\ alpha} {\ alpha + \ beta}} e ^ {- ( \ alpha + \ beta) t} & {\ frac {\ alpha} {\ alpha + \ beta}} - {\ frac {\ alpha} {\ alpha + \ beta}} e ^ {- (\ alpha + \ beta ) t} \\ {\ frac {\ beta} {\ alpha + \ beta}} - {\ frac {\ beta} {\ alpha + \ beta}} e ^ {- (\ alpha + \ beta) t} & {\ frac {\ alpha} {\ alpha + \ beta}} + {\ frac {\ beta} {\ alpha + \ beta}} e ^ {- (\ alpha + \ beta) t} \ end {pmatrix}} }

cuando t → ∞ la distribución tiende a

{\ Displaystyle P _ {\ pi} = {\ begin {pmatrix} {\ frac {\ beta} {\ alpha + \ beta}} & {\ frac {\ alpha} {\ alpha + \ beta}} \\ {\ frac {\ beta} {\ alpha + \ beta}} & {\ frac {\ alpha} {\ alpha + \ beta}} \ end {pmatrix}}}

Observe que cada fila tiene la misma distribución ya que esto no depende del estado inicial. El vector de fila $π$ se puede encontrar resolviendo ^[3]

{\ Displaystyle \ pi Q = 0.}

con la restricción adicional de que

{\ Displaystyle \ sum _ {i \ in S} \ pi _ {i} = 1.}

Ejemplo 1

Representación gráfica dirigida de una cadena de Markov en tiempo continuo que describe el estado de los mercados financieros (nota: los números están compuestos).

La imagen de la derecha describe una cadena de Markov de tiempo continuo con espacio de estado {mercado alcista, mercado bajista, mercado estancado} y matriz de tasas de transición.

{\ displaystyle Q = {\ begin {pmatrix} -0.025 & 0.02 & 0.005 \\ 0.3 & -0.5 & 0.2 \\ 0.02 & 0.4 & -0.42 \ end {pmatrix}}.}

La distribución estacionaria de esta cadena se puede encontrar resolviendo ${\ Displaystyle \ pi Q = 0}$ , sujeto a la restricción de que los elementos deben sumar 1 para obtener

{\ displaystyle \ pi = {\ begin {pmatrix} 0,885 y 0,071 y 0,044 \ end {pmatrix}}.}

Ejemplo 2

Gráfico de transición con probabilidades de transición, ejemplar para los estados 1, 5, 6 y 8. Existe un pasaje secreto bidireccional entre los estados 2 y 8.

La imagen de la derecha describe una cadena de Markov en tiempo discreto que modela a Pac-Man con espacio de estado {1,2,3,4,5,6,7,8,9}. El jugador controla a Pac-Man a través de un laberinto, comiendo pac-puntos. Mientras tanto, está siendo perseguido por fantasmas. Por conveniencia, el laberinto será una pequeña cuadrícula de 3x3 y los monstruos se moverán aleatoriamente en direcciones horizontales y verticales. Se puede utilizar un pasaje secreto entre los estados 2 y 8 en ambas direcciones. Las entradas con probabilidad cero se eliminan en la siguiente matriz de tasas de transición:

${\ Displaystyle Q = {\ begin {pmatrix} -1 & {\ frac {1} {2}} && {\ frac {1} {2}} \\ {\ frac {1} {4}} & - 1 & { \ frac {1} {4}} && {\ frac {1} {4}} &&& {\ frac {1} {4}} \\ & {\ frac {1} {2}} & - 1 &&& {\ frac {1} {2}} \\ {\ frac {1} {3}} &&& - 1 & {\ frac {1} {3}} && {\ frac {1} {3}} \\ & {\ frac { 1} {4}} && {\ frac {1} {4}} & - 1 & {\ frac {1} {4}} && {\ frac {1} {4}} \\ && {\ frac {1} {3}} && {\ frac {1} {3}} & - 1 &&& {\ frac {1} {3}} \\ &&& {\ frac {1} {2}} &&& - 1 & {\ frac {1} {2}} \\ & {\ frac {1} {4}} &&& {\ frac {1} {4}} && {\ frac {1} {4}} & - 1 & {\ frac {1} {4 }} \\ &&&&& {\ frac {1} {2}} && {\ frac {1} {2}} & - 1 \ end {pmatrix}}}$

Esta cadena de Markov es irreductible, porque los fantasmas pueden volar de cada estado a cada estado en una cantidad de tiempo finita. Debido al pasaje secreto, la cadena de Markov también es aperiódica, porque los monstruos pueden moverse de cualquier estado a cualquier estado tanto en un número par como en un número impar de transiciones de estado. Por lo tanto, existe una distribución estacionaria única y se puede encontrar resolviendo ${\ Displaystyle \ pi Q = 0}$ , sujeto a la restricción de que los elementos deben sumar 1. La solución de esta ecuación lineal sujeta a la restricción es ${\ displaystyle \ pi = (7.7,15.4,7.7,11.5,15.4,11.5,7.7,15.4,7.7) \%.}$ El estado central y los estados fronterizos 2 y 8 del pasaje secreto adyacente son los más visitados y los estados de las esquinas son los menos visitados.

Inversión del tiempo

Para una CTMC X _t , el proceso inverso en el tiempo se define como ${\ Displaystyle {\ hat {X}} _ {t} = X_ {Tt}}$ . Según el lema de Kelly, este proceso tiene la misma distribución estacionaria que el proceso de avance.

Se dice que una cadena es reversible si el proceso inverso es el mismo que el proceso directo. El criterio de Kolmogorov establece que la condición necesaria y suficiente para que un proceso sea reversible es que el producto de las tasas de transición alrededor de un circuito cerrado debe ser el mismo en ambas direcciones.

Cadena de Markov incrustada

Un método para encontrar la distribución de probabilidad estacionaria , $π$ , de una cadena de Markov ergódica de tiempo continuo, Q , es encontrar primero su cadena de Markov incrustada (EMC) . Estrictamente hablando, la EMC es una cadena de Markov de tiempo discreto regular, a veces denominada proceso de salto . Cada elemento de la matriz de probabilidad de transición de un paso de la EMC, S , se denota por s _ij , y representa la probabilidad condicional de pasar del estado i al estado j . Estas probabilidades condicionales se pueden encontrar por

{\ Displaystyle s_ {ij} = {\ begin {cases} {\ frac {q_ {ij}} {\ sum _ {k \ neq i} q_ {ik}}} & {\ text {if}} i \ neq j \\ 0 & {\ text {de lo contrario}}. \ end {cases}}}

A partir de esto, S puede escribirse como

{\ Displaystyle S = I- \ left (\ operatorname {diag} (Q) \ right) ^ {- 1} Q}

donde I es la matriz identidad y diag ( Q ) es la matriz diagonal formada al seleccionar la diagonal principal de la matriz Q y establecer todos los demás elementos en cero.

Para encontrar el vector de distribución de probabilidad estacionario, a continuación debemos encontrar ${\ Displaystyle \ varphi}$ tal que

{\ Displaystyle \ varphi S = \ varphi,}

con ${\ Displaystyle \ varphi}$ siendo un vector de fila, de modo que todos los elementos en ${\ Displaystyle \ varphi}$ son mayores que 0 y ${\ Displaystyle \ | \ varphi \ | _ {1}}$ = 1. A partir de esto, $π$ se puede encontrar como

{\ Displaystyle \ pi = {- \ varphi (\ operatorname {diag} (Q)) ^ {- 1} \ over \ left \ | \ varphi (\ operatorname {diag} (Q)) ^ {- 1} \ right \ | _ {1}}.}

( S puede ser periódico, incluso si Q no lo es. Una vez que se encuentra $π$ , debe normalizarse a un vector unitario ).

Otro proceso de tiempo discreto que puede derivarse de una cadena de Markov de tiempo continuo es un esqueleto δ, la cadena de Markov (de tiempo discreto) formada al observar X ( t ) a intervalos de δ unidades de tiempo. Las variables aleatorias X (0), X (δ), X (2δ), ... dan la secuencia de estados visitados por el esqueleto δ.

Ver también

Ecuaciones de Kolmogorov (proceso de salto de Markov)

Notas

↑ ^a ^b Ross, SM (2010). Introducción a los modelos de probabilidad (10 ed.). Elsevier. ISBN 978-0-12-375686-2.
^ Norris, JR (1997). "Cadenas de Markov en tiempo continuo I". Cadenas de Markov . págs. 60-107. doi : 10.1017 / CBO9780511810633.004 . ISBN 9780511810633.
^ Norris, JR (1997). "Cadenas de Markov en tiempo continuo II". Cadenas de Markov . págs. 108-127. doi : 10.1017 / CBO9780511810633.005 . ISBN 9780511810633.

Referencias

AA Markov (1971). "Extensión de los teoremas límite de la teoría de la probabilidad a una suma de variables conectadas en una cadena". reimpreso en el Apéndice B de: R. Howard. Sistemas probabilísticos dinámicos, volumen 1: Cadenas de Markov . John Wiley e hijos.
Markov, AA (2006). Traducido por Link, David. "Un ejemplo de investigación estadística del texto Eugene Onegin sobre la conexión de muestras en cadenas" . Ciencia en contexto . 19 (4): 591–600. doi : 10.1017 / s0269889706001074 .
Leo Breiman (1992) [1968] Probabilidad . Edición original publicada por Addison-Wesley; reimpreso por Society for Industrial and Applied MathematicsISBN 0-89871-296-3 . (Ver Capítulo 7)
JL Doob (1953) Procesos estocásticos . Nueva York: John Wiley and Sons ISBN 0-471-52369-0 .
SP Meyn y RL Tweedie (1993) Cadenas de Markov y estabilidad estocástica . Londres: Springer-Verlag ISBN 0-387-19832-6 . en línea: MCSS . Segunda edición publicada, Cambridge University Press, 2009.
Kemeny, John G .; Hazleton Mirkil; J. Laurie Snell; Gerald L. Thompson (1959). Estructuras matemáticas finitas (1ª ed.). Englewood Cliffs, Nueva Jersey: Prentice-Hall, Inc. Número de catálogo de la tarjeta de la Biblioteca del Congreso 59-12841.Texto clásico. cf Capítulo 6 Cadenas de Markov finitas págs. 384ss.
John G. Kemeny y J. Laurie Snell (1960) Cadenas finitas de Markov , D. van Nostrand Company ISBN 0-442-04328-7
E. Nummelin. "Cadenas de Markov irreductibles generales y operadores no negativos". Cambridge University Press, 1984, 2004. ISBN 0-521-60494-X
Seneta, E. Matrices no negativas y cadenas de Markov . 2da rev. ed., 1981, XVI, 288 p., Softcover Springer Series in Statistics. (Publicado originalmente por Allen & Unwin Ltd., Londres, 1973) ISBN 978-0-387-29765-1

[ross-1] Ross, SM (2010). Introducción a los modelos de probabilidad (10 ed.). Elsevier. ISBN 978-0-12-375686-2.

[norris1-2] Norris, JR (1997). "Cadenas de Markov en tiempo continuo I". Cadenas de Markov . págs. 60-107. doi : 10.1017 / CBO9780511810633.004 . ISBN 9780511810633.

[norris2-3] Norris, JR (1997). "Cadenas de Markov en tiempo continuo II". Cadenas de Markov . págs. 108-127. doi : 10.1017 / CBO9780511810633.005 . ISBN 9780511810633.

[1]