Núcleo de Markov

En teoría de probabilidad , un kernel de Markov (también conocido como kernel estocástico o kernel de probabilidad ) es un mapa que en la teoría general de los procesos de Markov juega el papel que desempeña la matriz de transición en la teoría de los procesos de Markov con un espacio de estados finito . ^[1]

Definicion formal

Dejar ${\ Displaystyle (X, {\ mathcal {A}})}$ y ${\ Displaystyle (Y, {\ mathcal {B}})}$ Ser espacios medibles . Un kernel de Markov con código fuente ${\ Displaystyle (X, {\ mathcal {A}})}$ y objetivo ${\ Displaystyle (Y, {\ mathcal {B}})}$ es un mapa ${\ Displaystyle \ kappa: {\ mathcal {B}} \ times X \ to [0,1]}$ con las siguientes propiedades:

Por cada (fijo) ${\ Displaystyle B \ in {\ mathcal {B}}}$ , el mapa ${\ Displaystyle x \ mapsto \ kappa (B, x)}$ es ${\ Displaystyle {\ mathcal {A}}}$ -mensurable
Por cada (fijo) ${\ Displaystyle x \ in X}$ , el mapa ${\ Displaystyle B \ mapsto \ kappa (B, x)}$ es una medida de probabilidad en ${\ Displaystyle (Y, {\ mathcal {B}})}$

En otras palabras, se asocia a cada punto. ${\ Displaystyle x \ in X}$ una medida de probabilidad ${\ Displaystyle \ kappa (dy | x): B \ mapsto \ kappa (B, x)}$ en ${\ Displaystyle (Y, {\ mathcal {B}})}$ tal que, para cada conjunto medible ${\ Displaystyle B \ in {\ mathcal {B}}}$ , el mapa ${\ Displaystyle x \ mapsto \ kappa (B, x)}$ es medible con respecto a la ${\ Displaystyle \ sigma}$ -álgebra ${\ Displaystyle {\ mathcal {A}}}$ . ^[2]

Ejemplos de

Caminata aleatoria simple sobre los enteros

Llevar ${\ Displaystyle X = Y = \ mathbb {Z}}$ , y ${\ Displaystyle {\ mathcal {A}} = {\ mathcal {B}} = {\ mathcal {P}} (\ mathbb {Z})}$ (el conjunto de poder de ${\ Displaystyle \ mathbb {Z}}$ ). Entonces, un kernel de Markov está completamente determinado por la probabilidad que asigna a un conjunto singleton ${\ Displaystyle \ {m \}}$ con ${\ Displaystyle m \ en Y = \ mathbb {Z}}$ para cada ${\ Displaystyle n \ en X = \ mathbb {Z}}$ :

{\ Displaystyle \ kappa (B | n) = \ sum _ {m \ in B} \ kappa (\ {m \} | n), \ qquad \ forall n \ in \ mathbb {Z}, \, \ forall B \ in {\ mathcal {B}}}

.

Ahora el paseo al azar ${\ Displaystyle \ kappa}$ que va a la derecha con probabilidad ${\ Displaystyle p}$ y a la izquierda con probabilidad ${\ Displaystyle 1-p}$ es definido por

{\ Displaystyle \ kappa (\ {m \} | n) = p \ delta _ {m, n + 1} + (1-p) \ delta _ {m, n-1}, \ quad \ forall n, m \ in \ mathbb {Z}}

dónde ${\ Displaystyle \ delta}$ es el delta de Kronecker . Las probabilidades de transición ${\ Displaystyle P (m | n) = \ kappa (\ {m \} | n)}$ para el paseo aleatorio son equivalentes al kernel de Markov.

Procesos generales de Markov con espacio de estado contable

De manera más general, tome ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ tanto contables como ${\ Displaystyle {\ mathcal {A}} = {\ mathcal {P}} (X), \ {\ mathcal {B}} = {\ mathcal {P}} (Y)}$ . Nuevamente, un kernel de Markov se define por la probabilidad que asigna a conjuntos singleton para cada ${\ Displaystyle i \ en X}$

{\ Displaystyle \ kappa (B | i) = \ sum _ {j \ in B} \ kappa (\ {j \} | i), \ qquad \ forall i \ in X, \, \ forall B \ in {\ mathcal {B}}}

,

Definimos un proceso de Markov definiendo una probabilidad de transición ${\ Displaystyle P (j | i) = K_ {ji}}$ donde los numeros ${\ displaystyle K_ {ji}}$ definir una matriz estocástica (contable) ${\ Displaystyle (K_ {ji})}$ es decir

{\ displaystyle {\ begin {align} K_ {ji} & \ geq 0, \ qquad & \ forall (j, i) \ in Y \ times X, \\\ sum _ {j \ in Y} K_ {ji} & = 1, \ qquad & \ forall i \ en X. \\\ end {alineado}}}

Entonces definimos

{\ Displaystyle \ kappa (\ {j \} | i) = K_ {ji} = P (j | i), \ qquad \ forall i \ in X, \ quad \ forall B \ in {\ mathcal {B}} }

.

Nuevamente, la probabilidad de transición, la matriz estocástica y el núcleo de Markov son reformulaciones equivalentes.

Núcleo de Markov definido por una función del núcleo y una medida

Dejar ${\ Displaystyle \ nu}$ ser una medida en ${\ Displaystyle (Y, {\ mathcal {B}})}$ , y ${\ Displaystyle k: Y \ times X \ to [0, \ infty]}$ una función medible con respecto al producto ${\ Displaystyle \ sigma}$ -álgebra ${\ Displaystyle {\ mathcal {A}} \ otimes {\ mathcal {B}}}$ tal que

{\ Displaystyle \ int _ {Y} k (y, x) \ nu (\ mathrm {d} y) = 1, \ qquad \ forall x \ in X}

,

luego ${\ Displaystyle \ kappa (dy | x) = k (y, x) \ nu (dy)}$ es decir, el mapeo

{\ Displaystyle {\ begin {cases} \ kappa: {\ mathcal {B}} \ times X \ to [0,1] \\\ kappa (B | x) = \ int _ {B} k (y, x ) \ nu (\ mathrm {d} y) \ end {casos}}}

define un kernel de Markov. ^[3] Este ejemplo generaliza el ejemplo del proceso de Markov contable donde ${\ Displaystyle \ nu}$ fue la medida de conteo . Además, abarca otros ejemplos importantes como los núcleos de convolución, en particular los núcleos de Markov definidos por la ecuación de calor. El último ejemplo incluye el kernel gaussiano en ${\ Displaystyle X = Y = \ mathbb {R}}$ con ${\ Displaystyle \ nu (dx) = dx}$ medida estándar de Lebesgue y

{\ Displaystyle k_ {t} (y, x) = {\ frac {1} {{\ sqrt {2 \ pi}} t}} e ^ {- (yx) ^ {2} / (2t ^ {2} )}}

.

Funciones medibles

Llevar ${\ Displaystyle (X, {\ mathcal {A}})}$ y ${\ Displaystyle (Y, {\ mathcal {B}})}$ espacios mensurables arbitrarios, y dejar ${\ Displaystyle f: X \ to Y}$ ser una función medible. Ahora define ${\ Displaystyle \ kappa (dy | x) = \ delta _ {f (x)} (dy)}$ es decir

{\ Displaystyle \ kappa (B | x) = \ mathbf {1} _ {B} (f (x)) = \ mathbf {1} _ {f ^ {- 1} (B)} (x) = {\ begin {cases} 1 & {\ text {if}} f (x) \ in B \\ 0 & {\ text {de lo contrario}} \ end {cases}}}

para todos

{\ Displaystyle B \ in {\ mathcal {B}}}

.

Tenga en cuenta que la función del indicador ${\ Displaystyle \ mathbf {1} _ {f ^ {- 1} (B)}}$ es ${\ Displaystyle {\ mathcal {A}}}$ -medible para todos ${\ Displaystyle B \ in {\ mathcal {B}}}$ si ${\ Displaystyle f}$ es medible.

Este ejemplo nos permite pensar en un kernel de Markov como una función generalizada con un valor (en general) aleatorio en lugar de cierto.

Proceso de Galton-Watson

Como ejemplo menos obvio, tome ${\ Displaystyle X = \ mathbb {N}, {\ mathcal {A}} = {\ mathcal {P}} (\ mathbb {N})}$ , y ${\ Displaystyle (Y, {\ mathcal {B}})}$ los números reales ${\ Displaystyle \ mathbb {R}}$ con el álgebra sigma estándar de los conjuntos de Borel . Luego

{\ Displaystyle \ kappa (B | n) = {\ begin {cases} \ mathbf {1} _ {B} (0) & n = 0 \\\ Pr (\ xi _ {1} + \ cdots + \ xi _ {x} \ in B) & n \ neq 0 \\\ end {cases}}}

con iid variables aleatorias ${\ Displaystyle \ xi _ {i}}$ (generalmente con media 0) y donde ${\ Displaystyle \ mathbf {1} _ {B}}$ es la función del indicador. Para el simple caso de lanzamiento de monedas, este modela los diferentes niveles de un tablero Galton .

Composición de los granos de Markov y la categoría de Markov

Dados espacios medibles ${\ Displaystyle (X, {\ mathcal {A}})}$ , ${\ Displaystyle (Y, {\ mathcal {B}})}$ consideramos un kernel de Markov ${\ Displaystyle \ kappa: {\ mathcal {B}} \ times X \ to [0,1]}$ como un morfismo ${\ Displaystyle \ kappa: X \ to Y}$ . Intuitivamente, en lugar de asignar a cada uno ${\ Displaystyle x \ in X}$ un punto claramente definido ${\ Displaystyle y \ in Y}$ el kernel asigna un punto "difuso" en ${\ Displaystyle Y}$ que solo se conoce con cierto nivel de incertidumbre, al igual que las mediciones físicas reales. Si tenemos un tercer espacio medible ${\ Displaystyle (Z, {\ mathcal {C}})}$ y núcleos de probabilidad ${\ Displaystyle \ kappa: X \ to Y}$ y ${\ Displaystyle \ lambda: Y \ to Z}$ , podemos definir una composición ${\ Displaystyle \ lambda \ circ \ kappa: X \ to Z}$ por

{\ Displaystyle (\ lambda \ circ \ kappa) (dz | x) = \ int _ {Y} \ lambda (dz | y) \ kappa (dy | x)}

.

La composición es asociativa por el teorema de Tonelli y la función de identidad se considera un núcleo de Markov (es decir, la medida delta ${\ Displaystyle \ kappa _ {1} (dx '| x) = \ delta _ {x} (dx')}$ ) es la unidad de esta composición.

Esta composición define la estructura de una categoría en los espacios medibles con núcleos de Markov como morfismos definidos por primera vez por Lawvere. ^[4] La categoría tiene el conjunto vacío como objeto inicial y el conjunto de un punto ${\ Displaystyle *}$ como el objeto terminal. Desde este punto de vista, un espacio de probabilidad es ${\ Displaystyle (\ Omega, {\ mathcal {A}}, \ mathbb {P})}$ es lo mismo que un espacio puntiagudo ${\ Displaystyle * \ to \ Omega}$ en la categoría de Markov.

Espacio de probabilidad definido por distribución de probabilidad y un núcleo de Markov

Una medida de probabilidad en un espacio medible ${\ Displaystyle (X, {\ mathcal {A}})}$ es lo mismo que un morfismo ${\ Displaystyle * \ to X}$ en la categoría de Markov también denotada por ${\ Displaystyle P}$ . Por composición, un espacio de probabilidad ${\ Displaystyle (X, {\ mathcal {A}}, P_ {X})}$ y un núcleo de probabilidad ${\ Displaystyle \ kappa: (X, {\ mathcal {A}}) \ to (Y, {\ mathcal {B}})}$ define un espacio de probabilidad ${\ Displaystyle (Y, {\ mathcal {B}}, P_ {Y} = \ kappa \ circ P_ {X})}$ . Se define concretamente por

{\ Displaystyle P_ {Y} (B) = \ int _ {X} \ int _ {B} \ kappa (dy | x) P_ {X} (dx) = \ int _ {X} \ kappa (B | x ) P_ {X} (dx) = \ mathbb {E} _ {P_ {X}} \ kappa (B | \ cdot)}

Propiedades

Producto semidirecto

Dejar ${\ Displaystyle (X, {\ mathcal {A}}, P)}$ ser un espacio de probabilidad y ${\ Displaystyle \ kappa}$ un núcleo de Markov de ${\ Displaystyle (X, {\ mathcal {A}})}$ Para algo ${\ Displaystyle (Y, {\ mathcal {B}})}$ . Entonces existe una medida única ${\ displaystyle Q}$ en ${\ Displaystyle (X \ times Y, {\ mathcal {A}} \ otimes {\ mathcal {B}})}$ , tal que:

{\ Displaystyle Q (A \ times B) = \ int _ {A} \ kappa (B | x) \, P (dx), \ quad \ forall A \ in {\ mathcal {A}}, \ quad \ forall B \ in {\ mathcal {B}}.}

Distribución condicional regular

Dejar ${\ Displaystyle (S, Y)}$ ser un espacio Borel , ${\ Displaystyle X}$ a ${\ Displaystyle (S, Y)}$ variable aleatoria valorada en el espacio de medida ${\ Displaystyle (\ Omega, {\ mathcal {F}}, P)}$ y ${\ Displaystyle {\ mathcal {G}} \ subseteq {\ mathcal {F}}}$ un sub- ${\ Displaystyle \ sigma}$ -álgebra. Entonces existe un kernel de Markov ${\ Displaystyle \ kappa}$ de ${\ Displaystyle (\ Omega, {\ mathcal {G}})}$ a ${\ Displaystyle (S, Y)}$ , tal que ${\ Displaystyle \ kappa (\ cdot, B)}$ es una versión de la expectativa condicional ${\ Displaystyle \ mathbb {E} [\ mathbf {1} _ {\ {X \ in B \}} \ mid {\ mathcal {G}}]}$ para cada ${\ Displaystyle B \ en Y}$ , es decir

{\ Displaystyle P (X \ in B \ mid {\ mathcal {G}}) = \ mathbb {E} \ left [\ mathbf {1} _ {\ {X \ in B \}} \ mid {\ mathcal { G}} \ right] = \ kappa (\ cdot, B), \ qquad P {\ text {-as}} \, \, \ forall B \ in {\ mathcal {G}}.}

Se llama distribución condicional regular de ${\ Displaystyle X}$ dado ${\ Displaystyle {\ mathcal {G}}}$ y no está definido de forma única.

Generalizaciones

Los núcleos de transición generalizan los núcleos de Markov en el sentido de que para todos ${\ Displaystyle x \ in X}$ , el mapa

{\ Displaystyle B \ mapsto \ kappa (B | x)}

puede ser cualquier tipo de medida (no negativa), no necesariamente una medida de probabilidad.

Referencias

^ Reiss, RD (1993). "Un curso sobre procesos puntuales". Springer Series en Estadística. doi : 10.1007 / 978-1-4613-9308-5 . ISBN 978-1-4613-9310-8. Cite journal requiere |journal=( ayuda )
^ Klenke, Achim. Teoría de la probabilidad: un curso integral (2 ed.). Saltador. pag. 180. doi : 10.1007 / 978-1-4471-5361-0 .
^ Erhan, Cinlar (2011). Probabilidad y estocástico . Nueva York: Springer. págs. 37–38. ISBN 978-0-387-87858-4.
^ FW Lawvere (1962). "La categoría de asignaciones probabilísticas" (PDF) .

Bauer, Heinz (1996), teoría de la probabilidad , de Gruyter, ISBN 3-11-013935-9

§36. Granos y semigrupos de granos

[1] Reiss, RD (1993). "Un curso sobre procesos puntuales". Springer Series en Estadística. doi : 10.1007 / 978-1-4613-9308-5 . ISBN 978-1-4613-9310-8. Cite journal requiere |journal=( ayuda )

[2] Klenke, Achim. Teoría de la probabilidad: un curso integral (2 ed.). Saltador. pag. 180. doi : 10.1007 / 978-1-4471-5361-0 .

[3] Erhan, Cinlar (2011). Probabilidad y estocástico . Nueva York: Springer. págs. 37–38. ISBN 978-0-387-87858-4.

[4] FW Lawvere (1962). "La categoría de asignaciones probabilísticas" (PDF) .

[1]