Convergencia de medidas

En matemáticas , más específicamente en la teoría de la medida , existen varias nociones de convergencia de medidas . Para tener un sentido general intuitivo de lo que se entiende por convergencia en medida , considere una secuencia de medidas μ _n en un espacio, compartiendo una colección común de conjuntos medibles. Tal secuencia podría representar un intento de construir aproximaciones "cada vez mejores" a una medida deseada μ que es difícil de obtener directamente. El significado de "cada vez mejor" está sujeto a todas las advertencias habituales para tomar límites ; para cualquier tolerancia de error ε> 0 requerimos que haya N lo suficientemente grande para n ≥ Npara asegurar que la 'diferencia' entre μ _ny μ sea menor que ε. Varias nociones de convergencia especifican con precisión qué debe significar la palabra "diferencia" en esa descripción; estas nociones no son equivalentes entre sí y varían en fuerza.

A continuación se describen tres de las nociones más comunes de convergencia.

Descripciones informales

Esta sección intenta proporcionar una descripción intuitiva aproximada de tres nociones de convergencia, utilizando terminología desarrollada en cursos de cálculo ; esta sección es necesariamente imprecisa, así como inexacta, y el lector debe consultar las aclaraciones formales en las secciones siguientes. En particular, las descripciones aquí no abordan la posibilidad de que la medida de algunos conjuntos pueda ser infinita, o que el espacio subyacente pueda exhibir un comportamiento patológico, y se necesitan supuestos técnicos adicionales para algunos de los enunciados. Sin embargo, las afirmaciones de esta sección son todas correctas si ${\ Displaystyle \ mu _ {n}}$ es una secuencia de medidas de probabilidad en un espacio polaco .

Las diversas nociones de convergencia formalizan la afirmación de que el 'valor promedio' de cada función 'suficientemente agradable' debería converger:

{\ Displaystyle \ int f \, d \ mu _ {n} \ to \ int f \, d \ mu}

Formalizar esto requiere una especificación cuidadosa del conjunto de funciones bajo consideración y cuán uniforme debe ser la convergencia.

La noción de convergencia débil requiere que esta convergencia tenga lugar para cada función acotada continua ${\ Displaystyle f}$ . Esta noción trata la convergencia para diferentes funciones f independientemente unas de otras, es decir , diferentes funciones f pueden requerir diferentes valores de N ≤ n para aproximarse igualmente bien (por lo tanto, la convergencia no es uniforme en ${\ Displaystyle f}$ ).

La noción de convergencia de conjunto formaliza la afirmación de que la medida de cada conjunto medible debe converger:

{\ Displaystyle \ mu _ {n} (A) \ to \ mu (A)}

Una vez más, no hay uniformidad en el conjunto. ${\ Displaystyle A}$ se requiere. Intuitivamente, considerando integrales de funciones 'agradables', esta noción proporciona más uniformidad que convergencia débil. De hecho, cuando se consideran secuencias de medidas con variación uniformemente acotada en un espacio polaco , la convergencia definida implica la convergencia ${\ Displaystyle \ int f \, d \ mu _ {n} \ to \ int f \, d \ mu}$ para cualquier función medible acotada ${\ Displaystyle f}$ . Como antes, esta convergencia no es uniforme en ${\ Displaystyle f}$

La noción de convergencia de variación total formaliza la afirmación de que la medida de todos los conjuntos mensurables debe converger uniformemente , es decir, para cada ${\ Displaystyle \ epsilon> 0}$ existe N tal que ${\ Displaystyle | \ mu _ {n} (A) - \ mu (A) | <\ epsilon}$ para cada n> N y para cada conjunto medible ${\ Displaystyle A}$ . Como antes, esto implica la convergencia de integrales contra funciones medibles limitadas, pero esta convergencia de tiempo es uniforme en todas las funciones limitadas por cualquier constante fija.

Variación total convergencia de medidas

Esta es la noción más fuerte de convergencia que se muestra en esta página y se define de la siguiente manera. Dejar ${\ Displaystyle (X, {\ mathcal {F}})}$ ser un espacio medible . La distancia de variación total entre dos medidas (positivas) μ y ν viene dada por

{\ Displaystyle \ left \ | \ mu - \ nu \ right \ | _ {\ text {TV}} = \ sup _ {f} \ left \ {\ int _ {X} f \, d \ mu - \ int _ {X} f \, d \ nu \ right \}.}

Aquí el supremo se toma sobre f que abarca el conjunto de todas las funciones medibles de X a [−1, 1]. Esto contrasta, por ejemplo, con la métrica de Wasserstein , donde la definición es de la misma forma, pero se toma el supremo f que abarca el conjunto de funciones medibles de X a [-1, 1] que tienen la constante de Lipschitz en la mayoría 1; y también en contraste con la métrica Radon , donde el supremo se toma sobre f que se extiende sobre el conjunto de funciones continuas de X a [-1, 1]. En el caso de que X sea un espacio polaco , la métrica de variación total coincide con la métrica Radon.

Si μ y ν son medidas de probabilidad , entonces la distancia de variación total también viene dada por

{\ Displaystyle \ left \ | \ mu - \ nu \ right \ | _ {\ text {TV}} = 2 \ cdot \ sup _ {A \ in {\ mathcal {F}}} | \ mu (A) - \ nu (A) |.}

La equivalencia entre estas dos definiciones puede verse como un caso particular de la dualidad Monge-Kantorovich . De las dos definiciones anteriores, está claro que la distancia de variación total entre las medidas de probabilidad siempre está entre 0 y 2.

Para ilustrar el significado de la distancia de variación total, considere el siguiente experimento mental. Suponemos que se nos dan dos medidas de probabilidad μ yv, así como una variable aleatoria X . Sabemos que X tiene ley μ o ν, pero no sabemos cuál de las dos. Supongamos que estas dos medidas tienen probabilidades previas 0.5 cada uno de ser la verdadera ley de la X . Suponga ahora que se nos da una sola muestra distribuida de acuerdo con la ley de X y que luego se nos pide que adivinemos cuál de las dos distribuciones describe esa ley. La cantidad

{\ Displaystyle {2+ \ | \ mu - \ nu \ | _ {\ text {TV}} \ over 4}}

luego proporciona un límite superior agudo en la probabilidad previa de que nuestra suposición sea correcta.

Dada la definición anterior de distancia de variación total, se dice que una secuencia μ _n de medidas definidas en el mismo espacio de medida converge a una medida μ en la distancia de variación total si para cada ε > 0, existe una N tal que para todo n > N , uno tiene eso ^[1]

{\ Displaystyle \ | \ mu _ {n} - \ mu \ | _ {\ text {TV}} <\ varepsilon.}

Convergencia inteligente de medidas

Para ${\ Displaystyle (X, {\ mathcal {F}})}$ un espacio medible , se dice que una secuencia μ _n converge setwise hasta un límite μ si

{\ Displaystyle \ lim _ {n \ to \ infty} \ mu _ {n} (A) = \ mu (A)}

para cada set ${\ Displaystyle A \ in {\ mathcal {F}}}$ .

Por ejemplo, como consecuencia del lema de Riemann-Lebesgue , la secuencia μ _n de medidas en el intervalo [−1, 1] dado por μ _n ( dx ) = (1+ sin ( nx )) dx converge setwise a la medida de Lebesgue , pero no converge en la variación total.

Débil convergencia de medidas

En matemáticas y estadística , la convergencia débil es uno de los muchos tipos de convergencia relacionados con la convergencia de medidas . Depende de una topología del espacio subyacente y, por tanto, no es una noción puramente teórica de la medida.

Existen varias definiciones equivalentes de convergencia débil de una secuencia de medidas, algunas de las cuales son (aparentemente) más generales que otras. La equivalencia de estas condiciones a veces se conoce como el teorema de Portmanteau . ^[2]

Definición. Dejar ${\ Displaystyle S}$ ser un espacio métrico con su Borel ${\ Displaystyle \ sigma}$ -álgebra ${\ Displaystyle \ Sigma}$ . Una secuencia acotada de medidas de probabilidad positivas ${\ Displaystyle P_ {n} \, (n = 1,2, \ dots)}$ en ${\ Displaystyle (S, \ Sigma)}$ se dice que converge débilmente a la medida positiva finita ${\ Displaystyle P}$ (denotado ${\ Displaystyle P_ {n} \ Flecha derecha P}$ ) si alguna de las siguientes condiciones equivalentes es verdadera (aquí ${\ Displaystyle \ operatorname {E} _ {n}}$ denota expectativa o la ${\ Displaystyle L ^ {1}}$ norma con respecto a ${\ Displaystyle P_ {n}}$ , tiempo ${\ Displaystyle \ operatorname {E}}$ denota expectativa o la ${\ Displaystyle L ^ {1}}$ norma con respecto a ${\ Displaystyle P}$ ):

${\ Displaystyle \ operatorname {E} _ {n} [f] \ to \ operatorname {E} [f]}$ para todos los delimitadas , las funciones continuas ${\ Displaystyle f}$ ;
${\ Displaystyle \ operatorname {E} _ {n} [f] \ to \ operatorname {E} [f]}$ para todas las funciones limitadas y de Lipschitz ${\ Displaystyle f}$ ;
${\ Displaystyle \ limsup \ operatorname {E} _ {n} [f] \ leq \ operatorname {E} [f]}$ para cada función semicontinua superior ${\ Displaystyle f}$ acotado desde arriba;
${\ Displaystyle \ liminf \ operatorname {E} _ {n} [f] \ geq \ operatorname {E} [f]}$ para cada función semicontinua inferior ${\ Displaystyle f}$ delimitado desde abajo;
${\ Displaystyle \ limsup P_ {n} (C) \ leq P (C)}$ para todos los conjuntos cerrados ${\ Displaystyle C}$ del espacio ${\ Displaystyle S}$ ;
${\ Displaystyle \ liminf P_ {n} (U) \ geq P (U)}$ para todos los sets abiertos ${\ Displaystyle U}$ del espacio ${\ Displaystyle S}$ ;
${\ Displaystyle \ lim P_ {n} (A) = P (A)}$ para todos los conjuntos de continuidad ${\ Displaystyle A}$ de medida ${\ Displaystyle P}$ .

En el caso ${\ Displaystyle S \ equiv \ mathbf {R}}$ con su topología habitual, si ${\ Displaystyle F_ {n}}$ y ${\ Displaystyle F}$ denotar las funciones de distribución acumulativa de las medidas ${\ Displaystyle P_ {n}}$ y ${\ Displaystyle P}$ , respectivamente, entonces ${\ Displaystyle P_ {n}}$ converge débilmente a ${\ Displaystyle P}$ si y solo si ${\ Displaystyle \ lim _ {n \ to \ infty} F_ {n} (x) = F (x)}$ para todos los puntos ${\ Displaystyle x \ in \ mathbf {R}}$ en el cual ${\ Displaystyle F}$ es continuo.

Por ejemplo, la secuencia donde ${\ Displaystyle P_ {n}}$ es la medida de Dirac ubicada en ${\ Displaystyle 1 / n}$ converge débilmente a la medida de Dirac ubicada en 0 (si las vemos como medidas en ${\ Displaystyle \ mathbf {R}}$ con la topología habitual), pero no converge de forma definida. Esto es intuitivamente claro: solo sabemos que ${\ Displaystyle 1 / n}$ esta cerca de ${\ Displaystyle 0}$ debido a la topología de ${\ Displaystyle \ mathbf {R}}$ .

Esta definición de convergencia débil se puede ampliar para ${\ Displaystyle S}$ cualquier espacio topológico metrizable . También define una topología débil en ${\ Displaystyle {\ mathcal {P}} (S)}$ , el conjunto de todas las medidas de probabilidad definidas en ${\ Displaystyle (S, \ Sigma)}$ . La topología débil se genera mediante la siguiente base de conjuntos abiertos:

{\ Displaystyle \ left \ {U _ {\ phi, x, \ delta} \ left | {\ begin {array} {c} \ phi \ colon S \ to \ mathbf {R} {\ text {es acotado y continuo, }} \\ x \ in \ mathbf {R} {\ text {y}} \ delta> 0 \ end {matriz}} \ right. \ right \},}

dónde

{\ Displaystyle U _ {\ phi, x, \ delta}: = \ left \ {\ mu \ in {\ boldsymbol {P}} (S) \ left | \ left | \ int _ {S} \ phi \, \ mathrm {d} \ mu -x \ right | <\ delta \ right. \ right \}.}

Si ${\ Displaystyle S}$ también es separable , entonces ${\ Displaystyle {\ mathcal {P}} (S)}$ es metrizable y separable, por ejemplo, mediante la métrica de Lévy-Prokhorov . Si ${\ Displaystyle S}$ también es compacto o polaco , por lo que es ${\ Displaystyle {\ mathcal {P}} (S)}$ .

Si ${\ Displaystyle S}$ es separable, se incrusta naturalmente en ${\ Displaystyle {\ mathcal {P}} (S)}$ como mide el conjunto (cerrado) de Dirac , y su casco convexo es denso .

Hay muchas "notaciones de flecha" para este tipo de convergencia: las más utilizadas son ${\ Displaystyle P_ {n} \ Flecha derecha P}$ , ${\ Displaystyle P_ {n} \ rightharpoonup P}$ y ${\ Displaystyle P_ {n} {\ xrightarrow {\ mathcal {D}}} P.}$ .

Débil convergencia de variables aleatorias

Dejar ${\ Displaystyle (\ Omega, {\ mathcal {F}}, \ mathbb {P})}$ ser un espacio de probabilidad y X un espacio métrico. Si X _n , X : Ω → X es una secuencia de variables aleatorias, entonces se dice que X _n converge débilmente (o en distribución o en ley ) a X cuando n → ∞ si la secuencia de medidas de empuje hacia adelante ( X _n ) _∗ ( P ) converge débilmente a X _∗ ( P ) en el sentido de convergencia débil de las medidas en X , como se definió anteriormente.

Ver también

Convergencia de variables aleatorias
Teorema de Prokhorov
Métrica de Lévy-Prokhorov
Estanqueidad de las medidas

Referencias

^ Madrás, Neil; Sezer, Deniz (25 de febrero de 2011). "Límites cuantitativos para la convergencia de la cadena de Markov: Wasserstein y distancias de variación total". Bernoulli . 16 (3): 882–908. arXiv : 1102.5245 . doi : 10.3150 / 09-BEJ238 .
^ Klenke, Achim (2006). Teoría de la probabilidad . Springer-Verlag. ISBN 978-1-84800-047-6.

Ambrosio, L., Gigli, N. y Savaré, G. (2005). Flujos de gradiente en espacios métricos y en el espacio de medidas de probabilidad . Basilea: ETH Zürich, Birkhäuser Verlag. ISBN 3-7643-2428-7.CS1 maint: varios nombres: lista de autores ( enlace )
Billingsley, Patrick (1995). Probabilidad y medida . Nueva York, NY: John Wiley & Sons, Inc. ISBN 0-471-00710-2.
Billingsley, Patrick (1999). Convergencia de medidas de probabilidad . Nueva York, NY: John Wiley & Sons, Inc. ISBN 0-471-19745-9.

[1] Madrás, Neil; Sezer, Deniz (25 de febrero de 2011). "Límites cuantitativos para la convergencia de la cadena de Markov: Wasserstein y distancias de variación total". Bernoulli . 16 (3): 882–908. arXiv : 1102.5245 . doi : 10.3150 / 09-BEJ238 .

[2] Klenke, Achim (2006). Teoría de la probabilidad . Springer-Verlag. ISBN 978-1-84800-047-6.

[1]