Teoría de las grandes desviaciones

En la teoría de la probabilidad , la teoría de las grandes desviaciones se refiere al comportamiento asintótico de colas remotas de secuencias de distribuciones de probabilidad. Si bien algunas ideas básicas de la teoría se remontan a Laplace , la formalización comenzó con las matemáticas de seguros, es decir, la teoría de la ruina con Cramér y Lundberg . En 1966 se desarrolló una formalización unificada de la teoría de la gran desviación, en un artículo de Varadhan . ^{[1] La} teoría de las grandes desviaciones formaliza las ideas heurísticas de concentración de medidas y generaliza ampliamente la noción de convergencia de medidas de probabilidad .

En términos generales, la teoría de las grandes desviaciones se ocupa de la disminución exponencial de las medidas de probabilidad de ciertos tipos de eventos extremos o de cola .

Ejemplos introductorios

Un ejemplo elemental

Considere una secuencia de lanzamientos independientes de una moneda justa. Los posibles resultados podrían ser cara o cruz. Denotemos el posible resultado de la i-ésima prueba por ${\ Displaystyle X_ {i}}$ , donde codificamos head como 1 y tail como 0. Ahora vamos ${\ Displaystyle M_ {N}}$ denotar el valor medio después ${\ Displaystyle N}$ juicios, a saber

{\ Displaystyle M_ {N} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} X_ {i}}

.

Luego ${\ Displaystyle M_ {N}}$ se encuentra entre 0 y 1. De la ley de los grandes números se deduce que a medida que N crece, la distribución de ${\ Displaystyle M_ {N}}$ converge a ${\ displaystyle 0.5 = \ operatorname {E} [X]}$ (el valor esperado de un solo lanzamiento de moneda).

Además, por el teorema del límite central , se sigue que ${\ Displaystyle M_ {N}}$ se distribuye aproximadamente normalmente para grandes ${\ Displaystyle N}$ . El teorema del límite central puede proporcionar información más detallada sobre el comportamiento de ${\ Displaystyle M_ {N}}$ que la ley de los grandes números. Por ejemplo, podemos encontrar aproximadamente una probabilidad de cola de ${\ Displaystyle M_ {N}}$ , ${\ Displaystyle P (M_ {N}> x)}$ , eso ${\ Displaystyle M_ {N}}$ es mayor que ${\ Displaystyle x}$ , por un valor fijo de ${\ Displaystyle N}$ . Sin embargo, la aproximación por el teorema del límite central puede no ser precisa si ${\ Displaystyle x}$ está lejos de ${\ Displaystyle \ operatorname {E} [X_ {i}]}$ a no ser que ${\ Displaystyle N}$ es suficientemente grande. Además, no proporciona información sobre la convergencia de las probabilidades de cola como ${\ Displaystyle N \ to \ infty}$ . Sin embargo, la teoría de la gran desviación puede proporcionar respuestas a tales problemas.

Hagamos esta afirmación más precisa. Por un valor dado ${\ Displaystyle 0.5$ , calculemos la probabilidad de cola ${\ Displaystyle P (M_ {N}> x)}$ . Definir

{\ Displaystyle I (x) = x \ ln {x} + (1-x) \ ln (1-x) + \ ln {2}}

.

Tenga en cuenta que la función ${\ Displaystyle I (x)}$ es una función convexa, no negativa que es cero en ${\ Displaystyle x = {\ tfrac {1} {2}}}$ y aumenta a medida que ${\ Displaystyle x}$ enfoques ${\ Displaystyle 1}$ . Es el negativo de la entropía de Bernoulli con ${\ Displaystyle p = {\ tfrac {1} {2}}}$ ; que es apropiado para los lanzamientos de monedas se deriva de la propiedad de equipartición asintótica aplicada a un ensayo de Bernoulli . Luego, mediante la desigualdad de Chernoff , se puede demostrar que ${\ Displaystyle P (M_ {N}> x) <\ exp (-NI (x))}$ . ^[2] Este límite es bastante agudo, en el sentido de que ${\ Displaystyle I (x)}$ no se puede reemplazar con un número mayor que produciría una desigualdad estricta para todos los ${\ Displaystyle N}$ . ^[3] (Sin embargo, el límite exponencial aún se puede reducir mediante un factor subexponencial del orden de ${\ Displaystyle 1 / {\ sqrt {N}}}$ ; esto se sigue de la aproximación de Stirling aplicada al coeficiente binomial que aparece en la distribución de Bernoulli .) Por lo tanto, obtenemos el siguiente resultado:

{\ Displaystyle P (M_ {N}> x) \ approx \ exp (-NI (x))}

.

La probabilidad ${\ Displaystyle P (M_ {N}> x)}$ decae exponencialmente como ${\ Displaystyle N \ to \ infty}$ a una tasa que depende de x . Esta fórmula se aproxima a cualquier probabilidad de cola de la media muestral de las variables iid y da su convergencia a medida que aumenta el número de muestras.

Grandes desviaciones para sumas de variables aleatorias independientes

En el ejemplo anterior de lanzamiento de una moneda, asumimos explícitamente que cada lanzamiento es una prueba independiente y que la probabilidad de obtener cara o cruz es siempre la misma.

Dejar ${\ Displaystyle X, X_ {1}, X_ {2}, \ ldots}$ Ser variables aleatorias independientes e idénticamente distribuidas (iid) cuya distribución común satisfaga una determinada condición de crecimiento. Entonces existe el siguiente límite:

{\ Displaystyle \ lim _ {N \ to \ infty} {\ frac {1} {N}} \ ln P (M_ {N}> x) = - I (x)}

.

Aquí

{\ Displaystyle M_ {N} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} X_ {i}}

,

como antes.

Función ${\ Displaystyle I (\ cdot)}$ se llama " función de velocidad " o "función de Cramér" o, a veces, "función de entropía".

El límite antes mencionado significa que para grandes ${\ Displaystyle N}$ ,

{\ Displaystyle P (M_ {N}> x) \ approx \ exp [-NI (x)]}

,

que es el resultado básico de la teoría de las grandes desviaciones. ^[4]^[5]

Si conocemos la distribución de probabilidad de ${\ Displaystyle X}$ , se puede obtener una expresión explícita para la función de tasa. Esto viene dado por una transformación de Legendre-Fenchel , ^[6]

{\ Displaystyle I (x) = \ sup _ {\ theta> 0} [\ theta x- \ lambda (\ theta)]}

,

dónde

{\ Displaystyle \ lambda (\ theta) = \ ln \ operatorname {E} [\ exp (\ theta X)]}

se llama función generadora acumulativa (CGF) y ${\ Displaystyle \ operatorname {E}}$ denota la expectativa matemática .

Si ${\ Displaystyle X}$ sigue una distribución normal , la función de tasa se convierte en una parábola con su vértice en la media de la distribución normal.

Si ${\ Displaystyle \ {X_ {i} \}}$ es una cadena de Markov , la variante del resultado básico de grandes desviaciones indicado anteriormente puede ser válida. ^{[ cita requerida ]}

Definicion formal

Dado un espacio polaco ${\ Displaystyle {\ mathcal {X}}}$ dejar ${\ Displaystyle \ {\ mathbb {P} _ {N} \}}$ ser una secuencia de medidas de probabilidad de Borel en ${\ Displaystyle {\ mathcal {X}}}$ , deja ${\ Displaystyle \ {a_ {N} \}}$ ser una secuencia de números reales positivos tal que ${\ Displaystyle \ lim _ {N} a_ {N} = \ infty}$ , Y, finalmente, dejar ${\ Displaystyle I: {\ mathcal {X}} \ a [0, \ infty]}$ ser un funcional semicontinuo inferior en ${\ Displaystyle {\ mathcal {X}}.}$ La secuencia ${\ Displaystyle \ {\ mathbb {P} _ {N} \}}$ se dice que satisface un principio de gran desviación con la velocidad ${\ Displaystyle \ {a_ {n} \}}$ y tasa ${\ Displaystyle I}$ si, y solo si, para cada conjunto medible de Borel ${\ Displaystyle E \ subconjunto {\ mathcal {X}}}$ ,

{\ Displaystyle - \ inf _ {x \ in E ^ {\ circ}} I (x) \ leq \ varliminf _ {N} a_ {N} ^ {- 1} \ log (\ mathbb {P} _ {N } (E)) \ leq \ varlimsup _ {N} a_ {N} ^ {- 1} \ log (\ mathbb {P} _ {N} (E)) \ leq - \ inf _ {x \ in {\ overline {E}}} I (x)}

,

dónde ${\ Displaystyle {\ overline {E}}}$ y ${\ Displaystyle E ^ {\ circ}}$ denotar respectivamente el cierre y el interior de ${\ Displaystyle E}$ . ^{[ cita requerida ]}

Breve historia

Los primeros resultados rigurosos sobre grandes desviaciones se deben al matemático sueco Harald Cramér , quien los aplicó para modelar el negocio de seguros. ^[7] Desde el punto de vista de una compañía de seguros, la ganancia es a una tasa constante por mes (la prima mensual), pero las reclamaciones se presentan al azar. Para que la empresa tenga éxito durante un cierto período de tiempo (preferiblemente muchos meses), la ganancia total debe exceder la reclamación total. Por lo tanto, para estimar la prima, debe hacerse la siguiente pregunta: "¿Qué debemos elegir como prima? ${\ Displaystyle q}$ tal que sobre ${\ Displaystyle N}$ meses el reclamo total ${\ Displaystyle C = \ Sigma X_ {i}}$ debería ser menor que ${\ Displaystyle Nq}$ ? " Esta es claramente la misma pregunta formulada por la teoría de las grandes desviaciones. Cramér dio una solución a esta pregunta para las variables aleatorias iid , donde la función de tasa se expresa como una serie de potencias .

Una lista muy incompleta de matemáticos que han hecho importantes avances incluiría a Petrov , ^[8] Sanov , ^[9] SRS Varadhan (quien ganó el premio Abel por su contribución a la teoría), D. Ruelle , OE Lanford , Amir Dembo , y Ofer Zeitouni . ^[10]

Aplicaciones

Los principios de grandes desviaciones se pueden aplicar de manera efectiva para recopilar información a partir de un modelo probabilístico. Así, la teoría de las grandes desviaciones encuentra sus aplicaciones en la teoría de la información y la gestión de riesgos . En física, la aplicación más conocida de la teoría de las grandes desviaciones surge en la termodinámica y la mecánica estadística (en relación con la relación de la entropía con la función de velocidad).

Grandes desviaciones y entropía

La función de tasa está relacionada con la entropía en mecánica estadística. Esto se puede ver heurísticamente de la siguiente manera. En mecánica estadística, la entropía de un macroestado particular está relacionada con el número de microestado que corresponde a este macroestado. En nuestro ejemplo de lanzamiento de moneda, el valor medio ${\ Displaystyle M_ {N}}$ podría designar un macroestado particular. Y la secuencia particular de caras y colas que da lugar a un valor particular de ${\ Displaystyle M_ {N}}$ constituye un microestado particular. Hablando libremente, un macroestado que tiene un mayor número de microestados que lo originan, tiene una entropía más alta. Y un estado con mayor entropía tiene una mayor probabilidad de realizarse en experimentos reales. El macroestado con valor medio de 1/2 (tantas caras como colas) tiene el mayor número de microestados que lo originan y, de hecho, es el estado con la entropía más alta. Y en la mayoría de las situaciones prácticas obtendremos este macroestado para un gran número de ensayos. La "función de tasa", por otro lado, mide la probabilidad de aparición de un macroestado particular. Cuanto menor sea la función de tasa, mayor será la probabilidad de que aparezca un macroestado. En nuestro lanzamiento de moneda, el valor de la "función de tasa" para el valor medio igual a 1/2 es cero. De esta manera se puede ver la "función de tasa" como el negativo de la "entropía".

Existe una relación entre la "función de tasa" en la teoría de las grandes desviaciones y la divergencia de Kullback-Leibler , la conexión se establece mediante el teorema de Sanov (ver Sanov ^[9] y Novak, ^[11] cap. 14.5).

En un caso especial, las grandes desviaciones están estrechamente relacionadas con el concepto de límites de Gromov-Hausdorff . ^[12]

Ver también

Principio de gran desviación
Teorema de la gran desviación de Cramér
La desigualdad de Chernoff
Teorema de Sanov
Principio de contracción (teoría de las grandes desviaciones) , un resultado de cómo los principios de las grandes desviaciones " avanzan "
Teorema de Freidlin-Wentzell , un principio de grandes desviaciones para las difusiones de Itō
Principio de Laplace , un principio de grandes desviaciones en R ^d
El método de Laplace
Teorema de Schilder , un principio de grandes desviaciones para el movimiento browniano
Lema de Varadhan
Teoría del valor extremo
Grandes desviaciones de funciones aleatorias gaussianas

Referencias

^ SRS Varadhan, probabilidad asintótica y ecuaciones diferenciales , Comm. Pure Appl. Matemáticas. 19 (1966), 261-286.
^ "Grandes desviaciones para el análisis de rendimiento: colas, comunicaciones y computación", Shwartz, Adam, 1953- TN: 1228486
^ Varadhan, SRS, The Annals of Probability 2008, Vol. 36, núm. 2, 397–419, [1]
^ http://math.nyu.edu/faculty/varadhan/Spring2012/Chapters1-2.pdf
^ SRS Varadhan, grandes desviaciones y aplicaciones (SIAM, Filadelfia, 1984)
^ Touchette, Hugo (1 de julio de 2009). "El enfoque de la gran desviación de la mecánica estadística". Informes de física . 478 (1-3): 1-69. arXiv : 0804.0327 . Código Bibliográfico : 2009PhR ... 478 .... 1T . doi : 10.1016 / j.physrep.2009.05.002 .
^ Cramér, H. (1944). Sobre un nuevo teorema del límite de la teoría de la probabilidad. Uspekhi Matematicheskikh Nauk, (10), 166-178.
^ Petrov VV (1954) Generalización del teorema del límite de Cramér. Uspehi Matem. Nauk, v.9, No 4 (62), 195--202. (Ruso)
^ a b Sanov IN (1957) Sobre la probabilidad de grandes desviaciones de magnitudes aleatorias. Matem. Sbornik, versículo 42 (84), 11--44.
^ Dembo, A. y Zeitouni, O. (2009). Técnicas y aplicaciones de grandes desviaciones (Vol. 38). Springer Science & Business Media
^ Novak SY (2011) Métodos de valor extremo con aplicaciones para financiar. Chapman & Hall / CRC Press. ISBN 978-1-4398-3574-6 .
^ Kotani M., Sunada T. Gran desviación y el cono tangente en el infinito de una red cristalina , Math. Z. 254, (2006), 837-870.

Bibliografía

Artículo invitado especial: Grandes desviaciones de SRS Varadhan The Annals of Probability 2008, Vol. 36, núm. 2, 397–419 doi : 10.1214 / 07-AOP348
Entropía, grandes desviaciones y mecánica estadística por RS Ellis, publicación Springer. ISBN 3-540-29059-1
Grandes desviaciones para el análisis de rendimiento por Alan Weiss y Adam Shwartz. Chapman y Hall ISBN 0-412-06311-5
Técnicas y aplicaciones de grandes desviaciones por Amir Dembo y Ofer Zeitouni. Saltador ISBN 0-387-98406-2
Perturbaciones aleatorias de sistemas dinámicos por MI Freidlin y AD Wentzell. Saltador ISBN 0-387-98362-7
"Grandes desviaciones para la ecuación bidimensional de Navier-Stokes con ruido multiplicativo", SS Sritharan y P. Sundar, Procesos estocásticos y sus aplicaciones, vol. 116 (2006) 1636–1659. [2]
"Grandes desviaciones para el modelo de turbulencia de capa estocástico", U. Manna, SS Sritharan y P. Sundar, NoDEA Nonlinear Differential Equations Appl. 16 (2009), núm. 4, 493–521. [3]

enlaces externos

Una introducción elemental a la teoría de las grandes desviaciones

[1] SRS Varadhan, probabilidad asintótica y ecuaciones diferenciales , Comm. Pure Appl. Matemáticas. 19 (1966), 261-286.

[2] "Grandes desviaciones para el análisis de rendimiento: colas, comunicaciones y computación", Shwartz, Adam, 1953- TN: 1228486

[3] Varadhan, SRS, The Annals of Probability 2008, Vol. 36, núm. 2, 397–419, [1]

[4] ttp://math.nyu.edu/faculty/varadhan/Spring2012/Chapters1-2.pdf

[5] SRS Varadhan, grandes desviaciones y aplicaciones (SIAM, Filadelfia, 1984)

[6] Touchette, Hugo (1 de julio de 2009). "El enfoque de la gran desviación de la mecánica estadística". Informes de física . 478 (1-3): 1-69. arXiv : 0804.0327 . Código Bibliográfico : 2009PhR ... 478 .... 1T . doi : 10.1016 / j.physrep.2009.05.002 .

[7] Cramér, H. (1944). Sobre un nuevo teorema del límite de la teoría de la probabilidad. Uspekhi Matematicheskikh Nauk, (10), 166-178.

[Petrov-8] Petrov VV (1954) Generalización del teorema del límite de Cramér. Uspehi Matem. Nauk, v.9, No 4 (62), 195--202. (Ruso)

[Sanov-9] Sanov IN (1957) Sobre la probabilidad de grandes desviaciones de magnitudes aleatorias. Matem. Sbornik, versículo 42 (84), 11--44.

[10] Dembo, A. y Zeitouni, O. (2009). Técnicas y aplicaciones de grandes desviaciones (Vol. 38). Springer Science & Business Media

[Novak-11] Novak SY (2011) Métodos de valor extremo con aplicaciones para financiar. Chapman & Hall / CRC Press. ISBN 978-1-4398-3574-6 .

[12] Kotani M., Sunada T. Gran desviación y el cono tangente en el infinito de una red cristalina , Math. Z. 254, (2006), 837-870.

[1] La