La desigualdad de Jensen

En matemáticas , la desigualdad de Jensen , llamada así por el matemático danés Johan Jensen , relaciona el valor de una función convexa de una integral con la integral de la función convexa. Fue probado por Jensen en 1906. ^[1] Dada su generalidad, la desigualdad aparece en muchas formas dependiendo del contexto, algunas de las cuales se presentan a continuación. En su forma más simple, la desigualdad establece que la transformación convexa de una media es menor o igual que la media aplicada después de la transformación convexa; es un simple corolario que ocurre lo contrario en las transformaciones cóncavas.

La desigualdad de Jensen generaliza el enunciado de que una recta secante de una función convexa se encuentra por encima de la gráfica.

">

Reproducir medios

Visualización de la convexidad y la desigualdad de Jensen

La desigualdad de Jensen generaliza la afirmación de que la recta secante de una función convexa se encuentra por encima de la gráfica de la función, que es la desigualdad de Jensen para dos puntos: la recta secante consta de medias ponderadas de la función convexa (para t ∈ [0,1]) ,

{\ Displaystyle tf (x_ {1}) + (1-t) f (x_ {2}),}

mientras que la gráfica de la función es la función convexa de las medias ponderadas,

{\ Displaystyle f \ left (tx_ {1} + (1-t) x_ {2} \ right).}

Por tanto, la desigualdad de Jensen es

{\ Displaystyle f \ left (tx_ {1} + (1-t) x_ {2} \ right) \ leq tf (x_ {1}) + (1-t) f (x_ {2}).}

En el contexto de la teoría de la probabilidad , generalmente se expresa de la siguiente forma: si X es una variable aleatoria y $φ$ es una función convexa, entonces

{\ Displaystyle \ varphi \ left (\ operatorname {E} [X] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ right].}

La diferencia entre los dos lados de la desigualdad, ${\ Displaystyle \ operatorname {E} \ left [\ varphi (X) \ right] - \ varphi \ left (\ operatorname {E} [X] \ right)}$ , se llama brecha de Jensen . ^[2]

Declaraciones

La forma clásica de la desigualdad de Jensen involucra varios números y pesos. La desigualdad puede enunciarse de manera bastante general utilizando el lenguaje de la teoría de la medida o (de manera equivalente) la probabilidad. En el escenario probabilístico, la desigualdad se puede generalizar aún más en toda su fuerza .

Forma finita

Para una función convexa real ${\ Displaystyle \ varphi}$ , números ${\ Displaystyle x_ {1}, x_ {2}, \ ldots, x_ {n}}$ en su dominio y ponderaciones positivas ${\ Displaystyle a_ {i}}$ , La desigualdad de Jensen se puede expresar como:

{\ Displaystyle \ varphi \ left ({\ frac {\ sum a_ {i} x_ {i}} {\ sum a_ {i}}} \ right) \ leq {\ frac {\ sum a_ {i} \ varphi ( x_ {i})} {\ sum a_ {i}}} \ qquad \ qquad (1)}

y la desigualdad se invierte si ${\ Displaystyle \ varphi}$ es cóncava , que es

{\ Displaystyle \ varphi \ left ({\ frac {\ sum a_ {i} x_ {i}} {\ sum a_ {i}}} \ right) \ geq {\ frac {\ sum a_ {i} \ varphi ( x_ {i})} {\ sum a_ {i}}}. \ qquad \ qquad (2)}

La igualdad es válida si y solo si ${\ Displaystyle x_ {1} = x_ {2} = \ cdots = x_ {n}}$ o ${\ Displaystyle \ varphi}$ es lineal en un dominio que contiene ${\ Displaystyle x_ {1}, x_ {2}, \ cdots, x_ {n}}$ .

Como caso particular, si los pesos ${\ Displaystyle a_ {i}}$ son todos iguales, entonces (1) y (2) se convierten

{\ Displaystyle \ varphi \ left ({\ frac {\ sum x_ {i}} {n}} \ right) \ leq {\ frac {\ sum \ varphi (x_ {i})} {n}} \ qquad \ qquad (3)}

{\ Displaystyle \ varphi \ left ({\ frac {\ sum x_ {i}} {n}} \ right) \ geq {\ frac {\ sum \ varphi (x_ {i})} {n}} \ qquad \ qquad (4)}

Por ejemplo, la función $log (x)$ es cóncava , así que sustituyendo ${\ Displaystyle \ varphi (x) = \ log (x)}$ en la fórmula anterior (4) establece el (logaritmo de la) desigualdad familiar media aritmética / media geométrica :

{\ Displaystyle \ log \! \ left ({\ frac {\ sum _ {i = 1} ^ {n} x_ {i}} {n}} \ right) \ geq {\ frac {\ sum _ {i = 1} ^ {n} \ log \! \ Left (x_ {i} \ right)} {n}} \ quad {\ text {o}} \ quad {\ frac {x_ {1} + x_ {2} + \ cdots + x_ {n}} {n}} \ geq {\ sqrt [{n}] {x_ {1} \ cdot x_ {2} \ cdots x_ {n}}}}

Una aplicación común tiene ${\ Displaystyle x}$ en función de otra variable (o conjunto de variables) ${\ Displaystyle t}$ , es decir, ${\ Displaystyle x_ {i} = g (t_ {i})}$ . Todo esto se traslada directamente al caso continuo general: los pesos $a i$ se reemplazan por una función integrable no negativa $f$ $($ $x$ $)$ , como una distribución de probabilidad, y las sumas se reemplazan por integrales.

Forma probabilística y teórica de la medida

Dejar ${\ Displaystyle (\ Omega, A, \ mu)}$ ser un espacio de probabilidad , es decir ${\ Displaystyle \ mu (\ Omega) = 1}$ . Si ${\ Displaystyle g}$ es una función de valor real que es ${\ Displaystyle \ mu}$ - integrable , y si ${\ Displaystyle \ varphi}$ es una función convexa en la línea real, entonces:

{\ Displaystyle \ varphi \ left (\ int _ {\ Omega} g \, d \ mu \ right) \ leq \ int _ {\ Omega} \ varphi \ circ g \, d \ mu.}

^[3]

En un análisis real, es posible que necesitemos una estimación de

{\ Displaystyle \ varphi \ left (\ int _ {a} ^ {b} f (x) \, dx \ right),}

dónde ${\ Displaystyle a, b \ in \ mathbb {R}}$ , y ${\ Displaystyle f \ colon [a, b] \ to \ mathbb {R}}$ es una función integrable de Lebesgue no negativa . En este caso, la medida de Lebesgue de ${\ Displaystyle [a, b]}$ no necesita ser unidad. Sin embargo, mediante integración por sustitución, el intervalo se puede reescalar para que tenga unidad de medida. Entonces la desigualdad de Jensen se puede aplicar para obtener ^[4]

{\ Displaystyle \ varphi \ left ({\ frac {1} {ba}} \ int _ {a} ^ {b} f (x) \, dx \ right) \ leq {\ frac {1} {ba}} \ int _ {a} ^ {b} \ varphi (f (x)) \, dx.}

El mismo resultado puede expresarse de manera equivalente en un escenario de teoría de probabilidad , mediante un simple cambio de notación. Dejar ${\ Displaystyle (\ Omega, {\ mathfrak {F}}, \ operatorname {P})}$ ser un espacio de probabilidad , X una variable aleatoria de valor real integrable y $φ$ una función convexa . Luego:

{\ Displaystyle \ varphi \ left (\ operatorname {E} [X] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ right].}

^[5]

En esta configuración de probabilidad, la medida $μ$ se entiende como una probabilidad ${\ Displaystyle \ operatorname {P}}$ , la integral con respecto a $μ$ como valor esperado ${\ Displaystyle \ operatorname {E}}$ , y la función ${\ Displaystyle g}$ como una variable aleatoria X .

Tenga en cuenta que la igualdad se cumple si y solo si $φ$ es una función lineal en algún conjunto convexo ${\ Displaystyle A}$ tal que ${\ Displaystyle \ mathrm {P} (X \ in A) = 1}$ (que sigue al inspeccionar la prueba teórica de la medida a continuación).

Desigualdad general en un entorno probabilístico

De manera más general, sea T un espacio vectorial topológico real y X una variable aleatoria integrable valorada en T. En este escenario general, integrable significa que existe un elemento ${\ Displaystyle \ operatorname {E} [X]}$ en T , tal que para cualquier elemento z en el espacio dual de T : ${\ Displaystyle \ operatorname {E} | \ langle z, X \ rangle | <\ infty}$ , y ${\ Displaystyle \ langle z, \ operatorname {E} [X] \ rangle = \ operatorname {E} [\ langle z, X \ rangle]}$ . Entonces, para cualquier función convexa medible $φ$ y cualquier sub -σ-álgebra ${\ Displaystyle {\ mathfrak {G}}}$ de ${\ Displaystyle {\ mathfrak {F}}}$ :

{\ Displaystyle \ varphi \ left (\ operatorname {E} \ left [X \ mid {\ mathfrak {G}} \ right] \ right) \ leq \ operatorname {E} \ left [\ varphi (X) \ mid { \ mathfrak {G}} \ derecha].}

Aquí ${\ Displaystyle \ operatorname {E} [\ cdot \ mid {\ mathfrak {G}}]}$ representa la expectativa condicionada al σ-álgebra ${\ Displaystyle {\ mathfrak {G}}}$ . Este enunciado general se reduce a los anteriores cuando el espacio vectorial topológico $T$ es el eje real , y ${\ Displaystyle {\ mathfrak {G}}}$ es el trivial $σ$ -álgebra ${\emptyset, Ω}$ (donde $\emptyset$ es el conjunto vacío y $Ω$ es el espacio muestral ). ^[6]

Una forma agudizada y generalizada

Sea X una variable aleatoria unidimensional con media ${\ Displaystyle \ mu}$ y varianza ${\ Displaystyle \ sigma ^ {2} \ geq 0}$ . Dejar ${\ Displaystyle \ varphi (x)}$ ser una función dos veces diferenciable, y definir la función

{\ Displaystyle h (x) \ triangleq {\ frac {\ varphi \ left (x \ right) - \ varphi \ left (\ mu \ right)} {\ left (x- \ mu \ right) ^ {2}} } - {\ frac {\ varphi '\ left (\ mu \ right)} {x- \ mu}}.}

Entonces ^[7]

{\ Displaystyle \ sigma ^ {2} \ inf {\ frac {\ varphi '' (x)} {2}} \ leq \ sigma ^ {2} \ inf h (x) \ leq E \ left [\ varphi \ izquierda (X \ derecha) \ derecha] - \ varphi \ left (E [X] \ derecha) \ leq \ sigma ^ {2} \ sup h (x) \ leq \ sigma ^ {2} \ sup {\ frac { \ varphi '' (x)} {2}}.}

En particular, cuando ${\ Displaystyle \ varphi (x)}$ es convexo, entonces ${\ Displaystyle \ varphi '' (x) \ geq 0}$ , y la forma estándar de la desigualdad de Jensen sigue inmediatamente para el caso en que ${\ Displaystyle \ varphi (x)}$ además, se supone que es dos veces diferenciable.

Pruebas

Una "prueba" gráfica de la desigualdad de Jensen para el caso probabilístico. La curva discontinua a lo largo del eje

X

es la distribución hipotética de

X

, mientras que la curva discontinua a lo largo del eje

Y

es la distribución correspondiente de los valores de

Y.

Tenga en cuenta que el mapeo convexa

Y (X)

cada vez más " tramos " la distribución para valores crecientes de

X

.

Esta es una prueba sin palabras de la desigualdad de Jensen para

n

variables. Sin pérdida de generalidad, la suma de los pesos positivos es

1

. De ello se deduce que el punto ponderado se encuentra en el casco convexo de los puntos originales, que se encuentra por encima de la función en sí por la definición de convexidad. La conclusión sigue. ^[8]

La desigualdad de Jensen se puede probar de varias maneras, y se ofrecerán tres pruebas diferentes correspondientes a los diferentes enunciados anteriores. Sin embargo, antes de embarcarse en estas derivaciones matemáticas, vale la pena analizar un argumento gráfico intuitivo basado en el caso probabilístico donde $X$ es un número real (ver figura). Suponiendo una distribución hipotética de valores $X$ , se puede identificar inmediatamente la posición de ${\ Displaystyle \ operatorname {E} [X]}$ y su imagen ${\ Displaystyle \ varphi (\ operatorname {E} [X])}$ en el gráfico. Al notar que para las asignaciones convexas $Y = φ (X)$ la distribución correspondiente de los valores de $Y$ se "estira" cada vez más para los valores crecientes de $X$ , es fácil ver que la distribución de $Y$ es más amplia en el intervalo correspondiente a $X > X 0$ y más estrecho en $X < X 0$ para cualquier $X 0$ ; en particular, esto también es cierto para ${\ Displaystyle X_ {0} = \ operatorname {E} [X]}$ . En consecuencia, en esta imagen la expectativa de $Y$ siempre se desplazará hacia arriba con respecto a la posición de ${\ Displaystyle \ varphi (\ operatorname {E} [X])}$ . Un razonamiento similar es válido si la distribución de $X$ cubre una porción decreciente de la función convexa, o tanto una porción decreciente como una creciente. Esto "prueba" la desigualdad, es decir

{\ Displaystyle \ varphi (\ operatorname {E} [X]) \ leq \ operatorname {E} [\ varphi (X)] = \ operatorname {E} [Y],}

con igualdad cuando $φ (X)$ no es estrictamente convexo, por ejemplo, cuando es una línea recta, o cuando $X$ sigue una distribución degenerada (es decir, es una constante).

Las siguientes pruebas formalizan esta noción intuitiva.

Prueba 1 (forma finita)

Si $λ 1$ y $λ 2$ son dos números reales arbitrarios no negativos tales que $λ 1 + λ 2 = 1$ entonces la convexidad de $φ$ implica

{\ Displaystyle \ forall x_ {1}, x_ {2}: \ qquad \ varphi \ left (\ lambda _ {1} x_ {1} + \ lambda _ {2} x_ {2} \ right) \ leq \ lambda _ {1} \, \ varphi (x_ {1}) + \ lambda _ {2} \, \ varphi (x_ {2}).}

Esto se puede generalizar fácilmente: si $λ 1, ..., λ n$ son números reales no negativos tales que $λ 1 + ... + λ n = 1$ , entonces

{\ Displaystyle \ varphi (\ lambda _ {1} x_ {1} + \ lambda _ {2} x_ {2} + \ cdots + \ lambda _ {n} x_ {n}) \ leq \ lambda _ {1} \, \ varphi (x_ {1}) + \ lambda _ {2} \, \ varphi (x_ {2}) + \ cdots + \ lambda _ {n} \, \ varphi (x_ {n}),}

para cualquier $x 1, ..., x n$ . Esta forma finita de la desigualdad de Jensen se puede demostrar por inducción : mediante hipótesis de convexidad, el enunciado es verdadero para n = 2. Suponga que también es cierto para algunos n , es necesario demostrarlo para $n + 1$ . Al menos uno de los $λ i$ es estrictamente menor que $1$ , digamos $λ 1$ ; por tanto, por desigualdad de convexidad:

{\ Displaystyle {\ begin {alineado} \ varphi \ left (\ sum _ {i = 1} ^ {n + 1} \ lambda _ {i} x_ {i} \ right) & = \ varphi \ left (\ lambda _ {1} x_ {1} + (1- \ lambda _ {1}) \ sum _ {i = 2} ^ {n + 1} {\ frac {\ lambda _ {i}} {1- \ lambda _ {1}}} x_ {i} \ right) \\ & \ leq \ lambda _ {1} \, \ varphi (x_ {1}) + (1- \ lambda _ {1}) \ varphi \ left (\ suma _ {i = 2} ^ {n + 1} {\ frac {\ lambda _ {i}} {1- \ lambda _ {1}}} x_ {i} \ right). \ end {alineado}}}

Desde

{\ Displaystyle \ sum _ {i = 2} ^ {n + 1} {\ frac {\ lambda _ {i}} {1- \ lambda _ {1}}} = 1,}

se pueden aplicar las hipótesis de inducción al último término de la fórmula anterior para obtener el resultado, es decir, la forma finita de la desigualdad de Jensen.

Para obtener la desigualdad general a partir de esta forma finita, es necesario utilizar un argumento de densidad. La forma finita se puede reescribir como:

{\ Displaystyle \ varphi \ left (\ int x \, d \ mu _ {n} (x) \ right) \ leq \ int \ varphi (x) \, d \ mu _ {n} (x),}

donde μ _n es una medida dada por una combinación convexa arbitraria de deltas de Dirac :

{\ Displaystyle \ mu _ {n} = \ sum _ {i = 1} ^ {n} \ lambda _ {i} \ delta _ {x_ {i}}.}

Dado que las funciones convexas son continuas , y dado que las combinaciones convexas de deltas de Dirac son débilmente densas en el conjunto de medidas de probabilidad (como podría verificarse fácilmente), el enunciado general se obtiene simplemente mediante un procedimiento de limitación.

Prueba 2 (forma teórica de la medida)

Sea g una función μ-integrable de valor real en un espacio de probabilidad Ω, y sea $φ$ una función convexa en los números reales. Dado que $φ$ es convexo, en cada número real $x$ tenemos un conjunto no vacío de subderivadas , que pueden considerarse como líneas que tocan la gráfica de $φ$ en $x$ , pero que están en o debajo de la gráfica de $φ$ en todos los puntos (líneas de soporte de la gráfica).

Ahora, si definimos

{\ Displaystyle x_ {0}: = \ int _ {\ Omega} g \, d \ mu,}

debido a la existencia de subderivatives para funciones convexas, podemos elegir una y b tal que

{\ Displaystyle ax + b \ leq \ varphi (x),}

para todo $x$ real y

{\ Displaystyle ax_ {0} + b = \ varphi (x_ {0}).}

Pero luego tenemos eso

{\ Displaystyle \ varphi \ circ g (x) \ geq ag (x) + b}

para todo $x$ . Como tenemos una medida de probabilidad, la integral es monótona con $μ (Ω) = 1 de$ modo que

{\ Displaystyle \ int _ {\ Omega} \ varphi \ circ g \, d \ mu \ geq \ int _ {\ Omega} (ag + b) \, d \ mu = a \ int _ {\ Omega} g \ , d \ mu + b \ int _ {\ Omega} d \ mu = ax_ {0} + b = \ varphi (x_ {0}) = \ varphi \ left (\ int _ {\ Omega} g \, d \ mu \ right),}

como se desee.

Prueba 3 (desigualdad general en un entorno probabilístico)

Deje que X sea una variable aleatoria integrable que toma valores en un espacio vectorial topológico verdadera T . Desde ${\ Displaystyle \ varphi: T \ to \ mathbb {R}}$ es convexo, para cualquier ${\ Displaystyle x, y \ en T}$ , la cantidad

{\ Displaystyle {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta}},}

está disminuyendo a medida que $θ se$ acerca a 0 ⁺ . En particular, el subdiferencial de ${\ Displaystyle \ varphi}$ evaluado en $x$ en la dirección $y$ está bien definido por

{\ Displaystyle (D \ varphi) (x) \ cdot y: = \ lim _ {\ theta \ flecha hacia abajo 0} {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta }} = \ inf _ {\ theta \ neq 0} {\ frac {\ varphi (x + \ theta \, y) - \ varphi (x)} {\ theta}}.}

Se ve fácilmente que el subdiferencial es lineal en $y$ ^{[ cita requerida ]} (eso es falso y la afirmación requiere que se demuestre el teorema de Hahn-Banach) y, dado que el mínimo tomado en el lado derecho de la fórmula anterior es menor que el valor del mismo término para $θ = 1$ , se obtiene

{\ Displaystyle \ varphi (x) \ leq \ varphi (x + y) - (D \ varphi) (x) \ cdot y.}

En particular, para una sub- $σ$ -álgebra arbitraria ${\ Displaystyle {\ mathfrak {G}}}$ podemos evaluar la última desigualdad cuando ${\ Displaystyle x = \ operatorname {E} [X \ mid {\ mathfrak {G}}], \, y = X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]}$ para obtener

{\ Displaystyle \ varphi (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ leq \ varphi (X) - (D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ cdot (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]).}

Ahora bien, si tomamos la expectativa condicionada a ${\ Displaystyle {\ mathfrak {G}}}$ a ambos lados de la expresión anterior, obtenemos el resultado ya que:

{\ Displaystyle \ operatorname {E} \ left [\ left [(D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ cdot (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}]) \ right] \ mid {\ mathfrak {G}} \ right] = (D \ varphi) (\ operatorname {E} [X \ mid {\ mathfrak {G}}] ) \ cdot \ operatorname {E} [\ left (X- \ operatorname {E} [X \ mid {\ mathfrak {G}}] \ right) \ mid {\ mathfrak {G}}] = 0,}

por la linealidad del subdiferencial en la variable y , y la siguiente propiedad conocida de la expectativa condicional :

{\ Displaystyle \ operatorname {E} \ left [\ left (\ operatorname {E} [X \ mid {\ mathfrak {G}}] \ right) \ mid {\ mathfrak {G}} \ right] = \ operatorname { E} [X \ mid {\ mathfrak {G}}].}

Aplicaciones y casos especiales

Forma que involucra una función de densidad de probabilidad

Suponga que $Ω$ es un subconjunto medible de la línea real y f ( x ) es una función no negativa tal que

{\ Displaystyle \ int _ {- \ infty} ^ {\ infty} f (x) \, dx = 1.}

En lenguaje probabilístico, f es una función de densidad de probabilidad .

Entonces, la desigualdad de Jensen se convierte en el siguiente enunciado sobre integrales convexas:

Si g es cualquier función medible de valor real y ${\ textstyle \ varphi}$ es convexo en el rango de g , entonces

{\ Displaystyle \ varphi \ left (\ int _ {- \ infty} ^ {\ infty} g (x) f (x) \, dx \ right) \ leq \ int _ {- \ infty} ^ {\ infty} \ varphi (g (x)) f (x) \, dx.}

Si g ( x ) = x , entonces esta forma de desigualdad se reduce a un caso especial de uso común:

{\ Displaystyle \ varphi \ left (\ int _ {- \ infty} ^ {\ infty} x \, f (x) \, dx \ right) \ leq \ int _ {- \ infty} ^ {\ infty} \ varphi (x) \, f (x) \, dx.}

Esto se aplica en métodos Bayesianos Variacionales .

Ejemplo: momentos pares de una variable aleatoria

Si g ( x ) = x ²ⁿ , y X es una variable aleatoria, entonces g es convexa como

{\ Displaystyle {\ frac {d ^ {2} g} {dx ^ {2}}} (x) = 2n (2n-1) x ^ {2n-2} \ geq 0 \ quad \ forall \ x \ in \ mathbb {R}}

y entonces

{\ displaystyle g (\ operatorname {E} [X]) = (\ operatorname {E} [X]) ^ {2n} \ leq \ operatorname {E} [X ^ {2n}].}

En particular, si algún momento par 2n de X es finito, X tiene una media finita. Una extensión de este argumento muestra que X tiene momentos finitos de cada orden ${\ Displaystyle l \ in \ mathbb {N}}$ dividiendo n .

Forma finita alternativa

Sea $Ω = {x 1, ... x n},$ y tome $μ$ como la medida de conteo en $Ω$ , entonces la forma general se reduce a una declaración sobre sumas:

{\ Displaystyle \ varphi \ left (\ sum _ {i = 1} ^ {n} g (x_ {i}) \ lambda _ {i} \ right) \ leq \ sum _ {i = 1} ^ {n} \ varphi (g (x_ {i})) \ lambda _ {i},}

siempre que $λ i \geq 0$ y

{\ Displaystyle \ lambda _ {1} + \ cdots + \ lambda _ {n} = 1.}

También hay una forma discreta infinita.

Física estadística

La desigualdad de Jensen es de particular importancia en física estadística cuando la función convexa es exponencial, dando:

{\ Displaystyle e ^ {\ operatorname {E} [X]} \ leq \ operatorname {E} \ left [e ^ {X} \ right],}

donde los valores esperados son con respecto a alguna distribución de probabilidad en la variable aleatoria $X$ .

La prueba en este caso es muy simple (cf. Chandler, Sec. 5.5). La desigualdad deseada sigue directamente, escribiendo

{\ Displaystyle \ operatorname {E} \ left [e ^ {X} \ right] = e ^ {\ operatorname {E} [X]} \ operatorname {E} \ left [e ^ {X- \ operatorname {E} [X]} \ derecha]}

y luego aplicando la desigualdad $e X \geq 1 + X$ al exponencial final.

Teoría de la información

Si $p (x)$ es la densidad de probabilidad verdadera para $X$ , y $q (x)$ es otra densidad, entonces aplicando la desigualdad de Jensen para la variable aleatoria $Y (X) = q (X) / p (X)$ y la función convexa $φ (y) = -log (y)$ da

{\ Displaystyle \ operatorname {E} [\ varphi (Y)] \ geq \ varphi (\ operatorname {E} [Y])}

Por lo tanto:

{\ Displaystyle -D (p (x) \ | q (x)) = \ int p (x) \ log \ left ({\ frac {q (x)} {p (x)}} \ right) \, dx \ leq \ log \ left (\ int p (x) {\ frac {q (x)} {p (x)}} \, dx \ right) = \ log \ left (\ int q (x) \, dx \ right) = 0}

un resultado llamado desigualdad de Gibbs .

Muestra que la longitud promedio del mensaje se minimiza cuando los códigos se asignan sobre la base de las probabilidades reales p en lugar de cualquier otra distribución q . La cantidad que no es negativa se llama divergencia de Kullback-Leibler de q de p .

Dado que $-log (x)$ es una función estrictamente convexa para $x > 0$ , se deduce que la igualdad se cumple cuando $p (x)$ es igual a $q (x)$ casi en todas partes.

Teorema de Rao-Blackwell

Si L es una función convexa y ${\ Displaystyle {\ mathfrak {G}}}$ un sub-sigma-álgebra, entonces, de la versión condicional de la desigualdad de Jensen, obtenemos

{\ Displaystyle L (\ operatorname {E} [\ delta (X) \ mid {\ mathfrak {G}}]) \ leq \ operatorname {E} [L (\ delta (X)) \ mid {\ mathfrak {G }}] \ quad \ Longrightarrow \ quad \ operatorname {E} [L (\ operatorname {E} [\ delta (X) \ mid {\ mathfrak {G}}])] \ leq \ operatorname {E} [L ( \ delta (X))].}

Entonces, si δ ( X ) es algún estimador de un parámetro no observado θ dado un vector de observables X ; y si T ( X ) es una estadística suficiente para θ; entonces se puede obtener un estimador mejorado, en el sentido de tener una pérdida esperada L menor , calculando

{\ Displaystyle \ delta _ {1} (X) = \ operatorname {E} _ {\ theta} [\ delta (X ') \ mid T (X') = T (X)],}

el valor esperado de δ con respecto a θ, tomado sobre todos los posibles vectores de observaciones X compatibles con el mismo valor de T ( X ) que el observado. Además, como T es una estadística suficiente, ${\ Displaystyle \ delta _ {1} (X)}$ no depende de θ, por lo tanto, se convierte en una estadística.

Este resultado se conoce como el teorema de Rao-Blackwell .

Ver también

La desigualdad de Karamata para una desigualdad más general
La desigualdad de Popoviciu
Ley de promedios
Una prueba sin palabras de la desigualdad de Jensen

Notas

^ Jensen, JLWV (1906). "Sur les fonctions convexes et les inégalités entre les valeurs moyennes" . Acta Mathematica . 30 (1): 175-193. doi : 10.1007 / BF02418571 .
^ Gao, Xiang; Sitharam, Meera; Roitberg, Adrian (2019). "Límites de la brecha de Jensen y las implicaciones para las distribuciones de concentración media" (PDF) . La Revista Australiana de Análisis y Aplicaciones Matemáticas . 16 (2). arXiv : 1712.05267 .
^ p. 25 de Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-1108473682.
^ Niculescu, Constantin P. "Desigualdades integrales" , P. 12.
^ p. 29 de Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-1108473682.
^ Atención: En esta generalidad se necesitan supuestos adicionales sobre la función convexa y / o el espacio vectorial topológico, consulte el Ejemplo (1.3) en la p. 53 pulg Perlman, Michael D. (1974). "Desigualdad de Jensen para una función de valor vectorial convexo en un espacio de dimensión infinita" . Revista de análisis multivariante . 4 (1): 52–65. doi : 10.1016 / 0047-259X (74) 90005-0 .
^ Liao, J .; Berg, A (2018). "Agudizando la desigualdad de Jensen". Estadístico estadounidense . arXiv : 1707.08644 . doi : 10.1080 / 00031305.2017.1419145 .
^ Bradley, CJ (2006). Introducción a las desigualdades . Leeds, Reino Unido: United Kingdom Mathematics Trust. pag. 97. ISBN 978-1-906001-11-7.

Referencias

David Chandler (1987). Introducción a la mecánica estadística moderna . Oxford. ISBN 0-19-504277-8.
Tristan Needham (1993) "Una explicación visual de la desigualdad de Jensen", American Mathematical Monthly 100 (8): 768-71.
Nicola Fusco ; Paolo Marcellini ; Carlo Sbordone (1996). Analisi Matematica Due . Liguori. ISBN 978-88-207-2675-1.
Walter Rudin (1987). Análisis real y complejo . McGraw-Hill. ISBN 0-07-054234-1.
Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. pag. 430. ISBN 978-1108473682. Consultado el 21 de diciembre de 2020 .

enlaces externos

Desigualdad del operador de Jensen de Hansen y Pedersen.
"Desigualdad de Jensen" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Weisstein, Eric W. "La desigualdad de Jensen" . MathWorld .
Arthur Lohwater (1982). "Introducción a las Desigualdades" . Libro electrónico online en formato PDF.

[1] Jensen, JLWV (1906). "Sur les fonctions convexes et les inégalités entre les valeurs moyennes" . Acta Mathematica . 30 (1): 175-193. doi : 10.1007 / BF02418571 .

[Gao_et_al.-2] Gao, Xiang; Sitharam, Meera; Roitberg, Adrian (2019). "Límites de la brecha de Jensen y las implicaciones para las distribuciones de concentración media" (PDF) . La Revista Australiana de Análisis y Aplicaciones Matemáticas . 16 (2). arXiv : 1712.05267 .

[3] . 25 de Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-1108473682.

[4] Niculescu, Constantin P. "Desigualdades integrales" , P. 12.

[5] . 29 de Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-1108473682.

[6] Atención: En esta generalidad se necesitan supuestos adicionales sobre la función convexa y / o el espacio vectorial topológico, consulte el Ejemplo (1.3) en la p. 53 pulg Perlman, Michael D. (1974). "Desigualdad de Jensen para una función de valor vectorial convexo en un espacio de dimensión infinita" . Revista de análisis multivariante . 4 (1): 52–65. doi : 10.1016 / 0047-259X (74) 90005-0 .

[Liao_&_Berg-7] Liao, J .; Berg, A (2018). "Agudizando la desigualdad de Jensen". Estadístico estadounidense . arXiv : 1707.08644 . doi : 10.1080 / 00031305.2017.1419145 .

[8] Bradley, CJ (2006). Introducción a las desigualdades . Leeds, Reino Unido: United Kingdom Mathematics Trust. pag. 97. ISBN 978-1-906001-11-7.

[1]