La desigualdad de Jensen


En matemáticas , la desigualdad de Jensen , llamada así por el matemático danés Johan Jensen , relaciona el valor de una función convexa de una integral con la integral de la función convexa. Fue probado por Jensen en 1906. [1] Dada su generalidad, la desigualdad aparece en muchas formas dependiendo del contexto, algunas de las cuales se presentan a continuación. En su forma más simple, la desigualdad establece que la transformación convexa de una media es menor o igual que la media aplicada después de la transformación convexa; es un simple corolario que ocurre lo contrario en las transformaciones cóncavas.

La desigualdad de Jensen generaliza el enunciado de que una recta secante de una función convexa se encuentra por encima de la gráfica.
Visualización de la convexidad y la desigualdad de Jensen

La desigualdad de Jensen generaliza la afirmación de que la recta secante de una función convexa se encuentra por encima de la gráfica de la función, que es la desigualdad de Jensen para dos puntos: la recta secante consta de medias ponderadas de la función convexa (para t  ∈ [0,1]) ,

mientras que la gráfica de la función es la función convexa de las medias ponderadas,

Por tanto, la desigualdad de Jensen es

En el contexto de la teoría de la probabilidad , generalmente se expresa de la siguiente forma: si X es una variable aleatoria y φ es una función convexa, entonces

La diferencia entre los dos lados de la desigualdad, , se llama brecha de Jensen . [2]

La forma clásica de la desigualdad de Jensen involucra varios números y pesos. La desigualdad puede enunciarse de manera bastante general utilizando el lenguaje de la teoría de la medida o (de manera equivalente) la probabilidad. En el escenario probabilístico, la desigualdad se puede generalizar aún más en toda su fuerza .

Forma finita

Para una función convexa real , números en su dominio y ponderaciones positivas , La desigualdad de Jensen se puede expresar como:

y la desigualdad se invierte si es cóncava , que es

La igualdad es válida si y solo si o es lineal en un dominio que contiene .

Como caso particular, si los pesos son todos iguales, entonces (1) y (2) se convierten

Por ejemplo, la función log ( x ) es cóncava , así que sustituyendoen la fórmula anterior (4) establece el (logaritmo de la) desigualdad familiar media aritmética / media geométrica :

Una aplicación común tiene en función de otra variable (o conjunto de variables) , es decir, . Todo esto se traslada directamente al caso continuo general: los pesos a i se reemplazan por una función integrable no negativa f  ( x ) , como una distribución de probabilidad, y las sumas se reemplazan por integrales.

Forma probabilística y teórica de la medida

Dejar ser un espacio de probabilidad , es decir. Sies una función de valor real que es- integrable , y sies una función convexa en la línea real, entonces:

[3]

En un análisis real, es posible que necesitemos una estimación de

dónde , y es una función integrable de Lebesgue no negativa . En este caso, la medida de Lebesgue deno necesita ser unidad. Sin embargo, mediante integración por sustitución, el intervalo se puede reescalar para que tenga unidad de medida. Entonces la desigualdad de Jensen se puede aplicar para obtener [4]

El mismo resultado puede expresarse de manera equivalente en un escenario de teoría de probabilidad , mediante un simple cambio de notación. Dejarser un espacio de probabilidad , X una variable aleatoria de valor real integrable y φ una función convexa . Luego:

[5]

En esta configuración de probabilidad, la medida μ se entiende como una probabilidad, la integral con respecto a μ como valor esperado , y la función como una variable aleatoria X .

Tenga en cuenta que la igualdad se cumple si y solo si φ es una función lineal en algún conjunto convexo tal que (que sigue al inspeccionar la prueba teórica de la medida a continuación).

Desigualdad general en un entorno probabilístico

De manera más general, sea T un espacio vectorial topológico real y X una variable aleatoria integrable valorada en T. En este escenario general, integrable significa que existe un elementoen T , tal que para cualquier elemento z en el espacio dual de T :, y . Entonces, para cualquier función convexa medible φ y cualquier sub -σ-álgebra de :

Aquí representa la expectativa condicionada al σ-álgebra. Este enunciado general se reduce a los anteriores cuando el espacio vectorial topológico T es el eje real , yes el trivial σ -álgebra {∅, Ω} (donde es el conjunto vacío y Ω es el espacio muestral ). [6]

Una forma agudizada y generalizada

Sea X una variable aleatoria unidimensional con media y varianza . Dejar ser una función dos veces diferenciable, y definir la función

Entonces [7]

En particular, cuando es convexo, entonces , y la forma estándar de la desigualdad de Jensen sigue inmediatamente para el caso en que además, se supone que es dos veces diferenciable.

Una "prueba" gráfica de la desigualdad de Jensen para el caso probabilístico. La curva discontinua a lo largo del eje X es la distribución hipotética de X , mientras que la curva discontinua a lo largo del eje Y es la distribución correspondiente de los valores de Y. Tenga en cuenta que el mapeo convexa Y ( X ) cada vez más " tramos " la distribución para valores crecientes de X .
Esta es una prueba sin palabras de la desigualdad de Jensen para n variables. Sin pérdida de generalidad, la suma de los pesos positivos es 1 . De ello se deduce que el punto ponderado se encuentra en el casco convexo de los puntos originales, que se encuentra por encima de la función en sí por la definición de convexidad. La conclusión sigue. [8]

La desigualdad de Jensen se puede probar de varias maneras, y se ofrecerán tres pruebas diferentes correspondientes a los diferentes enunciados anteriores. Sin embargo, antes de embarcarse en estas derivaciones matemáticas, vale la pena analizar un argumento gráfico intuitivo basado en el caso probabilístico donde X es un número real (ver figura). Suponiendo una distribución hipotética de valores X , se puede identificar inmediatamente la posición de y su imagen en el gráfico. Al notar que para las asignaciones convexas Y = φ ( X ) la distribución correspondiente de los valores de Y se "estira" cada vez más para los valores crecientes de X , es fácil ver que la distribución de Y es más amplia en el intervalo correspondiente a X > X 0 y más estrecho en X < X 0 para cualquier X 0 ; en particular, esto también es cierto para. En consecuencia, en esta imagen la expectativa de Y siempre se desplazará hacia arriba con respecto a la posición de. Un razonamiento similar es válido si la distribución de X cubre una porción decreciente de la función convexa, o tanto una porción decreciente como una creciente. Esto "prueba" la desigualdad, es decir

con igualdad cuando φ ( X ) no es estrictamente convexo, por ejemplo, cuando es una línea recta, o cuando X sigue una distribución degenerada (es decir, es una constante).

Las siguientes pruebas formalizan esta noción intuitiva.

Prueba 1 (forma finita)

Si λ 1 y λ 2 son dos números reales arbitrarios no negativos tales que λ 1 + λ 2 = 1 entonces la convexidad de φ implica

Esto se puede generalizar fácilmente: si λ 1 , ..., λ n son números reales no negativos tales que λ 1 + ... + λ n = 1 , entonces

para cualquier x 1 , ..., x n . Esta forma finita de la desigualdad de Jensen se puede demostrar por inducción : mediante hipótesis de convexidad, el enunciado es verdadero para n  = 2. Suponga que también es cierto para algunos n , es necesario demostrarlo para n + 1 . Al menos uno de los λ i es estrictamente menor que 1 , digamos λ 1 ; por tanto, por desigualdad de convexidad:

Desde

se pueden aplicar las hipótesis de inducción al último término de la fórmula anterior para obtener el resultado, es decir, la forma finita de la desigualdad de Jensen.

Para obtener la desigualdad general a partir de esta forma finita, es necesario utilizar un argumento de densidad. La forma finita se puede reescribir como:

donde μ n es una medida dada por una combinación convexa arbitraria de deltas de Dirac :

Dado que las funciones convexas son continuas , y dado que las combinaciones convexas de deltas de Dirac son débilmente densas en el conjunto de medidas de probabilidad (como podría verificarse fácilmente), el enunciado general se obtiene simplemente mediante un procedimiento de limitación.

Prueba 2 (forma teórica de la medida)

Sea g una función μ-integrable de valor real en un espacio de probabilidad Ω, y sea φ una función convexa en los números reales. Dado que φ es convexo, en cada número real x tenemos un conjunto no vacío de subderivadas , que pueden considerarse como líneas que tocan la gráfica de φ en x , pero que están en o debajo de la gráfica de φ en todos los puntos (líneas de soporte de la gráfica).

Ahora, si definimos

debido a la existencia de subderivatives para funciones convexas, podemos elegir una y b tal que

para todo x real y

Pero luego tenemos eso

para todo x . Como tenemos una medida de probabilidad, la integral es monótona con μ (Ω) = 1 de modo que

como se desee.

Prueba 3 (desigualdad general en un entorno probabilístico)

Deje que X sea una variable aleatoria integrable que toma valores en un espacio vectorial topológico verdadera T . Desde es convexo, para cualquier , la cantidad

está disminuyendo a medida que θ se acerca a 0 + . En particular, el subdiferencial deevaluado en x en la dirección y está bien definido por

Se ve fácilmente que el subdiferencial es lineal en y [ cita requerida ] (eso es falso y la afirmación requiere que se demuestre el teorema de Hahn-Banach) y, dado que el mínimo tomado en el lado derecho de la fórmula anterior es menor que el valor del mismo término para θ = 1 , se obtiene

En particular, para una sub- σ -álgebra arbitraria podemos evaluar la última desigualdad cuando para obtener

Ahora bien, si tomamos la expectativa condicionada a a ambos lados de la expresión anterior, obtenemos el resultado ya que:

por la linealidad del subdiferencial en la variable y , y la siguiente propiedad conocida de la expectativa condicional :

Forma que involucra una función de densidad de probabilidad

Suponga que Ω es un subconjunto medible de la línea real y f ( x ) es una función no negativa tal que

En lenguaje probabilístico, f es una función de densidad de probabilidad .

Entonces, la desigualdad de Jensen se convierte en el siguiente enunciado sobre integrales convexas:

Si g es cualquier función medible de valor real yes convexo en el rango de g , entonces

Si g ( x ) = x , entonces esta forma de desigualdad se reduce a un caso especial de uso común:

Esto se aplica en métodos Bayesianos Variacionales .

Ejemplo: momentos pares de una variable aleatoria

Si g ( x ) = x 2n , y X es una variable aleatoria, entonces g es convexa como

y entonces

En particular, si algún momento par 2n de X es finito, X tiene una media finita. Una extensión de este argumento muestra que X tiene momentos finitos de cada ordendividiendo n .

Forma finita alternativa

Sea Ω = { x 1 , ... x n }, y tome μ como la medida de conteo en Ω , entonces la forma general se reduce a una declaración sobre sumas:

siempre que λ i ≥ 0 y

También hay una forma discreta infinita.

Física estadística

La desigualdad de Jensen es de particular importancia en física estadística cuando la función convexa es exponencial, dando:

donde los valores esperados son con respecto a alguna distribución de probabilidad en la variable aleatoria X .

La prueba en este caso es muy simple (cf. Chandler, Sec. 5.5). La desigualdad deseada sigue directamente, escribiendo

y luego aplicando la desigualdad e X ≥ 1 + X al exponencial final.

Teoría de la información

Si p ( x ) es la densidad de probabilidad verdadera para X , y q ( x ) es otra densidad, entonces aplicando la desigualdad de Jensen para la variable aleatoria Y ( X ) = q ( X ) / p ( X ) y la función convexa φ ( y ) = −log ( y ) da

Por lo tanto:

un resultado llamado desigualdad de Gibbs .

Muestra que la longitud promedio del mensaje se minimiza cuando los códigos se asignan sobre la base de las probabilidades reales p en lugar de cualquier otra distribución q . La cantidad que no es negativa se llama divergencia de Kullback-Leibler de q de p .

Dado que −log ( x ) es una función estrictamente convexa para x > 0 , se deduce que la igualdad se cumple cuando p ( x ) es igual a q ( x ) casi en todas partes.

Teorema de Rao-Blackwell

Si L es una función convexa y un sub-sigma-álgebra, entonces, de la versión condicional de la desigualdad de Jensen, obtenemos

Entonces, si δ ( X ) es algún estimador de un parámetro no observado θ dado un vector de observables X ; y si T ( X ) es una estadística suficiente para θ; entonces se puede obtener un estimador mejorado, en el sentido de tener una pérdida esperada L menor , calculando

el valor esperado de δ con respecto a θ, tomado sobre todos los posibles vectores de observaciones X compatibles con el mismo valor de T ( X ) que el observado. Además, como T es una estadística suficiente, no depende de θ, por lo tanto, se convierte en una estadística.

Este resultado se conoce como el teorema de Rao-Blackwell .

  • La desigualdad de Karamata para una desigualdad más general
  • La desigualdad de Popoviciu
  • Ley de promedios
  • Una prueba sin palabras de la desigualdad de Jensen

  1. ^ Jensen, JLWV (1906). "Sur les fonctions convexes et les inégalités entre les valeurs moyennes" . Acta Mathematica . 30 (1): 175-193. doi : 10.1007 / BF02418571 .
  2. ^ Gao, Xiang; Sitharam, Meera; Roitberg, Adrian (2019). "Límites de la brecha de Jensen y las implicaciones para las distribuciones de concentración media" (PDF) . La Revista Australiana de Análisis y Aplicaciones Matemáticas . 16 (2). arXiv : 1712.05267 .
  3. ^ p. 25 de Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-1108473682.
  4. ^ Niculescu, Constantin P. "Desigualdades integrales" , P. 12.
  5. ^ p. 29 de Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-1108473682.
  6. ^ Atención: En esta generalidad se necesitan supuestos adicionales sobre la función convexa y / o el espacio vectorial topológico, consulte el Ejemplo (1.3) en la p. 53 pulg Perlman, Michael D. (1974). "Desigualdad de Jensen para una función de valor vectorial convexo en un espacio de dimensión infinita" . Revista de análisis multivariante . 4 (1): 52–65. doi : 10.1016 / 0047-259X (74) 90005-0 .
  7. ^ Liao, J .; Berg, A (2018). "Agudizando la desigualdad de Jensen". Estadístico estadounidense . arXiv : 1707.08644 . doi : 10.1080 / 00031305.2017.1419145 .
  8. ^ Bradley, CJ (2006). Introducción a las desigualdades . Leeds, Reino Unido: United Kingdom Mathematics Trust. pag. 97. ISBN 978-1-906001-11-7.

  • David Chandler (1987). Introducción a la mecánica estadística moderna . Oxford. ISBN 0-19-504277-8.
  • Tristan Needham (1993) "Una explicación visual de la desigualdad de Jensen", American Mathematical Monthly 100 (8): 768-71.
  • Nicola Fusco ; Paolo Marcellini ; Carlo Sbordone (1996). Analisi Matematica Due . Liguori. ISBN 978-88-207-2675-1.
  • Walter Rudin (1987). Análisis real y complejo . McGraw-Hill. ISBN 0-07-054234-1.
  • Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. pag. 430. ISBN 978-1108473682. Consultado el 21 de diciembre de 2020 .

  • Desigualdad del operador de Jensen de Hansen y Pedersen.
  • "Desigualdad de Jensen" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
  • Weisstein, Eric W. "La desigualdad de Jensen" . MathWorld .
  • Arthur Lohwater (1982). "Introducción a las Desigualdades" . Libro electrónico online en formato PDF.