En matemáticas , la desigualdad de Jensen , llamada así por el matemático danés Johan Jensen , relaciona el valor de una función convexa de una integral con la integral de la función convexa. Fue probado por Jensen en 1906. [1] Dada su generalidad, la desigualdad aparece en muchas formas dependiendo del contexto, algunas de las cuales se presentan a continuación. En su forma más simple, la desigualdad establece que la transformación convexa de una media es menor o igual que la media aplicada después de la transformación convexa; es un simple corolario que ocurre lo contrario en las transformaciones cóncavas.
La desigualdad de Jensen generaliza la afirmación de que la recta secante de una función convexa se encuentra por encima de la gráfica de la función, que es la desigualdad de Jensen para dos puntos: la recta secante consta de medias ponderadas de la función convexa (para t ∈ [0,1]) ,
mientras que la gráfica de la función es la función convexa de las medias ponderadas,
Por tanto, la desigualdad de Jensen es
En el contexto de la teoría de la probabilidad , generalmente se expresa de la siguiente forma: si X es una variable aleatoria y φ es una función convexa, entonces
La diferencia entre los dos lados de la desigualdad, , se llama brecha de Jensen . [2]
Declaraciones
La forma clásica de la desigualdad de Jensen involucra varios números y pesos. La desigualdad puede enunciarse de manera bastante general utilizando el lenguaje de la teoría de la medida o (de manera equivalente) la probabilidad. En el escenario probabilístico, la desigualdad se puede generalizar aún más en toda su fuerza .
Forma finita
Para una función convexa real , números en su dominio y ponderaciones positivas , La desigualdad de Jensen se puede expresar como:
y la desigualdad se invierte si es cóncava , que es
La igualdad es válida si y solo si o es lineal en un dominio que contiene .
Como caso particular, si los pesos son todos iguales, entonces (1) y (2) se convierten
Por ejemplo, la función log ( x ) es cóncava , así que sustituyendoen la fórmula anterior (4) establece el (logaritmo de la) desigualdad familiar media aritmética / media geométrica :
Una aplicación común tiene en función de otra variable (o conjunto de variables) , es decir, . Todo esto se traslada directamente al caso continuo general: los pesos a i se reemplazan por una función integrable no negativa f ( x ) , como una distribución de probabilidad, y las sumas se reemplazan por integrales.
Forma probabilística y teórica de la medida
Dejar ser un espacio de probabilidad , es decir. Sies una función de valor real que es- integrable , y sies una función convexa en la línea real, entonces:
En un análisis real, es posible que necesitemos una estimación de
dónde , y es una función integrable de Lebesgue no negativa . En este caso, la medida de Lebesgue deno necesita ser unidad. Sin embargo, mediante integración por sustitución, el intervalo se puede reescalar para que tenga unidad de medida. Entonces la desigualdad de Jensen se puede aplicar para obtener [4]
El mismo resultado puede expresarse de manera equivalente en un escenario de teoría de probabilidad , mediante un simple cambio de notación. Dejarser un espacio de probabilidad , X una variable aleatoria de valor real integrable y φ una función convexa . Luego:
En esta configuración de probabilidad, la medida μ se entiende como una probabilidad, la integral con respecto a μ como valor esperado , y la función como una variable aleatoria X .
Tenga en cuenta que la igualdad se cumple si y solo si φ es una función lineal en algún conjunto convexo tal que (que sigue al inspeccionar la prueba teórica de la medida a continuación).
Desigualdad general en un entorno probabilístico
De manera más general, sea T un espacio vectorial topológico real y X una variable aleatoria integrable valorada en T. En este escenario general, integrable significa que existe un elementoen T , tal que para cualquier elemento z en el espacio dual de T :, y . Entonces, para cualquier función convexa medible φ y cualquier sub -σ-álgebra de :
Aquí representa la expectativa condicionada al σ-álgebra. Este enunciado general se reduce a los anteriores cuando el espacio vectorial topológico T es el eje real , yes el trivial σ -álgebra {∅, Ω} (donde ∅ es el conjunto vacío y Ω es el espacio muestral ). [6]
Una forma agudizada y generalizada
Sea X una variable aleatoria unidimensional con media y varianza . Dejar ser una función dos veces diferenciable, y definir la función
Entonces [7]
En particular, cuando es convexo, entonces , y la forma estándar de la desigualdad de Jensen sigue inmediatamente para el caso en que además, se supone que es dos veces diferenciable.
Pruebas
La desigualdad de Jensen se puede probar de varias maneras, y se ofrecerán tres pruebas diferentes correspondientes a los diferentes enunciados anteriores. Sin embargo, antes de embarcarse en estas derivaciones matemáticas, vale la pena analizar un argumento gráfico intuitivo basado en el caso probabilístico donde X es un número real (ver figura). Suponiendo una distribución hipotética de valores X , se puede identificar inmediatamente la posición de y su imagen en el gráfico. Al notar que para las asignaciones convexas Y = φ ( X ) la distribución correspondiente de los valores de Y se "estira" cada vez más para los valores crecientes de X , es fácil ver que la distribución de Y es más amplia en el intervalo correspondiente a X > X 0 y más estrecho en X < X 0 para cualquier X 0 ; en particular, esto también es cierto para. En consecuencia, en esta imagen la expectativa de Y siempre se desplazará hacia arriba con respecto a la posición de. Un razonamiento similar es válido si la distribución de X cubre una porción decreciente de la función convexa, o tanto una porción decreciente como una creciente. Esto "prueba" la desigualdad, es decir
con igualdad cuando φ ( X ) no es estrictamente convexo, por ejemplo, cuando es una línea recta, o cuando X sigue una distribución degenerada (es decir, es una constante).
Las siguientes pruebas formalizan esta noción intuitiva.
Prueba 1 (forma finita)
Si λ 1 y λ 2 son dos números reales arbitrarios no negativos tales que λ 1 + λ 2 = 1 entonces la convexidad de φ implica
Esto se puede generalizar fácilmente: si λ 1 , ..., λ n son números reales no negativos tales que λ 1 + ... + λ n = 1 , entonces
para cualquier x 1 , ..., x n . Esta forma finita de la desigualdad de Jensen se puede demostrar por inducción : mediante hipótesis de convexidad, el enunciado es verdadero para n = 2. Suponga que también es cierto para algunos n , es necesario demostrarlo para n + 1 . Al menos uno de los λ i es estrictamente menor que 1 , digamos λ 1 ; por tanto, por desigualdad de convexidad:
Desde
se pueden aplicar las hipótesis de inducción al último término de la fórmula anterior para obtener el resultado, es decir, la forma finita de la desigualdad de Jensen.
Para obtener la desigualdad general a partir de esta forma finita, es necesario utilizar un argumento de densidad. La forma finita se puede reescribir como:
donde μ n es una medida dada por una combinación convexa arbitraria de deltas de Dirac :
Dado que las funciones convexas son continuas , y dado que las combinaciones convexas de deltas de Dirac son débilmente densas en el conjunto de medidas de probabilidad (como podría verificarse fácilmente), el enunciado general se obtiene simplemente mediante un procedimiento de limitación.
Prueba 2 (forma teórica de la medida)
Sea g una función μ-integrable de valor real en un espacio de probabilidad Ω, y sea φ una función convexa en los números reales. Dado que φ es convexo, en cada número real x tenemos un conjunto no vacío de subderivadas , que pueden considerarse como líneas que tocan la gráfica de φ en x , pero que están en o debajo de la gráfica de φ en todos los puntos (líneas de soporte de la gráfica).
Ahora, si definimos
debido a la existencia de subderivatives para funciones convexas, podemos elegir una y b tal que
para todo x real y
Pero luego tenemos eso
para todo x . Como tenemos una medida de probabilidad, la integral es monótona con μ (Ω) = 1 de modo que
como se desee.
Prueba 3 (desigualdad general en un entorno probabilístico)
Deje que X sea una variable aleatoria integrable que toma valores en un espacio vectorial topológico verdadera T . Desde es convexo, para cualquier , la cantidad
está disminuyendo a medida que θ se acerca a 0 + . En particular, el subdiferencial deevaluado en x en la dirección y está bien definido por
Se ve fácilmente que el subdiferencial es lineal en y [ cita requerida ] (eso es falso y la afirmación requiere que se demuestre el teorema de Hahn-Banach) y, dado que el mínimo tomado en el lado derecho de la fórmula anterior es menor que el valor del mismo término para θ = 1 , se obtiene
En particular, para una sub- σ -álgebra arbitraria podemos evaluar la última desigualdad cuando para obtener
Ahora bien, si tomamos la expectativa condicionada a a ambos lados de la expresión anterior, obtenemos el resultado ya que:
por la linealidad del subdiferencial en la variable y , y la siguiente propiedad conocida de la expectativa condicional :
Aplicaciones y casos especiales
Forma que involucra una función de densidad de probabilidad
Suponga que Ω es un subconjunto medible de la línea real y f ( x ) es una función no negativa tal que
En lenguaje probabilístico, f es una función de densidad de probabilidad .
Entonces, la desigualdad de Jensen se convierte en el siguiente enunciado sobre integrales convexas:
Si g es cualquier función medible de valor real yes convexo en el rango de g , entonces
Si g ( x ) = x , entonces esta forma de desigualdad se reduce a un caso especial de uso común:
Esto se aplica en métodos Bayesianos Variacionales .
Ejemplo: momentos pares de una variable aleatoria
Si g ( x ) = x 2n , y X es una variable aleatoria, entonces g es convexa como
y entonces
En particular, si algún momento par 2n de X es finito, X tiene una media finita. Una extensión de este argumento muestra que X tiene momentos finitos de cada ordendividiendo n .
Forma finita alternativa
Sea Ω = { x 1 , ... x n }, y tome μ como la medida de conteo en Ω , entonces la forma general se reduce a una declaración sobre sumas:
siempre que λ i ≥ 0 y
También hay una forma discreta infinita.
Física estadística
La desigualdad de Jensen es de particular importancia en física estadística cuando la función convexa es exponencial, dando:
donde los valores esperados son con respecto a alguna distribución de probabilidad en la variable aleatoria X .
La prueba en este caso es muy simple (cf. Chandler, Sec. 5.5). La desigualdad deseada sigue directamente, escribiendo
y luego aplicando la desigualdad e X ≥ 1 + X al exponencial final.
Teoría de la información
Si p ( x ) es la densidad de probabilidad verdadera para X , y q ( x ) es otra densidad, entonces aplicando la desigualdad de Jensen para la variable aleatoria Y ( X ) = q ( X ) / p ( X ) y la función convexa φ ( y ) = −log ( y ) da
Por lo tanto:
un resultado llamado desigualdad de Gibbs .
Muestra que la longitud promedio del mensaje se minimiza cuando los códigos se asignan sobre la base de las probabilidades reales p en lugar de cualquier otra distribución q . La cantidad que no es negativa se llama divergencia de Kullback-Leibler de q de p .
Dado que −log ( x ) es una función estrictamente convexa para x > 0 , se deduce que la igualdad se cumple cuando p ( x ) es igual a q ( x ) casi en todas partes.
Teorema de Rao-Blackwell
Si L es una función convexa y un sub-sigma-álgebra, entonces, de la versión condicional de la desigualdad de Jensen, obtenemos
Entonces, si δ ( X ) es algún estimador de un parámetro no observado θ dado un vector de observables X ; y si T ( X ) es una estadística suficiente para θ; entonces se puede obtener un estimador mejorado, en el sentido de tener una pérdida esperada L menor , calculando
el valor esperado de δ con respecto a θ, tomado sobre todos los posibles vectores de observaciones X compatibles con el mismo valor de T ( X ) que el observado. Además, como T es una estadística suficiente, no depende de θ, por lo tanto, se convierte en una estadística.
Este resultado se conoce como el teorema de Rao-Blackwell .
Ver también
- La desigualdad de Karamata para una desigualdad más general
- La desigualdad de Popoviciu
- Ley de promedios
- Una prueba sin palabras de la desigualdad de Jensen
Notas
- ^ Jensen, JLWV (1906). "Sur les fonctions convexes et les inégalités entre les valeurs moyennes" . Acta Mathematica . 30 (1): 175-193. doi : 10.1007 / BF02418571 .
- ^ Gao, Xiang; Sitharam, Meera; Roitberg, Adrian (2019). "Límites de la brecha de Jensen y las implicaciones para las distribuciones de concentración media" (PDF) . La Revista Australiana de Análisis y Aplicaciones Matemáticas . 16 (2). arXiv : 1712.05267 .
- ^ p. 25 de Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-1108473682.
- ^ Niculescu, Constantin P. "Desigualdades integrales" , P. 12.
- ^ p. 29 de Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-1108473682.
- ^ Atención: En esta generalidad se necesitan supuestos adicionales sobre la función convexa y / o el espacio vectorial topológico, consulte el Ejemplo (1.3) en la p. 53 pulg Perlman, Michael D. (1974). "Desigualdad de Jensen para una función de valor vectorial convexo en un espacio de dimensión infinita" . Revista de análisis multivariante . 4 (1): 52–65. doi : 10.1016 / 0047-259X (74) 90005-0 .
- ^ Liao, J .; Berg, A (2018). "Agudizando la desigualdad de Jensen". Estadístico estadounidense . arXiv : 1707.08644 . doi : 10.1080 / 00031305.2017.1419145 .
- ^ Bradley, CJ (2006). Introducción a las desigualdades . Leeds, Reino Unido: United Kingdom Mathematics Trust. pag. 97. ISBN 978-1-906001-11-7.
Referencias
- David Chandler (1987). Introducción a la mecánica estadística moderna . Oxford. ISBN 0-19-504277-8.
- Tristan Needham (1993) "Una explicación visual de la desigualdad de Jensen", American Mathematical Monthly 100 (8): 768-71.
- Nicola Fusco ; Paolo Marcellini ; Carlo Sbordone (1996). Analisi Matematica Due . Liguori. ISBN 978-88-207-2675-1.
- Walter Rudin (1987). Análisis real y complejo . McGraw-Hill. ISBN 0-07-054234-1.
- Rick Durrett (2019). Probabilidad: teoría y ejemplos (5ª ed.). Prensa de la Universidad de Cambridge. pag. 430. ISBN 978-1108473682. Consultado el 21 de diciembre de 2020 .
enlaces externos
- Desigualdad del operador de Jensen de Hansen y Pedersen.
- "Desigualdad de Jensen" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
- Weisstein, Eric W. "La desigualdad de Jensen" . MathWorld .
- Arthur Lohwater (1982). "Introducción a las Desigualdades" . Libro electrónico online en formato PDF.