Distribución de probabilidad de entropía máxima

En estadística y teoría de la información , una distribución de probabilidad de entropía máxima tiene una entropía que es al menos tan grande como la de todos los demás miembros de una clase específica de distribuciones de probabilidad . De acuerdo con el principio de máxima entropía , si no se sabe nada acerca de una distribución excepto que pertenece a una determinada clase (generalmente definida en términos de propiedades o medidas especificadas), entonces la distribución con la mayor entropía debe elegirse como la menos informativa. defecto. La motivación es doble: primero, maximizar la entropía minimiza la cantidad de información previaintegrado en la distribución; en segundo lugar, muchos sistemas físicos tienden a moverse hacia configuraciones de entropía máxima a lo largo del tiempo.

Definición de entropía y entropía diferencial

Si ${\ Displaystyle X}$ es una variable aleatoria discreta con distribución dada por

{\ Displaystyle \ operatorname {Pr} (X = x_ {k}) = p_ {k} \ quad {\ mbox {para}} k = 1,2, \ ldots}

entonces la entropía de ${\ Displaystyle X}$ Se define como

{\ Displaystyle H (X) = - \ sum _ {k \ geq 1} p_ {k} \ log p_ {k}.}

Si ${\ Displaystyle X}$ es una variable aleatoria continua con densidad de probabilidad ${\ Displaystyle p (x)}$ , entonces la entropía diferencial de ${\ Displaystyle X}$ se define como ^[1]^[2]^[3]

{\ Displaystyle H (X) = - \ int _ {- \ infty} ^ {\ infty} p (x) \ log p (x) \, dx.}

La cantidad ${\ Displaystyle p (x) \ log p (x)}$ se entiende que es cero siempre que ${\ Displaystyle p (x) = 0}$ .

Este es un caso especial de formas más generales descritas en los artículos Entropía (teoría de la información) , Principio de máxima entropía y entropía diferencial. En relación con las distribuciones de entropía máxima, esta es la única necesaria, porque maximizar ${\ Displaystyle H (X)}$ también maximizará las formas más generales.

La base del logaritmo no es importante siempre que el mismo se use de manera consistente: el cambio de base simplemente da como resultado un cambio de escala de la entropía. Los teóricos de la información pueden preferir utilizar la base 2 para expresar la entropía en bits ; Los matemáticos y físicos a menudo preferirán el logaritmo natural , lo que da como resultado una unidad de nats para la entropía.

La elección de la medida ${\ displaystyle dx}$ Sin embargo, es crucial para determinar la entropía y la distribución máxima de entropía resultante, aunque el recurso habitual a la medida de Lebesgue se defiende a menudo como "natural".

Distribuciones con constantes medidas

Muchas distribuciones estadísticas de interés aplicable son aquellas para las que los momentos u otras cantidades mensurables están restringidas a ser constantes. El siguiente teorema de Ludwig Boltzmann da la forma de la densidad de probabilidad bajo estas restricciones.

Caso continuo

Supongamos que S es un subconjunto cerrado de los números reales R y elegimos especificar n funciones medibles f ₁ , ..., f _n y n números a ₁ , ..., a _n . Consideramos la clase C de todas las variables aleatorias de valor real que se apoyan en S (es decir, cuya función de densidad es cero fuera de S ) y que satisfacen las n condiciones de momento:

{\ Displaystyle \ operatorname {E} (f_ {j} (X)) \ geq a_ {j} \ quad {\ mbox {para}} j = 1, \ ldots, n}

Si hay un miembro en C cuya función de densidad es positiva en todas partes en S , y si existe una distribución de entropía máxima para C , entonces su densidad de probabilidad p ( x ) tiene la siguiente forma:

{\ Displaystyle p (x) = \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x) \ right) \ quad {\ mbox {para todos} } x \ en S}

donde asumimos que ${\ Displaystyle f_ {0} (x) = 1}$ . El constante ${\ Displaystyle \ lambda _ {0}}$ y los multiplicadores de n Lagrange ${\ displaystyle {\ boldsymbol {\ lambda}} = (\ lambda _ {1}, \ ldots, \ lambda _ {n})}$ resolver el problema de optimización restringida con ${\ Displaystyle a_ {0} = 1}$ (esta condición asegura que ${\ Displaystyle p}$ se integra a la unidad): ^[4]

{\ Displaystyle \ max _ {\ lambda _ {0}; {\ boldsymbol {\ lambda}}} \ left \ {\ sum _ {j = 0} ^ {n} \ lambda _ {j} a_ {j} - \ int \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x) \ right) dx \ right \} \ quad \ mathrm {sujeto \; a: \; \;} {\ boldsymbol {\ lambda}} \ geq \ mathbf {0}}

Usando las condiciones de Karush-Kuhn-Tucker , se puede demostrar que el problema de optimización tiene una solución única, porque la función objetivo en la optimización es cóncava en ${\ displaystyle {\ boldsymbol {\ lambda}}}$ .

Tenga en cuenta que si las condiciones de momento son iguales (en lugar de desigualdades), es decir,

{\ Displaystyle \ operatorname {E} (f_ {j} (X)) = a_ {j} \ quad {\ mbox {for}} j = 1, \ ldots, n,}

entonces la condición de restricción ${\ displaystyle {\ boldsymbol {\ lambda}} \ geq \ mathbf {0}}$ se elimina, lo que hace que la optimización sobre los multiplicadores de Lagrange sea ilimitada.

Caso discreto

Suponer ${\ Displaystyle S = \ {x_ {1}, x_ {2}, ... \}}$ es un subconjunto discreto (finito o infinito) de los reales y elegimos especificar ${\ Displaystyle n}$ funciones f ₁ , ..., f _n y n números a ₁ , ..., a _n . Consideramos la clase C de todas las variables aleatorias discretas X que se apoyan en S y que cumplen las n condiciones de momento

{\ Displaystyle \ operatorname {E} (f_ {j} (X)) \ geq a_ {j} \ quad {\ mbox {para}} j = 1, \ ldots, n}

Si existe un miembro de C que asigna probabilidad positiva a todos los miembros de S y si existe una distribución de entropía máxima para C , entonces esta distribución tiene la siguiente forma:

{\ Displaystyle \ operatorname {Pr} (X = x_ {k}) = \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x_ {k}) \ right) \ quad {\ mbox {para}} k = 1,2, \ ldots}

donde asumimos que ${\ Displaystyle f_ {0} = 1}$ y las constantes ${\ Displaystyle \ lambda _ {0}, \; {\ boldsymbol {\ lambda}} = (\ lambda _ {1}, \ ldots, \ lambda _ {n})}$ resolver el problema de optimización restringida con ${\ Displaystyle a_ {0} = 1}$ : ^[5]

{\ Displaystyle \ max _ {\ lambda _ {0}; {\ boldsymbol {\ lambda}}} \ left \ {\ sum _ {j = 0} ^ {n} \ lambda _ {j} a_ {j} - \ sum _ {k \ geq 1} \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x_ {k}) \ right) \ right \} \ quad \ mathrm {sujeto \; a: \; \;} {\ boldsymbol {\ lambda}} \ geq \ mathbf {0}}

Nuevamente, si las condiciones de momento son iguales (en lugar de desigualdades), entonces la condición de restricción ${\ displaystyle {\ boldsymbol {\ lambda}} \ geq \ mathbf {0}}$ no está presente en la optimización.

Prueba en el caso de restricciones de igualdad

En el caso de restricciones de igualdad, este teorema se demuestra con el cálculo de variaciones y multiplicadores de Lagrange . Las restricciones se pueden escribir como

{\ Displaystyle \ int _ {- \ infty} ^ {\ infty} f_ {j} (x) p (x) dx = a_ {j}}

Consideramos lo funcional

{\ Displaystyle J (p) = \ int _ {- \ infty} ^ {\ infty} p (x) \ ln {p (x)} dx- \ eta _ {0} \ left (\ int _ {- \ infty} ^ {\ infty} p (x) dx-1 \ right) - \ sum _ {j = 1} ^ {n} \ lambda _ {j} \ left (\ int _ {- \ infty} ^ {\ infty} f_ {j} (x) p (x) dx-a_ {j} \ right)}

dónde ${\ Displaystyle \ eta _ {0}}$ y ${\ Displaystyle \ lambda _ {j}, j \ geq 1}$ son los multiplicadores de Lagrange. La restricción cero asegura el segundo axioma de probabilidad . Las otras restricciones son que las medidas de la función reciben constantes por orden ${\ Displaystyle n}$ . La entropía alcanza un extremo cuando la derivada funcional es igual a cero:

{\ Displaystyle {\ frac {\ delta J} {\ delta p}} \ left (p \ right) = \ ln {p (x)} + 1- \ eta _ {0} - \ sum _ {j = 1 } ^ {n} \ lambda _ {j} f_ {j} (x) = 0}

Es un ejercicio para el lector ^{[ cita requerida ]} que este extremo es de hecho un máximo. Por lo tanto, la distribución de probabilidad de entropía máxima en este caso debe ser de la forma ( ${\ Displaystyle \ lambda _ {0}: = \ eta _ {0} -1}$ )

{\ Displaystyle p (x) = e ^ {- 1+ \ eta _ {0}} \ cdot e ^ {\ sum _ {j = 1} ^ {n} \ lambda _ {j} f_ {j} (x )} = \ exp \ left (\ sum _ {j = 0} ^ {n} \ lambda _ {j} f_ {j} (x) \ right) \ ;.}

La prueba de la versión discreta es esencialmente la misma.

Unicidad del máximo

Suponer ${\ Displaystyle p}$ , ${\ Displaystyle p '}$ son distribuciones que satisfacen las limitaciones de expectativas. Dejando ${\ Displaystyle \ alpha \ in (0,1)}$ y considerando la distribución ${\ Displaystyle q = \ alpha \ cdot p + (1- \ alpha) \ cdot p '}$ es claro que esta distribución satisface las expectativas-restricciones y además tiene como soporte ${\ Displaystyle \ mathrm {supp} (q) = \ mathrm {supp} (p) \ cup \ mathrm {supp} (p ')}$ . A partir de hechos básicos sobre la entropía, sostiene que ${\ Displaystyle {\ mathcal {H}} (q) \ geq \ alpha {\ mathcal {H}} (p) + (1- \ alpha) {\ mathcal {H}} (p ')}$ . Tomando límites ${\ Displaystyle \ alpha \ longrightarrow 1}$ y ${\ Displaystyle \ alpha \ longrightarrow 0}$ respectivamente rinde ${\ Displaystyle {\ mathcal {H}} (q) \ geq {\ mathcal {H}} (p), {\ mathcal {H}} (p ')}$ .

De ello se deduce que una distribución que satisfaga las restricciones de expectativas y maximice la entropía debe tener necesariamente un soporte completo, es decir, la distribución es positiva en casi todas partes. De ello se deduce que la distribución maximizadora debe ser un punto interno en el espacio de distribuciones que satisfaga las restricciones de expectativa, es decir, debe ser un extremo local. Por lo tanto, basta con mostrar que el extremo local es único, para mostrar a ambos que la distribución que maximiza la entropía es única (y esto también muestra que el extremo local es el máximo global).

Suponer ${\ Displaystyle p, p '}$ son extremos locales. Reformulando los cálculos anteriores, estos se caracterizan por parámetros ${\ Displaystyle {\ vec {\ lambda}}, {\ vec {\ lambda}} '\ in \ mathbb {R} ^ {n}}$ vía ${\ Displaystyle p (x) = {\ frac {e ^ {\ langle {\ vec {\ lambda}}, {\ vec {f}} (x) \ rangle}} {C ({\ vec {\ lambda} })}}}$ y de manera similar para ${\ Displaystyle p '}$ , dónde ${\ Displaystyle C ({\ vec {\ lambda}}) = \ int _ {x \ in \ mathbb {R}} e ^ {\ langle {\ vec {\ lambda}}, {\ vec {f}} ( x) \ rangle} ~ dx}$ . Ahora notamos una serie de identidades: a través de la satisfacción de las restricciones de expectativa y la utilización de gradientes / derivadas direccionales, uno tiene ${\ Displaystyle D \ log (C (\ cdot)) \ vert _ {\ vec {\ lambda}} = \ left. {\ frac {DC (\ cdot)} {C (\ cdot)}} \ right | _ {\ vec {\ lambda}} = \ mathbb {E} _ {p} [{\ vec {f}} (X)] = {\ vec {a}}}$ y de manera similar para ${\ Displaystyle {\ vec {\ lambda}} '}$ . Dejando ${\ Displaystyle u = {\ vec {\ lambda}} '- {\ vec {\ lambda}} \ in \ mathbb {R} ^ {n}}$ Se obtiene:

{\ Displaystyle 0 = \ langle u, {\ vec {a}} - {\ vec {a}} \ rangle = D_ {u} \ log (C (\ cdot)) \ vert _ {{\ vec {\ lambda }} '} - D_ {u} \ log (C (\ cdot)) \ vert _ {\ vec {\ lambda}} = D_ {u} ^ {2} \ log (C (\ cdot)) \ vert _ {\ vec {\ gamma}}}

dónde ${\ Displaystyle {\ vec {\ gamma}} = \ theta {\ vec {\ lambda}} + (1- \ theta) {\ vec {\ lambda}} '}$ para algunos ${\ Displaystyle \ theta \ in (0,1)}$ . Computando más uno tiene

{\ displaystyle {\ begin {array} {rcl} 0 & = & D_ {u} ^ {2} \ log (C (\ cdot)) \ vert _ {\ vec {\ gamma}} \\ & = & \ left. D_ {u} \ left ({\ frac {D_ {u} C (\ cdot)} {C (\ cdot)}} \ right) \ right | _ {\ vec {\ gamma}} \\ & = & \ izquierda. {\ frac {D_ {u} ^ {2} C (\ cdot)} {C (\ cdot)}} \ right | _ {\ vec {\ gamma}} - \ left. {\ frac {(D_ {u} C (\ cdot)) ^ {2}} {C (\ cdot) ^ {2}}} \ right | _ {\ vec {\ gamma}} \\ & = & \ mathbb {E} _ { q} [(\ langle u, {\ vec {f}} (X) \ rangle) ^ {2}] - \ left (\ mathbb {E} _ {q} [\ langle u, {\ vec {f} } (X) \ rangle] \ right) ^ {2} = \ mathrm {Var} _ {q} (\ langle u, {\ vec {f}} (X) \ rangle) \\\ end {array}} }

dónde ${\ Displaystyle q}$ es similar a la distribución anterior, solo parametrizada por ${\ Displaystyle {\ vec {\ gamma}}}$ . Suponiendo que ninguna combinación lineal no trivial de los observables es constante en casi todas partes (ae) (lo que, por ejemplo, se cumple si los observables son independientes y no ae constantes), se sostiene que ${\ Displaystyle \ langle u, {\ vec {f}} (X) \ rangle}$ tiene una varianza distinta de cero, a menos que ${\ Displaystyle u = 0}$ . Por lo tanto, por la ecuación anterior queda claro que este último debe ser el caso. Por eso ${\ Displaystyle {\ vec {\ lambda}} '- {\ vec {\ lambda}} = u = 0}$ , por lo que los parámetros que caracterizan los extremos locales ${\ Displaystyle p, p '}$ son idénticas, lo que significa que las distribuciones en sí son idénticas. Por lo tanto, el extremo local es único y, según la discusión anterior, el máximo es único, siempre que exista realmente un extremo local.

Advertencias

Tenga en cuenta que no todas las clases de distribuciones contienen una distribución de entropía máxima. Es posible que una clase contenga distribuciones de entropía arbitrariamente grande (por ejemplo, la clase de todas las distribuciones continuas en R con media 0 pero desviación estándar arbitraria), o que las entropías estén limitadas por encima pero no hay distribución que alcance la entropía máxima. ^[a] También es posible que las restricciones espera que el valor para la clase C fuerzan la distribución de probabilidad de ser cero en ciertos subconjuntos de S . En ese caso, nuestro teorema no se aplica, pero se puede solucionar este problema reduciendo el conjunto S .

Ejemplos de

Cada distribución de probabilidad es trivialmente una distribución de probabilidad de entropía máxima bajo la restricción de que la distribución tiene su propia entropía. Para ver esto, reescriba la densidad como ${\ Displaystyle p (x) = \ exp {(\ ln {p (x)})}}$ y compárelo con la expresión del teorema anterior. Por elección ${\ Displaystyle \ ln {p (x)} \ rightarrow f (x)}$ ser la función medible y

{\ Displaystyle \ int \ exp {(f (x))} f (x) dx = -H}

ser la constante, ${\ Displaystyle p (x)}$ es la distribución de probabilidad de entropía máxima bajo la restricción

{\ Displaystyle \ int p (x) f (x) dx = -H}

.

Los ejemplos no triviales son distribuciones que están sujetas a múltiples restricciones que son diferentes de la asignación de la entropía. Estos a menudo se encuentran comenzando con el mismo procedimiento. ${\ Displaystyle \ ln {p (x)} \ rightarrow f (x)}$ y encontrar eso ${\ Displaystyle f (x)}$ se puede separar en partes.

Una tabla de ejemplos de distribuciones de entropía máxima se da en Lisman (1972) ^[6] y Park & Bera (2009) ^[7].

Distribuciones uniformes y uniformes por partes

La distribución uniforme en el intervalo [ a , b ] es la distribución de entropía máxima entre todas las distribuciones continuas que se apoyan en el intervalo [ a , b ], y por lo tanto la densidad de probabilidad es 0 fuera del intervalo. Esta densidad uniforme puede relacionarse con el principio de indiferencia de Laplace , a veces llamado principio de razón insuficiente. De manera más general, si se nos da una subdivisión a = a ₀ < a ₁ <... < a _k = b del intervalo [ a , b ] y probabilidades p ₁ , ..., p _k que suman uno , entonces podemos considerar la clase de todas las distribuciones continuas tal que

{\ Displaystyle \ operatorname {Pr} (a_ {j-1} \ leq X

La densidad de la distribución de entropía máxima para esta clase es constante en cada uno de los intervalos [ a _{j -1} , a _j ). La distribución uniforme en el conjunto finito { x ₁ , ..., x _n } (que asigna una probabilidad de 1 / n a cada uno de estos valores) es la distribución de entropía máxima entre todas las distribuciones discretas admitidas en este conjunto.

Media positiva y especificada: la distribución exponencial

La distribución exponencial , para la cual la función de densidad es

{\ displaystyle p (x | \ lambda) = {\ begin {cases} \ lambda e ^ {- \ lambda x} & x \ geq 0, \\ 0 & x <0, \ end {cases}}}

es la distribución de entropía máxima entre todas las distribuciones continuas admitidas en [0, ∞) que tienen una media especificada de 1 / λ.

Varianza especificada: la distribución normal

La distribución normal N (μ, σ ² ), para la cual la función de densidad es

{\ Displaystyle p (x | \ mu, \ sigma) = {\ frac {1} {\ sigma {\ sqrt {2 \ pi}}}} e ^ {- {\ frac {(x- \ mu) ^ { 2}} {2 \ sigma ^ {2}}}},}

tiene la máxima entropía entre todas las distribuciones de valor real soportadas en (−∞, ∞) con una varianza especificada σ ² (un momento particular ). Por tanto, el supuesto de normalidad impone la restricción estructural mínima previa más allá de este momento. (Consulte el artículo sobre entropía diferencial para obtener una derivación).

En el caso de distribuciones compatibles con [0, ∞), la distribución de entropía máxima depende de las relaciones entre el primer y el segundo momento. En casos específicos, puede ser la distribución exponencial, o puede ser otra distribución, o puede ser indefinible. ^[8]

Distribuciones discretas con media especificada

Entre todas las distribuciones discretas admitidas en el conjunto { x ₁ , ..., x _n } con una media μ especificada, la distribución de entropía máxima tiene la siguiente forma:

{\ Displaystyle \ operatorname {Pr} (X = x_ {k}) = Cr ^ {x_ {k}} \ quad {\ mbox {para}} k = 1, \ ldots, n}

donde las constantes positivas C y r se pueden determinar mediante los requisitos de que la suma de todas las probabilidades debe ser 1 y el valor esperado debe ser μ.

Por ejemplo, si un número grande N de dados se tiran, y se le dijo que la suma de todos los números que se muestran es S . Basándose únicamente en esta información, ¿cuál sería una suposición razonable para el número de dados que muestran 1, 2, ..., 6? Este es un ejemplo de la situación considerada anteriormente, con { x ₁ , ..., x ₆ } = {1, ..., 6} y μ = S / N .

Finalmente, entre todas las distribuciones discretas soportadas en el conjunto infinito ${\ Displaystyle \ {x_ {1}, x_ {2}, ... \}}$ con media μ, la distribución máxima de entropía tiene la forma:

{\ Displaystyle \ operatorname {Pr} (X = x_ {k}) = Cr ^ {x_ {k}} \ quad {\ mbox {para}} k = 1,2, \ ldots,}

donde de nuevo las constantes C y r se determinaron por los requisitos de que la suma de todas las probabilidades debe ser 1 y el valor esperado debe ser μ. Por ejemplo, en el caso de que x _k = k , esto da

{\ Displaystyle C = {\ frac {1} {\ mu -1}}, \ quad \ quad r = {\ frac {\ mu -1} {\ mu}},}

de modo que la distribución de entropía máxima respectiva es la distribución geométrica .

Variables aleatorias circulares

Para una variable aleatoria continua ${\ Displaystyle \ theta _ {i}}$ distribuida alrededor del círculo unitario, la distribución de Von Mises maximiza la entropía cuando se especifican las partes real e imaginaria del primer momento circular ^[9] o, de manera equivalente, se especifican la media circular y la varianza circular .

Cuando la media y la varianza de los ángulos ${\ Displaystyle \ theta _ {i}}$ modulo ${\ Displaystyle 2 \ pi}$ se especifican, la distribución normal envuelta maximiza la entropía. ^[9]

Maximizador para media, varianza y sesgo especificados

Existe un límite superior en la entropía de variables aleatorias continuas en ${\ Displaystyle \ mathbb {R}}$ con una media, varianza y sesgo especificados. Sin embargo, no existe una distribución que logre este límite superior , porque ${\ Displaystyle p (x) = c \ exp {(\ lambda _ {1} x + \ lambda _ {2} x ^ {2} + \ lambda _ {3} x ^ {3})}}$ es ilimitado excepto cuando ${\ Displaystyle \ lambda _ {3} = 0}$ (ver Cover y Thomas (2006: capítulo 12)). ^{[ aclaración necesaria (explicación) ]}

Sin embargo, la entropía máxima es $ε-$ alcanzable: la entropía de una distribución puede estar arbitrariamente cerca del límite superior. Comience con una distribución normal de la media y la varianza especificadas. Para introducir un sesgo positivo, perturbe la distribución normal hacia arriba en una pequeña cantidad a un valor muchos $σ$ mayor que la media. La asimetría, al ser proporcional al tercer momento, se verá más afectada que los momentos de orden inferior.

Maximizador para medida de riesgo de desviación y media especificada

Cada distribución con log-cóncava densidad es una distribución de entropía máxima con media especificada μ y riesgo Desviación medida D . ^[10]

En particular, la distribución de entropía máxima con media especificada ${\ Displaystyle E (x) = \ mu}$ y desviación ${\ Displaystyle D (x) = d}$ es:

La distribución normal ${\ Displaystyle N (m, d ^ {2})}$ , Si ${\ Displaystyle D (x) = {\ sqrt {E [(x- \ mu) ^ {2}]}}}$ es la desviación estándar ;
La distribución de Laplace , si ${\ Displaystyle D (x) = E (| x- \ mu |)}$ es la desviación absoluta promedio ; ^[6]
La distribución con densidad de la forma. ${\ Displaystyle f (x) = c \ exp (ax + b {[x- \ mu] _ {-}} ^ {2})}$ Si ${\ Displaystyle D (x) = {\ sqrt {E [{(x- \ mu) _ {-}} ^ {2}]}}}$ es la semidesviación estándar más baja, donde ${\ Displaystyle [x] _ {-}: = \ max \ {0, -x \}}$ y a, b, c son constantes. ^[10]

Otros ejemplos

En la siguiente tabla, cada distribución enumerada maximiza la entropía para un conjunto particular de restricciones funcionales enumeradas en la tercera columna, y la restricción de que x se incluya en el soporte de la densidad de probabilidad, que se enumera en la cuarta columna. ^[6]^[7] Varios ejemplos (Bernoulli, geométrico, exponencial, Laplace, Pareto) enumerados son trivialmente verdaderos porque sus restricciones asociadas son equivalentes a la asignación de su entropía. Se incluyen de todos modos porque su restricción está relacionada con una cantidad común o fácilmente medible. Para referencia, ${\ Displaystyle \ Gamma (x) = \ int _ {0} ^ {\ infty} e ^ {- t} t ^ {x-1} dt}$ es la función gamma , ${\ Displaystyle \ psi (x) = {\ frac {d} {dx}} \ ln \ Gamma (x) = {\ frac {\ Gamma '(x)} {\ Gamma (x)}}}$ es la función digamma , ${\ Displaystyle B (p, q) = {\ frac {\ Gamma (p) \ Gamma (q)} {\ Gamma (p + q)}}}$ es la función beta y $γ E$ es la constante de Euler-Mascheroni .

Tabla de distribuciones de probabilidad y restricciones de entropía máxima correspondientes
Nombre de distribución	Función de densidad / masa de probabilidad	Restricción máxima de entropía	Apoyo
Uniforme (discreto)	${\ Displaystyle f (k) = {\ frac {1} {b-a + 1}}}$	Ninguno	${\ Displaystyle \ {a, a + 1, ..., b-1, b \} \,}$
Uniforme (continuo)	${\ Displaystyle f (x) = {\ frac {1} {ba}}}$	Ninguno	${\ Displaystyle [a, b] \,}$
Bernoulli	${\ Displaystyle f (k) = p ^ {k} (1-p) ^ {1-k}}$	${\ Displaystyle \ operatorname {E} (k) = p \,}$	${\ Displaystyle \ {0,1 \} \,}$
Geométrico	${\ Displaystyle f (k) = (1-p) ^ {k-1} \, p}$	${\ Displaystyle \ operatorname {E} (k) = {\ frac {1} {p}} \,}$	${\ Displaystyle \ mathbb {N} \ setminus \ left \ {0 \ right \} = \ {1,2,3, ... \}}$
Exponencial	${\ Displaystyle f (x) = \ lambda \ exp \ left (- \ lambda x \ right)}$	${\ Displaystyle \ operatorname {E} (x) = {\ frac {1} {\ lambda}} \,}$	${\ Displaystyle [0, \ infty) \,}$
Laplace	${\ Displaystyle f (x) = {\ frac {1} {2b}} \ exp \ left (- {\ frac {\| x- \ mu \|} {b}} \ right)}$	${\ Displaystyle \ operatorname {E} (\| x- \ mu \|) = b \,}$	${\ Displaystyle (- \ infty, \ infty) \,}$
Laplace asimétrica	${\ displaystyle f (x) = {\ frac {\ lambda \, e ^ {- (xm) \ lambda s \ kappa ^ {s}}} {\ kappa + 1 / \ kappa}} \, (s \! = \! \ operatorname {sgn} (x \! - \! m))}$	${\ Displaystyle \ operatorname {E} ((xm) s \ kappa ^ {s}) = 1 / \ lambda \,}$	${\ Displaystyle (- \ infty, \ infty) \,}$
Pareto	${\ Displaystyle f (x) = {\ frac {\ alpha x_ {m} ^ {\ alpha}} {x ^ {\ alpha +1}}}}$	${\ Displaystyle \ operatorname {E} (\ ln (x)) = {\ frac {1} {\ alpha}} + \ ln (x_ {m}) \,}$	${\ Displaystyle [x_ {m}, \ infty) \,}$
Normal	${\ Displaystyle f (x) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} \ exp \ left (- {\ frac {(x- \ mu) ^ {2} } {2 \ sigma ^ {2}}} \ right)}$	${\ Displaystyle \ operatorname {E} (x) = \ mu, \, \ operatorname {E} ((x- \ mu) ^ {2}) = \ sigma ^ {2}}$	${\ Displaystyle (- \ infty, \ infty) \,}$
Normal truncado	(ver artículo)	${\ Displaystyle \ operatorname {E} (x) = \ mu _ {T}, \, \ operatorname {E} ((x- \ mu _ {T}) ^ {2}) = \ sigma _ {T} ^ {2}}$	${\ Displaystyle [a, b]}$
von Mises	${\ Displaystyle f (\ theta) = {\ frac {1} {2 \ pi I_ {0} (\ kappa)}} \ exp {(\ kappa \ cos {(\ theta - \ mu)})}}$	${\ Displaystyle \ operatorname {E} (\ cos \ theta) = {\ frac {I_ {1} (\ kappa)} {I_ {0} (\ kappa)}} \ cos \ mu, \, \ operatorname {E } (\ sin \ theta) = {\ frac {I_ {1} (\ kappa)} {I_ {0} (\ kappa)}} \ sin \ mu}$	${\ Displaystyle [0,2 \ pi) \,}$
Rayleigh	${\ Displaystyle f (x) = {\ frac {x} {\ sigma ^ {2}}} \ exp \ left (- {\ frac {x ^ {2}} {2 \ sigma ^ {2}}} \ derecho)}$	${\ Displaystyle \ operatorname {E} (x ^ {2}) = 2 \ sigma ^ {2}, \ operatorname {E} (\ ln (x)) = {\ frac {\ ln (2 \ sigma ^ {2 }) - \ gamma _ {\ mathrm {E}}} {2}} \,}$	${\ Displaystyle [0, \ infty) \,}$
Beta	${\ Displaystyle f (x) = {\ frac {x ^ {\ alpha -1} (1-x) ^ {\ beta -1}} {B (\ alpha, \ beta)}}}$ por ${\ Displaystyle 0 \ leq x \ leq 1}$	${\ Displaystyle \ operatorname {E} (\ ln (x)) = \ psi (\ alpha) - \ psi (\ alpha + \ beta) \,}$ ${\ Displaystyle \ operatorname {E} (\ ln (1-x)) = \ psi (\ beta) - \ psi (\ alpha + \ beta) \,}$	${\ Displaystyle [0,1] \,}$
Cauchy	${\ Displaystyle f (x) = {\ frac {1} {\ pi (1 + x ^ {2})}}}$	${\ Displaystyle \ operatorname {E} (\ ln (1 + x ^ {2})) = 2 \ ln 2}$	${\ Displaystyle (- \ infty, \ infty) \,}$
Chi	${\ displaystyle f (x) = {\ frac {2} {2 ^ {k / 2} \ Gamma (k / 2)}} x ^ {k-1} \ exp \ left (- {\ frac {x ^ {2}} {2}} \ right)}$	${\ Displaystyle \ operatorname {E} (x ^ {2}) = k, \, \ operatorname {E} (\ ln (x)) = {\ frac {1} {2}} \ left [\ psi \ left ({\ frac {k} {2}} \ derecha) \! + \! \ ln (2) \ derecha]}$	${\ Displaystyle [0, \ infty) \,}$
Chi-cuadrado	${\ Displaystyle f (x) = {\ frac {1} {2 ^ {k / 2} \ Gamma (k / 2)}} x ^ {{\ frac {k} {2}} \! - \! 1 } \ exp \ left (- {\ frac {x} {2}} \ right)}$	${\ Displaystyle \ operatorname {E} (x) = k, \, \ operatorname {E} (\ ln (x)) = \ psi \ left ({\ frac {k} {2}} \ right) + \ ln (2)}$	${\ Displaystyle [0, \ infty) \,}$
Erlang	${\ Displaystyle f (x) = {\ frac {\ lambda ^ {k}} {(k-1)!}} x ^ {k-1} \ exp (- \ lambda x)}$	${\ Displaystyle \ operatorname {E} (x) = k / \ lambda, \, \ operatorname {E} (\ ln (x)) = \ psi (k) - \ ln (\ lambda)}$	${\ Displaystyle [0, \ infty) \,}$
Gama	${\ Displaystyle f (x) = {\ frac {x ^ {k-1} \ exp (- {\ frac {x} {\ theta}})} {\ theta ^ {k} \ Gamma (k)}} }$	${\ Displaystyle \ operatorname {E} (x) = k \ theta, \, \ operatorname {E} (\ ln (x)) = \ psi (k) + \ ln (\ theta)}$	${\ Displaystyle [0, \ infty) \,}$
Lognormal	${\ Displaystyle f (x) = {\ frac {1} {\ sigma x {\ sqrt {2 \ pi}}}} \ exp \ left (- {\ frac {(\ ln x- \ mu) ^ {2 }} {2 \ sigma ^ {2}}} \ right)}$	${\ Displaystyle \ operatorname {E} (\ ln (x)) = \ mu, \ operatorname {E} ((\ ln (x) - \ mu) ^ {2}) = \ sigma ^ {2} \,}$	${\ Displaystyle [0, \ infty) \,}$
Maxwell – Boltzmann	${\ Displaystyle f (x) = {\ frac {1} {a ^ {3}}} {\ sqrt {\ frac {2} {\ pi}}} \, x ^ {2} \ exp \ left (- {\ frac {x ^ {2}} {2a ^ {2}}} \ right)}$	${\ Displaystyle \ operatorname {E} (x ^ {2}) = 3a ^ {2}, \, \ operatorname {E} (\ ln (x)) \! = \! 1 \! + \! \ ln \ izquierda ({\ frac {a} {\ sqrt {2}}} \ right) \! - \! {\ frac {\ gamma _ {\ mathrm {E}}} {2}}}$	${\ Displaystyle [0, \ infty) \,}$
Weibull	${\ Displaystyle f (x) = {\ frac {k} {\ lambda ^ {k}}} x ^ {k-1} \ exp \ left (- {\ frac {x ^ {k}} {\ lambda ^ {k}}} \ derecha)}$	${\ Displaystyle \ operatorname {E} (x ^ {k}) = \ lambda ^ {k}, \ operatorname {E} (\ ln (x)) = \ ln (\ lambda) - {\ frac {\ gamma _ {\ mathrm {E}}} {k}} \,}$	${\ Displaystyle [0, \ infty) \,}$
Normal multivariante	${\ Displaystyle f_ {X} ({\ vec {x}}) =}$ ${\ Displaystyle {\ frac {\ exp \ left (- {\ frac {1} {2}} ({\ vec {x}} - {\ vec {\ mu}}) ^ {\ top} \ Sigma ^ { -1} \ cdot ({\ vec {x}} - {\ vec {\ mu}}) \ right)} {(2 \ pi) ^ {N / 2} \ left \| \ Sigma \ right \| ^ {1 / 2}}}}$	${\ Displaystyle \ operatorname {E} ({\ vec {x}}) = {\ vec {\ mu}}, \, \ operatorname {E} (({\ vec {x}} - {\ vec {\ mu }}) ({\ vec {x}} - {\ vec {\ mu}}) ^ {T}) = \ Sigma \,}$	${\ Displaystyle \ mathbb {R} ^ {n}}$
Binomio	${\ Displaystyle f (k) = {n \ elige k} p ^ {k} (1-p) ^ {nk}}$	${\ Displaystyle \ operatorname {E} (x) = \ mu, f \ in {\ text {distribución binomial n-generalizada}}}$ ^[11]	${\ Displaystyle \ left \ {0, {\ ldots}, n \ right \}}$
Poisson	${\ Displaystyle f (k) = {\ frac {\ lambda ^ {k} \ exp (- \ lambda)} {k!}}}$	${\ Displaystyle \ operatorname {E} (x) = \ lambda, f \ in {\ infty} {\ text {-distribución binomial generalizada}}}$ ^[11]	${\ Displaystyle \ mathbb {N} \ cup \ left \ {0 \ right \}}$

Ver también

Familia exponencial
Medida de Gibbs
Función de partición (matemáticas)
Caminata aleatoria de entropía máxima : maximización de la tasa de entropía para un gráfico

Notas

^ Por ejemplo, la clase de todas las distribuciones continuas X en R con E ( X ) = 0 y E ( X ² ) = E ( X ³ ) = 1 (ver Portada, Capítulo 12).

Citas

^ Williams, D. (2001), Pesando las probabilidades , Cambridge University Press , ISBN 0-521-00618-X (páginas 197-199).
^ Bernardo, JM, Smith, AFM (2000), Teoría Bayesiana , Wiley. ISBN 0-471-49464-X (páginas 209, 366)
^ O'Hagan, A. (1994), Teoría avanzada de estadística de Kendall, Vol 2B, Inferencia bayesiana , Edward Arnold . ISBN 0-340-52922-9 (Sección 5.40)
^ Botev, ZI; Kroese, DP (2011). "El método de la entropía cruzada generalizada, con aplicaciones a la estimación de la densidad de probabilidad" (PDF) . Metodología y Computación en Probabilidad Aplicada . 13 (1): 1–27. doi : 10.1007 / s11009-009-9133-7 . S2CID 18155189 .
^ Botev, ZI; Kroese, DP (2008). "Selección de ancho de banda no asintótica para estimación de densidad de datos discretos". Metodología y Computación en Probabilidad Aplicada . 10 (3): 435. doi : 10.1007 / s11009-007-9057-z . S2CID 122047337 .
^ a b c Lisman, JHC; van Zuylen, MCA (1972). "Nota sobre la generación de distribuciones de frecuencia más probables". Statistica Neerlandica . 26 (1): 19-23. doi : 10.1111 / j.1467-9574.1972.tb00152.x .
^ a b Park, Sung Y .; Bera, Anil K. (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía" (PDF) . Revista de Econometría . 150 (2): 219–230. CiteSeerX 10.1.1.511.9750 . doi : 10.1016 / j.jeconom.2008.12.014 . Archivado desde el original (PDF) el 7 de marzo de 2016 . Consultado el 2 de junio de 2011 .
^ Dowson, D .; Wragg, A. (septiembre de 1973). "Distribuciones de máxima entropía habiendo prescrito el primer y segundo momento". Transacciones IEEE sobre teoría de la información (correspondencia). 19 (5): 689–693. doi : 10.1109 / tit.1973.1055060 . ISSN 0018-9448 .
^ a b Jammalamadaka, S. Rao; SenGupta, A. (2001). Temas en estadística circular . Nueva Jersey: World Scientific. ISBN 978-981-02-3778-3. Consultado el 15 de mayo de 2011 .
^ a b Grechuk, B., Molyboha, A., Zabarankin, M. (2009) Principio de máxima entropía con medidas de desviación general , Matemáticas de la investigación de operaciones 34 (2), 445-467, 2009.
^ a b Harremös, Peter (2001), "Distribuciones binomiales y de Poisson como distribuciones de entropía máxima", IEEE Transactions on Information Theory , 47 (5): 2039-2041, doi : 10.1109 / 18.930936.

Referencias

Cover, TM ; Thomas, JA (2006). "Capítulo 12, Máxima entropía" (PDF) . Elementos de la teoría de la información (2 ed.). Wiley. ISBN 978-0471241959.
F. Nielsen, R. Nock (2017), Límites superiores de MaxEnt para la entropía diferencial de distribuciones continuas univariadas , IEEE Signal Processing Letters , 24 (4), 402-406
IJ Taneja (2001), Medidas de información generalizada y sus aplicaciones . Capítulo 1
Nader Ebrahimi, Ehsan S. Soofi, Refik Soyer (2008), "Identificación, transformación y dependencia de la entropía máxima multivariante", Journal of Multivariate Analysis 99: 1217-1231, doi : 10.1016 / j.jmva.2007.08.004

[6] Por ejemplo, la clase de todas las distribuciones continuas X en R con E ( X ) = 0 y E ( X ² ) = E ( X ³ ) = 1 (ver Portada, Capítulo 12).

[1] Williams, D. (2001), Pesando las probabilidades , Cambridge University Press , ISBN 0-521-00618-X (páginas 197-199).

[2] Bernardo, JM, Smith, AFM (2000), Teoría Bayesiana , Wiley. ISBN 0-471-49464-X (páginas 209, 366)

[3] O'Hagan, A. (1994), Teoría avanzada de estadística de Kendall, Vol 2B, Inferencia bayesiana , Edward Arnold . ISBN 0-340-52922-9 (Sección 5.40)

[4] Botev, ZI; Kroese, DP (2011). "El método de la entropía cruzada generalizada, con aplicaciones a la estimación de la densidad de probabilidad" (PDF) . Metodología y Computación en Probabilidad Aplicada . 13 (1): 1–27. doi : 10.1007 / s11009-009-9133-7 . S2CID 18155189 .

[5] Botev, ZI; Kroese, DP (2008). "Selección de ancho de banda no asintótica para estimación de densidad de datos discretos". Metodología y Computación en Probabilidad Aplicada . 10 (3): 435. doi : 10.1007 / s11009-007-9057-z . S2CID 122047337 .

[ReferenceA-7] Lisman, JHC; van Zuylen, MCA (1972). "Nota sobre la generación de distribuciones de frecuencia más probables". Statistica Neerlandica . 26 (1): 19-23. doi : 10.1111 / j.1467-9574.1972.tb00152.x .

[Elsevier-8] Park, Sung Y .; Bera, Anil K. (2009). "Modelo de heterocedasticidad condicional autorregresiva de máxima entropía" (PDF) . Revista de Econometría . 150 (2): 219–230. CiteSeerX 10.1.1.511.9750 . doi : 10.1016 / j.jeconom.2008.12.014 . Archivado desde el original (PDF) el 7 de marzo de 2016 . Consultado el 2 de junio de 2011 .

[9] Dowson, D .; Wragg, A. (septiembre de 1973). "Distribuciones de máxima entropía habiendo prescrito el primer y segundo momento". Transacciones IEEE sobre teoría de la información (correspondencia). 19 (5): 689–693. doi : 10.1109 / tit.1973.1055060 . ISSN 0018-9448 .

[SRJ-10] Jammalamadaka, S. Rao; SenGupta, A. (2001). Temas en estadística circular . Nueva Jersey: World Scientific. ISBN 978-981-02-3778-3. Consultado el 15 de mayo de 2011 .

[Grechuk1-11] Grechuk, B., Molyboha, A., Zabarankin, M. (2009) Principio de máxima entropía con medidas de desviación general , Matemáticas de la investigación de operaciones 34 (2), 445-467, 2009.

[harremoes-12] Harremös, Peter (2001), "Distribuciones binomiales y de Poisson como distribuciones de entropía máxima", IEEE Transactions on Information Theory , 47 (5): 2039-2041, doi : 10.1109 / 18.930936.

[1]