Familia exponencial

En probabilidad y estadística , una familia exponencial es un conjunto paramétrico de distribuciones de probabilidad de una determinada forma, que se especifica a continuación. Esta forma especial se elige por conveniencia matemática, basada en algunas propiedades algebraicas útiles, así como por generalidad, ya que las familias exponenciales son, en cierto sentido, conjuntos de distribuciones muy naturales a considerar. El término clase exponencial se usa a veces en lugar de "familia exponencial", ^[1] o el término más antiguo de familia Koopman-Darmois . Los términos "distribución" y "familia" a menudo se usan de manera vaga: correctamente, una familia exponencial es un conjuntode distribuciones, donde la distribución específica varía con el parámetro; ^[a] sin embargo, una familia paramétrica de distribuciones a menudo se conoce como " una distribución" (como "la distribución normal", que significa "la familia de distribuciones normales"), y el conjunto de todas las familias exponenciales a veces se conoce de manera vaga como "la" familia exponencial. Son distintos porque poseen una variedad de propiedades deseables, y lo más importante es la existencia de una estadística suficiente.

El concepto de familias exponenciales se atribuye a ^[2] EJG Pitman , ^[3] G. Darmois , ^[4] y BO Koopman ^[5] en 1935-1936. Las familias exponenciales de distribuciones proporcionan un marco general para seleccionar una posible parametrización alternativa de una familia paramétrica de distribuciones, en términos de parámetros naturales , y para definir estadísticas muestrales útiles , denominadas estadísticas suficientes naturales de la familia.

Definición

La mayoría de las distribuciones de uso común forman una familia exponencial o un subconjunto de una familia exponencial, que se enumeran en la subsección a continuación. Las subsecciones que le siguen son una secuencia de definiciones matemáticas cada vez más generales de una familia exponencial. Un lector casual puede querer restringir la atención a la primera y más simple definición, que corresponde a una familia de un solo parámetro de distribuciones de probabilidad discretas o continuas .

Ejemplos de distribuciones familiares exponenciales

Las familias exponenciales incluyen muchas de las distribuciones más comunes. Entre muchas otras, las familias exponenciales incluyen las siguientes:

Varias distribuciones comunes son familias exponenciales, pero solo cuando ciertos parámetros son fijos y conocidos. Por ejemplo:

binomial (con número fijo de ensayos)
multinomial (con número fijo de ensayos)
binomio negativo (con número fijo de fallos)

Observe que en cada caso, los parámetros que deben fijarse determinan un límite en el tamaño de los valores de observación.

Ejemplos de distribuciones comunes que no son familias exponenciales son la t de Student , la mayoría de las distribuciones de mezcla e incluso la familia de distribuciones uniformes cuando los límites no son fijos. Consulte la sección a continuación sobre ejemplos para obtener más información.

Parámetro escalar

Una familia exponencial de un solo parámetro es un conjunto de distribuciones de probabilidad cuya función de densidad de probabilidad (o función de masa de probabilidad , para el caso de una distribución discreta ) se puede expresar en la forma

{\ Displaystyle f_ {X} (x \ mid \ theta) = h (x) \, \ exp \! {\ bigl [} \, \ eta (\ theta) \ cdot T (x) + A (\ theta) \,{\Gran R ]}}

donde T ( x ), h ( x ), η ( θ ) y A ( θ ) son funciones conocidas. Por supuesto, la función h ( x ) debe ser no negativa.

Una forma alternativa y equivalente que a menudo se da es

{\ Displaystyle f_ {X} (x \ mid \ theta) = h (x) \, g (\ theta) \, \ exp \! {\ bigl [} \, \ eta (\ theta) \ cdot T (x )\,{\Gran R ]}}

o equivalente

{\ Displaystyle f_ {X} (x \ mid \ theta) = \ exp \! {\ bigl [} \, \ eta (\ theta) \ cdot T (x) + A (\ theta) + B (x) \ ,{\Gran R ]}}

El valor θ se denomina parámetro de la familia.

Además, el apoyo de ${\ Displaystyle f_ {X} \! \ left (x \ mid \ theta \ right)}$ (es decir, el conjunto de todos ${\ Displaystyle x}$ para cual ${\ Displaystyle f_ {X} \! \ left (x \ mid \ theta \ right)}$ es mayor que 0) no depende de ${\ Displaystyle \ theta}$ . ^[6] Esto se puede utilizar para excluir una distribución familiar paramétrica de ser una familia exponencial. Por ejemplo, la distribución de Pareto tiene un pdf que se define para ${\ Displaystyle x \ geq x_ {m}}$ ( ${\ Displaystyle x_ {m}}$ siendo el parámetro de escala) y su soporte, por tanto, tiene un límite inferior de ${\ Displaystyle x_ {m}}$ . Dado que el apoyo de ${\ Displaystyle f _ {\ alpha, x_ {m}} \! (x)}$ depende del valor del parámetro, la familia de distribuciones de Pareto no forma una familia exponencial de distribuciones.

A menudo, x es un vector de medidas, en cuyo caso T ( x ) puede ser una función del espacio de posibles valores de x a los números reales. De manera más general, η ( θ ) y T ( x ) pueden tener valores vectoriales de manera que ${\ Displaystyle \ eta '(\ theta) \ cdot T (x)}$ es de valor real. Sin embargo, vea la discusión a continuación sobre los parámetros vectoriales , con respecto a la familia exponencial curva .

Si η ( θ ) = θ , entonces se dice que la familia exponencial está en forma canónica . Al definir un parámetro transformado η = η ( θ ), siempre es posible convertir una familia exponencial a forma canónica. La forma canónica no es única, ya que η ( θ ) se puede multiplicar por cualquier constante distinta de cero, siempre que T ( x ) se multiplique por el recíproco de esa constante, o se pueda sumar una constante c a η ( θ ) y h ( x ) multiplicado por ${\ Displaystyle \ exp \! {\ bigl [} -c \ cdot T (x) \, {\ bigr]}}$ para compensarlo. En el caso especial de que η ( θ ) = θ y T ( x ) = x, entonces la familia se llama familia exponencial natural .

Incluso cuando x es un escalar y hay un solo parámetro, las funciones η ( θ ) y T ( x ) pueden seguir siendo vectores, como se describe a continuación.

La función A ( θ ), o equivalentemente g ( θ ), se determina automáticamente una vez elegidas las demás funciones, ya que debe asumir una forma que haga que la distribución se normalice (sumar o integrar a uno en todo el dominio). Además, ambas funciones siempre se pueden escribir como funciones de η , incluso cuando η ( θ ) no es una función uno a uno , es decir, dos o más valores diferentes de θ se asignan al mismo valor de η ( θ ), y por tanto η ( θ ) no se puede invertir. En tal caso, todos los valores de θ mapeando al mismo η ( θ ) también tendrán el mismo valor para A ( θ ) y g ( θ ).

Factorización de las variables involucradas

Lo que es importante tener en cuenta, y lo que caracteriza a todas las variantes de familias exponenciales, es que los parámetros y las variables de observación deben factorizarse (se pueden separar en productos, cada uno de los cuales involucra solo un tipo de variable), ya sea directamente o dentro de cualquier parte (la base o el exponente) de una operación de exponenciación . Generalmente, esto significa que todos los factores que constituyen la función de densidad o masa deben tener una de las siguientes formas:

{\ Displaystyle f (x), g (\ theta), c ^ {f (x)}, c ^ {g (\ theta)}, {[f (x)]} ^ {c}, {[g ( \ theta)]} ^ {c}, {[f (x)]} ^ {g (\ theta)}, {[g (\ theta)]} ^ {f (x)}, {[f (x) ]} ^ {h (x) g (\ theta)}, {\ text {o}} {[g (\ theta)]} ^ {h (x) j (\ theta)},}

donde f y h son funciones arbitrarias de x ; g y j son funciones arbitrarias de θ ; y c es una expresión "constante" arbitraria (es decir, una expresión que no impliquen x o θ ).

Existen más restricciones sobre cuántos factores de este tipo pueden ocurrir. Por ejemplo, las dos expresiones:

{\ Displaystyle {[f (x) g (\ theta)]} ^ {h (x) j (\ theta)}, \ qquad {[f (x)]} ^ {h (x) j (\ theta) } [g (\ theta)] ^ {h (x) j (\ theta)},}

son iguales, es decir, un producto de dos factores "permitidos". Sin embargo, cuando se reescribe en la forma factorizada,

{\ Displaystyle {[f (x) g (\ theta)]} ^ {h (x) j (\ theta)} = {[f (x)]} ^ {h (x) j (\ theta)} [ g (\ theta)] ^ {h (x) j (\ theta)} = e ^ {[h (x) \ log f (x)] j (\ theta) + h (x) [j (\ theta) \ log g (\ theta)]},}

se puede ver que no se puede expresar en la forma requerida. (Sin embargo, una forma de este tipo es miembro de una familia exponencial curva , lo que permite múltiples términos factorizados en el exponente. ^{[ Cita requerida ]} )

Para ver por qué una expresión de la forma

{\ Displaystyle {[f (x)]} ^ {g (\ theta)}}

califica,

{\ Displaystyle {[f (x)]} ^ {g (\ theta)} = e ^ {g (\ theta) \ log f (x)}}

y por lo tanto factoriza dentro del exponente. Similar,

{\ Displaystyle {[f (x)]} ^ {h (x) g (\ theta)} = e ^ {h (x) g (\ theta) \ log f (x)} = e ^ {[h ( x) \ log f (x)] g (\ theta)}}

y nuevamente factoriza dentro del exponente.

Un factor que consiste en una suma en la que están involucrados ambos tipos de variables (por ejemplo, un factor de la forma ${\ Displaystyle 1 + f (x) g (\ theta)}$ ) no se puede factorizar de esta manera (excepto en algunos casos en los que ocurre directamente en un exponente); por eso, por ejemplo, la distribución de Cauchy y la distribución t de Student no son familias exponenciales.

Parámetro de vector

La definición en términos de un parámetro de número real se puede extender a un parámetro de vector real

{\ Displaystyle {\ boldsymbol {\ theta}} \ equiv \ left [\, \ theta _ {1}, \, \ theta _ {2}, \, \ ldots, \, \ theta _ {s} \, \ derecha] ^ {\ mathsf {T}} ~.}

Se dice que una familia de distribuciones pertenece a una familia exponencial vectorial si la función de densidad de probabilidad (o función de masa de probabilidad, para distribuciones discretas) se puede escribir como

{\ Displaystyle f_ {X} (x \ mid {\ boldsymbol {\ theta}}) = h (x) \, \ exp \ left (\ sum _ {i = 1} ^ {s} \ eta _ {i} ({\ boldsymbol {\ theta}}) T_ {i} (x) -A ({\ boldsymbol {\ theta}}) \ right) ~,}

o en una forma más compacta,

{\ Displaystyle f_ {X} (x \ mid {\ boldsymbol {\ theta}}) = h (x) \, \ exp {\ Big (} {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta} }) \ cdot \ mathbf {T} (x) -A ({\ boldsymbol {\ theta}}) {\ Big)}}

Esta forma escribe la suma como un producto escalar de funciones con valores vectoriales ${\ displaystyle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}})}$ y ${\ Displaystyle \ mathbf {T} (x) \,}$ .

Una forma alternativa y equivalente que se ve a menudo es

{\ displaystyle f_ {X} (x \ mid {\ boldsymbol {\ theta}}) = h (x) \, g ({\ boldsymbol {\ theta}}) \, \ exp {\ Big (} {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (x) {\ Big)}}

Como en el caso de valores escalares, se dice que la familia exponencial está en forma canónica si

{\ Displaystyle \ quad \ eta _ {i} ({\ boldsymbol {\ theta}}) = \ theta _ {i} \ quad \ forall i \ ,.}

Se dice que una familia exponencial vectorial es curva si la dimensión de

{\ Displaystyle {\ boldsymbol {\ theta}} \ equiv \ left [\, \ theta _ {1}, \, \ theta _ {2}, \, \ ldots, \, \ theta _ {d} \, \ , \ right] ^ {\ mathsf {T}}}

es menor que la dimensión del vector

{\ displaystyle {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ equiv \ left [\, \ eta _ {1} ({\ boldsymbol {\ theta}}), \, \ eta _ {2} ({\ boldsymbol {\ theta}}), \, \ ldots, \, \ eta _ {s} ({\ boldsymbol {\ theta}}) \, \ right] ^ {\ mathsf {T}} ~.}

Es decir, si la dimensión , $d$ , del vector de parámetros es menor que el número de funciones , $s$ , del vector de parámetros en la representación anterior de la función de densidad de probabilidad. La mayoría de las distribuciones comunes en la familia exponencial no son curvas, y muchos algoritmos diseñados para trabajar con cualquier familia exponencial suponen implícita o explícitamente que la distribución no es curva.

Como en el caso anterior de un parámetro con valores escalares, la función ${\ Displaystyle A ({\ boldsymbol {\ theta}})}$ o equivalente ${\ displaystyle g ({\ boldsymbol {\ theta}})}$ se determina automáticamente una vez elegidas las demás funciones, de manera que se normaliza toda la distribución. Además, como se indicó anteriormente, ambas funciones siempre se pueden escribir como funciones de ${\ displaystyle {\ boldsymbol {\ eta}}}$ , independientemente de la forma de transformación que genere ${\ displaystyle {\ boldsymbol {\ eta}}}$ de ${\ displaystyle {\ boldsymbol {\ theta}} \,}$ . Por lo tanto, una familia exponencial en su "forma natural" (parametrizada por su parámetro natural) parece

{\ Displaystyle f_ {X} (x \ mid {\ boldsymbol {\ eta}}) = h (x) \, \ exp {\ Big (} {\ boldsymbol {\ eta}} \ cdot \ mathbf {T} ( x) -A ({\ boldsymbol {\ eta}}) {\ Big)}}

o equivalente

{\ Displaystyle f_ {X} (x \ mid {\ boldsymbol {\ eta}}) = h (x) \, g ({\ boldsymbol {\ eta}}) \, \ exp {\ Big (} {\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x) {\ Big)}}

Las formas anteriores a veces se pueden ver con ${\ Displaystyle {\ boldsymbol {\ eta}} ^ {\ mathsf {T}} \ mathbf {T} (x)}$ en lugar de ${\ Displaystyle {\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x) \,}$ . Estas son formulaciones exactamente equivalentes, simplemente usando una notación diferente para el producto escalar .

Parámetro vectorial, variable vectorial

La forma de parámetro vectorial sobre una única variable aleatoria de valor escalar se puede expandir trivialmente para cubrir una distribución conjunta sobre un vector de variables aleatorias. La distribución resultante es simplemente la misma que la distribución anterior para una variable aleatoria de valor escalar con cada aparición del escalar $x$ reemplazado por el vector

{\ Displaystyle \ mathbf {x} = \ left (x_ {1}, x_ {2}, \ cdots, x_ {k} \ right) ^ {\ mathsf {T}} ~.}

La dimensión $k$ de la variable aleatoria no necesita coincidir con la dimensión $d$ del vector de parámetro, ni (en el caso de una función exponencial curva) la dimensión $s$ del parámetro natural ${\ displaystyle {\ boldsymbol {\ eta}}}$ y suficiente estadístico $T (x)$ .

La distribución en este caso se escribe como

{\ Displaystyle f_ {X} \! \ left (\ mathbf {x} \ mid {\ boldsymbol {\ theta}} \ right) = h (\ mathbf {x}) \, \ exp \! \ left (\, \ sum _ {i = 1} ^ {s} \ eta _ {i} ({\ boldsymbol {\ theta}}) T_ {i} (\ mathbf {x}) -A ({\ boldsymbol {\ theta}} )\,\derecho)}

O de forma más compacta como

{\ Displaystyle f_ {X} \! \ left (\, \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = h (\ mathbf {x}) \, \ exp \! { \ Big (} \, {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (\ mathbf {x}) -A ({\ boldsymbol {\ theta}}) \,{\Grande )}}

O alternativamente como

{\ Displaystyle f_ {X} \! \ left (\, \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = g ({\ boldsymbol {\ theta}}) \; h ( \ mathbf {x}) \, \ exp \! {\ Big (} \, {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (\ mathbf {x} )\,{\Grande )}}

Formulación de la teoría de la medida

Usamos funciones de distribución acumulativa (CDF) para abarcar distribuciones tanto discretas como continuas.

Suponga que $H$ es una función no decreciente de una variable real. Luego integrales de Lebesgue-Stieltjes con respecto a ${\ Displaystyle {\ rm {d \,}} H (\ mathbf {x})}$ son integrales con respecto a la medida de referencia de la familia exponencial generado por $H$ .

Cualquier miembro de esa familia exponencial tiene función de distribución acumulativa

{\ Displaystyle {\ rm {d \,}} F \ left (\, \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = \ exp {\ bigl (} \, {\ símbolo en negrita {\ eta}} (\ theta) \ cdot \ mathbf {T} (\ mathbf {x}) \, - \, A ({\ boldsymbol {\ theta}}) \, {\ bigr)} ~ {\ rm {d \,}} H (\ mathbf {x}) ~.}

$H (x)$ es un integrador de Lebesgue-Stieltjes para la medida de referencia. Cuando la medida de referencia es finita, se puede normalizar y $H$ es en realidad la función de distribución acumulativa de una distribución de probabilidad. Si $F$ es absolutamente continuo con una densidad ${\ Displaystyle f (x)}$ con respecto a una medida de referencia ${\ Displaystyle \, {\ rm {d \,}} x \,}$ ( medida típica de Lebesgue ), se puede escribir ${\ Displaystyle \, {\ rm {d \,}} F (x) = f (x) ~ {\ rm {d \,}} x \,}$ . En este caso, $H$ también es absolutamente continua y se puede escribir ${\ Displaystyle \, {\ rm {d \,}} H (x) = h (x) \, {\ rm {d \,}} x \,}$ por lo que las fórmulas se reducen a la de los párrafos anteriores. Si $F$ es discreto, entonces $H$ es una función escalonada (con escalones en el soporte de $F$ ).

Alternativamente, podemos escribir la medida de probabilidad directamente como

{\ Displaystyle P \ left (\, {\ rm {d \,}} \ mathbf {x} \ mid {\ boldsymbol {\ theta}} \, \ right) = \ exp {\ bigl (} \, {\ símbolo en negrita {\ eta}} (\ theta) \ cdot \ mathbf {T} (\ mathbf {x}) -A ({\ boldsymbol {\ theta}}) \, {\ bigr)} ~ \ mu ({\ rm {d \,}} \ mathbf {x}) ~.}

para alguna medida de referencia ${\ Displaystyle \ mu \,}$ .

Interpretación

En las definiciones anteriores, las funciones $T (x)$ , $η (θ)$ y $A (η)$ aparentemente se definieron arbitrariamente. Sin embargo, estas funciones juegan un papel importante en la distribución de probabilidad resultante.

$T (x)$ es una estadística suficiente de la distribución. Para las familias exponenciales, el estadístico suficiente es una función de los datos que contienen toda la información que los datos $x$ proporcionan con respecto a los valores de los parámetros desconocidos. Esto significa que, para cualquier conjunto de datos ${\ Displaystyle x}$ y ${\ Displaystyle y}$ , la razón de verosimilitud es la misma ${\ Displaystyle \ left ({\ mathsf {\ text {es decir,}}} {\ frac {f (x; \ theta _ {1})} {f (x; \ theta _ {2})}} = {\ frac {f (y; \ theta _ {1})} {f (y; \ theta _ {2})}} \, \ right)}$ si $T$ $($ $x$ $) =$ $T$ $($ $y$ $)$ . Esto es cierto incluso si $X$ e $Y$ son bastante diferentes - que es, incluso si ${\ Displaystyle d (x, y)> 0 \,}$ . La dimensión de $T (x)$ es igual al número de parámetros de $θ$ y engloba toda la información relativa a los datos relacionados con el parámetro $θ$ . La estadística suficiente de un conjunto de observaciones de datos independientes distribuidas de manera idéntica es simplemente la suma de estadísticas individuales suficientes y encapsula toda la información necesaria para describir la distribución posterior de los parámetros, dados los datos (y por lo tanto para derivar cualquier estimación deseada de los parámetros). ). (Esta importante propiedad se analiza más adelante ).
$η$ se llama parámetro natural . El conjunto de valores de $η$ para el que la función ${\ Displaystyle f_ {X} (x; \ theta)}$ es finito se llama espacio de parámetros naturales . Se puede demostrar que el espacio de parámetros naturales es siempre convexo .
$A (η)$ se llamafunción de partición log ^[b] porque es el logaritmo de un factor de normalización , sin el cual ${\ Displaystyle f_ {X} (x; \ theta)}$ no sería una distribución de probabilidad:

{\ Displaystyle A (\ eta) = \ log \ left (\ int _ {X} h (x) \, \ exp (\ eta (\ theta) \ cdot T (x)) \, \ mathrm {d \, } x \ right)}

La función $A es$ importante por derecho propio, porque la media , la varianza y otros momentos del estadístico suficiente $T (x)$ pueden derivarse simplemente diferenciando $A (η)$ . Por ejemplo, debido a que $log (x)$ es uno de los componentes del estadístico suficiente de la distribución gamma , ${\ Displaystyle \ operatorname {\ mathcal {E}} [\ log x]}$ se puede determinar fácilmente para esta distribución usando $A (η)$ . Técnicamente, esto es cierto porque

{\ Displaystyle K \ left (u \ mid \ eta \ right) = A (\ eta + u) -A (\ eta) \ ,,}

es la función generadora acumulativa de la estadística suficiente.

Propiedades

Las familias exponenciales tienen una gran cantidad de propiedades que las hacen extremadamente útiles para el análisis estadístico. En muchos casos, se puede demostrar que solo las familias exponenciales tienen estas propiedades. Ejemplos:

Las familias exponenciales tienen suficientes estadísticas que pueden resumir cantidades arbitrarias de datos independientes distribuidos de manera idéntica utilizando un número fijo de valores.
Las familias exponenciales tienen antecedentes conjugados , una propiedad importante en la estadística bayesiana .
La distribución predictiva posterior de una variable aleatoria de familia exponencial con un previo conjugado siempre se puede escribir en forma cerrada (siempre que el factor de normalización de la distribución de familia exponencial se pueda escribir en forma cerrada). ^[C]
En la aproximación de campo medio en Bayes variacional (utilizada para aproximar la distribución posterior en grandes redes bayesianas ), la mejor aproximación de la distribución posterior de un nodo de familia exponencial (un nodo es una variable aleatoria en el contexto de redes bayesianas) con un conjugado prior pertenece a la misma familia que el nodo. ^[7]

Ejemplos de

Es fundamental, al considerar los ejemplos de esta sección, recordar la discusión anterior sobre lo que significa decir que una "distribución" es una familia exponencial y, en particular, tener en cuenta que el conjunto de parámetros que pueden variar es fundamental para determinar si una "distribución" es o no una familia exponencial.

Las distribuciones normal , exponencial , log-normal , gamma , chi-cuadrado , beta , Dirichlet , Bernoulli , categórica , Poisson , geométrica , gaussiana inversa , von Mises y von Mises-Fisher son todas familias exponenciales.

Algunas distribuciones son familias exponenciales solo si algunos de sus parámetros se mantienen fijos. La familia de distribuciones de Pareto con un límite mínimo fijo x _m forma una familia exponencial. Las familias de distribuciones binomiales y multinomiales con un número fijo de ensayos n pero parámetros de probabilidad desconocidos son familias exponenciales. La familia de distribuciones binomiales negativas con un número fijo de fallas (también conocido como parámetro de tiempo de parada) r es una familia exponencial. Sin embargo, cuando se permite que varíe cualquiera de los parámetros fijos mencionados anteriormente, la familia resultante no es una familia exponencial.

Como se mencionó anteriormente, como regla general, el apoyo de una familia exponencial debe permanecer igual en todos los ajustes de parámetros de la familia. Es por eso que los casos anteriores (por ejemplo, binomio con un número variable de ensayos, Pareto con un límite mínimo variable) no son familias exponenciales; en todos los casos, el parámetro en cuestión afecta el soporte (en particular, cambiando el valor mínimo o máximo posible) . Por razones similares, ni la distribución uniforme discreta ni la distribución uniforme continua son familias exponenciales, ya que uno o ambos límites varían.

La distribución de Weibull con parámetro de forma fija k es una familia exponencial. A diferencia de los ejemplos anteriores, el parámetro de forma no afecta el soporte; el hecho de que permitir que varíe hace que Weibull no sea exponencial se debe más bien a la forma particular de la función de densidad de probabilidad de Weibull ( k aparece en el exponente de un exponente).

En general, las distribuciones que resultan de una mezcla finita o infinita de otras distribuciones, por ejemplo , densidades de modelos de mezcla y distribuciones de probabilidad compuestas , no son familias exponenciales. Ejemplos son gaussianas típicos modelos de mezcla , así como muchas distribuciones pesados de cola que resultan de composición (es decir, infinitamente mezclando) una distribución con una distribución a priori sobre uno de sus parámetros, por ejemplo la de Student t distribución t (un compuesto de una distribución normal durante un gamma- precisión distribuida a priori), y las distribuciones beta-binomial y Dirichlet-multinomial . Otros ejemplos de distribuciones que no son familias exponenciales son el F-distribución , la distribución de Cauchy , distribución hipergeométrica y distribución logística .

A continuación se muestran algunos ejemplos detallados de la representación de algunas distribuciones útiles como familias exponenciales.

Distribución normal: media desconocida, varianza conocida

Como primer ejemplo, considere una variable aleatoria distribuida normalmente con una media desconocida μ y una varianza conocida σ ² . La función de densidad de probabilidad es entonces

{\ Displaystyle f _ {\ sigma} (x; \ mu) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- (x- \ mu) ^ {2 } / (2 \ sigma ^ {2})}.}

Esta es una familia exponencial de un solo parámetro, como se puede ver al establecer

{\ Displaystyle {\ begin {alineado} h _ {\ sigma} (x) & = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- x ^ {2} / (2 \ sigma ^ {2})} \\ [4pt] T _ {\ sigma} (x) & = {\ frac {x} {\ sigma}} \\ [4pt] A _ {\ sigma} (\ mu ) & = {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}} \\ [4pt] \ eta _ {\ sigma} (\ mu) & = {\ frac {\ mu} { \ sigma}}. \ end {alineado}}}

Si σ = 1 está en forma canónica, entonces η ( μ ) = μ .

Distribución normal: media desconocida y varianza desconocida

A continuación, considere el caso de una distribución normal con media desconocida y varianza desconocida. La función de densidad de probabilidad es entonces

{\ Displaystyle f (x; \ mu, \ sigma) = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2}}}} e ^ {- (x- \ mu) ^ {2} / 2 \ sigma ^ {2}}.}

Esta es una familia exponencial que se puede escribir en forma canónica definiendo

{\ displaystyle {\ begin {alineado} {\ boldsymbol {\ eta}} & = \ left [\, {\ frac {\ mu} {\ sigma ^ {2}}}, ~ - {\ frac {1} { 2 \ sigma ^ {2}}} \, \ right] ^ {\ mathsf {T}} \\ h (x) & = {\ frac {1} {\ sqrt {2 \ pi}}} \\ T ( x) & = \ left (x, x ^ {2} \ right) ^ {\ rm {T}} \\ A ({\ boldsymbol {\ eta}}) & = {\ frac {\ mu ^ {2} } {2 \ sigma ^ {2}}} + \ log | \ sigma | = - {\ frac {\ eta _ {1} ^ {2}} {4 \ eta _ {2}}} + {\ frac { 1} {2}} \ log \ left | {\ frac {1} {2 \ eta _ {2}}} \ right | \ end {alineado}}}

Distribución binomial

Como ejemplo de una familia exponencial discreta, considere la distribución binomial con un número conocido de ensayos n . La función de masa de probabilidad para esta distribución es

{\ Displaystyle f (x) = {n \ elige x} p ^ {x} (1-p) ^ {nx}, \ quad x \ in \ {0,1,2, \ ldots, n \}.}

Esto se puede escribir de forma equivalente como

{\ Displaystyle f (x) = {n \ elige x} \ exp \ left (x \ log \ left ({\ frac {p} {1-p}} \ right) + n \ log (1-p) \ derecho),}

lo que muestra que la distribución binomial es una familia exponencial, cuyo parámetro natural es

{\ Displaystyle \ eta = \ log {\ frac {p} {1-p}}.}

Esta función de p se conoce como logit .

Tabla de distribuciones

La siguiente tabla muestra cómo reescribir una serie de distribuciones comunes como distribuciones de familias exponenciales con parámetros naturales. Consulte las flashcards ^[8] para conocer las principales familias exponenciales.

Para una variable escalar y un parámetro escalar, la forma es la siguiente:

{\ Displaystyle f_ {X} (x \ mid \ theta) = h (x) \ exp {\ Big (} \ eta ({\ theta}) T (x) -A ({\ eta}) {\ Big) }}

Para una variable escalar y un parámetro vectorial:

{\ displaystyle f_ {X} (x \ mid {\ boldsymbol {\ theta}}) = h (x) \ exp {\ Big (} {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (x) -A ({\ boldsymbol {\ eta}}) {\ Big)}}

{\ Displaystyle f_ {X} (x \ mid {\ boldsymbol {\ theta}}) = h (x) g ({\ boldsymbol {\ theta}}) \ exp {\ Big (} {\ boldsymbol {\ eta} } ({\ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (x) {\ Big)}}

Para una variable vectorial y un parámetro vectorial:

{\ Displaystyle f_ {X} (\ mathbf {x} \ mid {\ boldsymbol {\ theta}}) = h (\ mathbf {x}) \ exp {\ Big (} {\ boldsymbol {\ eta}} ({ \ boldsymbol {\ theta}}) \ cdot \ mathbf {T} (\ mathbf {x}) -A ({\ boldsymbol {\ eta}}) {\ Big)}}

Las fórmulas anteriores eligen la forma funcional de la familia exponencial con una función de partición logarítmica ${\ Displaystyle A ({\ boldsymbol {\ eta}})}$ . La razón de esto es que los momentos de las estadísticas suficientes se pueden calcular fácilmente, simplemente diferenciando esta función. Las formas alternativas implican parametrizar esta función en términos del parámetro normal ${\ displaystyle {\ boldsymbol {\ theta}}}$ en lugar del parámetro natural, y / o usando un factor ${\ Displaystyle g ({\ boldsymbol {\ eta}})}$ fuera del exponencial. La relación entre este último y el primero es:

{\ Displaystyle A ({\ boldsymbol {\ eta}}) = - \ log g ({\ boldsymbol {\ eta}})}

{\ displaystyle g ({\ boldsymbol {\ eta}}) = e ^ {- A ({\ boldsymbol {\ eta}})}}

Para convertir entre las representaciones que involucran los dos tipos de parámetros, use las fórmulas siguientes para escribir un tipo de parámetro en términos del otro.

Distribución	Parámetro (s) ${\ displaystyle {\ boldsymbol {\ theta}}}$	Parámetro (s) natural (es) ${\ displaystyle {\ boldsymbol {\ eta}}}$	Mapeo inverso de parámetros	Medida base ${\ Displaystyle h (x)}$	Estadística suficiente ${\ Displaystyle T (x)}$	Partición de registro ${\ Displaystyle A ({\ boldsymbol {\ eta}})}$	Partición de registro ${\ Displaystyle A ({\ boldsymbol {\ theta}})}$
Distribución de Bernoulli	${\ Displaystyle p}$	${\ Displaystyle \ log {\ frac {p} {1-p}}}$ Esta es la función logit .	${\ Displaystyle {\ frac {1} {1 + e ^ {- \ eta}}} = {\ frac {e ^ {\ eta}} {1 + e ^ {\ eta}}}}$ Esta es la función logística .	${\ Displaystyle 1}$	${\ Displaystyle x}$	${\ Displaystyle \ log (1 + e ^ {\ eta})}$	${\ Displaystyle - \ log (1-p)}$
distribución binomial con número conocido de ensayos ${\ Displaystyle n}$	${\ Displaystyle p}$	${\ Displaystyle \ log {\ frac {p} {1-p}}}$	${\ Displaystyle {\ frac {1} {1 + e ^ {- \ eta}}} = {\ frac {e ^ {\ eta}} {1 + e ^ {\ eta}}}}$	${\ Displaystyle {n \ elige x}}$	${\ Displaystyle x}$	${\ Displaystyle n \ log (1 + e ^ {\ eta})}$	${\ Displaystyle -n \ log (1-p)}$
distribución de veneno	${\ Displaystyle \ lambda}$	${\ Displaystyle \ log \ lambda}$	${\ Displaystyle e ^ {\ eta}}$	${\ Displaystyle {\ frac {1} {x!}}}$	${\ Displaystyle x}$	${\ Displaystyle e ^ {\ eta}}$	${\ Displaystyle \ lambda}$
distribución binomial negativa con número conocido de fallas ${\ Displaystyle r}$	${\ Displaystyle p}$	${\ Displaystyle \ log p}$	${\ Displaystyle e ^ {\ eta}}$	${\ displaystyle {x + r-1 \ elige x}}$	${\ Displaystyle x}$	${\ Displaystyle -r \ log (1-e ^ {\ eta})}$	${\ Displaystyle -r \ log (1-p)}$
distribución exponencial	${\ Displaystyle \ lambda}$	${\ Displaystyle - \ lambda}$	${\ Displaystyle - \ eta}$	${\ Displaystyle 1}$	${\ Displaystyle x}$	${\ Displaystyle - \ log (- \ eta)}$	${\ Displaystyle - \ log \ lambda}$
Distribución de Pareto con valor mínimo conocido ${\ Displaystyle x_ {m}}$	${\ Displaystyle \ alpha}$	${\ Displaystyle - \ alpha -1}$	${\ Displaystyle -1- \ eta}$	${\ Displaystyle 1}$	${\ Displaystyle \ log x}$	${\ Displaystyle - \ log (-1- \ eta) + (1+ \ eta) \ log x _ {\ mathrm {m}}}$	${\ Displaystyle - \ log \ alpha - \ alpha \ log x _ {\ mathrm {m}}}$
Distribución de Weibull con forma conocida $k$	${\ Displaystyle \ lambda}$	${\ Displaystyle - {\ frac {1} {\ lambda ^ {k}}}}$	${\ Displaystyle (- \ eta) ^ {- {\ frac {1} {k}}}}$	${\ Displaystyle x ^ {k-1}}$	${\ Displaystyle x ^ {k}}$	${\ Displaystyle - \ log (- \ eta) - \ log k}$	${\ Displaystyle k \ log \ lambda - \ log k}$
Distribución de Laplace con media conocida ${\ Displaystyle \ mu}$	${\ Displaystyle b}$	${\ Displaystyle - {\ frac {1} {b}}}$	${\ Displaystyle - {\ frac {1} {\ eta}}}$	${\ Displaystyle 1}$	${\ Displaystyle \| x- \ mu \|}$	${\ Displaystyle \ log \ left (- {\ frac {2} {\ eta}} \ right)}$	${\ Displaystyle \ log 2b}$
distribución chi-cuadrado	${\ Displaystyle \ nu}$	${\ Displaystyle {\ frac {\ nu} {2}} - 1}$	${\ Displaystyle 2 (\ eta +1)}$	${\ Displaystyle e ^ {- {\ frac {x} {2}}}}$	${\ Displaystyle \ log x}$	${\ Displaystyle \ log \ Gamma (\ eta +1) + (\ eta +1) \ log 2}$	${\ Displaystyle \ log \ Gamma \ left ({\ frac {\ nu} {2}} \ right) + {\ frac {\ nu} {2}} \ log 2}$
distribución normal varianza conocida	${\ Displaystyle \ mu}$	${\ Displaystyle {\ frac {\ mu} {\ sigma}}}$	${\ Displaystyle \ sigma \ eta}$	${\ Displaystyle {\ frac {e ^ {- {\ frac {x ^ {2}} {2 \ sigma ^ {2}}}}} {{\ sqrt {2 \ pi}} \ sigma}}}$	${\ Displaystyle {\ frac {x} {\ sigma}}}$	${\ Displaystyle {\ frac {\ eta ^ {2}} {2}}}$	${\ Displaystyle {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}}}$
distribución continua de Bernoulli	${\ Displaystyle \ lambda}$	${\ Displaystyle \ log {\ frac {\ lambda} {1- \ lambda}}}$	${\ Displaystyle {\ frac {e ^ {\ eta}} {1 + e ^ {\ eta}}}}$	${\ Displaystyle 1}$	${\ Displaystyle x}$	${\ Displaystyle \ log {\ frac {e ^ {\ eta} -1} {\ eta}}}$	${\ Displaystyle \ log \ left ({\ frac {1-2 \ lambda} {(1- \ lambda) \ log \ left ({\ frac {1- \ lambda} {\ lambda}} \ right)}} \ derecho)}$
distribución normal	${\ Displaystyle \ mu, \ \ sigma ^ {2}}$	${\ displaystyle {\ begin {bmatrix} {\ dfrac {\ mu} {\ sigma ^ {2}}} \\ [10pt] - {\ dfrac {1} {2 \ sigma ^ {2}}} \ end { bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ eta _ {1}} {2 \ eta _ {2}}} \\ [15pt] - {\ dfrac {1} {2 \ eta _ {2 }}} \ end {bmatrix}}}$	${\ Displaystyle {\ frac {1} {\ sqrt {2 \ pi}}}}$	${\ displaystyle {\ begin {bmatrix} x \\ x ^ {2} \ end {bmatrix}}}$	${\ Displaystyle - {\ frac {\ eta _ {1} ^ {2}} {4 \ eta _ {2}}} - {\ frac {1} {2}} \ log (-2 \ eta _ {2 })}$	${\ Displaystyle {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}} + \ log \ sigma}$
distribución logarítmica normal	${\ Displaystyle \ mu, \ \ sigma ^ {2}}$	${\ displaystyle {\ begin {bmatrix} {\ dfrac {\ mu} {\ sigma ^ {2}}} \\ [10pt] - {\ dfrac {1} {2 \ sigma ^ {2}}} \ end { bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ eta _ {1}} {2 \ eta _ {2}}} \\ [15pt] - {\ dfrac {1} {2 \ eta _ {2 }}} \ end {bmatrix}}}$	${\ Displaystyle {\ frac {1} {{\ sqrt {2 \ pi}} x}}}$	${\ Displaystyle {\ begin {bmatrix} \ log x \\ (\ log x) ^ {2} \ end {bmatrix}}}$	${\ Displaystyle - {\ frac {\ eta _ {1} ^ {2}} {4 \ eta _ {2}}} - {\ frac {1} {2}} \ log (-2 \ eta _ {2 })}$	${\ Displaystyle {\ frac {\ mu ^ {2}} {2 \ sigma ^ {2}}} + \ log \ sigma}$
distribución gaussiana inversa	${\ Displaystyle \ mu, \ \ lambda}$	${\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ lambda} {2 \ mu ^ {2}}} \\ [15pt] - {\ dfrac {\ lambda} {2}} \ end {bmatrix}} }$	${\ displaystyle {\ begin {bmatrix} {\ sqrt {\ dfrac {\ eta _ {2}} {\ eta _ {1}}}} \\ [15pt] -2 \ eta _ {2} \ end {bmatrix }}}$	${\ Displaystyle {\ frac {1} {{\ sqrt {2 \ pi}} x ^ {\ frac {3} {2}}}}}$	${\ displaystyle {\ begin {bmatrix} x \\ [5pt] {\ dfrac {1} {x}} \ end {bmatrix}}}$	${\ Displaystyle 2 {\ sqrt {\ eta _ {1} \ eta _ {2}}} - {\ frac {1} {2}} \ log (-2 \ eta _ {2})}$	${\ Displaystyle - {\ frac {\ lambda} {\ mu}} - {\ frac {1} {2}} \ log \ lambda}$
distribución gamma	${\ Displaystyle \ alpha, \ \ beta}$	${\ displaystyle {\ begin {bmatrix} \ alpha -1 \\ - \ beta \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\ - \ eta _ {2} \ end {bmatrix}}}$	${\ Displaystyle 1}$	${\ displaystyle {\ begin {bmatrix} \ log x \\ x \ end {bmatrix}}}$	${\ Displaystyle \ log \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} +1) \ log (- \ eta _ {2})}$	${\ Displaystyle \ log \ Gamma (\ alpha) - \ alpha \ log \ beta}$
distribución gamma	${\ Displaystyle k, \ \ theta}$	${\ displaystyle {\ begin {bmatrix} k-1 \\ [5pt] - {\ dfrac {1} {\ theta}} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\ [5pt] - {\ dfrac {1} {\ eta _ {2}}} \ end {bmatrix}}}$	${\ Displaystyle 1}$			${\ Displaystyle \ log \ Gamma (k) + k \ log \ theta}$
distribución gamma inversa	${\ Displaystyle \ alpha, \ \ beta}$	${\ displaystyle {\ begin {bmatrix} - \ alpha -1 \\ - \ beta \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - \ eta _ {1} -1 \\ - \ eta _ {2} \ end {bmatrix}}}$	${\ Displaystyle 1}$	${\ Displaystyle {\ begin {bmatrix} \ log x \\ {\ frac {1} {x}} \ end {bmatrix}}}$	${\ Displaystyle \ log \ Gamma (- \ eta _ {1} -1) - (- \ eta _ {1} -1) \ log (- \ eta _ {2})}$	${\ Displaystyle \ log \ Gamma (\ alpha) - \ alpha \ log \ beta}$
distribución gaussiana inversa generalizada	${\ Displaystyle p, \ a, \ b}$	${\ displaystyle {\ begin {bmatrix} p-1 \\ - a / 2 \\ - b / 2 \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\ - 2 \ eta _ {2} \\ - 2 \ eta _ {3} \ end {bmatrix}}}$	${\ Displaystyle 1}$	${\ Displaystyle {\ begin {bmatrix} \ log x \\ x \\ {\ frac {1} {x}} \ end {bmatrix}}}$	${\ Displaystyle \ log 2K _ {\ eta _ {1} +1} ({\ sqrt {4 \ eta _ {2} \ eta _ {3}}}) - {\ frac {\ eta _ {1} +1 } {2}} \ log {\ frac {\ eta _ {2}} {\ eta _ {3}}}}$	${\ Displaystyle \ log 2K_ {p} ({\ sqrt {ab}}) - {\ frac {p} {2}} \ log {\ frac {a} {b}}}$
distribución chi-cuadrado inversa escalada	${\ Displaystyle \ nu, \ \ sigma ^ {2}}$	${\ displaystyle {\ begin {bmatrix} - {\ dfrac {\ nu} {2}} - 1 \\ [10pt] - {\ dfrac {\ nu \ sigma ^ {2}} {2}} \ end {bmatrix }}}$	${\ displaystyle {\ begin {bmatrix} -2 (\ eta _ {1} +1) \\ [10pt] {\ dfrac {\ eta _ {2}} {\ eta _ {1} +1}} \ end {bmatrix}}}$	${\ Displaystyle 1}$	${\ Displaystyle {\ begin {bmatrix} \ log x \\ {\ frac {1} {x}} \ end {bmatrix}}}$	${\ Displaystyle \ log \ Gamma (- \ eta _ {1} -1) - (- \ eta _ {1} -1) \ log (- \ eta _ {2})}$	${\ Displaystyle \ log \ Gamma \ left ({\ frac {\ nu} {2}} \ right) - {\ frac {\ nu} {2}} \ log {\ frac {\ nu \ sigma ^ {2} } {2}}}$
distribución beta (variante 1)	${\ Displaystyle \ alpha, \ \ beta}$	${\ displaystyle {\ begin {bmatrix} \ alpha \\\ beta \ end {bmatrix}}}$	${\ Displaystyle {\ begin {bmatrix} \ eta _ {1} \\\ eta _ {2} \ end {bmatrix}}}$	${\ Displaystyle {\ frac {1} {x (1-x)}}}$	${\ Displaystyle {\ begin {bmatrix} \ log x \\\ log (1-x) \ end {bmatrix}}}$	${\ Displaystyle \ log \ Gamma (\ eta _ {1}) + \ log \ Gamma (\ eta _ {2}) - \ log \ Gamma (\ eta _ {1} + \ eta _ {2})}$	${\ Displaystyle \ log \ Gamma (\ alpha) + \ log \ Gamma (\ beta) - \ log \ Gamma (\ alpha + \ beta)}$
distribución beta (variante 2)	${\ Displaystyle \ alpha, \ \ beta}$	${\ displaystyle {\ begin {bmatrix} \ alpha -1 \\\ beta -1 \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\\ eta _ {2} +1 \ end {bmatrix}}}$	${\ Displaystyle 1}$	${\ Displaystyle {\ begin {bmatrix} \ log x \\\ log (1-x) \ end {bmatrix}}}$	${\ Displaystyle \ log \ Gamma (\ eta _ {1} +1) + \ log \ Gamma (\ eta _ {2} +1) - \ log \ Gamma (\ eta _ {1} + \ eta _ {2 } +2)}$	${\ Displaystyle \ log \ Gamma (\ alpha) + \ log \ Gamma (\ beta) - \ log \ Gamma (\ alpha + \ beta)}$
distribución normal multivariante	${\ displaystyle {\ boldsymbol {\ mu}}, \ {\ boldsymbol {\ Sigma}}}$	${\ displaystyle {\ begin {bmatrix} {\ boldsymbol {\ Sigma}} ^ {- 1} {\ boldsymbol {\ mu}} \\ [5pt] - {\ frac {1} {2}} {\ boldsymbol { \ Sigma}} ^ {- 1} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} {\ boldsymbol {\ eta}} _ {2} ^ {- 1} {\ boldsymbol {\ eta}} _ {1} \ \ [5pt] - {\ frac {1} {2}} {\ boldsymbol {\ eta}} _ {2} ^ {- 1} \ end {bmatrix}}}$	${\ Displaystyle (2 \ pi) ^ {- {\ frac {k} {2}}}}$	${\ displaystyle {\ begin {bmatrix} \ mathbf {x} \\ [5pt] \ mathbf {x} \ mathbf {x} ^ {\ mathsf {T}} \ end {bmatrix}}}$	${\ displaystyle - {\ frac {1} {4}} {\ boldsymbol {\ eta}} _ {1} ^ {\ mathsf {T}} {\ boldsymbol {\ eta}} _ {2} ^ {- 1 } {\ boldsymbol {\ eta}} _ {1} - {\ frac {1} {2}} \ log \ left \| -2 {\ boldsymbol {\ eta}} _ {2} \ right \|}$	${\ displaystyle {\ frac {1} {2}} {\ boldsymbol {\ mu}} ^ {\ mathsf {T}} {\ boldsymbol {\ Sigma}} ^ {- 1} {\ boldsymbol {\ mu}} + {\ frac {1} {2}} \ log \| {\ boldsymbol {\ Sigma}} \|}$
distribución categórica (variante 1)	${\ Displaystyle p_ {1}, \ \ ldots, \, p_ {k}}$ dónde ${\ Displaystyle \ textstyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}$	${\ Displaystyle {\ begin {bmatrix} \ log p_ {1} \\\ vdots \\\ log p_ {k} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} e ^ {\ eta _ {1}} \\\ vdots \\ e ^ {\ eta _ {k}} \ end {bmatrix}}}$ dónde ${\ Displaystyle \ textstyle \ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}} = 1}$	${\ Displaystyle 1}$	${\ displaystyle {\ begin {bmatrix} [x = 1] \\\ vdots \\ {[x = k]} \ end {bmatrix}}}$ ${\ Displaystyle [x = i]}$ es el soporte Iverson *	${\ Displaystyle 0}$	${\ Displaystyle 0}$
distribución categórica (variante 2)	${\ Displaystyle p_ {1}, \ \ ldots, \, p_ {k}}$ dónde ${\ Displaystyle \ textstyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}$	${\ Displaystyle {\ begin {bmatrix} \ log p_ {1} + C \\\ vdots \\\ log p_ {k} + C \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} {\ dfrac {1} {C}} e ^ {\ eta _ {1}} \\\ vdots \\ {\ dfrac {1} {C}} e ^ {\ eta _ {k}} \ end {bmatrix}} =}$ ${\ Displaystyle {\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}}} \ \ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}} } \ end {bmatrix}}}$ dónde ${\ Displaystyle \ textstyle \ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}} = C}$	${\ Displaystyle 1}$	${\ displaystyle {\ begin {bmatrix} [x = 1] \\\ vdots \\ {[x = k]} \ end {bmatrix}}}$ ${\ Displaystyle [x = i]}$ es el soporte Iverson *	${\ Displaystyle 0}$	${\ Displaystyle 0}$
distribución categórica (variante 3)	${\ Displaystyle p_ {1}, \ \ ldots, \, p_ {k}}$ dónde ${\ Displaystyle p_ {k} = 1- \ textstyle \ sum _ {i = 1} ^ {k-1} p_ {i}}$	${\ Displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {p_ {k}}} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac {p_ {k-1 }} {p_ {k}}} \\ [15pt] 0 \ end {bmatrix}} =}$ ${\ Displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac {p_ {k-1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [15pt] 0 \ end { bmatrix}}}$ Esta es la función softmax inversa , una generalización de la función logit .	${\ Displaystyle {\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}}} \ \ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}} } \ end {bmatrix}} =}$ ${\ Displaystyle {\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i} }}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k-1}}} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}}} \\ [15pt] {\ dfrac {1} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}} } \ end {bmatrix}}}$ Esta es la función softmax , una generalización de la función logística .	${\ Displaystyle 1}$	${\ displaystyle {\ begin {bmatrix} [x = 1] \\\ vdots \\ {[x = k]} \ end {bmatrix}}}$ ${\ Displaystyle [x = i]}$ es el soporte Iverson *	${\ Displaystyle \ log \ left (\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}} \ right) = \ log \ left (1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}} \ right)}$	${\ Displaystyle - \ log p_ {k} = - \ log \ left (1- \ sum _ {i = 1} ^ {k-1} p_ {i} \ right)}$
distribución multinomial (variante 1) con número conocido de ensayos ${\ Displaystyle n}$	${\ Displaystyle p_ {1}, \ \ ldots, \, p_ {k}}$ dónde ${\ Displaystyle \ textstyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}$	${\ Displaystyle {\ begin {bmatrix} \ log p_ {1} \\\ vdots \\\ log p_ {k} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} e ^ {\ eta _ {1}} \\\ vdots \\ e ^ {\ eta _ {k}} \ end {bmatrix}}}$ dónde ${\ Displaystyle \ textstyle \ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}} = 1}$	${\ displaystyle {\ frac {n!} {\ prod _ {i = 1} ^ {k} x_ {i}!}}}$	${\ displaystyle {\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}}}$	${\ Displaystyle 0}$	${\ Displaystyle 0}$
distribución multinomial (variante 2) con número conocido de ensayos ${\ Displaystyle n}$	${\ Displaystyle p_ {1}, \ \ ldots, \, p_ {k}}$ dónde ${\ Displaystyle \ textstyle \ sum _ {i = 1} ^ {k} p_ {i} = 1}$	${\ Displaystyle {\ begin {bmatrix} \ log p_ {1} + C \\\ vdots \\\ log p_ {k} + C \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} {\ dfrac {1} {C}} e ^ {\ eta _ {1}} \\\ vdots \\ {\ dfrac {1} {C}} e ^ {\ eta _ {k}} \ end {bmatrix}} =}$ ${\ Displaystyle {\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}}} \ \ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}} } \ end {bmatrix}}}$ dónde ${\ Displaystyle \ textstyle \ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}} = C}$	${\ displaystyle {\ frac {n!} {\ prod _ {i = 1} ^ {k} x_ {i}!}}}$	${\ displaystyle {\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}}}$	${\ Displaystyle 0}$	${\ Displaystyle 0}$
distribución multinomial (variante 3) con número conocido de ensayos ${\ Displaystyle n}$	${\ Displaystyle p_ {1}, \ \ ldots, \, p_ {k}}$ dónde ${\ Displaystyle p_ {k} = 1- \ textstyle \ sum _ {i = 1} ^ {k-1} p_ {i}}$	${\ Displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {p_ {k}}} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac {p_ {k-1 }} {p_ {k}}} \\ [15pt] 0 \ end {bmatrix}} =}$ ${\ Displaystyle {\ begin {bmatrix} \ log {\ dfrac {p_ {1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [10pt] \ vdots \\ [5pt] \ log {\ dfrac {p_ {k-1}} {1- \ sum _ {i = 1} ^ {k-1} p_ {i}}} \\ [15pt] 0 \ end { bmatrix}}}$	${\ Displaystyle {\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}}} \ \ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k}}} {\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}}} } \ end {bmatrix}} =}$ ${\ Displaystyle {\ begin {bmatrix} {\ dfrac {e ^ {\ eta _ {1}}} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i} }}} \\ [10pt] \ vdots \\ [5pt] {\ dfrac {e ^ {\ eta _ {k-1}}} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}}} \\ [15pt] {\ dfrac {1} {1+ \ sum _ {i = 1} ^ {k-1} e ^ {\ eta _ {i}}} } \ end {bmatrix}}}$	${\ displaystyle {\ frac {n!} {\ prod _ {i = 1} ^ {k} x_ {i}!}}}$	${\ displaystyle {\ begin {bmatrix} x_ {1} \\\ vdots \\ x_ {k} \ end {bmatrix}}}$	${\ Displaystyle n \ log \ left (\ sum _ {i = 1} ^ {k} e ^ {\ eta _ {i}} \ right) = n \ log \ left (1+ \ sum _ {i = 1 } ^ {k-1} e ^ {\ eta _ {i}} \ right)}$	${\ Displaystyle -n \ log p_ {k} = - n \ log \ left (1- \ sum _ {i = 1} ^ {k-1} p_ {i} \ right)}$
Distribución de Dirichlet (variante 1)	${\ Displaystyle \ alpha _ {1}, \ \ ldots, \, \ alpha _ {k}}$	${\ displaystyle {\ begin {bmatrix} \ alpha _ {1} \\\ vdots \\\ alpha _ {k} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} \\\ vdots \\\ eta _ {k} \ end {bmatrix}}}$	${\ Displaystyle {\ frac {1} {\ prod _ {i = 1} ^ {k} x_ {i}}}}$	${\ displaystyle {\ begin {bmatrix} \ log x_ {1} \\\ vdots \\\ log x_ {k} \ end {bmatrix}}}$	${\ Displaystyle \ sum _ {i = 1} ^ {k} \ log \ Gamma (\ eta _ {i}) - \ log \ Gamma \ left (\ sum _ {i = 1} ^ {k} \ eta _ {i} \ right)}$	${\ Displaystyle \ sum _ {i = 1} ^ {k} \ log \ Gamma (\ alpha _ {i}) - \ log \ Gamma \ left (\ sum _ {i = 1} ^ {k} \ alpha _ {i} \ right)}$
Distribución de Dirichlet (variante 2)	${\ Displaystyle \ alpha _ {1}, \ \ ldots, \, \ alpha _ {k}}$	${\ displaystyle {\ begin {bmatrix} \ alpha _ {1} -1 \\\ vdots \\\ alpha _ {k} -1 \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} \ eta _ {1} +1 \\\ vdots \\\ eta _ {k} +1 \ end {bmatrix}}}$	${\ Displaystyle 1}$	${\ displaystyle {\ begin {bmatrix} \ log x_ {1} \\\ vdots \\\ log x_ {k} \ end {bmatrix}}}$	${\ Displaystyle \ sum _ {i = 1} ^ {k} \ log \ Gamma (\ eta _ {i} +1) - \ log \ Gamma \ left (\ sum _ {i = 1} ^ {k} ( \ eta _ {i} +1) \ right)}$	${\ Displaystyle \ sum _ {i = 1} ^ {k} \ log \ Gamma (\ alpha _ {i}) - \ log \ Gamma \ left (\ sum _ {i = 1} ^ {k} \ alpha _ {i} \ right)}$
Distribución Wishart	${\ Displaystyle \ mathbf {V}, \ n}$	${\ Displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} \ mathbf {V} ^ {- 1} \\ [5pt] {\ dfrac {np-1} {2}} \ end { bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} {{\ boldsymbol {\ eta}} _ {1}} ^ {- 1} \\ [5pt] 2 \ eta _ {2 } + p + 1 \ end {bmatrix}}}$	${\ Displaystyle 1}$	${\ Displaystyle {\ begin {bmatrix} \ mathbf {X} \\\ log \| \ mathbf {X} \| \ end {bmatrix}}}$	${\ Displaystyle - \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) \ log \| - {\ boldsymbol {\ eta}} _ {1} \|}$ ${\ Displaystyle + \ log \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) =}$ ${\ Displaystyle - {\ frac {n} {2}} \ log \| - {\ boldsymbol {\ eta}} _ {1} \| + \ log \ Gamma _ {p} \ left ({\ frac {n} { 2}} \ right) =}$ ${\ Displaystyle \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2+ \ log \| \ mathbf {V} \|)}$ ${\ Displaystyle + \ log \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right)}$ Se dan tres variantes con diferentes parametrizaciones, para facilitar el cálculo de momentos de las estadísticas suficientes.	${\ Displaystyle {\ frac {n} {2}} (p \ log 2+ \ log \| \ mathbf {V} \|) + \ log \ Gamma _ {p} \ left ({\ frac {n} {2} }\derecho)}$
Distribución Wishart	Nota : utiliza el hecho de que ${\ Displaystyle {\ rm {tr}} (\ mathbf {A} ^ {\ mathsf {T}} \ mathbf {B}) = \ operatorname {vec} (\ mathbf {A}) \ cdot \ operatorname {vec} (\ mathbf {B}),}$ es decir, la traza de un producto de matriz es muy similar a un producto escalar . Se supone que los parámetros de la matriz están vectorizados (dispuestos en un vector) cuando se insertan en la forma exponencial. También, ${\ Displaystyle \ mathbf {V}}$ y ${\ Displaystyle \ mathbf {X}}$ son simétricos, por ejemplo ${\ Displaystyle \ mathbf {V} ^ {\ mathsf {T}} = \ mathbf {V} \.}$
distribución de Wishart inversa	${\ Displaystyle \ mathbf {\ Psi}, \, m}$	${\ displaystyle {\ begin {bmatrix} - {\ frac {1} {2}} {\ boldsymbol {\ Psi}} \\ [5pt] - {\ dfrac {m + p + 1} {2}} \ end {bmatrix}}}$	${\ displaystyle {\ begin {bmatrix} -2 {\ boldsymbol {\ eta}} _ {1} \\ [5pt] - (2 \ eta _ {2} + p + 1) \ end {bmatrix}}}$	${\ Displaystyle 1}$	${\ Displaystyle {\ begin {bmatrix} \ mathbf {X} ^ {- 1} \\\ log \| \ mathbf {X} \| \ end {bmatrix}}}$	${\ Displaystyle \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) \ log \| - {\ boldsymbol {\ eta}} _ {1} \|}$ ${\ Displaystyle + \ log \ Gamma _ {p} \ left (- {\ Big (} \ eta _ {2} + {\ frac {p + 1} {2}} {\ Big)} \ right) =}$ ${\ Displaystyle - {\ frac {m} {2}} \ log \| - {\ boldsymbol {\ eta}} _ {1} \| + \ log \ Gamma _ {p} \ left ({\ frac {m} { 2}} \ right) =}$ ${\ Displaystyle - \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2- \ log \| {\ boldsymbol {\ Psi}} \|)}$ ${\ Displaystyle + \ log \ Gamma _ {p} \ left (- {\ Big (} \ eta _ {2} + {\ frac {p + 1} {2}} {\ Big)} \ right)}$	${\ Displaystyle {\ frac {m} {2}} (p \ log 2- \ log \| {\ boldsymbol {\ Psi}} \|) + \ log \ Gamma _ {p} \ left ({\ frac {m} {2}} \ right)}$
distribución gamma normal	${\ Displaystyle \ alpha, \ \ beta, \ \ mu, \ \ lambda}$	${\ Displaystyle {\ begin {bmatrix} \ alpha - {\ frac {1} {2}} \\ - \ beta - {\ dfrac {\ lambda \ mu ^ {2}} {2}} \\\ lambda \ mu \\ - {\ dfrac {\ lambda} {2}} \ end {bmatrix}}}$	${\ Displaystyle {\ begin {bmatrix} \ eta _ {1} + {\ frac {1} {2}} \\ - \ eta _ {2} + {\ dfrac {\ eta _ {3} ^ {2} } {4 \ eta _ {4}}} \\ - {\ dfrac {\ eta _ {3}} {2 \ eta _ {4}}} \\ - 2 \ eta _ {4} \ end {bmatrix} }}$	${\ Displaystyle {\ dfrac {1} {\ sqrt {2 \ pi}}}}$	${\ displaystyle {\ begin {bmatrix} \ log \ tau \\\ tau \\\ tau x \\\ tau x ^ {2} \ end {bmatrix}}}$	${\ Displaystyle \ log \ Gamma \ left (\ eta _ {1} + {\ frac {1} {2}} \ right) - {\ frac {1} {2}} \ log \ left (-2 \ eta _ {4} \ derecha) -}$ ${\ Displaystyle - \ left (\ eta _ {1} + {\ frac {1} {2}} \ right) \ log \ left (- \ eta _ {2} + {\ dfrac {\ eta _ {3} ^ {2}} {4 \ eta _ {4}}} \ right)}$	${\ Displaystyle \ log \ Gamma \ left (\ alpha \ right) - \ alpha \ log \ beta - {\ frac {1} {2}} \ log \ lambda}$

* El corchete de Iverson es una generalización de la función delta discreta: si la expresión entre corchetes es verdadera, el corchete tiene valor 1; si la declaración adjunta es falsa, el corchete de Iverson es cero. Hay muchas notaciones variantes, por ejemplo, corchetes ondulados:

⧙ a = b ⧘es

equivalente a la notación

[a = b]

utilizada anteriormente.

Las tres variantes de la distribución categórica y la distribución multinomial se deben al hecho de que los parámetros ${\ Displaystyle p_ {i}}$ están restringidos, de modo que

{\ Displaystyle \ sum _ {i = 1} ^ {k} p_ {i} = 1 ~.}

Por lo tanto, solo hay ${\ Displaystyle k-1}$ parámetros independientes.

Usos de la variante 1 ${\ Displaystyle k}$ parámetros naturales con una relación simple entre los parámetros estándar y naturales; sin embargo, solo ${\ Displaystyle k-1}$ de los parámetros naturales son independientes, y el conjunto de ${\ Displaystyle k}$ los parámetros naturales no son identificables . La restricción de los parámetros habituales se traduce en una restricción similar de los parámetros naturales.
La variante 2 demuestra el hecho de que todo el conjunto de parámetros naturales no es identificable: la adición de cualquier valor constante a los parámetros naturales no tiene ningún efecto sobre la distribución resultante. Sin embargo, al usar la restricción sobre los parámetros naturales, la fórmula para los parámetros normales en términos de los parámetros naturales se puede escribir de una manera que sea independiente de la constante que se agrega.
La variante 3 muestra cómo hacer que los parámetros sean identificables de una manera conveniente configurando ${\ Displaystyle C = - \ log p_ {k} \.}$ Esto efectivamente "gira" alrededor ${\ Displaystyle p_ {k}}$ y hace que el último parámetro natural tenga el valor constante de 0. Todas las fórmulas restantes están escritas de una manera que no accede ${\ Displaystyle p_ {k} \}$ , de modo que efectivamente el modelo solo tiene ${\ Displaystyle k-1}$ parámetros, tanto de tipo habitual como natural.

Las variantes 1 y 2 no son en realidad familias exponenciales estándar en absoluto. Más bien son familias exponenciales curvas , es decir, hay ${\ Displaystyle k-1}$ parámetros independientes incrustados en un ${\ Displaystyle k}$ -espacio de parámetros dimensionales. ^[9] Muchos de los resultados estándar para familias exponenciales no se aplican a familias exponenciales curvas. Un ejemplo es la función de partición de registro ${\ Displaystyle A (x) \}$ , que tiene el valor de 0 en los casos curvos. En las familias exponenciales estándar, las derivadas de esta función corresponden a los momentos (más técnicamente, los acumulados ) de las estadísticas suficientes, por ejemplo, la media y la varianza. Sin embargo, un valor de 0 sugiere que la media y la varianza de todas las estadísticas suficientes son uniformemente 0, mientras que de hecho la media de la ${\ Displaystyle i}$ La estadística suficiente debe ser ${\ Displaystyle p_ {i} \}$ . (Esto surge correctamente cuando se usa la forma de ${\ Displaystyle A (x) \}$ mostrado en la variante 3.)

Momentos y acumulaciones de la estadística suficiente

Normalización de la distribución

Comenzamos con la normalización de la distribución de probabilidad. En general, cualquier función no negativa f ( x ) que sirva como el núcleo de una distribución de probabilidad (la parte que codifica toda la dependencia de x ) se puede convertir en una distribución adecuada normalizando : es decir

{\ Displaystyle p (x) = {\ frac {1} {Z}} f (x)}

dónde

{\ Displaystyle Z = \ int _ {x} f (x) \, dx.}

El factor Z a veces se denomina normalizador o función de partición , basado en una analogía con la física estadística .

En el caso de una familia exponencial donde

{\ Displaystyle p (x; {\ boldsymbol {\ eta}}) = g ({\ boldsymbol {\ eta}}) h (x) e ^ {{\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (X)},}

el kernel es

{\ Displaystyle K (x) = h (x) e ^ {{\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x)}}

y la función de partición es

{\ Displaystyle Z = \ int _ {x} h (x) e ^ {{\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x)} \, dx.}

Dado que la distribución debe normalizarse, tenemos

{\ Displaystyle 1 = \ int _ {x} g ({\ boldsymbol {\ eta}}) h (x) e ^ {{\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x)} \, dx = g ({\ boldsymbol {\ eta}}) \ int _ {x} h (x) e ^ {{\ boldsymbol {\ eta}} \ cdot \ mathbf {T} (x)} \, dx = g ({\ boldsymbol {\ eta}}) Z.}

En otras palabras,

{\ displaystyle g ({\ boldsymbol {\ eta}}) = {\ frac {1} {Z}}}

o equivalente

{\ Displaystyle A ({\ boldsymbol {\ eta}}) = - \ log g ({\ boldsymbol {\ eta}}) = \ log Z.}

Esto justifica llamar a A la función log-normalizer o log-partition .

Función generadora de momento de la estadística suficiente

Ahora, la función generadora de momento de T ( x ) es

{\ Displaystyle M_ {T} (u) \ equiv E [e ^ {u ^ {\ top} T (x)} \ mid \ eta] = \ int _ {x} h (x) e ^ {(\ eta + u) ^ {\ top} T (x) -A (\ eta)} \, dx = e ^ {A (\ eta + u) -A (\ eta)}}

probando la afirmación anterior de que

{\ Displaystyle K (u \ mid \ eta) = A (\ eta + u) -A (\ eta)}

es la función de generación de cumulante para T .

Una subclase importante de familias exponenciales son las familias exponenciales naturales , que tienen una forma similar para la función generadora de momentos para la distribución de x .

Identidades diferenciales para acumuladores

En particular, utilizando las propiedades de la función de generación acumulada,

{\ estilo de visualización \ nombre del operador {E} (T_ {j}) = {\ frac {\ A parcial (\ eta)} {\ parcial \ eta _ {j}}}}

y

{\ Displaystyle \ operatorname {cov} \ left (T_ {i}, T_ {j} \ right) = {\ frac {\ parcial ^ {2} A (\ eta)} {\ parcial \ eta _ {i} \ , \ parcial \ eta _ {j}}}.}

Los dos primeros momentos crudos y todos los segundos momentos mixtos se pueden recuperar de estas dos identidades. Los momentos de orden superior y los acumulados se obtienen mediante derivadas superiores. Esta técnica suele ser útil cuando T es una función complicada de los datos, cuyos momentos son difíciles de calcular por integración.

Otra forma de ver esto que no se basa en la teoría de los acumulantes es partir del hecho de que la distribución de una familia exponencial debe normalizarse y diferenciarse. Ilustramos usando el caso simple de un parámetro unidimensional, pero una derivación análoga es válida de manera más general.

En el caso unidimensional, tenemos

{\ Displaystyle p (x) = g (\ eta) h (x) e ^ {\ eta T (x)}.}

Esto debe normalizarse, por lo que

{\ Displaystyle 1 = \ int _ {x} p (x) \, dx = \ int _ {x} g (\ eta) h (x) e ^ {\ eta T (x)} \, dx = g ( \ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx.}

Tome la derivada de ambos lados con respecto a η :

{\ Displaystyle {\ begin {alineado} 0 & = g (\ eta) {\ frac {d} {d \ eta}} \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx + g '(\ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx \\ & = g (\ eta) \ int _ {x} h (x) \ left ({\ frac {d} {d \ eta}} e ^ {\ eta T (x)} \ right) \, dx + g '(\ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx \\ & = g (\ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} T (x) \, dx + g ' (\ eta) \ int _ {x} h (x) e ^ {\ eta T (x)} \, dx \\ & = \ int _ {x} T (x) g (\ eta) h (x) e ^ {\ eta T (x)} \, dx + {\ frac {g '(\ eta)} {g (\ eta)}} \ int _ {x} g (\ eta) h (x) e ^ { \ eta T (x)} \, dx \\ & = \ int _ {x} T (x) p (x) \, dx + {\ frac {g '(\ eta)} {g (\ eta)}} \ int _ {x} p (x) \, dx \\ & = \ operatorname {E} [T (x)] + {\ frac {g '(\ eta)} {g (\ eta)}} \\ & = \ nombre de operador {E} [T (x)] + {\ frac {d} {d \ eta}} \ log g (\ eta) \ end {alineado}}}

Por lo tanto,

{\ Displaystyle \ operatorname {E} [T (x)] = - {\ frac {d} {d \ eta}} \ log g (\ eta) = {\ frac {d} {d \ eta}} A ( \ eta).}

Ejemplo 1

Como ejemplo introductorio, considere la distribución gamma , cuya distribución está definida por

{\ displaystyle p (x) = {\ frac {\ beta ^ {\ alpha}} {\ Gamma (\ alpha)}} x ^ {\ alpha -1} e ^ {- \ beta x}.}

Refiriéndonos a la tabla anterior, podemos ver que el parámetro natural viene dado por

{\ Displaystyle \ eta _ {1} = \ alpha -1,}

{\ Displaystyle \ eta _ {2} = - \ beta,}

las sustituciones inversas son

{\ Displaystyle \ alpha = \ eta _ {1} +1,}

{\ Displaystyle \ beta = - \ eta _ {2},}

las estadísticas suficientes son ${\ Displaystyle (\ log x, x),}$ y la función de partición de registro es

{\ Displaystyle A (\ eta _ {1}, \ eta _ {2}) = \ log \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} +1) \ log (- \ eta _ {2}).}

Podemos encontrar la media de las estadísticas suficientes de la siguiente manera. Primero, para η ₁ :

{\ Displaystyle {\ begin {alineado} \ operatorname {E} [\ log x] & = {\ frac {\ A parcial (\ eta _ {1}, \ eta _ {2})} {\ parcial \ eta _ {1}}} = {\ frac {\ parcial} {\ parcial \ eta _ {1}}} \ izquierda (\ log \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} + 1) \ log (- \ eta _ {2}) \ right) \\ & = \ psi (\ eta _ {1} +1) - \ log (- \ eta _ {2}) \\ & = \ psi (\ alpha) - \ log \ beta, \ end {alineado}}}

Dónde ${\ Displaystyle \ psi (x)}$ es la función digamma (derivada de log gamma), y usamos las sustituciones inversas en el último paso.

Ahora, para η ₂ :

{\ Displaystyle {\ begin {alineado} \ operatorname {E} [x] & = {\ frac {\ A parcial (\ eta _ {1}, \ eta _ {2})} {\ parcial \ eta _ {2 }}} = {\ frac {\ parcial} {\ parcial \ eta _ {2}}} \ izquierda (\ log \ Gamma (\ eta _ {1} +1) - (\ eta _ {1} +1) \ log (- \ eta _ {2}) \ right) \\ & = - (\ eta _ {1} +1) {\ frac {1} {- \ eta _ {2}}} (- 1) = {\ frac {\ eta _ {1} +1} {- \ eta _ {2}}} \\ & = {\ frac {\ alpha} {\ beta}}, \ end {alineado}}}

nuevamente haciendo la sustitución inversa en el último paso.

Para calcular la varianza de x , simplemente diferenciamos nuevamente:

{\ Displaystyle {\ begin {alineado} \ operatorname {Var} (x) & = {\ frac {\ partial ^ {2} A \ left (\ eta _ {1}, \ eta _ {2} \ right)} {\ parcial \ eta _ {2} ^ {2}}} = {\ frac {\ parcial} {\ parcial \ eta _ {2}}} {\ frac {\ eta _ {1} +1} {- \ eta _ {2}}} \\ & = {\ frac {\ eta _ {1} +1} {\ eta _ {2} ^ {2}}} \\ & = {\ frac {\ alpha} {\ beta ^ {2}}}. \ end {alineado}}}

Todos estos cálculos se pueden realizar mediante la integración, haciendo uso de varias propiedades de la función gamma , pero esto requiere mucho más trabajo.

Ejemplo 2

Como otro ejemplo, considere una variable aleatoria de valor real X con densidad

{\ Displaystyle p _ {\ theta} (x) = {\ frac {\ theta e ^ {- x}} {\ left (1 + e ^ {- x} \ right) ^ {\ theta +1}}}}

indexado por parámetro de forma ${\ Displaystyle \ theta \ in (0, \ infty)}$ (esto se llama distribución logística sesgada ). La densidad se puede reescribir como

{\ Displaystyle {\ frac {e ^ {- x}} {1 + e ^ {- x}}} \ exp \ left (- \ theta \ log \ left (1 + e ^ {- x} \ right) + \ log (\ theta) \ right)}

Tenga en cuenta que esta es una familia exponencial con parámetro natural

{\ Displaystyle \ eta = - \ theta,}

estadística suficiente

{\ Displaystyle T = \ log \ left (1 + e ^ {- x} \ right),}

y función de partición de registro

{\ Displaystyle A (\ eta) = - \ log (\ theta) = - \ log (- \ eta)}

Entonces, usando la primera identidad,

{\ estilo de visualización \ nombre del operador {E} (\ log (1 + e ^ {- X})) = \ nombre del operador {E} (T) = {\ frac {\ A (\ eta)} {\ parcial \ eta} } = {\ frac {\ parcial} {\ parcial \ eta}} [- \ log (- \ eta)] = {\ frac {1} {- \ eta}} = {\ frac {1} {\ theta} },}

y usando la segunda identidad

{\ Displaystyle \ operatorname {var} (\ log \ left (1 + e ^ {- X} \ right)) = {\ frac {\ parcial ^ {2} A (\ eta)} {\ parcial \ eta ^ { 2}}} = {\ frac {\ parcial} {\ parcial \ eta}} \ izquierda [{\ frac {1} {- \ eta}} \ derecha] = {\ frac {1} {(- \ eta) ^ {2}}} = {\ frac {1} {\ theta ^ {2}}}.}

Este ejemplo ilustra un caso en el que usar este método es muy simple, pero el cálculo directo sería casi imposible.

Ejemplo 3

El último ejemplo es uno en el que la integración sería extremadamente difícil. Este es el caso de la distribución de Wishart , que se define sobre matrices. Incluso tomar derivadas es un poco complicado, ya que implica cálculo matricial , pero las identidades respectivas se enumeran en ese artículo.

De la tabla anterior, podemos ver que el parámetro natural viene dado por

{\ displaystyle {\ boldsymbol {\ eta}} _ {1} = - {\ frac {1} {2}} \ mathbf {V} ^ {- 1},}

{\ Displaystyle \ eta _ {2} = {\ frac {np-1} {2}},}

las sustituciones inversas son

{\ Displaystyle \ mathbf {V} = - {\ frac {1} {2}} {{\ boldsymbol {\ eta}} _ {1}} ^ {- 1},}

{\ Displaystyle n = 2 \ eta _ {2} + p + 1,}

y las estadísticas suficientes son ${\ Displaystyle (\ mathbf {X}, \ log | \ mathbf {X} |).}$

La función de partición de registro está escrita en varias formas en la tabla, para facilitar la diferenciación y la sustitución hacia atrás. Usamos los siguientes formularios:

{\ displaystyle A ({\ boldsymbol {\ eta}} _ {1}, n) = - {\ frac {n} {2}} \ log | - {\ boldsymbol {\ eta}} _ {1} | + \ log \ Gamma _ {p} \ left ({\ frac {n} {2}} \ right),}

{\ Displaystyle A (\ mathbf {V}, \ eta _ {2}) = \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2+ \ log | \ mathbf {V} |) + \ log \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ right).}

Expectativa de X (asociada con η ₁ )

Para diferenciar con respecto a η ₁ , necesitamos la siguiente identidad de cálculo matricial :

{\ Displaystyle {\ frac {\ parcial \ log | a \ mathbf {X} |} {\ parcial \ mathbf {X}}} = (\ mathbf {X} ^ {- 1}) ^ {\ rm {T} }}

Luego:

{\ Displaystyle {\ begin {alineado} \ operatorname {E} [\ mathbf {X}] & = {\ frac {\ parcial A \ left ({\ boldsymbol {\ eta}} _ {1}, \ cdots \ right )} {\ parcial {\ boldsymbol {\ eta}} _ {1}}} \\ & = {\ frac {\ parcial} {\ parcial {\ boldsymbol {\ eta}} _ {1}}} \ izquierda [ - {\ frac {n} {2}} \ log | - {\ boldsymbol {\ eta}} _ {1} | + \ log \ Gamma _ {p} \ left ({\ frac {n} {2}} \ right) \ right] \\ & = - {\ frac {n} {2}} ({\ boldsymbol {\ eta}} _ {1} ^ {- 1}) ^ {\ rm {T}} \\ & = {\ frac {n} {2}} (- {\ boldsymbol {\ eta}} _ {1} ^ {- 1}) ^ {\ rm {T}} \\ & = n (\ mathbf {V }) ^ {\ rm {T}} \\ & = n \ mathbf {V} \ end {alineado}}}

La última línea usa el hecho de que V es simétrico y, por lo tanto, es el mismo cuando se transpone.

Expectativa de registro | X | (asociado con η ₂ )

Ahora, para η ₂ , primero necesitamos expandir la parte de la función de partición logarítmica que involucra la función gamma multivariante :

{\ Displaystyle \ log \ Gamma _ {p} (a) = \ log \ left (\ pi ^ {\ frac {p (p-1)} {4}} \ prod _ {j = 1} ^ {p} \ Gamma \ left (a + {\ frac {1-j} {2}} \ right) \ right) = {\ frac {p (p-1)} {4}} \ log \ pi + \ sum _ {j = 1} ^ {p} \ log \ Gamma \ left [a + {\ frac {1-j} {2}} \ right]}

También necesitamos la función digamma :

{\ Displaystyle \ psi (x) = {\ frac {d} {dx}} \ log \ Gamma (x).}

Luego:

{\ Displaystyle {\ begin {alineado} \ operatorname {E} [\ log | \ mathbf {X} |] & = {\ frac {\ parcial A \ left (\ ldots, \ eta _ {2} \ right)} {\ parcial \ eta _ {2}}} \\ & = {\ frac {\ parcial} {\ parcial \ eta _ {2}}} \ izquierda [- \ izquierda (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2+ \ log | \ mathbf {V} |) + \ log \ Gamma _ {p} \ left (\ eta _ {2} + {\ frac {p + 1} {2}} \ derecha) \ derecha] \\ & = {\ frac {\ parcial} {\ parcial \ eta _ {2}}} \ izquierda [\ izquierda (\ eta _ {2} + {\ frac {p + 1} {2}} \ right) (p \ log 2+ \ log | \ mathbf {V} |) + {\ frac {p (p-1)} {4}} \ log \ pi + \ sum _ {j = 1} ^ {p} \ log \ Gamma \ left (\ eta _ {2} + {\ frac {p + 1} {2}} + {\ frac {1-j} { 2}} \ derecha) \ derecha] \\ & = p \ log 2+ \ log | \ mathbf {V} | + \ sum _ {j = 1} ^ {p} \ psi \ left (\ eta _ {2 } + {\ frac {p + 1} {2}} + {\ frac {1-j} {2}} \ right) \\ & = p \ log 2+ \ log | \ mathbf {V} | + \ suma _ {j = 1} ^ {p} \ psi \ left ({\ frac {np-1} {2}} + {\ frac {p + 1} {2}} + {\ frac {1-j} {2}} \ right) \\ & = p \ log 2+ \ log | \ mathbf {V} | + \ sum _ {j = 1} ^ {p} \ psi \ left ({\ frac {n + 1 -j} {2}} \ derecha) \ end {alineado}}}

Esta última fórmula se enumera en el artículo de distribución de Wishart . Ambas expectativas son necesarias al derivar las ecuaciones de actualización de Bayes variacionales en una red de Bayes que implica una distribución de Wishart (que es el conjugado previo de la distribución normal multivariante ).

Calcular estas fórmulas mediante la integración sería mucho más difícil. El primero, por ejemplo, requeriría integración matricial.

Entropía

Entropía relativa

La entropía relativa ( divergencia de Kullback-Leibler , divergencia de KL) de dos distribuciones en una familia exponencial tiene una expresión simple como la divergencia de Bregman entre los parámetros naturales con respecto al normalizador logarítmico. ^[10] La entropía relativa se define en términos de una integral, mientras que la divergencia de Bregman se define en términos de una derivada y un producto interno, por lo que es más fácil de calcular y tiene una expresión de forma cerrada (asumiendo que la derivada tiene una expresión de forma). Además, la divergencia de Bregman en términos de los parámetros naturales y el normalizador logarítmico es igual a la divergencia de Bregman de los parámetros duales (parámetros de expectativa), en el orden opuesto, para la función conjugada convexa .

Arreglando una familia exponencial con log-normalizer ${\ Displaystyle A}$ (con conjugado convexo ${\ Displaystyle A ^ {*}}$ ), escritura ${\ Displaystyle P_ {A, \ theta}}$ para la distribución en esta familia correspondiente a un valor fijo del parámetro natural ${\ Displaystyle \ theta}$ (escritura ${\ Displaystyle \ theta '}$ por otro valor, y con ${\ Displaystyle \ eta, \ eta '}$ para los correspondientes parámetros duales de expectativa / momento), escribiendo $KL$ para la divergencia KL, y ${\ Displaystyle B_ {A}}$ para la divergencia de Bregman, las divergencias se relacionan como:

{\ Displaystyle \ mathrm {KL} (P_ {A, \ theta} \ paralelo P_ {A, \ theta '}) = B_ {A} (\ theta' \ paralelo \ theta) = B_ {A ^ {*}} (\ eta \ paralelo \ eta ').}

La divergencia KL se escribe convencionalmente con respecto al primer parámetro, mientras que la divergencia de Bregman se escribe convencionalmente con respecto al segundo parámetro, y por lo tanto esto se puede leer como "la entropía relativa es igual a la divergencia de Bregman definida por el normalizador logarítmico en los parámetros naturales intercambiados ", o equivalentemente como" igual a la divergencia de Bregman definida por el dual al logaritmo normalizador en los parámetros esperados ".

Derivación máxima de entropía

Las familias exponenciales surgen naturalmente como respuesta a la siguiente pregunta: ¿cuál es la distribución de máxima entropía consistente con las restricciones dadas sobre los valores esperados?

La entropía de información de una distribución de probabilidad dF ( x ) solo se puede calcular con respecto a alguna otra distribución de probabilidad (o, más generalmente, una medida positiva), y ambas medidas deben ser mutuamente absolutamente continuas . En consecuencia, necesitamos elegir una medida de referencia dH ( x ) con el mismo soporte que dF ( x ).

La entropía de dF ( x ) relativa a dH ( x ) es

{\ Displaystyle S [dF \ mid dH] = - \ int {\ frac {dF} {dH}} \ log {\ frac {dF} {dH}} \, dH}

o

{\ Displaystyle S [dF \ mid dH] = \ int \ log {\ frac {dH} {dF}} \, dF}

donde dF / dH y dH / dF son derivados del radón-Nikodym . La definición ordinaria de entropía para una distribución discreta apoyada en un conjunto I , a saber

{\ Displaystyle S = - \ sum _ {i \ in I} p_ {i} \ log p_ {i}}

asume , aunque esto rara vez es a cabo en punta, que dH es elegida para ser la medida de recuento en I .

Considere ahora una colección de cantidades observables (variables aleatorias) T _i . La distribución de probabilidad dF cuya entropía con respecto a dH es mayor, sujeto a las condiciones de que el valor esperado de T _i sea igual a t _i , es una familia exponencial con dH como medida de referencia y ( T ₁ , ..., T _n ) como estadística suficiente.

La derivación es un cálculo variacional simple usando multiplicadores de Lagrange . La normalización se impone dejando que T ₀ = 1 sea una de las restricciones. Los parámetros naturales de la distribución son los multiplicadores de Lagrange y el factor de normalización es el multiplicador de Lagrange asociado a T ₀ .

Para ver ejemplos de tales derivaciones, consulte Distribución de probabilidad de entropía máxima .

Papel en las estadísticas

Estimación clásica: suficiencia

Según el teorema de Pitman - Koopman - Darmois , entre familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se estima, solo en familias exponenciales existe una estadística suficiente cuya dimensión permanece acotada a medida que aumenta el tamaño de la muestra.

De manera menos sucinta, suponga que X _k (donde k = 1, 2, 3, ... n ) son variables aleatorias independientes distribuidas de manera idéntica. Sólo si su distribución es una de la familia exponencial de distribuciones, existe un estadístico T suficiente ( X ₁ , ..., X _n ) cuyo número de componentes escalares no aumenta a medida que aumenta el tamaño de la muestra n ; el estadístico T puede ser un vector o un solo número escalar , pero sea lo que sea, su tamaño no aumentará ni disminuirá cuando se obtengan más datos.

Como contraejemplo, si estas condiciones se relajan, la familia de distribuciones uniformes (ya sea discreta o continua , con uno o ambos límites desconocidos) tiene una estadística suficiente, es decir, el máximo de la muestra, el mínimo de la muestra y el tamaño de la muestra, pero no forma un exponencial. familia, ya que el dominio varía con los parámetros.

Estimación bayesiana: distribuciones conjugadas

Las familias exponenciales también son importantes en las estadísticas bayesianas . En la estadística bayesiana, una distribución previa se multiplica por una función de verosimilitud y luego se normaliza para producir una distribución posterior . En el caso de una verosimilitud que pertenece a una familia exponencial, existe un previo conjugado , que a menudo también está en una familia exponencial. Un π previo conjugado para el parámetro ${\ displaystyle {\ boldsymbol {\ eta}}}$ de una familia exponencial

{\ displaystyle f (x \ mid {\ boldsymbol {\ eta}}) = h (x) \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ mathbf {T} (x ) -A ({\ boldsymbol {\ eta}}) \ derecha)}

es dado por

{\ Displaystyle p _ {\ pi} ({\ boldsymbol {\ eta}} \ mid {\ boldsymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}} - \ nu A ({\ boldsymbol {\ eta}}) \ right),}

o equivalente

{\ Displaystyle p _ {\ pi} ({\ boldsymbol {\ eta}} \ mid {\ boldsymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}} \ right), \ qquad {\ boldsymbol {\ chi}} \ in \ mathbb {R} ^ {s}}

donde s es la dimensión de ${\ displaystyle {\ boldsymbol {\ eta}}}$ y ${\ Displaystyle \ nu> 0}$ y ${\ displaystyle {\ boldsymbol {\ chi}}}$ son hiperparámetros (parámetros que controlan los parámetros). ${\ Displaystyle \ nu}$ corresponde al número efectivo de observaciones que aporta la distribución anterior, y ${\ displaystyle {\ boldsymbol {\ chi}}}$ corresponde a la cantidad total que estas pseudo-observaciones contribuyen a la estadística suficiente sobre todas las observaciones y pseudo-observaciones. ${\ displaystyle f ({\ boldsymbol {\ chi}}, \ nu)}$ es una constante de normalización que se determina automáticamente por las funciones restantes y sirve para asegurar que la función dada es una función de densidad de probabilidad (es decir, está normalizada ). ${\ Displaystyle A ({\ boldsymbol {\ eta}})}$ y equivalentemente ${\ Displaystyle g ({\ boldsymbol {\ eta}})}$ son las mismas funciones que en la definición de la distribución sobre la cual π es el conjugado previo.

Un previo conjugado es aquel que, cuando se combina con la probabilidad y se normaliza, produce una distribución posterior que es del mismo tipo que el anterior. Por ejemplo, si uno está estimando la probabilidad de éxito de una distribución binomial, entonces si elige usar una distribución beta como anterior, la posterior es otra distribución beta. Esto hace que el cálculo de la parte posterior sea particularmente simple. De manera similar, si se está estimando el parámetro de una distribución de Poisson, el uso de una gamma anterior conducirá a otra gamma posterior. Los anteriores conjugados suelen ser muy flexibles y pueden resultar muy convenientes. Sin embargo, si la creencia de uno sobre el valor probable del parámetro theta de un binomio está representada por (digamos) una distribución previa bimodal (dos jorobas), entonces esto no puede ser representado por una distribución beta. Sin embargo, se puede representar usando una densidad de mezcla como la anterior, aquí una combinación de dos distribuciones beta; esta es una forma de hiperprior .

Una probabilidad arbitraria no pertenecerá a una familia exponencial y, por tanto, en general, no existe un previo conjugado. El posterior deberá entonces calcularse mediante métodos numéricos.

Para mostrar que la distribución anterior anterior es un prior conjugado, podemos derivar el posterior.

Primero, suponga que la probabilidad de una sola observación sigue una familia exponencial, parametrizada usando su parámetro natural:

{\ displaystyle p_ {F} (x \ mid {\ boldsymbol {\ eta}}) = h (x) g ({\ boldsymbol {\ eta}}) \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ mathbf {T} (x) \ right)}

Entonces, para datos ${\ Displaystyle \ mathbf {X} = (x_ {1}, \ ldots, x_ {n})}$ , la probabilidad se calcula de la siguiente manera:

{\ Displaystyle p (\ mathbf {X} \ mid {\ boldsymbol {\ eta}}) = \ left (\ prod _ {i = 1} ^ {n} h (x_ {i}) \ right) g ({ \ boldsymbol {\ eta}}) ^ {n} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ derecha)}

Entonces, para el conjugado anterior anterior:

{\ displaystyle {\ begin {alineado} p _ {\ pi} ({\ boldsymbol {\ eta}} \ mid {\ boldsymbol {\ chi}}, \ nu) & = f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \ propto g ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \ end {alineado}}}

Entonces podemos calcular el posterior de la siguiente manera:

{\ Displaystyle {\ begin {alineado} p ({\ boldsymbol {\ eta}} \ mid \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) & \ propto p (\ mathbf {X} \ mid {\ boldsymbol {\ eta}}) p _ {\ pi} ({\ boldsymbol {\ eta}} \ mid {\ boldsymbol {\ chi}}, \ nu) \\ & = \ left (\ prod _ {i = 1} ^ {n} h (x_ {i}) \ right) g ({\ boldsymbol {\ eta}}) ^ {n} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm { T}} \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ right) f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \\ & \ propto g ({\ boldsymbol {\ eta }}) ^ {n} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i} ) \ right) g ({\ boldsymbol {\ eta}}) ^ {\ nu} \ exp ({\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}) \\ & \ propto g ({\ boldsymbol {\ eta}}) ^ {\ nu + n} \ exp \ left ({\ boldsymbol {\ eta}} ^ {\ rm {T}} \ left ({\ boldsymbol {\ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \ right) \ right) \ end {alineado}}}

La última línea es el núcleo de la distribución posterior, es decir

{\ Displaystyle p ({\ boldsymbol {\ eta}} \ mid \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) = p _ {\ pi} \ left ({\ boldsymbol {\ eta}} \ mid {\ boldsymbol {\ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}), \ nu + n \ right)}

Esto muestra que la parte posterior tiene la misma forma que la anterior.

Los datos X entran en esta ecuación solo en la expresión

{\ Displaystyle \ mathbf {T} (\ mathbf {X}) = \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}),}

que se denomina estadística suficiente de los datos. Es decir, el valor del estadístico suficiente es suficiente para determinar completamente la distribución posterior. Los puntos de datos reales en sí mismos no son necesarios, y todos los conjuntos de puntos de datos con la misma estadística suficiente tendrán la misma distribución. Esto es importante porque la dimensión de la estadística suficiente no crece con el tamaño de los datos; solo tiene tantos componentes como los componentes de ${\ displaystyle {\ boldsymbol {\ eta}}}$ (de manera equivalente, el número de parámetros de la distribución de un solo punto de datos).

Las ecuaciones de actualización son las siguientes:

{\ displaystyle {\ begin {alineado} {\ boldsymbol {\ chi}} '& = {\ boldsymbol {\ chi}} + \ mathbf {T} (\ mathbf {X}) \\ & = {\ boldsymbol {\ chi}} + \ sum _ {i = 1} ^ {n} \ mathbf {T} (x_ {i}) \\\ nu '& = \ nu + n \ end {alineado}}}

Esto muestra que las ecuaciones de actualización se pueden escribir simplemente en términos del número de puntos de datos y la estadística suficiente de los datos. Esto se puede ver claramente en los diversos ejemplos de ecuaciones de actualización que se muestran en la página anterior conjugada . Debido a la forma en que se calcula la estadística suficiente, necesariamente involucra sumas de componentes de los datos (en algunos casos disfrazados de productos u otras formas; un producto puede escribirse en términos de una suma de logaritmos ). Los casos en los que las ecuaciones de actualización para distribuciones particulares no coinciden exactamente con las formas anteriores son casos en los que el previo conjugado se ha expresado utilizando una parametrización diferente a la que produce un previo conjugado de la forma anterior, a menudo específicamente porque la forma anterior es definido sobre el parámetro natural ${\ displaystyle {\ boldsymbol {\ eta}}}$ mientras que los previos conjugados generalmente se definen sobre el parámetro real ${\ displaystyle {\ boldsymbol {\ theta}}.}$

Prueba de hipótesis: pruebas uniformemente más potentes

Una familia exponencial de un parámetro tiene una razón de verosimilitud monótona no decreciente en el estadístico suficiente T ( x ), siempre que η ( θ ) no sea decreciente. Como consecuencia, existe una prueba uniformemente más potente para probar la hipótesis H ₀ : theta ≥ theta ₀ vs . H ₁ : θ < θ ₀ .

Modelos lineales generalizados

Las familias exponenciales forman la base de las funciones de distribución utilizadas en los modelos lineales generalizados , una clase de modelo que abarca muchos de los modelos de regresión comúnmente utilizados en estadística.

Ver también

Familia exponencial natural
Modelo de dispersión exponencial
Medida de Gibbs

Notas al pie

^ Por ejemplo, la familia de distribuciones normales incluye la distribución normal estándar N (0, 1) con media 0 y varianza 1, así como otras distribuciones normales con media y varianza diferentes.
^ "Función de partición" se utiliza a menudo en estadística como sinónimo de "factor de normalización".
^ Estas distribuciones a menudo no son familias exponenciales en sí mismas. Los ejemplos más comunes de las familias no exponenciales que surgen de las exponenciales son los de Student t -distribución , distribución beta-binomial y la distribución de Dirichlet-multinomial .

Referencias

Citas

^ Kupperman, M. (1958). "Probabilidades de hipótesis y estadísticas de información en muestreo de poblaciones de clase exponencial" . Anales de estadística matemática . 9 (2): 571–575. doi : 10.1214 / aoms / 1177706633 . JSTOR 2237349 .
^ Andersen, Erling (septiembre de 1970). "Suficiencia y familias exponenciales para espacios muestrales discretos". Revista de la Asociación Estadounidense de Estadística . Revista de la Asociación Estadounidense de Estadística. 65 (331): 1248-1255. doi : 10.2307 / 2284291 . JSTOR 2284291 . Señor 0268992 .
^ Pitman, E .; Wishart, J. (1936). "Estadísticas suficientes y precisión intrínseca". Procedimientos matemáticos de la Sociedad Filosófica de Cambridge . 32 (4): 567–579. Código Bibliográfico : 1936PCPS ... 32..567P . doi : 10.1017 / S0305004100019307 .
^ Darmois, G. (1935). "Sur les lois de probabilites una estimación exhaustiva". CR Acad. Sci. París (en francés). 200 : 1265-1266.
^ Koopman, B. (1936). "Sobre la distribución admitiendo una estadística suficiente" . Transacciones de la American Mathematical Society . Sociedad Matemática Estadounidense . 39 (3): 399–409. doi : 10.2307 / 1989758 . JSTOR 1989758 . Señor 1501854 .
^ Abramovich y Ritov (2013). Teoría estadística: una introducción concisa . Chapman y Hall. ISBN 978-1439851845.
^ Blei, David. "Inferencia variacional" (PDF) . Princeton U.
^ Nielsen, Frank; García, Vincent (2009). "Familias exponenciales estadísticas: un resumen con tarjetas". arXiv : 0911.4863 [ cs.LG ].
^ van Garderen, Kees Jan (1997). "Modelos exponenciales curvos en econometría". Teoría econométrica . 13 (6): 771–790. doi : 10.1017 / S0266466600006253 .
^ Nielsen y Nock 2010 , 4. Divergencias de Bregman y entropía relativa de familias exponenciales.

Fuentes

Nielsen, Frank; García, Vincent (2009). "Familias exponenciales estadísticas: un resumen con tarjetas". arXiv : 0911.4863 . Código Bibliográfico : 2009arXiv0911.4863N .
Nielsen, Frank; Nock, Richard (2010). Entropías y entropías cruzadas de familias exponenciales (PDF) . Conferencia internacional IEEE sobre procesamiento de imágenes. doi : 10.1109 / ICIP.2010.5652054 . Archivado desde el original (PDF) el 31 de marzo de 2019.

Otras lecturas

Fahrmeir, Ludwig; Tutz, G. (1994). Modelado estadístico multivariante basado en modelos lineales generalizados . Saltador. págs. 18-22, 345-349. ISBN 0-387-94233-5.
Keener, Robert W. (2006). Estadística teórica: temas para un curso básico . Saltador. págs. 27-28, 32-33. ISBN 978-0-387-93838-7.
Lehmann, EL; Casella, G. (1998). Teoría de la estimación puntual (2ª ed.). segundo. 1.5. ISBN 0-387-98502-6.

enlaces externos

Una introducción a la familia exponencial de distribuciones
Familia exponencial de distribuciones sobre los primeros usos conocidos de algunas de las palabras de las matemáticas
jMEF: una biblioteca de Java para familias exponenciales

[2] Por ejemplo, la familia de distribuciones normales incluye la distribución normal estándar N (0, 1) con media 0 y varianza 1, así como otras distribuciones normales con media y varianza diferentes.

[8] "Función de partición" se utiliza a menudo en estadística como sinónimo de "factor de normalización".

[9] Estas distribuciones a menudo no son familias exponenciales en sí mismas. Los ejemplos más comunes de las familias no exponenciales que surgen de las exponenciales son los de Student t -distribución , distribución beta-binomial y la distribución de Dirichlet-multinomial .

[1] Kupperman, M. (1958). "Probabilidades de hipótesis y estadísticas de información en muestreo de poblaciones de clase exponencial" . Anales de estadística matemática . 9 (2): 571–575. doi : 10.1214 / aoms / 1177706633 . JSTOR 2237349 .

[3] Andersen, Erling (septiembre de 1970). "Suficiencia y familias exponenciales para espacios muestrales discretos". Revista de la Asociación Estadounidense de Estadística . Revista de la Asociación Estadounidense de Estadística. 65 (331): 1248-1255. doi : 10.2307 / 2284291 . JSTOR 2284291 . Señor 0268992 .

[4] Pitman, E .; Wishart, J. (1936). "Estadísticas suficientes y precisión intrínseca". Procedimientos matemáticos de la Sociedad Filosófica de Cambridge . 32 (4): 567–579. Código Bibliográfico : 1936PCPS ... 32..567P . doi : 10.1017 / S0305004100019307 .

[5] Darmois, G. (1935). "Sur les lois de probabilites una estimación exhaustiva". CR Acad. Sci. París (en francés). 200 : 1265-1266.

[6] Koopman, B. (1936). "Sobre la distribución admitiendo una estadística suficiente" . Transacciones de la American Mathematical Society . Sociedad Matemática Estadounidense . 39 (3): 399–409. doi : 10.2307 / 1989758 . JSTOR 1989758 . Señor 1501854 .

[7] Abramovich y Ritov (2013). Teoría estadística: una introducción concisa . Chapman y Hall. ISBN 978-1439851845.

[10] Blei, David. "Inferencia variacional" (PDF) . Princeton U.

[11] Nielsen, Frank; García, Vincent (2009). "Familias exponenciales estadísticas: un resumen con tarjetas". arXiv : 0911.4863 [ cs.LG ].

[12] van Garderen, Kees Jan (1997). "Modelos exponenciales curvos en econometría". Teoría econométrica . 13 (6): 771–790. doi : 10.1017 / S0266466600006253 .

[FOOTNOTENielsenNock20104._Bregman_Divergences_and_Relative_Entropy_of_Exponential_Families-13] Nielsen y Nock 2010 , 4. Divergencias de Bregman y entropía relativa de familias exponenciales.

[1]