En probabilidad y estadística , una familia exponencial es un conjunto paramétrico de distribuciones de probabilidad de una determinada forma, que se especifica a continuación. Esta forma especial se elige por conveniencia matemática, basada en algunas propiedades algebraicas útiles, así como por generalidad, ya que las familias exponenciales son, en cierto sentido, conjuntos de distribuciones muy naturales a considerar. El término clase exponencial se usa a veces en lugar de "familia exponencial", [1] o el término más antiguo de familia Koopman-Darmois . Los términos "distribución" y "familia" a menudo se usan de manera vaga: correctamente, una familia exponencial es un conjuntode distribuciones, donde la distribución específica varía con el parámetro; [a] sin embargo, una familia paramétrica de distribuciones a menudo se conoce como " una distribución" (como "la distribución normal", que significa "la familia de distribuciones normales"), y el conjunto de todas las familias exponenciales a veces se conoce de manera vaga como "la" familia exponencial. Son distintos porque poseen una variedad de propiedades deseables, y lo más importante es la existencia de una estadística suficiente.
El concepto de familias exponenciales se atribuye a [2] EJG Pitman , [3] G. Darmois , [4] y BO Koopman [5] en 1935-1936. Las familias exponenciales de distribuciones proporcionan un marco general para seleccionar una posible parametrización alternativa de una familia paramétrica de distribuciones, en términos de parámetros naturales , y para definir estadísticas muestrales útiles , denominadas estadísticas suficientes naturales de la familia.
Definición
La mayoría de las distribuciones de uso común forman una familia exponencial o un subconjunto de una familia exponencial, que se enumeran en la subsección a continuación. Las subsecciones que le siguen son una secuencia de definiciones matemáticas cada vez más generales de una familia exponencial. Un lector casual puede querer restringir la atención a la primera y más simple definición, que corresponde a una familia de un solo parámetro de distribuciones de probabilidad discretas o continuas .
Ejemplos de distribuciones familiares exponenciales
Las familias exponenciales incluyen muchas de las distribuciones más comunes. Entre muchas otras, las familias exponenciales incluyen las siguientes:
Observe que en cada caso, los parámetros que deben fijarse determinan un límite en el tamaño de los valores de observación.
Ejemplos de distribuciones comunes que no son familias exponenciales son la t de Student , la mayoría de las distribuciones de mezcla e incluso la familia de distribuciones uniformes cuando los límites no son fijos. Consulte la sección a continuación sobre ejemplos para obtener más información.
donde T ( x ), h ( x ), η ( θ ) y A ( θ ) son funciones conocidas. Por supuesto, la función h ( x ) debe ser no negativa.
Una forma alternativa y equivalente que a menudo se da es
o equivalente
El valor θ se denomina parámetro de la familia.
Además, el apoyo de (es decir, el conjunto de todos para cual es mayor que 0) no depende de . [6] Esto se puede utilizar para excluir una distribución familiar paramétrica de ser una familia exponencial. Por ejemplo, la distribución de Pareto tiene un pdf que se define para ( siendo el parámetro de escala) y su soporte, por tanto, tiene un límite inferior de . Dado que el apoyo dedepende del valor del parámetro, la familia de distribuciones de Pareto no forma una familia exponencial de distribuciones.
A menudo, x es un vector de medidas, en cuyo caso T ( x ) puede ser una función del espacio de posibles valores de x a los números reales. De manera más general, η ( θ ) y T ( x ) pueden tener valores vectoriales de manera quees de valor real. Sin embargo, vea la discusión a continuación sobre los parámetros vectoriales , con respecto a la familia exponencial curva .
Si η ( θ ) = θ , entonces se dice que la familia exponencial está en forma canónica . Al definir un parámetro transformado η = η ( θ ), siempre es posible convertir una familia exponencial a forma canónica. La forma canónica no es única, ya que η ( θ ) se puede multiplicar por cualquier constante distinta de cero, siempre que T ( x ) se multiplique por el recíproco de esa constante, o se pueda sumar una constante c a η ( θ ) y h ( x ) multiplicado porpara compensarlo. En el caso especial de que η ( θ ) = θ y T ( x ) = x, entonces la familia se llama familia exponencial natural .
Incluso cuando x es un escalar y hay un solo parámetro, las funciones η ( θ ) y T ( x ) pueden seguir siendo vectores, como se describe a continuación.
La función A ( θ ), o equivalentemente g ( θ ), se determina automáticamente una vez elegidas las demás funciones, ya que debe asumir una forma que haga que la distribución se normalice (sumar o integrar a uno en todo el dominio). Además, ambas funciones siempre se pueden escribir como funciones de η , incluso cuando η ( θ ) no es una función uno a uno , es decir, dos o más valores diferentes de θ se asignan al mismo valor de η ( θ ), y por tanto η ( θ ) no se puede invertir. En tal caso, todos los valores de θ mapeando al mismo η ( θ ) también tendrán el mismo valor para A ( θ ) y g ( θ ).
Factorización de las variables involucradas
Lo que es importante tener en cuenta, y lo que caracteriza a todas las variantes de familias exponenciales, es que los parámetros y las variables de observación deben factorizarse (se pueden separar en productos, cada uno de los cuales involucra solo un tipo de variable), ya sea directamente o dentro de cualquier parte (la base o el exponente) de una operación de exponenciación . Generalmente, esto significa que todos los factores que constituyen la función de densidad o masa deben tener una de las siguientes formas:
donde f y h son funciones arbitrarias de x ; g y j son funciones arbitrarias de θ ; y c es una expresión "constante" arbitraria (es decir, una expresión que no impliquen x o θ ).
Existen más restricciones sobre cuántos factores de este tipo pueden ocurrir. Por ejemplo, las dos expresiones:
son iguales, es decir, un producto de dos factores "permitidos". Sin embargo, cuando se reescribe en la forma factorizada,
se puede ver que no se puede expresar en la forma requerida. (Sin embargo, una forma de este tipo es miembro de una familia exponencial curva , lo que permite múltiples términos factorizados en el exponente. [ Cita requerida ] )
Para ver por qué una expresión de la forma
califica,
y por lo tanto factoriza dentro del exponente. Similar,
y nuevamente factoriza dentro del exponente.
Un factor que consiste en una suma en la que están involucrados ambos tipos de variables (por ejemplo, un factor de la forma ) no se puede factorizar de esta manera (excepto en algunos casos en los que ocurre directamente en un exponente); por eso, por ejemplo, la distribución de Cauchy y la distribución t de Student no son familias exponenciales.
Parámetro de vector
La definición en términos de un parámetro de número real se puede extender a un parámetro de vector real
Se dice que una familia de distribuciones pertenece a una familia exponencial vectorial si la función de densidad de probabilidad (o función de masa de probabilidad, para distribuciones discretas) se puede escribir como
o en una forma más compacta,
Esta forma escribe la suma como un producto escalar de funciones con valores vectoriales y .
Una forma alternativa y equivalente que se ve a menudo es
Como en el caso de valores escalares, se dice que la familia exponencial está en forma canónica si
Se dice que una familia exponencial vectorial es curva si la dimensión de
es menor que la dimensión del vector
Es decir, si la dimensión , d , del vector de parámetros es menor que el número de funciones , s , del vector de parámetros en la representación anterior de la función de densidad de probabilidad. La mayoría de las distribuciones comunes en la familia exponencial no son curvas, y muchos algoritmos diseñados para trabajar con cualquier familia exponencial suponen implícita o explícitamente que la distribución no es curva.
Como en el caso anterior de un parámetro con valores escalares, la función o equivalente se determina automáticamente una vez elegidas las demás funciones, de manera que se normaliza toda la distribución. Además, como se indicó anteriormente, ambas funciones siempre se pueden escribir como funciones de, independientemente de la forma de transformación que genere de . Por lo tanto, una familia exponencial en su "forma natural" (parametrizada por su parámetro natural) parece
o equivalente
Las formas anteriores a veces se pueden ver con en lugar de . Estas son formulaciones exactamente equivalentes, simplemente usando una notación diferente para el producto escalar .
Parámetro vectorial, variable vectorial
La forma de parámetro vectorial sobre una única variable aleatoria de valor escalar se puede expandir trivialmente para cubrir una distribución conjunta sobre un vector de variables aleatorias. La distribución resultante es simplemente la misma que la distribución anterior para una variable aleatoria de valor escalar con cada aparición del escalar x reemplazado por el vector
La dimensión k de la variable aleatoria no necesita coincidir con la dimensión d del vector de parámetro, ni (en el caso de una función exponencial curva) la dimensión s del parámetro naturaly suficiente estadístico T ( x ) .
La distribución en este caso se escribe como
O de forma más compacta como
O alternativamente como
Formulación de la teoría de la medida
Usamos funciones de distribución acumulativa (CDF) para abarcar distribuciones tanto discretas como continuas.
Suponga que H es una función no decreciente de una variable real. Luego integrales de Lebesgue-Stieltjes con respecto ason integrales con respecto a la medida de referencia de la familia exponencial generado por H .
Cualquier miembro de esa familia exponencial tiene función de distribución acumulativa
H ( x ) es un integrador de Lebesgue-Stieltjes para la medida de referencia. Cuando la medida de referencia es finita, se puede normalizar y H es en realidad la función de distribución acumulativa de una distribución de probabilidad. Si F es absolutamente continuo con una densidad con respecto a una medida de referencia ( medida típica de Lebesgue ), se puede escribir. En este caso, H también es absolutamente continua y se puede escribirpor lo que las fórmulas se reducen a la de los párrafos anteriores. Si F es discreto, entonces H es una función escalonada (con escalones en el soporte de F ).
Alternativamente, podemos escribir la medida de probabilidad directamente como
para alguna medida de referencia .
Interpretación
En las definiciones anteriores, las funciones T ( x ) , η ( θ ) y A ( η ) aparentemente se definieron arbitrariamente. Sin embargo, estas funciones juegan un papel importante en la distribución de probabilidad resultante.
T ( x ) es una estadística suficiente de la distribución. Para las familias exponenciales, el estadístico suficiente es una función de los datos que contienen toda la información que los datos x proporcionan con respecto a los valores de los parámetros desconocidos. Esto significa que, para cualquier conjunto de datos y , la razón de verosimilitud es la misma si T ( x ) = T ( y ) . Esto es cierto incluso si X e Y son bastante diferentes - que es, incluso si. La dimensión de T ( x ) es igual al número de parámetros de θ y engloba toda la información relativa a los datos relacionados con el parámetro θ . La estadística suficiente de un conjunto de observaciones de datos independientes distribuidas de manera idéntica es simplemente la suma de estadísticas individuales suficientes y encapsula toda la información necesaria para describir la distribución posterior de los parámetros, dados los datos (y por lo tanto para derivar cualquier estimación deseada de los parámetros). ). (Esta importante propiedad se analiza más adelante ).
η se llama parámetro natural . El conjunto de valores de η para el que la funciónes finito se llama espacio de parámetros naturales . Se puede demostrar que el espacio de parámetros naturales es siempre convexo .
A ( η ) se llamafunción de partición log [b] porque es el logaritmo de un factor de normalización , sin el cual no sería una distribución de probabilidad:
La función A es importante por derecho propio, porque la media , la varianza y otros momentos del estadístico suficiente T ( x ) pueden derivarse simplemente diferenciando A ( η ) . Por ejemplo, debido a que log ( x ) es uno de los componentes del estadístico suficiente de la distribución gamma ,se puede determinar fácilmente para esta distribución usando A ( η ) . Técnicamente, esto es cierto porque
es la función generadora acumulativa de la estadística suficiente.
Propiedades
Las familias exponenciales tienen una gran cantidad de propiedades que las hacen extremadamente útiles para el análisis estadístico. En muchos casos, se puede demostrar que solo las familias exponenciales tienen estas propiedades. Ejemplos:
Las familias exponenciales tienen suficientes estadísticas que pueden resumir cantidades arbitrarias de datos independientes distribuidos de manera idéntica utilizando un número fijo de valores.
Las familias exponenciales tienen antecedentes conjugados , una propiedad importante en la estadística bayesiana .
La distribución predictiva posterior de una variable aleatoria de familia exponencial con un previo conjugado siempre se puede escribir en forma cerrada (siempre que el factor de normalización de la distribución de familia exponencial se pueda escribir en forma cerrada). [C]
En la aproximación de campo medio en Bayes variacional (utilizada para aproximar la distribución posterior en grandes redes bayesianas ), la mejor aproximación de la distribución posterior de un nodo de familia exponencial (un nodo es una variable aleatoria en el contexto de redes bayesianas) con un conjugado prior pertenece a la misma familia que el nodo. [7]
Ejemplos de
Es fundamental, al considerar los ejemplos de esta sección, recordar la discusión anterior sobre lo que significa decir que una "distribución" es una familia exponencial y, en particular, tener en cuenta que el conjunto de parámetros que pueden variar es fundamental para determinar si una "distribución" es o no una familia exponencial.
Las distribuciones normal , exponencial , log-normal , gamma , chi-cuadrado , beta , Dirichlet , Bernoulli , categórica , Poisson , geométrica , gaussiana inversa , von Mises y von Mises-Fisher son todas familias exponenciales.
Algunas distribuciones son familias exponenciales solo si algunos de sus parámetros se mantienen fijos. La familia de distribuciones de Pareto con un límite mínimo fijo x m forma una familia exponencial. Las familias de distribuciones binomiales y multinomiales con un número fijo de ensayos n pero parámetros de probabilidad desconocidos son familias exponenciales. La familia de distribuciones binomiales negativas con un número fijo de fallas (también conocido como parámetro de tiempo de parada) r es una familia exponencial. Sin embargo, cuando se permite que varíe cualquiera de los parámetros fijos mencionados anteriormente, la familia resultante no es una familia exponencial.
Como se mencionó anteriormente, como regla general, el apoyo de una familia exponencial debe permanecer igual en todos los ajustes de parámetros de la familia. Es por eso que los casos anteriores (por ejemplo, binomio con un número variable de ensayos, Pareto con un límite mínimo variable) no son familias exponenciales; en todos los casos, el parámetro en cuestión afecta el soporte (en particular, cambiando el valor mínimo o máximo posible) . Por razones similares, ni la distribución uniforme discreta ni la distribución uniforme continua son familias exponenciales, ya que uno o ambos límites varían.
La distribución de Weibull con parámetro de forma fija k es una familia exponencial. A diferencia de los ejemplos anteriores, el parámetro de forma no afecta el soporte; el hecho de que permitir que varíe hace que Weibull no sea exponencial se debe más bien a la forma particular de la función de densidad de probabilidad de Weibull ( k aparece en el exponente de un exponente).
En general, las distribuciones que resultan de una mezcla finita o infinita de otras distribuciones, por ejemplo , densidades de modelos de mezcla y distribuciones de probabilidad compuestas , no son familias exponenciales. Ejemplos son gaussianas típicos modelos de mezcla , así como muchas distribuciones pesados de cola que resultan de composición (es decir, infinitamente mezclando) una distribución con una distribución a priori sobre uno de sus parámetros, por ejemplo la de Student t distribución t (un compuesto de una distribución normal durante un gamma- precisión distribuida a priori), y las distribuciones beta-binomial y Dirichlet-multinomial . Otros ejemplos de distribuciones que no son familias exponenciales son el F-distribución , la distribución de Cauchy , distribución hipergeométrica y distribución logística .
A continuación se muestran algunos ejemplos detallados de la representación de algunas distribuciones útiles como familias exponenciales.
Distribución normal: media desconocida, varianza conocida
Como primer ejemplo, considere una variable aleatoria distribuida normalmente con una media desconocida μ y una varianza conocida σ 2 . La función de densidad de probabilidad es entonces
Esta es una familia exponencial de un solo parámetro, como se puede ver al establecer
Si σ = 1 está en forma canónica, entonces η ( μ ) = μ .
Distribución normal: media desconocida y varianza desconocida
A continuación, considere el caso de una distribución normal con media desconocida y varianza desconocida. La función de densidad de probabilidad es entonces
Esta es una familia exponencial que se puede escribir en forma canónica definiendo
Distribución binomial
Como ejemplo de una familia exponencial discreta, considere la distribución binomial con un número conocido de ensayos n . La función de masa de probabilidad para esta distribución es
Esto se puede escribir de forma equivalente como
lo que muestra que la distribución binomial es una familia exponencial, cuyo parámetro natural es
Esta función de p se conoce como logit .
Tabla de distribuciones
La siguiente tabla muestra cómo reescribir una serie de distribuciones comunes como distribuciones de familias exponenciales con parámetros naturales. Consulte las flashcards [8] para conocer las principales familias exponenciales.
Para una variable escalar y un parámetro escalar, la forma es la siguiente:
Para una variable escalar y un parámetro vectorial:
Para una variable vectorial y un parámetro vectorial:
Las fórmulas anteriores eligen la forma funcional de la familia exponencial con una función de partición logarítmica . La razón de esto es que los momentos de las estadísticas suficientes se pueden calcular fácilmente, simplemente diferenciando esta función. Las formas alternativas implican parametrizar esta función en términos del parámetro normal en lugar del parámetro natural, y / o usando un factor fuera del exponencial. La relación entre este último y el primero es:
Para convertir entre las representaciones que involucran los dos tipos de parámetros, use las fórmulas siguientes para escribir un tipo de parámetro en términos del otro.
Distribución
Parámetro (s)
Parámetro (s) natural (es)
Mapeo inverso de parámetros
Medida base
Estadística suficiente
Partición de registro
Partición de registro
Distribución de Bernoulli
Esta es la función logit .
Esta es la función logística .
distribución binomial con número conocido de ensayos
distribución de veneno
distribución binomial negativa con número conocido de fallas
distribución exponencial
Distribución de Pareto con valor mínimo conocido
Distribución de Weibull con forma conocida k
Distribución de Laplace con media conocida
distribución chi-cuadrado
distribución normal varianza conocida
distribución continua de Bernoulli
distribución normal
distribución logarítmica normal
distribución gaussiana inversa
distribución gamma
distribución gamma inversa
distribución gaussiana inversa generalizada
distribución chi-cuadrado inversa escalada
distribución beta
(variante 1)
distribución beta
(variante 2)
distribución normal multivariante
distribución categórica
(variante 1)
dónde
dónde
es el soporte Iverson *
distribución categórica
(variante 2)
dónde
dónde
es el soporte Iverson *
distribución categórica
(variante 3)
dónde
Esta es la función softmax inversa , una generalización de la función logit .
Esta es la función softmax , una generalización de la función logística .
es el soporte Iverson *
distribución multinomial
(variante 1) con número conocido de ensayos
dónde
dónde
distribución multinomial
(variante 2) con número conocido de ensayos
dónde
dónde
distribución multinomial
(variante 3) con número conocido de ensayos
dónde
Distribución de Dirichlet
(variante 1)
Distribución de Dirichlet
(variante 2)
Distribución Wishart
Se dan tres variantes con diferentes parametrizaciones, para facilitar el cálculo de momentos de las estadísticas suficientes.
Nota : utiliza el hecho de quees decir, la traza de un producto de matriz es muy similar a un producto escalar . Se supone que los parámetros de la matriz están vectorizados (dispuestos en un vector) cuando se insertan en la forma exponencial. También, y son simétricos, por ejemplo
distribución de Wishart inversa
distribución gamma normal
* El corchete de Iverson es una generalización de la función delta discreta: si la expresión entre corchetes es verdadera, el corchete tiene valor 1; si la declaración adjunta es falsa, el corchete de Iverson es cero. Hay muchas notaciones variantes, por ejemplo, corchetes ondulados: ⧙ a = b ⧘es equivalente a la notación [ a = b ] utilizada anteriormente.
Las tres variantes de la distribución categórica y la distribución multinomial se deben al hecho de que los parámetros están restringidos, de modo que
Por lo tanto, solo hay parámetros independientes.
Usos de la variante 1 parámetros naturales con una relación simple entre los parámetros estándar y naturales; sin embargo, solo de los parámetros naturales son independientes, y el conjunto de los parámetros naturales no son identificables . La restricción de los parámetros habituales se traduce en una restricción similar de los parámetros naturales.
La variante 2 demuestra el hecho de que todo el conjunto de parámetros naturales no es identificable: la adición de cualquier valor constante a los parámetros naturales no tiene ningún efecto sobre la distribución resultante. Sin embargo, al usar la restricción sobre los parámetros naturales, la fórmula para los parámetros normales en términos de los parámetros naturales se puede escribir de una manera que sea independiente de la constante que se agrega.
La variante 3 muestra cómo hacer que los parámetros sean identificables de una manera conveniente configurando Esto efectivamente "gira" alrededor y hace que el último parámetro natural tenga el valor constante de 0. Todas las fórmulas restantes están escritas de una manera que no accede , de modo que efectivamente el modelo solo tiene parámetros, tanto de tipo habitual como natural.
Las variantes 1 y 2 no son en realidad familias exponenciales estándar en absoluto. Más bien son familias exponenciales curvas , es decir, hay parámetros independientes incrustados en un -espacio de parámetros dimensionales. [9] Muchos de los resultados estándar para familias exponenciales no se aplican a familias exponenciales curvas. Un ejemplo es la función de partición de registro, que tiene el valor de 0 en los casos curvos. En las familias exponenciales estándar, las derivadas de esta función corresponden a los momentos (más técnicamente, los acumulados ) de las estadísticas suficientes, por ejemplo, la media y la varianza. Sin embargo, un valor de 0 sugiere que la media y la varianza de todas las estadísticas suficientes son uniformemente 0, mientras que de hecho la media de laLa estadística suficiente debe ser . (Esto surge correctamente cuando se usa la forma de mostrado en la variante 3.)
Momentos y acumulaciones de la estadística suficiente
Normalización de la distribución
Comenzamos con la normalización de la distribución de probabilidad. En general, cualquier función no negativa f ( x ) que sirva como el núcleo de una distribución de probabilidad (la parte que codifica toda la dependencia de x ) se puede convertir en una distribución adecuada normalizando : es decir
dónde
El factor Z a veces se denomina normalizador o función de partición , basado en una analogía con la física estadística .
En el caso de una familia exponencial donde
el kernel es
y la función de partición es
Dado que la distribución debe normalizarse, tenemos
En otras palabras,
o equivalente
Esto justifica llamar a A la función log-normalizer o log-partition .
Función generadora de momento de la estadística suficiente
Ahora, la función generadora de momento de T ( x ) es
probando la afirmación anterior de que
es la función de generación de cumulante para T .
Una subclase importante de familias exponenciales son las familias exponenciales naturales , que tienen una forma similar para la función generadora de momentos para la distribución de x .
Identidades diferenciales para acumuladores
En particular, utilizando las propiedades de la función de generación acumulada,
y
Los dos primeros momentos crudos y todos los segundos momentos mixtos se pueden recuperar de estas dos identidades. Los momentos de orden superior y los acumulados se obtienen mediante derivadas superiores. Esta técnica suele ser útil cuando T es una función complicada de los datos, cuyos momentos son difíciles de calcular por integración.
Otra forma de ver esto que no se basa en la teoría de los acumulantes es partir del hecho de que la distribución de una familia exponencial debe normalizarse y diferenciarse. Ilustramos usando el caso simple de un parámetro unidimensional, pero una derivación análoga es válida de manera más general.
En el caso unidimensional, tenemos
Esto debe normalizarse, por lo que
Tome la derivada de ambos lados con respecto a η :
Por lo tanto,
Ejemplo 1
Como ejemplo introductorio, considere la distribución gamma , cuya distribución está definida por
Refiriéndonos a la tabla anterior, podemos ver que el parámetro natural viene dado por
las sustituciones inversas son
las estadísticas suficientes son y la función de partición de registro es
Podemos encontrar la media de las estadísticas suficientes de la siguiente manera. Primero, para η 1 :
Dónde es la función digamma (derivada de log gamma), y usamos las sustituciones inversas en el último paso.
Ahora, para η 2 :
nuevamente haciendo la sustitución inversa en el último paso.
Para calcular la varianza de x , simplemente diferenciamos nuevamente:
Todos estos cálculos se pueden realizar mediante la integración, haciendo uso de varias propiedades de la función gamma , pero esto requiere mucho más trabajo.
Ejemplo 2
Como otro ejemplo, considere una variable aleatoria de valor real X con densidad
indexado por parámetro de forma (esto se llama distribución logística sesgada ). La densidad se puede reescribir como
Tenga en cuenta que esta es una familia exponencial con parámetro natural
estadística suficiente
y función de partición de registro
Entonces, usando la primera identidad,
y usando la segunda identidad
Este ejemplo ilustra un caso en el que usar este método es muy simple, pero el cálculo directo sería casi imposible.
Ejemplo 3
El último ejemplo es uno en el que la integración sería extremadamente difícil. Este es el caso de la distribución de Wishart , que se define sobre matrices. Incluso tomar derivadas es un poco complicado, ya que implica cálculo matricial , pero las identidades respectivas se enumeran en ese artículo.
De la tabla anterior, podemos ver que el parámetro natural viene dado por
las sustituciones inversas son
y las estadísticas suficientes son
La función de partición de registro está escrita en varias formas en la tabla, para facilitar la diferenciación y la sustitución hacia atrás. Usamos los siguientes formularios:
Expectativa de X (asociada con η 1 )
Para diferenciar con respecto a η 1 , necesitamos la siguiente identidad de cálculo matricial :
Luego:
La última línea usa el hecho de que V es simétrico y, por lo tanto, es el mismo cuando se transpone.
Expectativa de registro | X | (asociado con η 2 )
Ahora, para η 2 , primero necesitamos expandir la parte de la función de partición logarítmica que involucra la función gamma multivariante :
También necesitamos la función digamma :
Luego:
Esta última fórmula se enumera en el artículo de distribución de Wishart . Ambas expectativas son necesarias al derivar las ecuaciones de actualización de Bayes variacionales en una red de Bayes que implica una distribución de Wishart (que es el conjugado previo de la distribución normal multivariante ).
Calcular estas fórmulas mediante la integración sería mucho más difícil. El primero, por ejemplo, requeriría integración matricial.
Entropía
Entropía relativa
La entropía relativa ( divergencia de Kullback-Leibler , divergencia de KL) de dos distribuciones en una familia exponencial tiene una expresión simple como la divergencia de Bregman entre los parámetros naturales con respecto al normalizador logarítmico. [10] La entropía relativa se define en términos de una integral, mientras que la divergencia de Bregman se define en términos de una derivada y un producto interno, por lo que es más fácil de calcular y tiene una expresión de forma cerrada (asumiendo que la derivada tiene una expresión de forma). Además, la divergencia de Bregman en términos de los parámetros naturales y el normalizador logarítmico es igual a la divergencia de Bregman de los parámetros duales (parámetros de expectativa), en el orden opuesto, para la función conjugada convexa .
Arreglando una familia exponencial con log-normalizer (con conjugado convexo ), escritura para la distribución en esta familia correspondiente a un valor fijo del parámetro natural (escritura por otro valor, y con para los correspondientes parámetros duales de expectativa / momento), escribiendo KL para la divergencia KL, y para la divergencia de Bregman, las divergencias se relacionan como:
La divergencia KL se escribe convencionalmente con respecto al primer parámetro, mientras que la divergencia de Bregman se escribe convencionalmente con respecto al segundo parámetro, y por lo tanto esto se puede leer como "la entropía relativa es igual a la divergencia de Bregman definida por el normalizador logarítmico en los parámetros naturales intercambiados ", o equivalentemente como" igual a la divergencia de Bregman definida por el dual al logaritmo normalizador en los parámetros esperados ".
Derivación máxima de entropía
Las familias exponenciales surgen naturalmente como respuesta a la siguiente pregunta: ¿cuál es la distribución de máxima entropía consistente con las restricciones dadas sobre los valores esperados?
La entropía de información de una distribución de probabilidad dF ( x ) solo se puede calcular con respecto a alguna otra distribución de probabilidad (o, más generalmente, una medida positiva), y ambas medidas deben ser mutuamente absolutamente continuas . En consecuencia, necesitamos elegir una medida de referencia dH ( x ) con el mismo soporte que dF ( x ).
La entropía de dF ( x ) relativa a dH ( x ) es
o
donde dF / dH y dH / dF son derivados del radón-Nikodym . La definición ordinaria de entropía para una distribución discreta apoyada en un conjunto I , a saber
asume , aunque esto rara vez es a cabo en punta, que dH es elegida para ser la medida de recuento en I .
Considere ahora una colección de cantidades observables (variables aleatorias) T i . La distribución de probabilidad dF cuya entropía con respecto a dH es mayor, sujeto a las condiciones de que el valor esperado de T i sea igual a t i , es una familia exponencial con dH como medida de referencia y ( T 1 , ..., T n ) como estadística suficiente.
La derivación es un cálculo variacional simple usando multiplicadores de Lagrange . La normalización se impone dejando que T 0 = 1 sea una de las restricciones. Los parámetros naturales de la distribución son los multiplicadores de Lagrange y el factor de normalización es el multiplicador de Lagrange asociado a T 0 .
Para ver ejemplos de tales derivaciones, consulte Distribución de probabilidad de entropía máxima .
Papel en las estadísticas
Estimación clásica: suficiencia
Según el teorema de Pitman - Koopman - Darmois , entre familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se estima, solo en familias exponenciales existe una estadística suficiente cuya dimensión permanece acotada a medida que aumenta el tamaño de la muestra.
De manera menos sucinta, suponga que X k (donde k = 1, 2, 3, ... n ) son variables aleatorias independientes distribuidas de manera idéntica. Sólo si su distribución es una de la familia exponencial de distribuciones, existe un estadístico T suficiente ( X 1 , ..., X n ) cuyo número de componentes escalares no aumenta a medida que aumenta el tamaño de la muestra n ; el estadístico T puede ser un vector o un solo número escalar , pero sea lo que sea, su tamaño no aumentará ni disminuirá cuando se obtengan más datos.
Como contraejemplo, si estas condiciones se relajan, la familia de distribuciones uniformes (ya sea discreta o continua , con uno o ambos límites desconocidos) tiene una estadística suficiente, es decir, el máximo de la muestra, el mínimo de la muestra y el tamaño de la muestra, pero no forma un exponencial. familia, ya que el dominio varía con los parámetros.
Estimación bayesiana: distribuciones conjugadas
Las familias exponenciales también son importantes en las estadísticas bayesianas . En la estadística bayesiana, una distribución previa se multiplica por una función de verosimilitud y luego se normaliza para producir una distribución posterior . En el caso de una verosimilitud que pertenece a una familia exponencial, existe un previo conjugado , que a menudo también está en una familia exponencial. Un π previo conjugado para el parámetro de una familia exponencial
es dado por
o equivalente
donde s es la dimensión de y y son hiperparámetros (parámetros que controlan los parámetros). corresponde al número efectivo de observaciones que aporta la distribución anterior, y corresponde a la cantidad total que estas pseudo-observaciones contribuyen a la estadística suficiente sobre todas las observaciones y pseudo-observaciones.es una constante de normalización que se determina automáticamente por las funciones restantes y sirve para asegurar que la función dada es una función de densidad de probabilidad (es decir, está normalizada ). y equivalentemente son las mismas funciones que en la definición de la distribución sobre la cual π es el conjugado previo.
Un previo conjugado es aquel que, cuando se combina con la probabilidad y se normaliza, produce una distribución posterior que es del mismo tipo que el anterior. Por ejemplo, si uno está estimando la probabilidad de éxito de una distribución binomial, entonces si elige usar una distribución beta como anterior, la posterior es otra distribución beta. Esto hace que el cálculo de la parte posterior sea particularmente simple. De manera similar, si se está estimando el parámetro de una distribución de Poisson, el uso de una gamma anterior conducirá a otra gamma posterior. Los anteriores conjugados suelen ser muy flexibles y pueden resultar muy convenientes. Sin embargo, si la creencia de uno sobre el valor probable del parámetro theta de un binomio está representada por (digamos) una distribución previa bimodal (dos jorobas), entonces esto no puede ser representado por una distribución beta. Sin embargo, se puede representar usando una densidad de mezcla como la anterior, aquí una combinación de dos distribuciones beta; esta es una forma de hiperprior .
Una probabilidad arbitraria no pertenecerá a una familia exponencial y, por tanto, en general, no existe un previo conjugado. El posterior deberá entonces calcularse mediante métodos numéricos.
Para mostrar que la distribución anterior anterior es un prior conjugado, podemos derivar el posterior.
Primero, suponga que la probabilidad de una sola observación sigue una familia exponencial, parametrizada usando su parámetro natural:
Entonces, para datos , la probabilidad se calcula de la siguiente manera:
Entonces, para el conjugado anterior anterior:
Entonces podemos calcular el posterior de la siguiente manera:
La última línea es el núcleo de la distribución posterior, es decir
Esto muestra que la parte posterior tiene la misma forma que la anterior.
Los datos X entran en esta ecuación solo en la expresión
que se denomina estadística suficiente de los datos. Es decir, el valor del estadístico suficiente es suficiente para determinar completamente la distribución posterior. Los puntos de datos reales en sí mismos no son necesarios, y todos los conjuntos de puntos de datos con la misma estadística suficiente tendrán la misma distribución. Esto es importante porque la dimensión de la estadística suficiente no crece con el tamaño de los datos; solo tiene tantos componentes como los componentes de (de manera equivalente, el número de parámetros de la distribución de un solo punto de datos).
Las ecuaciones de actualización son las siguientes:
Esto muestra que las ecuaciones de actualización se pueden escribir simplemente en términos del número de puntos de datos y la estadística suficiente de los datos. Esto se puede ver claramente en los diversos ejemplos de ecuaciones de actualización que se muestran en la página anterior conjugada . Debido a la forma en que se calcula la estadística suficiente, necesariamente involucra sumas de componentes de los datos (en algunos casos disfrazados de productos u otras formas; un producto puede escribirse en términos de una suma de logaritmos ). Los casos en los que las ecuaciones de actualización para distribuciones particulares no coinciden exactamente con las formas anteriores son casos en los que el previo conjugado se ha expresado utilizando una parametrización diferente a la que produce un previo conjugado de la forma anterior, a menudo específicamente porque la forma anterior es definido sobre el parámetro natural mientras que los previos conjugados generalmente se definen sobre el parámetro real
Prueba de hipótesis: pruebas uniformemente más potentes
Una familia exponencial de un parámetro tiene una razón de verosimilitud monótona no decreciente en el estadístico suficiente T ( x ), siempre que η ( θ ) no sea decreciente. Como consecuencia, existe una prueba uniformemente más potente para probar la hipótesis H 0 : theta ≥ theta 0 vs . H 1 : θ < θ 0 .
Modelos lineales generalizados
Las familias exponenciales forman la base de las funciones de distribución utilizadas en los modelos lineales generalizados , una clase de modelo que abarca muchos de los modelos de regresión comúnmente utilizados en estadística.
Ver también
Familia exponencial natural
Modelo de dispersión exponencial
Medida de Gibbs
Notas al pie
^ Por ejemplo, la familia de distribuciones normales incluye la distribución normal estándar N (0, 1) con media 0 y varianza 1, así como otras distribuciones normales con media y varianza diferentes.
^ "Función de partición" se utiliza a menudo en estadística como sinónimo de "factor de normalización".
^ Estas distribuciones a menudo no son familias exponenciales en sí mismas. Los ejemplos más comunes de las familias no exponenciales que surgen de las exponenciales son los de Student t -distribución , distribución beta-binomial y la distribución de Dirichlet-multinomial .
Referencias
Citas
^ Kupperman, M. (1958). "Probabilidades de hipótesis y estadísticas de información en muestreo de poblaciones de clase exponencial" . Anales de estadística matemática . 9 (2): 571–575. doi : 10.1214 / aoms / 1177706633 . JSTOR 2237349 .
^Andersen, Erling (septiembre de 1970). "Suficiencia y familias exponenciales para espacios muestrales discretos". Revista de la Asociación Estadounidense de Estadística . Revista de la Asociación Estadounidense de Estadística. 65 (331): 1248-1255. doi : 10.2307 / 2284291 . JSTOR 2284291 . Señor 0268992 .
^Pitman, E .; Wishart, J. (1936). "Estadísticas suficientes y precisión intrínseca". Procedimientos matemáticos de la Sociedad Filosófica de Cambridge . 32 (4): 567–579. Código Bibliográfico : 1936PCPS ... 32..567P . doi : 10.1017 / S0305004100019307 .
^Darmois, G. (1935). "Sur les lois de probabilites una estimación exhaustiva". CR Acad. Sci. París (en francés). 200 : 1265-1266.
^Koopman, B. (1936). "Sobre la distribución admitiendo una estadística suficiente" . Transacciones de la American Mathematical Society . Sociedad Matemática Estadounidense . 39 (3): 399–409. doi : 10.2307 / 1989758 . JSTOR 1989758 . Señor 1501854 .
^Abramovich y Ritov (2013). Teoría estadística: una introducción concisa . Chapman y Hall. ISBN 978-1439851845.
^Blei, David. "Inferencia variacional" (PDF) . Princeton U.
^Nielsen, Frank; García, Vincent (2009). "Familias exponenciales estadísticas: un resumen con tarjetas". arXiv : 0911.4863 [ cs.LG ].
^van Garderen, Kees Jan (1997). "Modelos exponenciales curvos en econometría". Teoría econométrica . 13 (6): 771–790. doi : 10.1017 / S0266466600006253 .
^ Nielsen y Nock 2010 , 4. Divergencias de Bregman y entropía relativa de familias exponenciales.
Fuentes
Nielsen, Frank; García, Vincent (2009). "Familias exponenciales estadísticas: un resumen con tarjetas". arXiv : 0911.4863 . Código Bibliográfico : 2009arXiv0911.4863N .
Nielsen, Frank; Nock, Richard (2010). Entropías y entropías cruzadas de familias exponenciales (PDF) . Conferencia internacional IEEE sobre procesamiento de imágenes. doi : 10.1109 / ICIP.2010.5652054 . Archivado desde el original (PDF) el 31 de marzo de 2019.
Otras lecturas
Fahrmeir, Ludwig; Tutz, G. (1994). Modelado estadístico multivariante basado en modelos lineales generalizados . Saltador. págs. 18-22, 345-349. ISBN 0-387-94233-5.
Keener, Robert W. (2006). Estadística teórica: temas para un curso básico . Saltador. págs. 27-28, 32-33. ISBN 978-0-387-93838-7.
Lehmann, EL; Casella, G. (1998). Teoría de la estimación puntual (2ª ed.). segundo. 1.5. ISBN 0-387-98502-6.
enlaces externos
Una introducción a la familia exponencial de distribuciones
Familia exponencial de distribuciones sobre los primeros usos conocidos de algunas de las palabras de las matemáticas
jMEF: una biblioteca de Java para familias exponenciales