Distribución de Dirichlet

En probabilidad y estadística , la distribución de Dirichlet (después de Peter Gustav Lejeune Dirichlet ), a menudo denotada ${\ Displaystyle \ operatorname {Dir} ({\ boldsymbol {\ alpha}})}$ , es una familia de distribuciones de probabilidad multivariantes continuas parametrizadas por un vector ${\ displaystyle {\ boldsymbol {\ alpha}}}$ de reales positivos . Es una generalización multivariante de la distribución beta , ^{[1] de} ahí su nombre alternativo de distribución beta multivariante (MBD) . ^{[2] Las} distribuciones de Dirichlet se utilizan comúnmente como distribuciones previas en las estadísticas bayesianas y, de hecho, la distribución de Dirichlet es la distribución previa conjugada de la distribución categórica y la distribución multinomial .

Distribución de Dirichlet
Función de densidad de probabilidad
Parámetros	${\ Displaystyle K \ geq 2}$ número de categorías ( entero ) ${\ Displaystyle \ alpha _ {1}, \ ldots, \ alpha _ {K}}$ parámetros de concentración , donde ${\ Displaystyle \ alpha _ {i}> 0}$
Apoyo	${\ Displaystyle x_ {1}, \ ldots, x_ {K}}$ dónde ${\ Displaystyle x_ {i} \ in (0,1)}$ y ${\ Displaystyle \ sum _ {i = 1} ^ {K} x_ {i} = 1}$
PDF	${\ displaystyle {\ frac {1} {\ mathrm {B} ({\ boldsymbol {\ alpha}})}} \ prod _ {i = 1} ^ {K} x_ {i} ^ {\ alpha _ {i } -1}}$ dónde ${\ Displaystyle \ mathrm {B} ({\ boldsymbol {\ alpha}}) = {\ frac {\ prod _ {i = 1} ^ {K} \ Gamma (\ alpha _ {i})} {\ Gamma { \ bigl (} \ sum _ {i = 1} ^ {K} \ alpha _ {i} {\ bigr)}}}}$ dónde ${\ displaystyle {\ boldsymbol {\ alpha}} = (\ alpha _ {1}, \ ldots, \ alpha _ {K})}$
Significar	${\ Displaystyle \ operatorname {E} [X_ {i}] = {\ frac {\ alpha _ {i}} {\ sum _ {k = 1} ^ {K} \ alpha _ {k}}}}$ ${\ Displaystyle \ operatorname {E} [\ ln X_ {i}] = \ psi (\ alpha _ {i}) - \ psi (\ textstyle \ sum _ {k} \ alpha _ {k})}$ (dónde ${\ Displaystyle \ psi}$ es la función digamma )
Modo	${\ Displaystyle x_ {i} = {\ frac {\ alpha _ {i} -1} {\ sum _ {k = 1} ^ {K} \ alpha _ {k} -K}}, \ quad \ alpha _ {i}> 1.}$
Diferencia	${\ Displaystyle \ operatorname {Var} [X_ {i}] = {\ frac {{\ tilde {\ alpha}} _ {i} (1 - {\ tilde {\ alpha}} _ {i})} {\ alpha _ {0} +1}},}$ ${\ Displaystyle \ operatorname {Cov} [X_ {i}, X_ {j}] = {\ frac {\ delta _ {ij} \, {\ tilde {\ alpha}} _ {i} - {\ tilde {\ alpha}} _ {i} {\ tilde {\ alpha}} _ {j}} {\ alpha _ {0} +1}}}$ dónde ${\ displaystyle {\ tilde {\ alpha}} _ {i} = {\ frac {\ alpha _ {i}} {\ alpha _ {0}}}}$ y ${\ Displaystyle \ alpha _ {0} = \ sum _ {i = 1} ^ {K} \ alpha _ {i}}$
Entropía	${\ Displaystyle H (X) = \ log \ mathrm {B} ({\ boldsymbol {\ alpha}})}$ ${\ Displaystyle + (\ alpha _ {0} -K) \ psi (\ alpha _ {0}) -}$ ${\ Displaystyle \ sum _ {j = 1} ^ {K} (\ alpha _ {j} -1) \ psi (\ alpha _ {j})}$ con ${\ Displaystyle \ alpha _ {0}}$ definido como para la varianza, arriba; y ${\ Displaystyle \ psi}$ es la función digamma

La generalización de dimensión infinita de la distribución de Dirichlet es el proceso de Dirichlet .

Definiciones

Función de densidad de probabilidad

Ilustrando cómo cambia el logaritmo de la función de densidad cuando K = 3 cuando cambiamos el vector α de α = (0.3, 0.3, 0.3) a (2.0, 2.0, 2.0), manteniendo todos los valores individuales

{\ Displaystyle \ alpha _ {i}}

son iguales entre sí.

La distribución de Dirichlet de orden K ≥ 2 con parámetros α ₁ , ..., α _K > 0 tiene una función de densidad de probabilidad con respecto a la medida de Lebesgue en el espacio euclidiano R ^K-1 dada por

{\ Displaystyle f \ left (x_ {1}, \ ldots, x_ {K}; \ alpha _ {1}, \ ldots, \ alpha _ {K} \ right) = {\ frac {1} {\ mathrm { B} ({\ boldsymbol {\ alpha}})}} \ prod _ {i = 1} ^ {K} x_ {i} ^ {\ alpha _ {i} -1}}

dónde

{\ Displaystyle \ {x_ {k} \} _ {k = 1} ^ {k = K}}

pertenecen al estándar

{\ Displaystyle K-1}

simplex , o en otras palabras:

{\ Displaystyle \ sum _ {i = 1} ^ {K} x_ {i} = 1 {\ mbox {y}} x_ {i} \ geq 0 {\ mbox {para todos}} i \ in \ {1, \ puntos, K \}}

La constante de normalización es la función beta multivariante , que se puede expresar en términos de la función gamma :

{\ Displaystyle \ mathrm {B} ({\ boldsymbol {\ alpha}}) = {\ frac {\ prod _ {i = 1} ^ {K} \ Gamma (\ alpha _ {i})} {\ Gamma \ izquierda (\ sum _ {i = 1} ^ {K} \ alpha _ {i} \ right)}}, \ qquad {\ boldsymbol {\ alpha}} = (\ alpha _ {1}, \ ldots, \ alpha _ {K}).}

Apoyo

El soporte de la distribución de Dirichlet es el conjunto de vectores K -dimensionales ${\ displaystyle {\ boldsymbol {x}}}$ cuyas entradas son números reales en el intervalo (0,1) tales que ${\ Displaystyle \ | {\ boldsymbol {x}} \ | _ {1} = 1}$ , es decir, la suma de las coordenadas es igual a 1. Estas pueden verse como las probabilidades de un evento categórico de vías K. Otra forma de expresar esto es que el dominio de la distribución de Dirichlet es en sí mismo un conjunto de distribuciones de probabilidad , específicamente el conjunto de distribuciones discretas K -dimensionales . El término técnico para el conjunto de puntos en el apoyo de una distribución de Dirichlet K -dimensional es el estándar abierto ( K - 1) -simplex , ^[3] que es una generalización de un triángulo , incrustado en la siguiente dimensión superior. Por ejemplo, con K = 3, el soporte es un triángulo equilátero incrustado en forma de ángulo hacia abajo en un espacio tridimensional, con vértices en (1,0,0), (0,1,0) y (0,0 , 1), es decir, tocar cada uno de los ejes de coordenadas en un punto a 1 unidad del origen.

Casos especiales

Un caso especial común es la distribución de Dirichlet simétrica , donde todos los elementos que componen el vector de parámetros ${\ displaystyle {\ boldsymbol {\ alpha}}}$ tienen el mismo valor. El caso simétrico puede ser útil, por ejemplo, cuando se requiere un Dirichlet antes que componentes, pero no hay conocimiento previo que favorezca a un componente sobre otro. Dado que todos los elementos del vector de parámetros tienen el mismo valor, la distribución de Dirichlet simétrica se puede parametrizar mediante un único valor escalar α , llamado parámetro de concentración . ^{[ cita requerida ]} En términos de α, la función de densidad tiene la forma

{\ Displaystyle f (x_ {1}, \ dots, x_ {K}; \ alpha) = {\ frac {\ Gamma (\ alpha K)} {\ Gamma (\ alpha) ^ {K}}} \ prod _ {i = 1} ^ {K} x_ {i} ^ {\ alpha -1}.}

Cuando α = 1 ^[1] , la distribución de Dirichlet simétrica es equivalente a una distribución uniforme sobre el estándar abierto ( K - 1) -simplex , es decir, es uniforme en todos los puntos de su soporte . Esta distribución particular se conoce como distribución plana de Dirichlet . Los valores del parámetro de concentración por encima de 1 prefieren variaciones densas, distribuciones uniformemente distribuidas, es decir, todos los valores dentro de una sola muestra son similares entre sí. Los valores del parámetro de concentración por debajo de 1 prefieren distribuciones dispersas, es decir, la mayoría de los valores dentro de una sola muestra estarán cerca de 0, y la gran mayoría de la masa se concentrará en algunos de los valores.

De manera más general, el vector de parámetros a veces se escribe como producto ${\ Displaystyle \ alpha {\ boldsymbol {n}}}$ de un parámetro de concentración ( escalar ) α y una medida base ( vectorial ) ${\ Displaystyle {\ boldsymbol {n}} = (n_ {1}, \ dots, n_ {K})}$ dónde ${\ displaystyle {\ boldsymbol {n}}}$ se encuentra dentro del ( K - 1) -simplex (es decir, sus coordenadas ${\ Displaystyle n_ {i}}$ suma a uno). En este caso, el parámetro de concentración es mayor en un factor de K que el parámetro de concentración para una distribución de Dirichlet simétrica descrita anteriormente. Esta construcción se relaciona con el concepto de una medida base cuando se discuten los procesos de Dirichlet y se usa a menudo en la literatura de modelado de temas.

^ Si definimos el parámetro de concentración como la suma de los parámetros de Dirichlet para cada dimensión, la distribución de Dirichlet con el parámetro de concentración K, la dimensión de la distribución, es la distribución uniforme en el ( K - 1) -simplex.

Propiedades

Momentos

Dejar ${\ Displaystyle X = (X_ {1}, \ ldots, X_ {K}) \ sim \ operatorname {Dir} (\ alpha)}$ .

Dejar

{\ Displaystyle \ alpha _ {0} = \ sum _ {i = 1} ^ {K} \ alpha _ {i}.}

Entonces ^[4]^[5]

{\ Displaystyle \ operatorname {E} [X_ {i}] = {\ frac {\ alpha _ {i}} {\ alpha _ {0}}},}

{\ Displaystyle \ operatorname {Var} [X_ {i}] = {\ frac {\ alpha _ {i} (\ alpha _ {0} - \ alpha _ {i})} {\ alpha _ {0} ^ { 2} (\ alpha _ {0} +1)}}.}

Además, si ${\ Displaystyle i \ neq j}$

{\ Displaystyle \ operatorname {Cov} [X_ {i}, X_ {j}] = {\ frac {- \ alpha _ {i} \ alpha _ {j}} {\ alpha _ {0} ^ {2} ( \ alpha _ {0} +1)}}.}

Por tanto, la matriz es singular .

De manera más general, los momentos de las variables aleatorias distribuidas por Dirichlet se pueden expresar como ^[6]

{\ Displaystyle \ operatorname {E} \ left [\ prod _ {i = 1} ^ {K} X_ {i} ^ {\ beta _ {i}} \ right] = {\ frac {B \ left ({\ boldsymbol {\ alpha}} + {\ boldsymbol {\ beta}} \ right)} {B \ left ({\ boldsymbol {\ alpha}} \ right)}} = {\ frac {\ Gamma \ left (\ sum \ límites _ {i = 1} ^ {K} \ alpha _ {i} \ right)} {\ Gamma \ left [\ sum \ limits _ {i = 1} ^ {K} (\ alpha _ {i} + \ beta _ {i}) \ right]}} \ times \ prod _ {i = 1} ^ {K} {\ frac {\ Gamma (\ alpha _ {i} + \ beta _ {i})} {\ Gamma (\ alpha _ {i})}}.}

Modo

La moda de la distribución es ^[7] el vector ( x ₁ , ..., x _K ) con

{\ displaystyle x_ {i} = {\ frac {\ alpha _ {i} -1} {\ alpha _ {0} -K}}, \ qquad \ alpha _ {i}> 1.}

Distribuciones marginales

Las distribuciones marginales son distribuciones beta : ^[8]

{\ Displaystyle X_ {i} \ sim \ operatorname {Beta} (\ alpha _ {i}, \ alpha _ {0} - \ alpha _ {i}).}

Conjugado a categórico / multinomial

La distribución de Dirichlet es la distribución previa conjugada de la distribución categórica (una distribución de probabilidad discreta genérica con un número dado de resultados posibles) y la distribución multinomial (la distribución sobre los conteos observados de cada categoría posible en un conjunto de observaciones distribuidas categóricamente). Esto significa que si un punto de datos tiene una distribución categórica o multinomial, y la distribución previa del parámetro de distribución (el vector de probabilidades que genera el punto de datos) se distribuye como un Dirichlet, entonces la distribución posterior del parámetro también es un Dirichlet. De manera intuitiva, en tal caso, a partir de lo que sabemos sobre el parámetro antes de observar el punto de datos, podemos actualizar nuestro conocimiento en función del punto de datos y terminar con una nueva distribución de la misma forma que la anterior. Esto significa que podemos actualizar sucesivamente nuestro conocimiento de un parámetro incorporando nuevas observaciones de una en una, sin encontrarnos con dificultades matemáticas.

Formalmente, esto se puede expresar de la siguiente manera. Dado un modelo

{\ Displaystyle {\ begin {array} {rcccl} {\ boldsymbol {\ alpha}} & = & \ left (\ alpha _ {1}, \ ldots, \ alpha _ {K} \ right) & = & {\ texto {hiperparámetro de concentración}} \\\ mathbf {p} \ mid {\ boldsymbol {\ alpha}} & = & \ left (p_ {1}, \ ldots, p_ {K} \ right) & \ sim & \ operatorname {Dir} (K, {\ boldsymbol {\ alpha}}) \\\ mathbb {X} \ mid \ mathbf {p} & = & \ left (\ mathbf {x} _ {1}, \ ldots, \ mathbf {x} _ {K} \ right) & \ sim & \ operatorname {Cat} (K, \ mathbf {p}) \ end {array}}}

entonces lo siguiente es válido:

{\ displaystyle {\ begin {array} {rcccl} \ mathbf {c} & = & \ left (c_ {1}, \ ldots, c_ {K} \ right) & = & {\ text {número de apariciones de la categoría }} i \\\ mathbf {p} \ mid \ mathbb {X}, {\ boldsymbol {\ alpha}} & \ sim & \ operatorname {Dir} (K, \ mathbf {c} + {\ boldsymbol {\ alpha }}) & = & \ operatorname {Dir} \ left (K, c_ {1} + \ alpha _ {1}, \ ldots, c_ {K} + \ alpha _ {K} \ right) \ end {array} }}

Esta relación se utiliza en las estadísticas bayesianas para estimar el parámetro subyacente p de una distribución categórica dada una colección de N muestras. Intuitivamente, podemos ver el vector hiperprior α como pseudocontentos , es decir, como representando el número de observaciones en cada categoría que ya hemos visto. Luego, simplemente agregamos los recuentos de todas las nuevas observaciones (el vector c ) para derivar la distribución posterior.

En los modelos de mezcla bayesianos y otros modelos bayesianos jerárquicos con componentes de mezcla, las distribuciones de Dirichlet se utilizan comúnmente como distribuciones previas para las variables categóricas que aparecen en los modelos. Consulte la sección de aplicaciones a continuación para obtener más información.

Relación con la distribución de Dirichlet-multinomial

En un modelo donde una distribución previa de Dirichlet se coloca sobre un conjunto de observaciones con valores categóricos , la distribución conjunta marginal de las observaciones (es decir, la distribución conjunta de las observaciones, con el parámetro anterior marginado ) es una distribución multinomial de Dirichlet . Esta distribución juega un papel importante en los modelos bayesianos jerárquicos , porque cuando se hace inferencia sobre dichos modelos utilizando métodos como el muestreo de Gibbs o el Bayes variacional , las distribuciones previas de Dirichlet a menudo quedan marginadas. Consulte el artículo sobre esta distribución para obtener más detalles.

Entropía

Si X es una variable aleatoria Dir ( α ), la entropía diferencial de X (en unidades nat ) es ^[9]

{\ displaystyle h ({\ boldsymbol {X}}) = \ operatorname {E} [- \ ln f ({\ boldsymbol {X}})] = \ ln \ operatorname {B} ({\ boldsymbol {\ alpha} }) + (\ alpha _ {0} -K) \ psi (\ alpha _ {0}) - \ sum _ {j = 1} ^ {K} (\ alpha _ {j} -1) \ psi (\ alpha _ {j})}

dónde ${\ Displaystyle \ psi}$ es la función digamma .

La siguiente fórmula para ${\ Displaystyle \ operatorname {E} [\ ln (X_ {i})]}$ se puede utilizar para derivar la entropía diferencial anterior. Dado que las funciones ${\ Displaystyle \ ln (X_ {i})}$ son las estadísticas suficientes de la distribución de Dirichlet, las identidades diferenciales de familia exponencial se pueden utilizar para obtener una expresión analítica para la expectativa de ${\ Displaystyle \ ln (X_ {i})}$ y su matriz de covarianza asociada: ^{[ cita requerida ]}

{\ Displaystyle \ operatorname {E} [\ ln (X_ {i})] = \ psi (\ alpha _ {i}) - \ psi (\ alpha _ {0})}

y

{\ Displaystyle \ operatorname {Cov} [\ ln (X_ {i}), \ ln (X_ {j})] = \ psi '(\ alpha _ {i}) \ delta _ {ij} - \ psi' ( \ alpha _ {0})}

dónde ${\ Displaystyle \ psi}$ es la función digamma , ${\ Displaystyle \ psi '}$ es la función trigamma , y ${\ Displaystyle \ delta _ {ij}}$ es el delta de Kronecker .

El espectro de información de Rényi para valores distintos de ${\ Displaystyle \ lambda = 1}$ viene dado por ^[10]

{\ Displaystyle F_ {R} (\ lambda) = (1- \ lambda) ^ {- 1} \ left (- \ lambda \ log \ mathrm {B} (\ alpha) + \ sum _ {i = 1} ^ {K} \ log \ Gamma (\ lambda (\ alpha _ {i} -1) +1) - \ log \ Gamma (\ lambda (\ alpha _ {0} -d) + d) \ right)}

y la entropía de la información es el límite como ${\ Displaystyle \ lambda}$ va a 1.

Otra medida interesante relacionada es la entropía de un vector categórico discreto (uno de K binario) ${\ displaystyle {\ boldsymbol {Z}}}$ con distribución de probabilidad-masa ${\ displaystyle {\ boldsymbol {X}}}$ , es decir, ${\ Displaystyle P (Z_ {i} = 1, Z_ {j \ neq i} = 0 | {\ boldsymbol {X}}) = X_ {i}}$ . La entropía de información condicional de ${\ displaystyle {\ boldsymbol {Z}}}$ , dado ${\ displaystyle {\ boldsymbol {X}}}$ es

{\ displaystyle S ({\ boldsymbol {X}}) = H ({\ boldsymbol {Z}} | {\ boldsymbol {X}}) = \ operatorname {E} _ {\ boldsymbol {Z}} [- \ log P ({\ boldsymbol {Z}} | {\ boldsymbol {X}})] = \ sum _ {i = 1} ^ {K} -X_ {i} \ log X_ {i}}

Esta función de ${\ displaystyle {\ boldsymbol {X}}}$ es una variable aleatoria escalar. Si ${\ displaystyle {\ boldsymbol {X}}}$ tiene una distribución de Dirichlet simétrica con todos ${\ Displaystyle \ alpha _ {i} = \ alpha}$ , el valor esperado de la entropía (en unidades nat ) es ^[11]

{\ Displaystyle \ operatorname {E} [S ({\ boldsymbol {X}})] = \ sum _ {i = 1} ^ {K} \ operatorname {E} [-X_ {i} \ ln X_ {i} ] = \ psi (K \ alpha +1) - \ psi (\ alpha +1)}

Agregación

Si

{\ Displaystyle X = (X_ {1}, \ ldots, X_ {K}) \ sim \ operatorname {Dir} (\ alpha _ {1}, \ ldots, \ alpha _ {K})}

entonces, si las variables aleatorias con subíndices i y j se eliminan del vector y se reemplazan por su suma,

{\ Displaystyle X '= (X_ {1}, \ ldots, X_ {i} + X_ {j}, \ ldots, X_ {K}) \ sim \ operatorname {Dir} (\ alpha _ {1}, \ ldots , \ alpha _ {i} + \ alpha _ {j}, \ ldots, \ alpha _ {K}).}

Esta propiedad de agregación se puede utilizar para derivar la distribución marginal de ${\ Displaystyle X_ {i}}$ mencionado anteriormente.

Neutralidad

Si ${\ Displaystyle X = (X_ {1}, \ ldots, X_ {K}) \ sim \ operatorname {Dir} (\ alpha)}$ , entonces se dice que el vector X es neutral ^[12] en el sentido de que X _K es independiente de ${\ Displaystyle X ^ {(- K)}}$ ^[3] donde

{\ Displaystyle X ^ {(- K)} = \ left ({\ frac {X_ {1}} {1-X_ {K}}}, {\ frac {X_ {2}} {1-X_ {K} }}, \ ldots, {\ frac {X_ {K-1}} {1-X_ {K}}} \ right),}

y de forma similar para eliminar cualquiera de ${\ Displaystyle X_ {2}, \ ldots, X_ {K-1}}$ . Observe que cualquier permutación de X también es neutra (una propiedad que no poseen las muestras extraídas de una distribución de Dirichlet generalizada ). ^[13]

Combinando esto con la propiedad de agregación se deduce que X _j + ... + X _K es independiente de ${\ Displaystyle \ left ({\ frac {X_ {1}} {X_ {1} + \ cdots + X_ {j-1}}}, {\ frac {X_ {2}} {X_ {1} + \ cdots + X_ {j-1}}}, \ ldots, {\ frac {X_ {j-1}} {X_ {1} + \ cdots + X_ {j-1}}} \ right)}$ . De hecho, es cierto, además, para la distribución de Dirichlet, que para ${\ Displaystyle 3 \ leq j \ leq K-1}$ , el par ${\ Displaystyle \ left (X_ {1} + \ cdots + X_ {j-1}, X_ {j} + \ cdots + X_ {K} \ right)}$ , y los dos vectores ${\ Displaystyle \ left ({\ frac {X_ {1}} {X_ {1} + \ cdots + X_ {j-1}}}, {\ frac {X_ {2}} {X_ {1} + \ cdots + X_ {j-1}}}, \ ldots, {\ frac {X_ {j-1}} {X_ {1} + \ cdots + X_ {j-1}}} \ right)}$ y ${\ Displaystyle \ left ({\ frac {X_ {j}} {X_ {j} + \ cdots + X_ {K}}}, {\ frac {X_ {j + 1}} {X_ {j} + \ cdots + X_ {K}}}, \ ldots, {\ frac {X_ {K}} {X_ {j} + \ cdots + X_ {K}}} \ right)}$ , vistos como el triple de los vectores aleatorios normalizados, son mutuamente independientes . El resultado análogo es cierto para la partición de los índices {1,2, ..., K } en cualquier otro par de subconjuntos no singleton.

Función característica

La función característica de la distribución de Dirichlet es una forma confluente de la serie hipergeométrica de Lauricella . Se da por Phillips como ^[14]

{\ Displaystyle CF \ left (s_ {1}, \ ldots, s_ {K-1} \ right) = \ operatorname {E} \ left (e ^ {i \ left (s_ {1} X_ {1} + \ cdots + s_ {K-1} X_ {K-1} \ right)} \ right) = \ Psi ^ {\ left [K-1 \ right]} (\ alpha _ {1}, \ ldots, \ alpha _ {K-1}; \ alpha; is_ {1}, \ ldots, is_ {K-1})}

dónde ${\ Displaystyle \ alpha = \ alpha _ {1} + \ cdots + \ alpha _ {K}}$ y

{\ Displaystyle \ Psi ^ {[m]} (a_ {1}, \ ldots, a_ {m}; c; z_ {1}, \ ldots z_ {m}) = \ sum {\ frac {(a_ {1 }) _ {k_ {1}} \ cdots (a_ {m}) _ {k_ {m}} \, z_ {1} ^ {k_ {1}} \ cdots z_ {m} ^ {k_ {m}} } {(c) _ {k} \, k_ {1}! \ cdots k_ {m}!}}.}

La suma es sobre enteros no negativos ${\ Displaystyle k_ {1}, \ ldots, k_ {m}}$ y ${\ Displaystyle k = k_ {1} + \ cdots + k_ {m}}$ . Phillips continúa afirmando que esta forma es "inconveniente para el cálculo numérico" y ofrece una alternativa en términos de una integral de trayectoria compleja :

{\ Displaystyle \ Psi ^ {[m]} = {\ frac {\ Gamma (c)} {2 \ pi i}} \ int _ {L} e ^ {t} \, t ^ {a_ {1} + \ cdots + a_ {m} -c} \, \ prod _ {j = 1} ^ {m} (t-z_ {j}) ^ {- a_ {j}} \, dt}

donde L denota cualquier camino en el plano complejo que se origina en ${\ Displaystyle - \ infty}$ , rodeando en sentido positivo todas las singularidades del integrando y volviendo a ${\ Displaystyle - \ infty}$ .

Desigualdad

Función de densidad de probabilidad ${\ Displaystyle f \ left (x_ {1}, \ ldots, x_ {K-1}; \ alpha _ {1}, \ ldots, \ alpha _ {K} \ right)}$ juega un papel clave en una desigualdad multifuncional que implica varios límites para la distribución de Dirichlet. ^[15]

Distribuciones relacionadas

Para distribuciones Gamma distribuidas independientemente de K :

{\ Displaystyle Y_ {1} \ sim \ operatorname {Gamma} (\ alpha _ {1}, \ theta), \ ldots, Y_ {K} \ sim \ operatorname {Gamma} (\ alpha _ {K}, \ theta )}

tenemos: ^[16]^{: 402}

{\ Displaystyle V = \ sum _ {i = 1} ^ {K} Y_ {i} \ sim \ operatorname {Gamma} \ left (\ sum _ {i = 1} ^ {K} \ alpha _ {i}, \ theta \ right),}

{\ Displaystyle X = (X_ {1}, \ ldots, X_ {K}) = \ left ({\ frac {Y_ {1}} {V}}, \ ldots, {\ frac {Y_ {K}} { V}} \ right) \ sim \ operatorname {Dir} \ left (\ alpha _ {1}, \ ldots, \ alpha _ {K} \ right).}

Aunque las X _i s no son independientes entre sí, se puede ver que se generan a partir de un conjunto de K variables aleatorias gamma independientes . ^[16]^{: 594} Desafortunadamente, dado que la suma V se pierde al formar X (de hecho, se puede demostrar que V es estocásticamente independiente de X ), no es posible recuperar las variables aleatorias gamma originales solo a partir de estos valores. Sin embargo, debido a que es más sencillo trabajar con las variables aleatorias independientes, esta reparametrización puede ser útil para las pruebas sobre las propiedades de la distribución de Dirichlet.

Conjugado antes de la distribución de Dirichlet

Debido a que la distribución de Dirichlet es una distribución familiar exponencial , tiene un antecedente conjugado. El prior conjugado tiene la forma: ^[17]

{\ Displaystyle \ operatorname {CD} ({\ boldsymbol {\ alpha}} \ mid {\ boldsymbol {v}}, \ eta) \ propto \ left ({\ frac {1} {\ operatorname {B} ({\ símbolo en negrita {\ alpha}})}} \ right) ^ {\ eta} \ exp \ left (- \ sum _ {k} v_ {k} \ alpha _ {k} \ right).}

Aquí ${\ displaystyle {\ boldsymbol {v}}}$ es un vector real K -dimensional y ${\ Displaystyle \ eta}$ es un parámetro escalar. El dominio de ${\ displaystyle ({\ boldsymbol {v}}, \ eta)}$ está restringido al conjunto de parámetros para los que se puede normalizar la función de densidad no normalizada anterior. La condición (necesaria y suficiente) es: ^[18]

{\ Displaystyle \ forall k \; \; v_ {k}> 0 \; \; \; \; {\ text {y}} \; \; \; \; \ eta> -1 \; \; \; \; {\ text {y}} \; \; \; \; (\ eta \ leq 0 \; \; \; \; {\ text {o}} \; \; \; \; \ sum _ { k} \ exp - {\ frac {v_ {k}} {\ eta}} <1)}

La propiedad de conjugación se puede expresar como

si [ anterior :

{\ displaystyle {\ boldsymbol {\ alpha}} \ sim \ operatorname {CD} (\ cdot \ mid {\ boldsymbol {v}}, \ eta)}

] y [ observación :

{\ displaystyle {\ boldsymbol {x}} \ mid {\ boldsymbol {\ alpha}} \ sim \ operatorname {Dirichlet} (\ cdot \ mid {\ boldsymbol {\ alpha}})}

] luego [ posterior :

{\ displaystyle {\ boldsymbol {\ alpha}} \ mid {\ boldsymbol {x}} \ sim \ operatorname {CD} (\ cdot \ mid {\ boldsymbol {v}} - \ log {\ boldsymbol {x}}, \ eta +1)}

].

En la literatura publicada no existe un algoritmo práctico para generar muestras de manera eficiente ${\ Displaystyle \ operatorname {CD} ({\ boldsymbol {\ alpha}} \ mid {\ boldsymbol {v}}, \ eta)}$ .

Ocurrencia y aplicaciones

Modelos bayesianos

Las distribuciones de Dirichlet se utilizan más comúnmente como distribución previa de variables categóricas o variables multinomiales en modelos de mezcla bayesianos y otros modelos bayesianos jerárquicos . (En muchos campos, como en el procesamiento del lenguaje natural , las variables categóricas a menudo se denominan de manera imprecisa "variables multinomiales". Es poco probable que este uso cause confusión, al igual que cuando las distribuciones de Bernoulli y las distribuciones binomiales se combinan comúnmente).

La inferencia sobre modelos bayesianos jerárquicos a menudo se realiza mediante el muestreo de Gibbs y, en tal caso, las instancias de la distribución de Dirichlet suelen excluirse del modelo mediante la integración de la variable aleatoria de Dirichlet . Esto hace que las diversas variables categóricas extraídas de la misma variable aleatoria de Dirichlet se correlacionen y la distribución conjunta sobre ellas asume una distribución Dirichlet-multinomial , condicionada a los hiperparámetros de la distribución de Dirichlet (los parámetros de concentración ). Una de las razones para hacer esto es que el muestreo de Gibbs de la distribución de Dirichlet-multinomial es extremadamente fácil; consulte ese artículo para obtener más información.

Interpretaciones intuitivas de los parámetros

El parámetro de concentración

Las distribuciones de Dirichlet se utilizan con mucha frecuencia como distribuciones previas en la inferencia bayesiana . El tipo más simple y quizás más común de Dirichlet a priori es la distribución de Dirichlet simétrica, donde todos los parámetros son iguales. Corresponde al caso en el que no se dispone de información previa para favorecer un componente sobre cualquier otro. Como se describió anteriormente, el valor único α al que se establecen todos los parámetros se denomina parámetro de concentración . Si el espacio muestral de la distribución de Dirichlet se interpreta como una distribución de probabilidad discreta , entonces intuitivamente se puede pensar que el parámetro de concentración determina cuán "concentrada" es probable que sea la masa de probabilidad de una muestra de una distribución de Dirichlet. Con un valor mucho menor que 1, la masa estará altamente concentrada en unos pocos componentes y el resto casi no tendrá masa. Con un valor mucho mayor que 1, la masa se dispersará casi por igual entre todos los componentes. Consulte el artículo sobre el parámetro de concentración para obtener más información.

Corte de hilo

Un ejemplo de uso de la distribución de Dirichlet es si uno quisiera cortar cuerdas (cada una con una longitud inicial de 1.0) en K piezas con diferentes longitudes, donde cada pieza tenía una longitud promedio designada, pero permitiendo alguna variación en los tamaños relativos de las piezas. Los valores α / α ₀ especifican las longitudes medias de los trozos de hilo cortados que resultan de la distribución. La varianza alrededor de esta media varía inversamente con α ₀ .

Example of Dirichlet(1/2,1/3,1/6) distribution

Urna de Pólya

Considere una urna que contiene bolas de K colores diferentes. Inicialmente, la urna contiene α ₁ bolas de color 1, α ₂ bolas de color 2, etc. Ahora realice N sorteos de la urna, donde después de cada sorteo, la bola se vuelve a colocar en la urna con una bola adicional del mismo color. En el límite cuando N se acerca al infinito, las proporciones de bolas de diferentes colores en la urna se distribuirán como Dir ( α ₁ , ..., α _K ). ^[19]

Para una prueba formal, tenga en cuenta que las proporciones de las bolas de diferentes colores forman una martingala valuada en [0,1] ^K limitada , por lo tanto, según el teorema de la convergencia de la martingala , estas proporciones convergen casi con seguridad y en la media a un vector aleatorio limitante. Para ver que este vector limitante tiene la distribución de Dirichlet anterior, verifique que todos los momentos mixtos concuerden.

Cada extracción de la urna modifica la probabilidad de extraer una bola de cualquier color de la urna en el futuro. Esta modificación disminuye con el número de sorteos, ya que el efecto relativo de agregar una nueva bola a la urna disminuye a medida que la urna acumula un número creciente de bolas.

Métodos computacionales

Generación de números aleatorios

Distribución gamma

Con una fuente de variantes aleatorias distribuidas por gamma, se puede muestrear fácilmente un vector aleatorio ${\ Displaystyle x = (x_ {1}, \ ldots, x_ {K})}$ de la distribución de Dirichlet K -dimensional con parámetros ${\ Displaystyle (\ alpha _ {1}, \ ldots, \ alpha _ {K})}$ . Primero, extraiga K muestras aleatorias independientes ${\ Displaystyle y_ {1}, \ ldots, y_ {K}}$ de distribuciones Gamma, cada una con densidad

{\ Displaystyle \ operatorname {Gamma} (\ alpha _ {i}, 1) = {\ frac {y_ {i} ^ {\ alpha _ {i} -1} \; e ^ {- y_ {i}}} {\ Gamma (\ alpha _ {i})}}, \!}

y luego establecer

{\ Displaystyle x_ {i} = {\ frac {y_ {i}} {\ sum _ {j = 1} ^ {K} y_ {j}}}.}

[Prueba]

La distribución conjunta de ${\ Displaystyle \ {y_ {i} \}}$ es dado por:

{\ Displaystyle e ^ {- \ sum _ {i} y_ {i}} \ prod _ {i = 1} ^ {K} {\ frac {y_ {i} ^ {\ alpha _ {i} -1}} {\ Gamma (\ alpha _ {i})}}}

A continuación, se utiliza un cambio de variables, parametrizar ${\ Displaystyle \ {y_ {i} \}}$ en términos de ${\ Displaystyle y_ {1}, y_ {2}, \ ldots, y_ {K-1}}$ y ${\ Displaystyle \ sum _ {i = 1} ^ {K} y_ {i}}$ , y realiza un cambio de variables de ${\ Displaystyle y \ a x}$ tal que ${\ Displaystyle x_ {K} = \ sum _ {i = 1} ^ {K} y_ {i}, x_ {1} = {\ frac {y_ {1}} {x_ {K}}}, x_ {2 } = {\ frac {y_ {2}} {x_ {K}}}, \ ldots, x_ {K-1} = {\ frac {y_ {K-1}} {x_ {K}}}}$

Luego se debe usar la fórmula de cambio de variables, ${\ Displaystyle P (x) = P (y (x)) {\ bigg |} {\ frac {\ parcial y} {\ parcial x}} {\ bigg |}}$ en el cual ${\ Displaystyle {\ bigg |} {\ frac {\ parcial y} {\ parcial x}} {\ bigg |}}$ es la transformación jacobiana.

Escribiendo y explícitamente como una función de x, se obtiene ${\ Displaystyle y_ {1} = x_ {K} x_ {1}, y_ {2} = x_ {K} x_ {2} \ ldots y_ {K-1} = x_ {K-1} x_ {K}, y_ {K} = x_ {K} (1- \ sum _ {i = 1} ^ {K-1} x_ {i})}$

El jacobiano ahora parece

{\ displaystyle {\ begin {vmatrix} x_ {K} & 0 & \ ldots & x_ {1} \\ 0 & x_ {K} & \ ldots & x_ {2} \\\ vdots & \ vdots & \ ddots & \ vdots \\ - x_ {K} & - x_ {K} & \ ldots & 1- \ sum _ {i = 1} ^ {K-1} x_ {i} \ end {vmatrix}}}

El determinante se puede evaluar observando que permanece sin cambios si se agregan múltiplos de una fila a otra fila, y agregando cada una de las primeras filas K-1 a la fila inferior para obtener

{\ displaystyle {\ begin {vmatrix} x_ {K} & 0 & \ ldots & x_ {1} \\ 0 & x_ {K} & \ ldots & x_ {2} \\\ vdots & \ vdots & \ ddots & \ vdots \\ 0 & 0 & \ ldots & 1 \ end {vmatrix}}}

que se puede ampliar sobre la fila inferior para obtener ${\ displaystyle x_ {K} ^ {K-1}}$

Sustituyendo x en el pdf conjunto e incluyendo el jacobiano, se obtiene:

{\ Displaystyle {\ frac {\ left [\ prod _ {i = 1} ^ {K-1} (x_ {i} x_ {K}) ^ {\ alpha _ {i} -1} \ right] \ left [x_ {K} (1- \ sum _ {i = 1} ^ {K-1} x_ {i}) \ right] ^ {\ alpha _ {K} -1}} {\ prod _ {i = 1 } ^ {K} \ Gamma (\ alpha _ {i})}} x_ {K} ^ {K-1} e ^ {- x_ {K}}}

Cada una de las variables ${\ Displaystyle 0 \ leq x_ {1}, x_ {2}, \ ldots, x_ {k-1} \ leq 1}$ y de la misma manera ${\ Displaystyle 0 \ leq \ sum _ {i = 1} ^ {K-1} x_ {i} \ leq 1}$ .

Finalmente, integre el grado extra de libertad ${\ Displaystyle x_ {K}}$ y se obtiene:

{\ Displaystyle x_ {1}, x_ {2}, \ ldots, x_ {K-1} \ sim {\ frac {(1- \ sum _ {i = 1} ^ {K-1} x_ {i}) ^ {\ alpha _ {K} -1} \ prod _ {i = 1} ^ {K-1} x_ {i} ^ {\ alpha _ {i} -1}} {B ({\ underline {\ alpha }})}}}

Que es equivalente a

{\ Displaystyle {\ frac {\ prod _ {i = 1} ^ {K} x_ {i} ^ {\ alpha _ {i} -1}} {B ({\ underline {\ alpha}})}}}

con apoyo

{\ Displaystyle \ sum _ {i = 1} ^ {K} x_ {i} = 1}

A continuación se muestra un código de Python de ejemplo para dibujar la muestra:

params  =  [ a1 ,  a2 ,  ... ,  ak ] sample  =  [ random . gammavariate ( a ,  1 )  para  a  en  parámetros ] muestra  =  [ v  /  suma ( muestra )  para  v  en  muestra ]

Esta formulación es correcta independientemente de cómo se parametricen las distribuciones Gamma (forma / escala frente a forma / velocidad) porque son equivalentes cuando la escala y la velocidad son iguales a 1,0.

Distribuciones beta marginales

Un algoritmo menos eficiente ^{[20] se} basa en que las distribuciones marginales y condicionales univariadas son beta y procede de la siguiente manera. Simular ${\ Displaystyle x_ {1}}$ de

{\ Displaystyle {\ textrm {Beta}} \ left (\ alpha _ {1}, \ sum _ {i = 2} ^ {K} \ alpha _ {i} \ right)}

Entonces simula ${\ Displaystyle x_ {2}, \ ldots, x_ {K-1}}$ en orden, como sigue. Para ${\ Displaystyle j = 2, \ ldots, K-1}$ , simular ${\ Displaystyle \ phi _ {j}}$ de

{\ Displaystyle {\ textrm {Beta}} \ left (\ alpha _ {j}, \ sum _ {i = j + 1} ^ {K} \ alpha _ {i} \ right),}

y deja

{\ Displaystyle x_ {j} = \ left (1- \ sum _ {i = 1} ^ {j-1} x_ {i} \ right) \ phi _ {j}.}

Finalmente, establezca

{\ Displaystyle x_ {K} = 1- \ sum _ {i = 1} ^ {K-1} x_ {i}.}

Este procedimiento iterativo se corresponde estrechamente con la intuición de "cortar cuerdas" que se describe a continuación.

A continuación se muestra un código de Python de ejemplo para dibujar la muestra:

params  =  [ a1 ,  a2 ,  ... ,  ak ] xs  =  [ random . betavariate ( params [ 0 ],  sum ( params [ 1 :]))] para  j  en el  rango ( 1 ,  len ( params )  -  1 ):  phi  =  aleatorio . betavariar ( params [ j ],  suma ( params [ j  +  1  :]))  xs . añadir (( 1  -  suma ( xs ))  *  phi ) xs . añadir ( 1  -  suma ( xs ))

Ver también

Distribución de Dirichlet generalizada
Distribución de Dirichlet agrupada
Distribución de Dirichlet invertida
Asignación de Dirichlet latente
Proceso de Dirichlet
Matriz de distribución de Dirichlet variable

Referencias

^ S. Kotz; N. Balakrishnan; NL Johnson (2000). Distribuciones continuas multivariadas. Volumen 1: Modelos y aplicaciones . Nueva York: Wiley. ISBN 978-0-471-18387-7. (Capítulo 49: Distribuciones de Dirichlet y Dirichlet invertido)
^ Olkin, Ingram; Rubin, Herman (1964). "Distribuciones Beta multivariadas y propiedades de independencia de la distribución Wishart" . Los Anales de Estadística Matemática . 35 (1): 261–269. doi : 10.1214 / aoms / 1177703748 . JSTOR 2238036 .
^ a b Bela A. Frigyik; Amol Kapila; Maya R. Gupta (2010). "Introducción a la distribución de Dirichlet y procesos relacionados" (PDF) . Departamento de Ingeniería Eléctrica de la Universidad de Washington. Archivado desde el original (Informe técnico UWEETR-2010-006) el 19 de febrero de 2015 . Consultado en mayo de 2012 . Verifique los valores de fecha en: |access-date=( ayuda )
^ Eq. (49.9) en la página 488 de Kotz, Balakrishnan & Johnson (2000). Distribuciones continuas multivariadas. Volumen 1: Modelos y aplicaciones. Nueva York: Wiley.
^ BalakrishV. B. (2005). " " Capítulo 27. Distribución de Dirichlet " ". Un manual sobre distribuciones estadísticas . Hoboken, Nueva Jersey: John Wiley & Sons, Inc. p. 274 . ISBN 978-0-471-42798-8.
^ Hoffmann, Till. "Momentos de la distribución de Dirichlet" . Consultado el 13 de septiembre de 2014 .
^ Christopher M. Bishop (17 de agosto de 2006). Reconocimiento de patrones y aprendizaje automático . Saltador. ISBN 978-0-387-31073-2.
^ Farrow, Malcolm. "Estadísticas bayesianas MAS3301" (PDF) . Universidad de Newcastle . Universidad de Newcastle . Consultado el 10 de abril de 2013 .
^ Lin, Jiayu (2016). Sobre la distribución de Dirichlet (PDF) . Kingston, Canadá: Queen's University. págs. § 2.4.9.
^ Song, Kai-Sheng (2001). "Información de Rényi, loglikelihood y una medida de distribución intrínseca". Revista de Planificación e Inferencia Estadística . Elsevier. 93 (325): 51–69. doi : 10.1016 / S0378-3758 (00) 00169-5 .
^ Nemenman, Ilya; Shafee, Fariel; Bialek, William (2002). Entropía e inferencia, revisada (PDF) . NIPS 14., eq. 8
^ Connor, Robert J .; Mosimann, James E (1969). "Conceptos de independencia para proporciones con una generalización de la distribución de Dirichlet". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 64 (325): 194–206. doi : 10.2307 / 2283728 . JSTOR 2283728 .
^ Véase Kotz, Balakrishnan & Johnson (2000), Sección 8.5, "Generalización de Connor y Mosimann", págs. 519-521.
^ Phillips, PCB (1988). "La función característica de la distribución F de Dirichlet y multivariante" (PDF) . Documento de debate 865 de la Fundación Cowles .
^ Grinshpan, AZ (2017). "Una desigualdad para múltiples convoluciones con respecto a la medida de probabilidad de Dirichlet" . Avances en Matemática Aplicada . 82 (1): 102-119. doi : 10.1016 / j.aam.2016.08.001 .
^ a b Devroye, Luc (1986). Generación variable aleatoria no uniforme . Springer-Verlag. ISBN 0-387-96305-7.
^ Lefkimmiatis, Stamatios; Maragos, Petros; Papandreou, George (2009). "Inferencia bayesiana en modelos multiescala para la estimación de la intensidad de Poisson: aplicaciones para la eliminación de ruido de imágenes limitadas por fotones". Transacciones IEEE sobre procesamiento de imágenes . 18 (8): 1724-1741. doi : 10.1109 / TIP.2009.2022008 .
^ Andreoli, Jean-Marc (2018). "Un conjugado a prior para la distribución de Dirichlet". arXiv : 1811.05266 .
^ Blackwell, David; MacQueen, James B. (1973). "Distribuciones de Ferguson a través de esquemas de urna Polya" . Ana. Stat . 1 (2): 353–355. doi : 10.1214 / aos / 1176342372 .
^ A. Gelman; JB Carlin; HS Stern; DB Rubin (2003). Análisis de datos bayesianos (2ª ed.). págs. 582 . ISBN 1-58488-388-X.

enlaces externos

"Distribución de Dirichlet" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Distribución de Dirichlet
Cómo estimar los parámetros de la distribución de Dirichlet compuesta (distribución de Pólya) usando la maximización de expectativas (EM)
Luc Devroye. "Generación variable aleatoria no uniforme" . Consultado el 19 de octubre de 2019 .
Medidas aleatorias de Dirichlet, método de construcción mediante variables aleatorias de Poisson compuestas y propiedades de intercambiabilidad de la distribución gamma resultante
SciencesPo : paquete R que contiene funciones para simular parámetros de la distribución de Dirichlet.

[KBJ-1] S. Kotz; N. Balakrishnan; NL Johnson (2000). Distribuciones continuas multivariadas. Volumen 1: Modelos y aplicaciones . Nueva York: Wiley. ISBN 978-0-471-18387-7. (Capítulo 49: Distribuciones de Dirichlet y Dirichlet invertido)

[2] Olkin, Ingram; Rubin, Herman (1964). "Distribuciones Beta multivariadas y propiedades de independencia de la distribución Wishart" . Los Anales de Estadística Matemática . 35 (1): 261–269. doi : 10.1214 / aoms / 1177703748 . JSTOR 2238036 .

[FKG-3] Bela A. Frigyik; Amol Kapila; Maya R. Gupta (2010). "Introducción a la distribución de Dirichlet y procesos relacionados" (PDF) . Departamento de Ingeniería Eléctrica de la Universidad de Washington. Archivado desde el original (Informe técnico UWEETR-2010-006) el 19 de febrero de 2015 . Consultado en mayo de 2012 . Verifique los valores de fecha en: |access-date=( ayuda )

[4] Eq. (49.9) en la página 488 de Kotz, Balakrishnan & Johnson (2000). Distribuciones continuas multivariadas. Volumen 1: Modelos y aplicaciones. Nueva York: Wiley.

[5] BalakrishV. B. (2005). " " Capítulo 27. Distribución de Dirichlet " ". Un manual sobre distribuciones estadísticas . Hoboken, Nueva Jersey: John Wiley & Sons, Inc. p. 274 . ISBN 978-0-471-42798-8.

[6] Hoffmann, Till. "Momentos de la distribución de Dirichlet" . Consultado el 13 de septiembre de 2014 .

[Bishop2006-7] Christopher M. Bishop (17 de agosto de 2006). Reconocimiento de patrones y aprendizaje automático . Saltador. ISBN 978-0-387-31073-2.

[8] Farrow, Malcolm. "Estadísticas bayesianas MAS3301" (PDF) . Universidad de Newcastle . Universidad de Newcastle . Consultado el 10 de abril de 2013 .

[9] Lin, Jiayu (2016). Sobre la distribución de Dirichlet (PDF) . Kingston, Canadá: Queen's University. págs. § 2.4.9.

[10] Song, Kai-Sheng (2001). "Información de Rényi, loglikelihood y una medida de distribución intrínseca". Revista de Planificación e Inferencia Estadística . Elsevier. 93 (325): 51–69. doi : 10.1016 / S0378-3758 (00) 00169-5 .

[11] Nemenman, Ilya; Shafee, Fariel; Bialek, William (2002). Entropía e inferencia, revisada (PDF) . NIPS 14., eq. 8

[12] Connor, Robert J .; Mosimann, James E (1969). "Conceptos de independencia para proporciones con una generalización de la distribución de Dirichlet". Revista de la Asociación Estadounidense de Estadística . Asociación Estadounidense de Estadística. 64 (325): 194–206. doi : 10.2307 / 2283728 . JSTOR 2283728 .

[13] Véase Kotz, Balakrishnan & Johnson (2000), Sección 8.5, "Generalización de Connor y Mosimann", págs. 519-521.

[phillips1988-14] Phillips, PCB (1988). "La función característica de la distribución F de Dirichlet y multivariante" (PDF) . Documento de debate 865 de la Fundación Cowles .

[15] Grinshpan, AZ (2017). "Una desigualdad para múltiples convoluciones con respecto a la medida de probabilidad de Dirichlet" . Avances en Matemática Aplicada . 82 (1): 102-119. doi : 10.1016 / j.aam.2016.08.001 .

[devroye-16] Devroye, Luc (1986). Generación variable aleatoria no uniforme . Springer-Verlag. ISBN 0-387-96305-7.

[Lefkimmiatis2009-17] Lefkimmiatis, Stamatios; Maragos, Petros; Papandreou, George (2009). "Inferencia bayesiana en modelos multiescala para la estimación de la intensidad de Poisson: aplicaciones para la eliminación de ruido de imágenes limitadas por fotones". Transacciones IEEE sobre procesamiento de imágenes . 18 (8): 1724-1741. doi : 10.1109 / TIP.2009.2022008 .

[Andreoli2018-18] Andreoli, Jean-Marc (2018). "Un conjugado a prior para la distribución de Dirichlet". arXiv : 1811.05266 .

[19] Blackwell, David; MacQueen, James B. (1973). "Distribuciones de Ferguson a través de esquemas de urna Polya" . Ana. Stat . 1 (2): 353–355. doi : 10.1214 / aos / 1176342372 .

[20] A. Gelman; JB Carlin; HS Stern; DB Rubin (2003). Análisis de datos bayesianos (2ª ed.). págs. 582 . ISBN 1-58488-388-X.

[1] de