Conjugado previo

Estadísticas bayesianas
Parte de una serie sobre

Teoría
Regla de decisión admisible Eficiencia bayesiana Epistemología bayesiana Probabilidad bayesiana Interpretaciones de probabilidad Teorema de Bayes Factor de Bayes Inferencia bayesiana Red bayesiana Previo Posterior Probabilidad Conjugado previo Predictivo posterior Hiperparámetro Hyperprior Principio de indiferencia Principio de máxima entropía Método empírico de Bayes Regla de Cromwell Teorema de Bernstein-von Mises Criterio de Schwarz Intervalo creíble Estimación máxima a posteriori Probabilismo radical
Técnicas
Regresión lineal bayesiana Estimador bayesiano Cálculo bayesiano aproximado Cadena de Markov Monte Carlo
Portal de matemáticas
v t mi

En probabilidad bayesiana teoría, si la distribución posterior P ( θ | x ) es de la misma familia de distribución de probabilidad como la distribución de probabilidad antes de p (θ), el anterior y posterior a continuación, se denominan distribuciones conjugadas, y el anterior se llama un previo conjugado para la función de verosimilitud p (x | θ ).

Un prior conjugado es una conveniencia algebraica, que da una expresión de forma cerrada para el posterior; de lo contrario, puede ser necesaria la integración numérica . Además, los previos conjugados pueden dar intuición al mostrar de manera más transparente cómo una función de probabilidad actualiza una distribución anterior.

El concepto, así como el término "previo conjugado", fueron introducidos por Howard Raiffa y Robert Schlaifer en su trabajo sobre la teoría de la decisión bayesiana . ^[1] George Alfred Barnard había descubierto de forma independiente un concepto similar . ^[2]

Ejemplo

La forma del conjugado a priori generalmente se puede determinar mediante la inspección de la densidad de probabilidad o la función de masa de probabilidad de una distribución. Por ejemplo, considere una variable aleatoria que consiste en el número de éxitos en los ensayos de Bernoulli con una probabilidad de éxito desconocida en [0,1]. Esta variable aleatoria seguirá la distribución binomial , con una función de masa de probabilidad de la forma ${\ Displaystyle s}$ ${\ Displaystyle n}$ ${\ Displaystyle q}$

{\ displaystyle p (s) = {n \ elige s} q ^ {s} (1-q) ^ {ns}}

El conjugado previo habitual es la distribución beta con parámetros ( , ): ${\ Displaystyle \ alpha}$ ${\ Displaystyle \ beta}$

{\ Displaystyle p (q) = {q ^ {\ alpha -1} (1-q) ^ {\ beta -1} \ over \ mathrm {B} (\ alpha, \ beta)}}

donde y se eligen para reflejar cualquier creencia o información existente ( = 1 y = 1 daría una distribución uniforme ) y Β ( , ) es la función Beta que actúa como una constante de normalización . ${\ Displaystyle \ alpha}$ ${\ Displaystyle \ beta}$ ${\ Displaystyle \ alpha}$ ${\ Displaystyle \ beta}$ ${\ Displaystyle \ alpha}$ ${\ Displaystyle \ beta}$

En este contexto, ya se denominan hiperparámetros (parámetros del anterior), para distinguirlos de los parámetros del modelo subyacente (aquí q ). Una característica típica de los priores conjugados es que la dimensionalidad de los hiperparámetros es mayor que la de los parámetros de la distribución original. Si todos los parámetros son valores escalares, esto significa que habrá un hiperparámetro más que un parámetro; pero esto también se aplica a los parámetros con valores vectoriales y con valores matriciales. (Ver el artículo general sobre la familia exponencial , y considerar también la distribución de Wishart , antes conjugada de la matriz de covarianza de una distribución normal multivariante ${\ Displaystyle \ alpha}$ ${\ Displaystyle \ beta}$ , por ejemplo en el que se trata de una gran dimensionalidad).

Si luego tomamos una muestra de esta variable aleatoria y obtenemos s éxitos yf fracasos, tenemos

{\begin{aligned}P(s,f\mid q=x)&={s+f \choose s}x^{s}(1-x)^{f},\\P(q=x)&={x^{\alpha -1}(1-x)^{\beta -1} \over \mathrm {B} (\alpha ,\beta )},\\P(q=x\mid s,f)&={\frac {P(s,f\mid x)P(x)}{\int P(s,f\mid y)P(y)dy}}\\&={{{s+f \choose s}x^{s+\alpha -1}(1-x)^{f+\beta -1}/\mathrm {B} (\alpha ,\beta )} \over \int _{y=0}^{1}\left({s+f \choose s}y^{s+\alpha -1}(1-y)^{f+\beta -1}/\mathrm {B} (\alpha ,\beta )\right)dy}\\&={x^{s+\alpha -1}(1-x)^{f+\beta -1} \over \mathrm {B} (s+\alpha ,f+\beta )},\end{aligned}}

que es otra distribución Beta con parámetros ( + s , + f ). Esta distribución posterior podría usarse como anterior para más muestras, y los hiperparámetros simplemente agregan cada pieza adicional de información a medida que se presenta. $\alpha$ $\beta$

Interpretaciones

Pseudo-observaciones

A menudo es útil pensar en los hiperparámetros de una distribución previa conjugada como correspondientes a haber observado un cierto número de pseudo-observaciones con propiedades especificadas por los parámetros. Por ejemplo, se puede pensar que los valores y de una distribución beta corresponden a éxitos y fracasos si se utiliza el modo posterior para elegir un ajuste de parámetro óptimo, o éxitos y $\alpha$ $\beta$ $\alpha -1$ $\beta -1$ $\alpha$ $\beta$ fallos si se utiliza la media posterior para elegir un ajuste de parámetro óptimo. En general, para casi todas las distribuciones previas conjugadas, los hiperparámetros se pueden interpretar en términos de pseudoobservaciones. Esto puede ayudar tanto a proporcionar una intuición detrás de las ecuaciones de actualización, a menudo desordenadas, como a ayudar a elegir hiperparámetros razonables para un anterior.

Analogía con funciones propias ^{[ cita requerida ]}

Los priores conjugados son análogos a las funciones propias en la teoría del operador , en el sentido de que son distribuciones sobre las que el "operador condicionante" actúa de una manera bien entendida, pensando en el proceso de cambio del anterior al posterior como un operador.

Tanto en las funciones propias como en los priores conjugados, existe un espacio de dimensión finita que es preservado por el operador: la salida es de la misma forma (en el mismo espacio) que la entrada. Esto simplifica enormemente el análisis, ya que de lo contrario considera un espacio de dimensión infinita (espacio de todas las funciones, espacio de todas las distribuciones).

Sin embargo, los procesos son solo análogos, no idénticos: el condicionamiento no es lineal, ya que el espacio de distribuciones no está cerrado bajo combinación lineal , solo combinación convexa , y el posterior es solo de la misma forma que el anterior, no un múltiplo escalar.

Así como se puede analizar fácilmente cómo una combinación lineal de funciones propias evoluciona bajo la aplicación de un operador (porque, con respecto a estas funciones, el operador está diagonalizado ), se puede analizar fácilmente cómo una combinación convexa de priores conjugados evoluciona bajo condicionamiento; esto se llama usar un hiperprior , y corresponde al uso de una densidad de mezcla de conjugados a priori, en lugar de un solo conjugado a priori.

Sistema dinámico

Se puede pensar en el condicionamiento de los previos conjugados como la definición de una especie de sistema dinámico (tiempo discreto) : a partir de un conjunto dado de hiperparámetros, los datos entrantes actualizan estos hiperparámetros, por lo que se puede ver el cambio en los hiperparámetros como una especie de "evolución temporal" de el sistema, correspondiente al "aprendizaje". Comenzar en diferentes puntos produce diferentes flujos a lo largo del tiempo. Esto es nuevamente análogo al sistema dinámico definido por un operador lineal, pero tenga en cuenta que dado que diferentes muestras conducen a diferentes inferencias, esto no depende simplemente del tiempo, sino de los datos a lo largo del tiempo. Para conocer los enfoques relacionados, consulte Estimación bayesiana recursiva y asimilación de datos .

Ejemplo practico

Suponga que en su ciudad opera un servicio de alquiler de coches. Los conductores pueden dejar y recoger automóviles en cualquier lugar dentro de los límites de la ciudad. Puede buscar y alquilar coches mediante una aplicación.

Suponga que desea encontrar la probabilidad de encontrar un coche de alquiler a poca distancia de su domicilio en cualquier momento del día.

Durante tres días, miras la aplicación y encuentras el siguiente número de coches a poca distancia de tu domicilio: $\mathbf {x} =[3,4,1]$

Si asumimos que los datos provienen de una distribución de Poisson , podemos calcular la estimación de máxima verosimilitud de los parámetros del modelo que utiliza esta estimación de máxima verosimilitud, podemos calcular la probabilidad de que haya al menos un automóvil disponible en un día determinado: ${\textstyle \lambda ={\frac {3+4+1}{3}}\approx 2.67.}$ ${\textstyle p(x>0|\lambda \approx 2.67)=1-p(x=0|\lambda \approx 2.67)=1-{\frac {2.67^{0}e^{-2.67}}{0!}}\approx 0.93}$

Esta es la distribución de Poisson que es el más probabilidades de haber generado los datos observados . Pero los datos también podrían provenir de otra distribución de Poisson, por ejemplo, una con , o , etc. De hecho, hay un número infinito de distribuciones de Poisson que podrían haber generado los datos observados y con relativamente pocos puntos de datos deberíamos estar bastante seguros de cuál La distribución exacta de Poisson generó estos datos. De manera intuitiva, en cambio, deberíamos tomar un promedio ponderado de la probabilidad de para cada una de esas distribuciones de Poisson, ponderado por la probabilidad de que sean cada una, dados los datos que hemos observado . $\mathbf {x}$ $\lambda =3$ $\lambda =2$ $p(x>0|\lambda )$ $\mathbf {x}$

Generalmente, esta cantidad se conoce como la distribución predictiva posterior donde hay un nuevo punto de datos, son los datos observados y son los parámetros del modelo. Usando el teorema de Bayes podemos expandir, por lo tanto , generalmente, esta integral es difícil de calcular. Sin embargo, si elige una distribución previa conjugada , se puede derivar una expresión de forma cerrada. Esta es la columna predictiva posterior en las tablas siguientes. $p(x|\mathbf {x} )=\int _{\theta }p(x|\theta )p(\theta |\mathbf {x} )d\theta \,,$ $x$ $\mathbf {x}$ $\theta$ $p(\theta |\mathbf {x} )={\frac {p(\mathbf {x} |\theta )p(\theta )}{p(\mathbf {x} )}}\,,$ $p(x|\mathbf {x} )=\int _{\theta }p(x|\theta ){\frac {p(\mathbf {x} |\theta )p(\theta )}{p(\mathbf {x} )}}d\theta \,.$ $p(\theta )$

Volviendo a nuestro ejemplo, si elegimos la distribución Gamma como nuestra distribución anterior sobre la tasa de las distribuciones de Poisson, entonces el predictivo posterior es la distribución binomial negativa como se puede ver en la última columna de la tabla a continuación. La distribución Gamma está parametrizada por dos hiperparámetros que tenemos que elegir. Al observar las gráficas de la distribución gamma que seleccionamos , parece ser un valor previo razonable para el número promedio de automóviles. La elección de hiperparámetros previos es intrínsecamente subjetiva y se basa en conocimientos previos. $\alpha ,\beta$ $\alpha =\beta =2$

Dados los hiperparámetros anteriores y podemos calcular los hiperparámetros posteriores y $\alpha$ $\beta$ ${\textstyle \alpha '=\alpha +\sum _{i}x_{i}=2+3+4+1=10}$ ${\textstyle \beta '=\beta +n=2+3=5}$

Dados los hiperparámetros posteriores, finalmente podemos calcular el predictivo posterior de ${\textstyle p(x>0|\mathbf {x} )=1-p(x=0|\mathbf {x} )=1-NB\left(0\,|\,10,{\frac {1}{1+5}}\right)\approx 0.84}$

Esta estimación mucho más conservadora refleja la incertidumbre en los parámetros del modelo, que el predictivo posterior tiene en cuenta.

Tabla de distribuciones conjugadas

Sea n el número de observaciones. En todos los casos siguientes, se supone que los datos constan de n puntos (que serán vectores aleatorios en los casos multivariados). $x_{1},\ldots ,x_{n}$

Si la función de verosimilitud pertenece a la familia exponencial , entonces existe un previo conjugado, a menudo también en la familia exponencial; ver Familia exponencial: distribuciones conjugadas .

Cuando la función de verosimilitud es una distribución discreta

Esta sección necesita citas adicionales para su verificación . Por favor, ayuda a mejorar este artículo mediante la adición de citas de fuentes confiables . El material no obtenido puede ser cuestionado y eliminado. ( Agosto de 2020 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

Probabilidad	Parámetros del modelo	Distribución previa conjugada	Hiperparámetros previos	Hiperparámetros posteriores ^{[nota 1]}	Interpretación de hiperparámetros	Predictivo posterior ^{[nota 2]}
Bernoulli	p (probabilidad)	Beta	$\alpha ,\,\beta \in \mathbb {R} \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +n-\sum _{i=1}^{n}x_{i}\!$	$\alpha$ éxitos, fracasos ^{[nota 3]} $\beta$	$p({\tilde {x}}=1)={\frac {\alpha '}{\alpha '+\beta '}}$
Binomio	p (probabilidad)	Beta	$\alpha ,\,\beta \in \mathbb {R} \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!$	$\alpha$ éxitos, fracasos ^{[nota 3]} $\beta$	$\operatorname {BetaBin} ({\tilde {x}}\|\alpha ',\beta ')$ ( beta-binomio )
Binomio negativo con número de falla conocido, r	p (probabilidad)	Beta	$\alpha ,\,\beta \in \mathbb {R} \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +rn\!$	$\alpha$ éxitos totales, fracasos ^{[nota 3]} (es decir, experimentos, asumiendo que se mantiene fijo) $\beta$ ${\frac {\beta }{r}}$ $r$	$\operatorname {BetaNegBin} ({\tilde {x}}\|\alpha ',\beta ')$ (binomio beta-negativo)
Poisson	λ (tasa)	Gama	$k,\,\theta \in \mathbb {R} \!$	$k+\sum _{i=1}^{n}x_{i},\ {\frac {\theta }{n\theta +1}}\!$	$k$ ocurrencias totales en intervalos ${\frac {1}{\theta }}$	$\operatorname {NB} \left({\tilde {x}}\mid k',{\frac {\theta '}{\theta '+1}}\right)$ ( binomio negativo )
Poisson	λ (tasa)	Gama	$\alpha ,\,\beta \!$ ^{[nota 4]}	$\alpha +\sum _{i=1}^{n}x_{i},\ \beta +n\!$	$\alpha$ ocurrencias totales en intervalos $\beta$	$\operatorname {NB} \left({\tilde {x}}\mid \alpha ',{\frac {1}{1+\beta '}}\right)$ ( binomio negativo )
Categórico	p (vector de probabilidad), k (número de categorías; es decir, tamaño de p )	Dirichlet	${\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!$	${\boldsymbol {\alpha }}+(c_{1},\ldots ,c_{k}),$ donde es el número de observaciones en la categoría i $c_{i}$	$\alpha _{i}$ ocurrencias de la categoría ^{[nota 3]} $i$	${\begin{aligned}p({\tilde {x}}=i)&={\frac {{\alpha _{i}}'}{\sum _{i}{\alpha _{i}}'}}\\&={\frac {\alpha _{i}+c_{i}}{\sum _{i}\alpha _{i}+n}}\end{aligned}}$
Multinomial	p (vector de probabilidad), k (número de categorías; es decir, tamaño de p )	Dirichlet	${\boldsymbol {\alpha }}\in \mathbb {R} ^{k}\!$	${\boldsymbol {\alpha }}+\sum _{i=1}^{n}\mathbf {x} _{i}\!$	$\alpha _{i}$ ocurrencias de la categoría ^{[nota 3]} $i$	$\operatorname {DirMult} ({\tilde {\mathbf {x} }}\mid {\boldsymbol {\alpha }}')$ ( Dirichlet-multinomial )
Hipergeométrico con tamaño de población total conocido, N	M (número de miembros objetivo)	Beta-binomio ^[3]	$n=N,\alpha ,\,\beta \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!$	$\alpha$ éxitos, fracasos ^{[nota 3]} $\beta$
Geométrico	p ₀ (probabilidad)	Beta	$\alpha ,\,\beta \in \mathbb {R} \!$	$\alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!$	$\alpha$ experimentos, fallas totales ^{[nota 3]} $\beta$

Cuando la función de verosimilitud es una distribución continua

Probabilidad	Parámetros del modelo	Distribución previa conjugada	Hiperparámetros previos	Hiperparámetros posteriores ^{[nota 1]}	Interpretación de hiperparámetros	Predictivo posterior ^{[nota 5]}
Normal con varianza conocida σ ²	μ (media)	Normal	$\mu _{0},\,\sigma _{0}^{2}\!$	${\frac {1}{{\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}}}\left({\frac {\mu _{0}}{\sigma _{0}^{2}}}+{\frac {\sum _{i=1}^{n}x_{i}}{\sigma ^{2}}}\right),\left({\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}\right)^{-1}$	La media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con la media de la muestra. $1/\sigma _{0}^{2}$ $\mu _{0}$	${\mathcal {N}}({\tilde {x}}\|\mu _{0}',{\sigma _{0}^{2}}'+\sigma ^{2})$ ^[4]
Normal con precisión conocida τ	μ (media)	Normal	$\mu _{0},\,\tau _{0}^{-1}\!$	${\frac {\tau _{0}\mu _{0}+\tau \sum _{i=1}^{n}x_{i}}{\tau _{0}+n\tau }},\,\left(\tau _{0}+n\tau \right)^{-1}$	La media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con la media de la muestra. $\tau _{0}$ $\mu _{0}$	${\mathcal {N}}\left({\tilde {x}}\mid \mu _{0}',{\frac {1}{\tau _{0}'}}+{\frac {1}{\tau }}\right)$ ^[4]
Normal con media conocida μ	σ ² (varianza)	Gamma inversa	$\mathbf {\alpha ,\,\beta }$ ^{[nota 6]}	$\mathbf {\alpha } +{\frac {n}{2}},\,\mathbf {\beta } +{\frac {\sum _{i=1}^{n}{(x_{i}-\mu )^{2}}}{2}}$	la varianza se estimó a partir de observaciones con varianza muestral (es decir, con la suma de las desviaciones cuadradas , donde las desviaciones son de la media conocida ) $2\alpha$ $\beta /\alpha$ $2\beta$ $\mu$	$t_{2\alpha '}({\tilde {x}}\|\mu ,\sigma ^{2}=\beta '/\alpha ')$ ^[4]
Normal con media conocida μ	σ ² (varianza)	Chi-cuadrado inverso escalado	$\nu ,\,\sigma _{0}^{2}\!$	$\nu +n,\,{\frac {\nu \sigma _{0}^{2}+\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{\nu +n}}\!$	la varianza se estimó a partir de observaciones con varianza muestral $\nu$ $\sigma _{0}^{2}$	$t_{\nu '}({\tilde {x}}\|\mu ,{\sigma _{0}^{2}}')$ ^[4]
Normal con media conocida μ	τ (precisión)	Gama	$\alpha ,\,\beta \!$ ^{[nota 4]}	$\alpha +{\frac {n}{2}},\,\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\!$	la precisión se estimó a partir de observaciones con varianza muestral (es decir, con la suma de las desviaciones cuadradas , donde las desviaciones son de la media conocida ) $2\alpha$ $\beta /\alpha$ $2\beta$ $\mu$	$t_{2\alpha '}({\tilde {x}}\mid \mu ,\sigma ^{2}=\beta '/\alpha ')$ ^[4]
Normal ^{[nota 7]}	μ y σ ² Suponiendo intercambiabilidad	Gamma normal-inversa	$\mu _{0},\,\nu ,\,\alpha ,\,\beta$	${\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,$ $\beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}$ ${\bar {x}}$ es la media muestral	la media se estimó a partir de observaciones con media muestral ; la varianza se estimó a partir de observaciones con la media de la muestra y la suma de las desviaciones al cuadrado $\nu$ $\mu _{0}$ $2\alpha$ $\mu _{0}$ $2\beta$	$t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\nu '\alpha '}}\right)$ ^[4]
Normal	μ y τ Suponiendo intercambiabilidad	Normal-gamma	$\mu _{0},\,\nu ,\,\alpha ,\,\beta$	${\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,$ $\beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}$ ${\bar {x}}$ es la media muestral	la media se estimó a partir de las observaciones con la media de la muestra , y la precisión se estimó a partir de las observaciones con la media de la muestra y la suma de las desviaciones cuadradas. $\nu$ $\mu _{0}$ $2\alpha$ $\mu _{0}$ $2\beta$	$t_{2\alpha '}\left({\tilde {x}}\mid \mu ',{\frac {\beta '(\nu '+1)}{\alpha '\nu '}}\right)$ ^[4]
Normal multivariante con matriz de covarianza conocida Σ	μ (vector medio)	Normal multivariante	${\boldsymbol {\boldsymbol {\mu }}}_{0},\,{\boldsymbol {\Sigma }}_{0}$	$\left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}\left({\boldsymbol {\Sigma }}_{0}^{-1}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Sigma }}^{-1}\mathbf {\bar {x}} \right),$ $\left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}$ $\mathbf {\bar {x}}$ es la media muestral	La media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con la media de la muestra. ${\boldsymbol {\Sigma }}_{0}^{-1}$ ${\boldsymbol {\mu }}_{0}$	${\mathcal {N}}({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{{\boldsymbol {\Sigma }}_{0}}'+{\boldsymbol {\Sigma }})$ ^[4]
Normal multivariante con matriz de precisión conocida Λ	μ (vector medio)	Normal multivariante	$\mathbf {\boldsymbol {\mu }} _{0},\,{\boldsymbol {\Lambda }}_{0}$	$\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)^{-1}\left({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Lambda }}\mathbf {\bar {x}} \right),\,\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)$ $\mathbf {\bar {x}}$ es la media muestral	La media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) y con la media de la muestra. ${\boldsymbol {\Lambda }}_{0}$ ${\boldsymbol {\mu }}_{0}$	${\mathcal {N}}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{{{\boldsymbol {\Lambda }}_{0}}'}^{-1}+{\boldsymbol {\Lambda }}^{-1}\right)$ ^[4]
Normal multivariante con media conocida μ	Σ (matriz de covarianza)	Wishart inverso	$\nu ,\,{\boldsymbol {\Psi }}$	$n+\nu ,\,{\boldsymbol {\Psi }}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}$	La matriz de covarianza se estimó a partir de observaciones con la suma de los productos de desviación por pares. $\nu$ ${\boldsymbol {\Psi }}$	$t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}\|{\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\boldsymbol {\Psi }}'\right)$ ^[4]
Normal multivariante con media conocida μ	Λ (matriz de precisión)	Wishart	$\nu ,\,\mathbf {V}$	$n+\nu ,\,\left(\mathbf {V} ^{-1}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}\right)^{-1}$	La matriz de covarianza se estimó a partir de observaciones con la suma de los productos de desviación por pares. $\nu$ $\mathbf {V} ^{-1}$	$t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}\mid {\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\mathbf {V} '}^{-1}\right)$ ^[4]
Normal multivariante	μ (vector medio) y Σ (matriz de covarianza)	normal-inverso-Wishart	${\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,{\boldsymbol {\Psi }}$	${\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,$ ${\boldsymbol {\Psi }}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}$ $\mathbf {\bar {x}}$ es la media muestral $\mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}$	la media se estimó a partir de observaciones con media muestral ; La matriz de covarianza se estimó a partir de observaciones con la media de la muestra y con la suma de los productos de desviación por pares. $\kappa _{0}$ ${\boldsymbol {\mu }}_{0}$ $\nu _{0}$ ${\boldsymbol {\mu }}_{0}$ ${\boldsymbol {\Psi }}=\nu _{0}{\boldsymbol {\Sigma }}_{0}$	$t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\|{{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\boldsymbol {\Psi }}'\right)$ ^[4]
Normal multivariante	μ (vector medio) y Λ (matriz de precisión)	normal-Wishart	${\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,\mathbf {V}$	${\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,$ $\left(\mathbf {V} ^{-1}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}\right)^{-1}$ $\mathbf {\bar {x}}$ es la media muestral $\mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}$	la media se estimó a partir de observaciones con media muestral ; La matriz de covarianza se estimó a partir de observaciones con la media de la muestra y con la suma de los productos de desviación por pares. $\kappa _{0}$ ${\boldsymbol {\mu }}_{0}$ $\nu _{0}$ ${\boldsymbol {\mu }}_{0}$ $\mathbf {V} ^{-1}$	$t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\mid {{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\mathbf {V} '}^{-1}\right)$ ^[4]
Uniforme	$U(0,\theta )\!$	Pareto	$x_{m},\,k\!$	$\max\{\,x_{1},\ldots ,x_{n},x_{\mathrm {m} }\},\,k+n\!$	$k$ observaciones con valor máximo $x_{m}$
Pareto con mínimo conocido x _m	k (forma)	Gama	$\alpha ,\,\beta \!$	$\alpha +n,\,\beta +\sum _{i=1}^{n}\ln {\frac {x_{i}}{x_{\mathrm {m} }}}\!$	$\alpha$ observaciones con la suma del orden de magnitud de cada observación (es decir, el logaritmo de la relación entre cada observación y el mínimo ) $\beta$ $x_{m}$
Weibull con forma conocida β	θ (escala)	Gamma inversa ^[3]	$a,b\!$	$a+n,\,b+\sum _{i=1}^{n}x_{i}^{\beta }\!$	$a$ observaciones con la suma de la β ' ésima potencia de cada observación $b$
Logaritmo normal	Lo mismo que para la distribución normal después de aplicar el logaritmo natural a los datos de los hiperparámetros posteriores. Consulte Fink (1997 , págs. 21-22) para ver los detalles.
Exponencial	λ (tasa)	Gama	$\alpha ,\,\beta \!$ ^{[nota 4]}	$\alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!$	$\alpha -1$ observaciones que suman ^[5] $\beta$	$\operatorname {Lomax} ({\tilde {x}}\mid \beta ',\alpha ')$ ( Distribución Lomax )
Gamma con forma conocida α	β (tasa)	Gama	$\alpha _{0},\,\beta _{0}\!$	$\alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}x_{i}\!$	$\alpha _{0}/\alpha$ observaciones con suma $\beta _{0}$	$\operatorname {CG} ({\tilde {\mathbf {x} }}\mid \alpha ,{\alpha _{0}}',{\beta _{0}}')=\operatorname {\beta '} ({\tilde {\mathbf {x} }}\|\alpha ,{\alpha _{0}}',1,{\beta _{0}}')$ ^{[nota 8]}
Gamma inversa con forma conocida α	β (escala inversa)	Gama	$\alpha _{0},\,\beta _{0}\!$	$\alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}{\frac {1}{x_{i}}}\!$	$\alpha _{0}/\alpha$ observaciones con suma $\beta _{0}$
Gamma con tasa conocida β	α (forma)	$\propto {\frac {a^{\alpha -1}\beta ^{\alpha c}}{\Gamma (\alpha )^{b}}}$	$a,\,b,\,c\!$	$a\prod _{i=1}^{n}x_{i},\,b+n,\,c+n\!$	$b$ u observaciones ( para estimar , para estimar ) con producto $c$ $b$ $\alpha$ $c$ $\beta$ $a$
Gamma ^[3]	α (forma), β (escala inversa)	$\propto {\frac {p^{\alpha -1}e^{-\beta q}}{\Gamma (\alpha )^{r}\beta ^{-\alpha s}}}$	$p,\,q,\,r,\,s\!$	$p\prod _{i=1}^{n}x_{i},\,q+\sum _{i=1}^{n}x_{i},\,r+n,\,s+n\!$	$\alpha$ se estimó a partir de observaciones con producto ; fue estimado a partir de observaciones con suma $r$ $p$ $\beta$ $s$ $q$
Beta	α , β	$\propto {\frac {\Gamma (\alpha +\beta )^{k}\,p^{\alpha }\,q^{\beta }}{\Gamma (\alpha )^{k}\,\Gamma (\beta )^{k}}}$	$p,\,q,\,k\!$	$p\prod _{i=1}^{n}x_{i},\,q\prod _{i=1}^{n}(1-x_{i}),\,k+n\!$	$\alpha$ y fueron estimados a partir de observaciones con producto y producto de los complementos $\beta$ $k$ $p$ $q$

Ver también

Distribución beta-binomial

Notas

^ a b Denominado por los mismos símbolos que los hiperparámetros anteriores con primos agregados ('). Por ejemplo se denota $\alpha$ $\alpha '$
^ Esta es la distribución predictiva posterior de un nuevo punto de datosdados los puntos de datos observados, con los parámetros marginados . Las variables con primos indican los valores posteriores de los parámetros. ${\tilde {x}}$
^ a b c d e f g La interpretación exacta de los parámetros de una distribución beta en términos de número de éxitos y fracasos depende de la función que se utilice para extraer una estimación puntual de la distribución. La media de una distribución beta es la que corresponde a los éxitos y los fracasos, mientras que la modalidad es la que corresponde a los éxitos y los fracasos. Los bayesianos generalmente prefieren usar la media posterior en lugar del modo posterior como una estimación puntual, justificada por una función de pérdida cuadrática, y el uso de y es más conveniente matemáticamente, mientras que el uso de y ${\frac {\alpha }{\alpha +\beta }},$ $\alpha$ $\beta$ ${\frac {\alpha -1}{\alpha +\beta -2}},$ $\alpha -1$ $\beta -1$ $\alpha$ $\beta$ $\alpha -1$ $\beta -1$ tiene la ventaja de que un previo uniforme corresponde a 0 aciertos y 0 fracasos. Los mismos problemas se aplican a la distribución de Dirichlet . ${\rm {Beta}}(1,1)$
^ a b c β es tasa o escala inversa. En la parametrización de la distribución gamma , θ = 1 / β y k = α .
^ Esta es la distribución predictiva posterior de un nuevo punto de datosdados los puntos de datos observados, con los parámetros marginados . Las variables con primos indican los valores posteriores de los parámetros. y serefieren a la distribución normal y la distribución t de Student , respectivamente, oa la distribución normal multivariada y la distribución t multivariada en los casos multivariados. ${\tilde {x}}$ ${\mathcal {N}}$ $t_{n}$
^ En términos de gamma inversa ,es un parámetro de escala $\beta$
^ Un antecedente conjugado diferente para la media y la varianza desconocidas, pero con una relación lineal fija entre ellas, se encuentra en la mezcla de varianza-media normal , con ladistribución de mezcla conjugada gaussiana inversa generalizada .
^ es una distribución gamma compuesta ; aquí hay una distribución principal beta generalizada . $\operatorname {CG} ()$ $\operatorname {\beta '} ()$

Referencias

^ Howard Raiffa y Robert Schlaifer . Teoría de la decisión estadística aplicada . División de Investigación, Escuela de Graduados en Administración de Empresas, Universidad de Harvard, 1961.
^ Jeff Miller y col. Los primeros usos conocidos de algunas de las palabras de las matemáticas , "conjugan distribuciones previas" . Documento electrónico, revisión del 13 de noviembre de 2005, consultado el 2 de diciembre de 2005.
↑ a b c Fink, Daniel (1997). "Un compendio de anteriores conjugados" (PDF) . CiteSeerX 10.1.1.157.5540 . Archivado desde el original (PDF) el 29 de mayo de 2009.
^ a b c d e f g h i j k l m Murphy, Kevin P. (2007), Análisis bayesiano conjugado de la distribución gaussiana (PDF)
^ Liu, Han; Wasserman, Larry (2014). Aprendizaje automático estadístico (PDF) . pag. 314.

[posterior-hyperparameters-3] Denominado por los mismos símbolos que los hiperparámetros anteriores con primos agregados ('). Por ejemplo se denota $\alpha$ $\alpha '$

[postpred-4] Esta es la distribución predictiva posterior de un nuevo punto de datosdados los puntos de datos observados, con los parámetros marginados . Las variables con primos indican los valores posteriores de los parámetros. ${\tilde {x}}$

[beta-interp-5] La interpretación exacta de los parámetros de una distribución beta en términos de número de éxitos y fracasos depende de la función que se utilice para extraer una estimación puntual de la distribución. La media de una distribución beta es la que corresponde a los éxitos y los fracasos, mientras que la modalidad es la que corresponde a los éxitos y los fracasos. Los bayesianos generalmente prefieren usar la media posterior en lugar del modo posterior como una estimación puntual, justificada por una función de pérdida cuadrática, y el uso de y es más conveniente matemáticamente, mientras que el uso de y ${\frac {\alpha }{\alpha +\beta }},$ $\alpha$ $\beta$ ${\frac {\alpha -1}{\alpha +\beta -2}},$ $\alpha -1$ $\beta -1$ $\alpha$ $\beta$ $\alpha -1$ $\beta -1$ tiene la ventaja de que un previo uniforme corresponde a 0 aciertos y 0 fracasos. Los mismos problemas se aplican a la distribución de Dirichlet . ${\rm {Beta}}(1,1)$

[beta_rate-6] β es tasa o escala inversa. En la parametrización de la distribución gamma , θ = 1 / β y k = α .

[ppredNt-8] Esta es la distribución predictiva posterior de un nuevo punto de datosdados los puntos de datos observados, con los parámetros marginados . Las variables con primos indican los valores posteriores de los parámetros. y serefieren a la distribución normal y la distribución t de Student , respectivamente, oa la distribución normal multivariada y la distribución t multivariada en los casos multivariados. ${\tilde {x}}$ ${\mathcal {N}}$ $t_{n}$

[beta_scale-10] En términos de gamma inversa ,es un parámetro de escala $\beta$

[11] Un antecedente conjugado diferente para la media y la varianza desconocidas, pero con una relación lineal fija entre ellas, se encuentra en la mezcla de varianza-media normal , con ladistribución de mezcla conjugada gaussiana inversa generalizada .

[CG-13] s una distribución gamma compuesta ; aquí hay una distribución principal beta generalizada . $\operatorname {CG} ()$ $\operatorname {\beta '} ()$

[raiffa_schlaifer-1] Howard Raiffa y Robert Schlaifer . Teoría de la decisión estadística aplicada . División de Investigación, Escuela de Graduados en Administración de Empresas, Universidad de Harvard, 1961.

[miller-2] Jeff Miller y col. Los primeros usos conocidos de algunas de las palabras de las matemáticas , "conjugan distribuciones previas" . Documento electrónico, revisión del 13 de noviembre de 2005, consultado el 2 de diciembre de 2005.

[Fink-7] Fink, Daniel (1997). "Un compendio de anteriores conjugados" (PDF) . CiteSeerX 10.1.1.157.5540 . Archivado desde el original (PDF) el 29 de mayo de 2009.

[murphy-9] ^ a b c d e f g h i j k l m Murphy, Kevin P. (2007), Análisis bayesiano conjugado de la distribución gaussiana (PDF)

[12] Liu, Han; Wasserman, Larry (2014). Aprendizaje automático estadístico (PDF) . pag. 314.

[1]