Distribución predictiva posterior

En la estadística bayesiana , la distribución predictiva posterior es la distribución de posibles valores no observados condicionada a los valores observados. ^[1]^[2]

Dado un conjunto de observaciones N i.id ${\ Displaystyle \ mathbf {X} = \ {x_ {1}, \ dots, x_ {N} \}}$ , un nuevo valor ${\ Displaystyle {\ tilde {x}}}$ se extraerá de una distribución que depende de un parámetro ${\ Displaystyle \ theta \ in \ Theta}$ :

{\ Displaystyle p ({\ tilde {x}} | \ theta)}

Puede parecer tentador introducir una única mejor estimación ${\ Displaystyle {\ hat {\ theta}}}$ por ${\ Displaystyle \ theta}$ , pero esto ignora la incertidumbre sobre ${\ Displaystyle \ theta}$ y debido a que se ignora una fuente de incertidumbre, la distribución predictiva será demasiado estrecha. Dicho de otra manera, las predicciones de valores extremos de ${\ Displaystyle {\ tilde {x}}}$ tendrá una probabilidad menor que si se tiene en cuenta la incertidumbre en los parámetros dada por su distribución posterior.

Una distribución predictiva posterior explica la incertidumbre sobre ${\ Displaystyle \ theta}$ . La distribución posterior de posibles ${\ Displaystyle \ theta}$ los valores dependen de ${\ Displaystyle \ mathbf {X}}$ :

{\ Displaystyle p (\ theta | \ mathbf {X})}

Y la distribución predictiva posterior de ${\ Displaystyle {\ tilde {x}}}$ dado ${\ Displaystyle \ mathbf {X}}$ se calcula marginando la distribución de ${\ Displaystyle {\ tilde {x}}}$ dado ${\ Displaystyle \ theta}$ sobre la distribución posterior de ${\ Displaystyle \ theta}$ dado ${\ Displaystyle \ mathbf {X}}$ :

{\ Displaystyle p ({\ tilde {x}} | \ mathbf {X}) = \ int _ {\ Theta} p ({\ tilde {x}} | \ theta, \ mathbf {X}) \, p ( \ theta | \ mathbf {X}) \ nombre de operador {d} \! \ theta}

Porque da cuenta de la incertidumbre sobre ${\ Displaystyle \ theta}$ , la distribución predictiva posterior será en general más amplia que una distribución predictiva que incluye una única mejor estimación para ${\ Displaystyle \ theta}$ .

Distribución predictiva previa frente a posterior

La distribución predictiva previa , en un contexto bayesiano, es la distribución de un punto de datos marginado sobre su distribución anterior. Es decir, si ${\ Displaystyle {\ tilde {x}} \ sim F ({\ tilde {x}} | \ theta)}$ y ${\ Displaystyle \ theta \ sim G (\ theta | \ alpha)}$ , entonces la distribución predictiva previa es la distribución correspondiente ${\ Displaystyle H ({\ tilde {x}} | \ alpha)}$ , dónde

{\ Displaystyle p_ {H} ({\ tilde {x}} | \ alpha) = \ int _ {\ theta} p_ {F} ({\ tilde {x}} | \ theta) \, p_ {G} ( \ theta | \ alpha) \ operatorname {d} \! \ theta}

Esto es similar a la distribución predictiva posterior, excepto que la marginación (o equivalentemente, la expectativa) se toma con respecto a la distribución anterior en lugar de la distribución posterior.

Además, si la distribución anterior ${\ Displaystyle G (\ theta | \ alpha)}$ es un previo conjugado , entonces la distribución predictiva posterior pertenecerá a la misma familia de distribuciones que la distribución predictiva anterior. Esto es fácil de ver. Si la distribución anterior ${\ Displaystyle G (\ theta | \ alpha)}$ es conjugado, entonces

{\ Displaystyle p (\ theta | \ mathbf {X}, \ alpha) = p_ {G} (\ theta | \ alpha '),}

es decir, la distribución posterior también pertenece a ${\ Displaystyle G (\ theta | \ alpha),}$ pero simplemente con un parámetro diferente ${\ Displaystyle \ alpha '}$ en lugar del parámetro original ${\ Displaystyle \ alpha.}$ Luego,

{\ Displaystyle {\ begin {alineado} p ({\ tilde {x}} | \ mathbf {X}, \ alpha) & = \ int _ {\ theta} p_ {F} ({\ tilde {x}} | \ theta) \, p (\ theta | \ mathbf {X}, \ alpha) \ nombre de operador {d} \! \ theta \\ & = \ int _ {\ theta} p_ {F} ({\ tilde {x} } | \ theta) \, p_ {G} (\ theta | \ alpha ') \ nombre de operador {d} \! \ theta \\ & = p_ {H} ({\ tilde {x}} | \ alpha') \ final {alineado}}}

Por tanto, la distribución predictiva posterior sigue la misma distribución H que la distribución predictiva previa, pero con los valores posteriores de los hiperparámetros sustituidos por los anteriores.

La distribución predictiva anterior tiene la forma de una distribución compuesta y, de hecho, se utiliza a menudo para definir una distribución compuesta , debido a la falta de factores que complican la situación, como la dependencia de los datos. ${\ Displaystyle \ mathbf {X}}$ y el tema de la conjugación. Por ejemplo, la distribución t de Student se puede definir como la distribución predictiva previa de una distribución normal con media conocida μ pero varianza desconocida σ _x² , con una distribución previa conjugada de chi cuadrado inversa escalada colocada en σ _x² , con hiperparámetros ν y σ ² . La distribución de compuestos resultante ${\ Displaystyle t (x | \ mu, \ nu, \ sigma ^ {2})}$ es de hecho una distribución t de Student no estandarizada y sigue una de las dos parametrizaciones más comunes de esta distribución. Entonces, la distribución predictiva posterior correspondiente volvería a ser la t de Student, con los hiperparámetros actualizados ${\ Displaystyle \ nu ', {\ sigma ^ {2}}'}$ que aparecen en la distribución posterior también aparecen directamente en la distribución predictiva posterior.

En algunos casos, la distribución compuesta apropiada se define utilizando una parametrización diferente a la que sería más natural para las distribuciones predictivas en el problema actual en cuestión. A menudo, esto se debe a que la distribución previa utilizada para definir la distribución compuesta es diferente de la utilizada en el problema actual. Por ejemplo, como se indicó anteriormente, la distribución t de Student se definió en términos de una distribución chi cuadrado inversa escalada colocada en la varianza. Sin embargo, es más común usar una distribución gamma inversa como conjugado previo en esta situación. De hecho, los dos son equivalentes excepto por la parametrización; por lo tanto, la distribución t de Student aún se puede usar para cualquier distribución predictiva, pero los hiperparámetros deben volver a parametrizarse antes de conectarse.

En familias exponenciales

La mayoría, pero no todas, las familias comunes de distribuciones pertenecen a la familia exponencial de distribuciones. Las familias exponenciales tienen una gran cantidad de propiedades útiles. Uno de los cuales es que todos los miembros tienen distribuciones previas conjugadas , mientras que muy pocas otras distribuciones tienen distribuciones previas conjugadas.

Distribución predictiva previa en familias exponenciales

Otra propiedad útil es que la función de densidad de probabilidad de la distribución compuesta correspondiente a la distribución predictiva previa de una distribución familiar exponencial marginada sobre su distribución previa conjugada se puede determinar analíticamente. Asumir que ${\ displaystyle F (x | {\ boldsymbol {\ theta}})}$ es un miembro de la familia exponencial con parámetro ${\ displaystyle {\ boldsymbol {\ theta}}}$ que está parametrizado según el parámetro natural ${\ displaystyle {\ boldsymbol {\ eta}} = {\ boldsymbol {\ eta}} ({\ boldsymbol {\ theta}})}$ , y se distribuye como

{\ displaystyle p_ {F} (x | {\ boldsymbol {\ eta}}) = h (x) g ({\ boldsymbol {\ eta}}) e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} \ mathbf {T} (x)}}

tiempo ${\ displaystyle G ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu)}$ es el conjugado a priori apropiado, distribuido como

{\ displaystyle p_ {G} ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu) = f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol { \ eta}}) ^ {\ nu} e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}}}

Entonces la distribución predictiva previa ${\ Displaystyle H}$ (el resultado de la capitalización ${\ Displaystyle F}$ con ${\ Displaystyle G}$ ) es

{\ displaystyle {\ begin {alineado} p_ {H} (x | {\ boldsymbol {\ chi}}, \ nu) & = {\ displaystyle \ int \ limits _ {\ boldsymbol {\ eta}} p_ {F} (x | {\ boldsymbol {\ eta}}) p_ {G} ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}}, \ nu) \, \ operatorname {d} {\ boldsymbol {\ eta}}} \\ & = {\ displaystyle \ int \ limits _ {\ boldsymbol {\ eta}} h (x) g ({\ boldsymbol {\ eta}}) e ^ {{\ boldsymbol {\ eta}} ^ {\ rm {T}} \ mathbf {T} (x)} f ({\ boldsymbol {\ chi}}, \ nu) g ({\ boldsymbol {\ eta}}) ^ {\ nu} e ^ { {\ boldsymbol {\ eta}} ^ {\ rm {T}} {\ boldsymbol {\ chi}}} \, \ operatorname {d} {\ boldsymbol {\ eta}}} \\ & = {\ displaystyle h ( x) f ({\ boldsymbol {\ chi}}, \ nu) \ int \ limits _ {\ boldsymbol {\ eta}} g ({\ boldsymbol {\ eta}}) ^ {\ nu +1} e ^ { {\ boldsymbol {\ eta}} ^ {\ rm {T}} ({\ boldsymbol {\ chi}} + \ mathbf {T} (x))} \, \ operatorname {d} {\ boldsymbol {\ eta} }} \\ & = h (x) {\ dfrac {f ({\ boldsymbol {\ chi}}, \ nu)} {f ({\ boldsymbol {\ chi}} + \ mathbf {T} (x), \ nu +1)}} \ end {alineado}}}

La última línea sigue a la anterior al reconocer que la función dentro de la integral es la función de densidad de una variable aleatoria distribuida como ${\ displaystyle G ({\ boldsymbol {\ eta}} | {\ boldsymbol {\ chi}} + \ mathbf {T} (x), \ nu +1)}$ , excluyendo la función de normalización ${\ Displaystyle f (\ puntos) \,}$ . Por tanto, el resultado de la integración será el recíproco de la función normalizadora.

El resultado anterior es independiente de la elección de parametrización de ${\ displaystyle {\ boldsymbol {\ theta}}}$ , ya que ninguno de ${\ displaystyle {\ boldsymbol {\ theta}}}$ , ${\ displaystyle {\ boldsymbol {\ eta}}}$ y ${\ Displaystyle g (\ puntos) \,}$ aparece. ( ${\ Displaystyle g (\ puntos) \,}$ es una función del parámetro y, por lo tanto, asumirá diferentes formas dependiendo de la elección de parametrización). ${\ Displaystyle F}$ y ${\ Displaystyle G}$ , a menudo es más fácil trabajar directamente con los parámetros habituales en lugar de reescribir en términos de los parámetros naturales .

La razón por la que la integral es manejable es que implica calcular la constante de normalización de una densidad definida por el producto de una distribución previa y una probabilidad . Cuando los dos están conjugados , el producto es una distribución posterior y, por supuesto, se conoce la constante de normalización de esta distribución. Como se muestra arriba, la función de densidad de la distribución compuesta sigue una forma particular, que consiste en el producto de la función ${\ Displaystyle h (x)}$ que forma parte de la función de densidad para ${\ Displaystyle F}$ , con el cociente de dos formas de la normalización "constante" para ${\ Displaystyle G}$ , uno derivado de una distribución previa y el otro de una distribución posterior. La distribución beta-binomial es un buen ejemplo de cómo funciona este proceso.

A pesar de la manejabilidad analítica de tales distribuciones, por lo general no son miembros de la familia exponencial . Por ejemplo, el de tres parámetros de distribución de la t de Student , la distribución binomial beta y distribución de Dirichlet-multinomial son todas las distribuciones de predicción de la distribución exponencial con la familia (la distribución normal , distribución binomial y distribuciones multinomiales , respectivamente), pero ninguno son miembros de la exponencial familia. Esto se puede ver arriba debido a la presencia de dependencia funcional de ${\ Displaystyle {\ boldsymbol {\ chi}} + \ mathbf {T} (x)}$ . En una distribución de familia exponencial, debe ser posible separar toda la función de densidad en factores multiplicativos de tres tipos: (1) factores que contienen solo variables, (2) factores que contienen solo parámetros y (3) factores cuyo logaritmo factoriza entre variables y parámetros. La presencia de ${\ Displaystyle {\ boldsymbol {\ chi}} + \ mathbf {T} (x) {\ chi}}$ hace esto imposible a menos que la función "normalizadora" ${\ Displaystyle f (\ puntos) \,}$ o ignora por completo el argumento correspondiente o lo usa solo en el exponente de una expresión.

Distribución predictiva posterior en familias exponenciales

Cuando se utiliza un conjugado a priori, la distribución predictiva posterior pertenece a la misma familia que la distribución predictiva previa y se determina simplemente conectando los hiperparámetros actualizados para la distribución posterior de los parámetros en la fórmula de la distribución predictiva previa. . Utilizando la forma general de las ecuaciones de actualización posterior para distribuciones de familias exponenciales (consulte la sección correspondiente en el artículo sobre familias exponenciales ), podemos escribir una fórmula explícita para la distribución predictiva posterior:

{\ Displaystyle {\ begin {array} {lcl} p ({\ tilde {x}} | \ mathbf {X}, {\ boldsymbol {\ chi}}, \ nu) & = & p_ {H} \ left ({ \ tilde {x}} | {\ boldsymbol {\ chi}} + \ mathbf {T} (\ mathbf {X}), \ nu + N \ right) \ end {matriz}}}

dónde

{\ Displaystyle \ mathbf {T} (\ mathbf {X}) = \ sum _ {i = 1} ^ {N} \ mathbf {T} (x_ {i})}

Esto muestra que la distribución predictiva posterior de una serie de observaciones, en el caso de que las observaciones sigan una familia exponencial con el conjugado previo apropiado , tiene la misma densidad de probabilidad que la distribución compuesta, con los parámetros especificados anteriormente. Las observaciones mismas entran solo en la forma ${\ Displaystyle \ mathbf {T} (\ mathbf {X}) = \ sum _ {i = 1} ^ {N} \ mathbf {T} (x_ {i}).}$

Esto se denomina estadística suficiente de las observaciones, porque nos dice todo lo que necesitamos saber sobre las observaciones para calcular una distribución predictiva posterior o posterior basada en ellas (o, para el caso, cualquier otra cosa basada en la probabilidad de la observaciones, como la probabilidad marginal ).

Distribución predictiva conjunta, probabilidad marginal

También es posible considerar el resultado de componer una distribución conjunta sobre un número fijo de muestras independientes distribuidas de forma idéntica con una distribución previa sobre un parámetro compartido. En un entorno bayesiano, esto surge en varios contextos: calculando la distribución predictiva anterior o posterior de múltiples observaciones nuevas y calculando la probabilidad marginal de los datos observados (el denominador en la ley de Bayes ). Cuando la distribución de las muestras es de la familia exponencial y la distribución anterior es conjugada, la distribución compuesta resultante será manejable y seguirá una forma similar a la expresión anterior. Es fácil demostrar, de hecho, que la distribución conjunta de compuestos de un conjunto ${\ Displaystyle \ mathbf {X} = \ {x_ {1}, \ dots, x_ {N} \}}$ por ${\ Displaystyle N}$ observaciones es

{\ Displaystyle p_ {H} (\ mathbf {X} | {\ boldsymbol {\ chi}}, \ nu) = \ left (\ prod _ {i = 1} ^ {N} h (x_ {i}) \ derecha) {\ dfrac {f ({\ boldsymbol {\ chi}}, \ nu)} {f \ left ({\ boldsymbol {\ chi}} + \ mathbf {T} (\ mathbf {X}), \ nu + N \ derecha)}}}

Este resultado y el resultado anterior para una sola distribución compuesta se extienden trivialmente al caso de una distribución sobre una observación con valores vectoriales, como una distribución gaussiana multivariante .

Relación con el muestreo de Gibbs

El colapso de un nodo en un muestreador Gibbs colapsado es equivalente a la composición . Como resultado, cuando un conjunto de nodos independientes distribuidos de manera idéntica (iid) dependen todos del mismo nodo anterior, y ese nodo se colapsa, la probabilidad condicional resultante de un nodo da los demás, así como los padres de la colapsada. nodo (pero no condicionando en ningún otro nodo, por ejemplo, cualquier nodo hijo) es la misma que la distribución predictiva posterior de todos los nodos iid restantes (o más correctamente, anteriormente nodos iid, ya que el colapso introduce dependencias entre los nodos). Es decir, generalmente es posible implementar el colapso de un nodo simplemente uniendo todos los padres del nodo directamente a todos los niños, y reemplazando la distribución de probabilidad condicional anterior asociada con cada niño con la distribución predictiva posterior correspondiente para el niño condicionado a su padres y los otros nodos anteriormente iid que también eran hijos del nodo eliminado. Para ver un ejemplo, para una discusión más específica y para algunas advertencias sobre ciertos temas delicados, consulte el artículo de distribución de Dirichlet-multinomial .

Ver también

Distribución de probabilidad compuesta
Probabilidad marginal
Intervalo de predicción # Estadísticas bayesianas

Referencias

^ "Distribución predictiva posterior" . SAS . Consultado el 19 de julio de 2014 .
^ Gelman A, Carlin JB, Stern HS, Dunson DB, Vehtari A., Rubin DB (2014) Análisis de datos bayesianos , Chapman y Hall, p7

[1] "Distribución predictiva posterior" . SAS . Consultado el 19 de julio de 2014 .

[BDA3-2] Gelman A, Carlin JB, Stern HS, Dunson DB, Vehtari A., Rubin DB (2014) Análisis de datos bayesianos , Chapman y Hall, p7

[1]