Modelado jerárquico bayesiano

El modelado jerárquico bayesiano es un modelo estadístico escrito en múltiples niveles (forma jerárquica) que estima los parámetros de la distribución posterior utilizando el método bayesiano . ^[1] Los submodelos se combinan para formar el modelo jerárquico, y el teorema de Bayes se utiliza para integrarlos con los datos observados y dar cuenta de toda la incertidumbre que está presente. El resultado de esta integración es la distribución posterior, también conocida como estimación de probabilidad actualizada, ya que se adquiere evidencia adicional sobre la distribución previa .

La estadística frecuente puede arrojar conclusiones aparentemente incompatibles con las ofrecidas por la estadística bayesiana debido al tratamiento bayesiano de los parámetros como variables aleatorias y su uso de información subjetiva para establecer supuestos sobre estos parámetros. ^[2] Dado que los enfoques responden a preguntas diferentes, los resultados formales no son técnicamente contradictorios, pero los dos enfoques discrepan sobre qué respuesta es relevante para aplicaciones particulares. Los bayesianos argumentan que la información relevante sobre la toma de decisiones y la actualización de creencias no se puede ignorar y que el modelado jerárquico tiene el potencial de invalidar los métodos clásicos en aplicaciones donde los encuestados brindan múltiples datos de observación. Además, el modelo ha demostrado ser robusto, con la distribución posterior menos sensible a los priores jerárquicos más flexibles.

El modelado jerárquico se utiliza cuando hay información disponible en varios niveles diferentes de unidades de observación. Por ejemplo, en el modelado epidemiológico para describir las trayectorias de infección de varios países, las unidades de observación son países, y cada país tiene su propio perfil temporal de casos infectados diarios. ^[3] En el análisis de la curva de declive para describir la curva de decurva de la producción de petróleo o gas para múltiples pozos, las unidades de observación son pozos de petróleo o gas en una región de yacimiento, y cada pozo tiene cada uno de sus perfiles temporales de tasas de producción de petróleo o gas (generalmente, barriles por mes). ^[4] La estructura de datos para el modelado jerárquico conserva la estructura de datos anidada. La forma jerárquica de análisis y organización ayuda en la comprensión de problemas multiparamétricos y también juega un papel importante en el desarrollo de estrategias computacionales. ^[5]

Filosofía

Los métodos y modelos estadísticos comúnmente involucran múltiples parámetros que pueden considerarse relacionados o conectados de tal manera que el problema implica la dependencia del modelo de probabilidad conjunta para estos parámetros. ^[6] Los grados individuales de creencia, expresados en forma de probabilidades, vienen acompañados de incertidumbre. ^[7] En medio de esto está el cambio de los grados de creencia a lo largo del tiempo. Como afirmaron el profesor José M. Bernardo y el profesor Adrian F. Smith , “la actualidad del proceso de aprendizaje consiste en la evolución de creencias individuales y subjetivas sobre la realidad”. Estas probabilidades subjetivas están involucradas más directamente en la mente que en las probabilidades físicas. ^[7] Por lo tanto, es con esta necesidad de actualizar las creencias que los bayesianos han formulado un modelo estadístico alternativo que toma en cuenta la ocurrencia previa de un evento particular. ^[8]

Teorema de Bayes

La supuesta ocurrencia de un evento del mundo real típicamente modificará las preferencias entre ciertas opciones. Esto se hace modificando los grados de creencia asociados, por un individuo, a los eventos que definen las opciones. ^[9]

Supongamos en un estudio de la efectividad de los tratamientos cardíacos, con los pacientes en el hospital j con probabilidad de supervivencia ${\ Displaystyle \ theta _ {j}}$ , la probabilidad de supervivencia se actualizará con la ocurrencia de y , evento en el que se crea un suero controvertido que, como algunos creen, aumenta la supervivencia en pacientes cardíacos.

Para hacer declaraciones de probabilidad actualizadas sobre ${\ Displaystyle \ theta _ {j}}$ , dada la ocurrencia del evento y , debemos comenzar con un modelo que proporcione una distribución de probabilidad conjunta para ${\ Displaystyle \ theta _ {j}}$ y y . Esto se puede escribir como un producto de las dos distribuciones que a menudo se denominan distribución previa. ${\ Displaystyle P (\ theta)}$ y la distribución muestral ${\ Displaystyle P (y \ mid \ theta)}$ respectivamente:

{\ Displaystyle P (\ theta, y) = P (\ theta) P (y \ mid \ theta)}

Usando la propiedad básica de la probabilidad condicional , la distribución posterior producirá:

{\ Displaystyle P (\ theta \ mid y) = {\ frac {P (\ theta, y)} {P (y)}} = {\ frac {P (y \ mid \ theta) P (\ theta)} {P (y)}}}

Esta ecuación, que muestra la relación entre la probabilidad condicional y los eventos individuales, se conoce como teorema de Bayes. Esta simple expresión encapsula el núcleo técnico de la inferencia bayesiana que tiene como objetivo incorporar la creencia actualizada, ${\ Displaystyle P (\ theta \ mid y)}$ , de manera apropiada y solucionable. ^[9]

Intercambiabilidad

El punto de partida habitual de un análisis estadístico es la suposición de que los n valores ${\ Displaystyle y_ {1}, y_ {2}, \ ldots, y_ {n}}$ son intercambiables. Si no hay información disponible, aparte de los datos y , para distinguir ${\ Displaystyle \ theta _ {j}}$ es de cualquier otro, y no se puede ordenar o agrupar los parámetros, se debe asumir la simetría entre los parámetros en su distribución previa. ^[10] Esta simetría está representada probabilísticamente por intercambiabilidad. Generalmente, es útil y apropiado modelar datos de una distribución intercambiable como distribuidos de forma independiente e idéntica , dado algún vector de parámetro desconocido ${\ Displaystyle \ theta}$ , con distribución ${\ Displaystyle P (\ theta)}$ .

Intercambiabilidad finita

Para un número fijo n , el conjunto ${\ Displaystyle y_ {1}, y_ {2}, \ ldots, y_ {n}}$ es intercambiable si la probabilidad conjunta ${\ Displaystyle P (y_ {1}, y_ {2}, \ ldots, y_ {n})}$ es invariante bajo permutaciones de los índices. Es decir, para cada permutación ${\ Displaystyle \ pi}$ o ${\ Displaystyle (\ pi _ {1}, \ pi _ {2}, \ ldots, \ pi _ {n})}$ de (1, 2,…, n ), ${\ Displaystyle P (y_ {1}, y_ {2}, \ ldots, y_ {n}) = P (y _ {\ pi _ {1}}, y _ {\ pi _ {2}}, \ ldots, y_ {\alfiler}}).}$ ^[11]

A continuación se muestra un ejemplo intercambiable, pero no independiente e idéntico (iid): Considere una urna con una bola roja y una bola azul adentro, con probabilidad ${\ Displaystyle {\ frac {1} {2}}}$ de dibujar tampoco. Las bolas se extraen sin reemplazo, es decir, después de que se extrae una bola de las n bolas, quedarán n - 1 bolas restantes para el próximo sorteo.

{\ displaystyle {\ text {Let}} Y_ {i} = {\ begin {cases} 1, & {\ text {si la}} ​​i {\ text {th bola es roja}}, \\ 0, & { \ text {de lo contrario}}. \ end {cases}}}

Dado que la probabilidad de seleccionar una bola roja en el primer sorteo y una bola azul en el segundo sorteo es igual a la probabilidad de seleccionar una bola azul en el primer sorteo y una roja en el segundo sorteo, ambas iguales a 1 / 2 (es decir ${\ Displaystyle [P (y_ {1} = 1, y_ {2} = 0) = P (y_ {1} = 0, y_ {2} = 1) = {\ frac {1} {2}}]}$ ), luego ${\ Displaystyle y_ {1}}$ y ${\ Displaystyle y_ {2}}$ son intercambiables.

Pero la probabilidad de seleccionar una bola roja en el segundo sorteo dado que la bola roja ya ha sido seleccionada en el primer sorteo es 0, y no es igual a la probabilidad de que la bola roja sea seleccionada en el segundo sorteo que es igual a 1 / 2 (es decir ${\ Displaystyle [P (y_ {2} = 1 \ mid y_ {1} = 1) = 0 \ neq P (y_ {2} = 1) = {\ frac {1} {2}}]}$ ). Por lo tanto, ${\ Displaystyle y_ {1}}$ y ${\ Displaystyle y_ {2}}$ no son independientes.

Si ${\ Displaystyle x_ {1}, \ ldots, x_ {n}}$ son independientes e idénticamente distribuidos, entonces son intercambiables, pero lo contrario no es necesariamente cierto. ^[12]

Intercambiabilidad infinita

La intercambiabilidad infinita es la propiedad de que todo subconjunto finito de una secuencia infinita ${\ Displaystyle y_ {1}}$ , ${\ Displaystyle y_ {2}, \ ldots}$ es intercambiable. Es decir, para cualquier n , la secuencia ${\ Displaystyle y_ {1}, y_ {2}, \ ldots, y_ {n}}$ es intercambiable. ^[12]

Modelos jerárquicos

Componentes

El modelado jerárquico bayesiano hace uso de dos conceptos importantes para derivar la distribución posterior, ^{[1] a} saber:

Hiperparámetros : parámetros de la distribución previa
Hyperpriors : distribuciones de hiperparámetros

Suponga que una variable aleatoria Y sigue una distribución normal con el parámetro θ como media y 1 como varianza , es decir ${\ Displaystyle Y \ mid \ theta \ sim N (\ theta, 1)}$ . La relación de tilde ${\ Displaystyle \ sim}$ se puede leer como "tiene la distribución de" o "se distribuye como". Supongamos también que el parámetro ${\ Displaystyle \ theta}$ tiene una distribución dada por una distribución normal con media ${\ Displaystyle \ mu}$ y varianza 1, es decir ${\ Displaystyle \ theta \ mid \ mu \ sim N (\ mu, 1)}$ . Además, ${\ Displaystyle \ mu}$ sigue otra distribución dada, por ejemplo, por la distribución normal estándar , ${\ Displaystyle {\ text {N}} (0,1)}$ . El parámetro ${\ Displaystyle \ mu}$ se llama hiperparámetro, mientras que su distribución está dada por ${\ Displaystyle {\ text {N}} (0,1)}$ es un ejemplo de distribución hiperprior. La notación de la distribución de Y cambia a medida que se agrega otro parámetro, es decir ${\ Displaystyle Y \ mid \ theta, \ mu \ sim N (\ theta, 1)}$ . Si hay otra etapa, diga, ${\ Displaystyle \ mu}$ sigue otra distribución normal con media ${\ Displaystyle \ beta}$ y varianza ${\ Displaystyle \ epsilon}$ , significado ${\ Displaystyle \ mu \ sim N (\ beta, \ epsilon)}$ , ${\ displaystyle {\ mbox {}}}$ ${\ Displaystyle \ beta}$ y ${\ Displaystyle \ epsilon}$ también se pueden llamar hiperparámetros, mientras que sus distribuciones también son distribuciones hiperpriorres. ^[6]

Marco de referencia

Dejar ${\ Displaystyle y_ {j}}$ ser una observación y ${\ Displaystyle \ theta _ {j}}$ un parámetro que rige el proceso de generación de datos para ${\ Displaystyle y_ {j}}$ . Suponga además que los parámetros ${\ Displaystyle \ theta _ {1}, \ theta _ {2}, \ ldots, \ theta _ {j}}$ se generan de forma intercambiable a partir de una población común, con una distribución gobernada por un hiperparámetro ${\ Displaystyle \ phi}$ .
El modelo jerárquico bayesiano contiene las siguientes etapas:

{\ Displaystyle {\ text {Etapa I:}} y_ {j} \ mid \ theta _ {j}, \ phi \ sim P (y_ {j} \ mid \ theta _ {j}, \ phi)}

{\ Displaystyle {\ text {Etapa II:}} \ theta _ {j} \ mid \ phi \ sim P (\ theta _ {j} \ mid \ phi)}

{\ Displaystyle {\ text {Etapa III:}} \ phi \ sim P (\ phi)}

La probabilidad, como se ve en la etapa I, es ${\ Displaystyle P (y_ {j} \ mid \ theta _ {j}, \ phi)}$ , con ${\ Displaystyle P (\ theta _ {j}, \ phi)}$ como su distribución previa. Tenga en cuenta que la probabilidad depende de ${\ Displaystyle \ phi}$ solo a través ${\ Displaystyle \ theta _ {j}}$ .

La distribución previa de la etapa I se puede desglosar en:

{\ Displaystyle P (\ theta _ {j}, \ phi) = P (\ theta _ {j} \ mid \ phi) P (\ phi)}

[de la definición de probabilidad condicional]

Con ${\ Displaystyle \ phi}$ como su hiperparámetro con distribución hiperprior, ${\ Displaystyle P (\ phi)}$ .

Por tanto, la distribución posterior es proporcional a:

{\ Displaystyle P (\ phi, \ theta _ {j} \ mid y) \ propto P (y_ {j} \ mid \ theta _ {j}, \ phi) P (\ theta _ {j}, \ phi) }

[usando el teorema de Bayes]

{\ Displaystyle P (\ phi, \ theta _ {j} \ mid y) \ propto P (y_ {j} \ mid \ theta _ {j}) P (\ theta _ {j} \ mid \ phi) P ( \ phi)}

^[13]

Ejemplo

Para ilustrar más esto, considere el ejemplo: Un maestro quiere estimar qué tan bien le fue a un estudiante en el SAT . El maestro usa información sobre las calificaciones de la escuela secundaria del estudiante y el promedio de calificaciones actual (GPA) para llegar a una estimación. El GPA actual del estudiante, denotado por ${\ Displaystyle Y}$ , tiene una probabilidad dada por alguna función de probabilidad con parámetro ${\ Displaystyle \ theta}$ , es decir ${\ Displaystyle Y \ mid \ theta \ sim P (Y \ mid \ theta)}$ . Este parámetro ${\ Displaystyle \ theta}$ es el puntaje SAT del estudiante. La puntuación del SAT se considera una muestra procedente de una distribución de población común indexada por otro parámetro. ${\ Displaystyle \ phi}$ , que es el grado de escuela secundaria del estudiante (primer, segundo, tercer o cuarto año). ^[14] Es decir, ${\ Displaystyle \ theta \ mid \ phi \ sim P (\ theta \ mid \ phi)}$ . Además, el hiperparámetro ${\ Displaystyle \ phi}$ sigue su propia distribución dada por ${\ Displaystyle P (\ phi)}$ , un hiperprior. Para resolver la puntuación del SAT dada la información sobre el GPA,

{\ Displaystyle P (\ theta, \ phi \ mid Y) \ propto P (Y \ mid \ theta, \ phi) P (\ theta, \ phi)}

{\ Displaystyle P (\ theta, \ phi \ mid Y) \ propto P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi)}

Toda la información del problema se utilizará para resolver la distribución posterior. En lugar de resolver solo usando la distribución previa y la función de verosimilitud, el uso de hiperpriores brinda más información para hacer creencias más precisas en el comportamiento de un parámetro. ^[15]

Modelo jerárquico de 2 etapas

En general, la distribución posterior conjunta de interés en los modelos jerárquicos de 2 etapas es:

{\ Displaystyle P (\ theta, \ phi \ mid Y) = {P (Y \ mid \ theta, \ phi) P (\ theta, \ phi) \ over P (Y)} = {P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi) \ over P (Y)}}

{\ Displaystyle P (\ theta, \ phi \ mid Y) \ propto P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi)}

^[15]

Modelo jerárquico de 3 etapas

Para modelos jerárquicos de 3 etapas, la distribución posterior viene dada por:

{\ Displaystyle P (\ theta, \ phi, X \ mid Y) = {P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi \ mid X) P (X) \ over P (Y)}}

{\ Displaystyle P (\ theta, \ phi, X \ mid Y) \ propto P (Y \ mid \ theta) P (\ theta \ mid \ phi) P (\ phi \ mid X) P (X)}

^[15]

Referencias

↑ ^a ^b Allenby, Rossi, McCulloch (enero de 2005). "Modelo jerárquico de Bayes: una guía para el practicante" . Revista de aplicaciones bayesianas en marketing , págs. 1–4. Consultado el 26 de abril de 2014, p. 3
^ Gelman, Andrew ; Carlin, John B .; Stern, Hal S. y Rubin, Donald B. (2004). Análisis de datos bayesianos (segunda ed.). Boca Raton, Florida: CRC Press. págs. 4-5. ISBN 1-58488-388-X.
^ Lee, Se Yoon; Lei, Bowen; Mallick, Bani (2020). "Estimación de curvas de propagación COVID-19 integrando datos globales e información de préstamo" . PLOS ONE . 15 (7): e0236860. doi : 10.1371 / journal.pone.0236860 . PMC 7390340 . PMID 32726361 .
^ Lee, Se Yoon; Mallick, Bani (2021). "Modelado jerárquico bayesiano: aplicación hacia resultados de producción en Eagle Ford Shale del sur de Texas" . Sânkhya B . doi : 10.1007 / s13571-020-00245-8 .
^ Gelman y col. 2004 , pág. 6.
^ a b Gelman y col. 2004 , pág. 117.
^ a b Bien, IJ (1980). "Un poco de historia de la metodología bayesiana jerárquica" . Trabajos de Estadística y de Investigación Operativa . 31 : 489–519. doi : 10.1007 / BF02888365 . S2CID 121270218 .
^ Bernardo, Smith (1994). Teoría Bayesiana . Chichester, Inglaterra: John Wiley & Sons, ISBN 0-471-92416-4 , pág. 23
^ a b Gelman y col. 2004 , págs. 6–8.
^ Bernardo, Degroot, Lindley (septiembre de 1983). “Actas del II Encuentro Internacional de Valencia” . Estadísticas bayesianas 2 . Ámsterdam: Elsevier Science Publishers BV, ISBN 0-444-87746-0 , págs. 167–168
^ Gelman y col. 2004 , págs. 121-125.
↑ a b Diaconis, Freedman (1980). “Secuencias finitas intercambiables” . Annals of Probability, págs. 745–747
^ Bernardo, Degroot, Lindley (septiembre de 1983). “Actas del II Encuentro Internacional de Valencia” . Estadísticas bayesianas 2 . Ámsterdam: Elsevier Science Publishers BV, ISBN 0-444-87746-0 , págs. 371–372
^ Gelman y col. 2004 , págs. 120-121.
^ a b c Cuadro GEP, Tiao GC (1965). "Problema multiparamétrico desde un punto de vista bayesiano" . Problemas multiparamétricos desde un punto de vista bayesiano Volumen 36 Número 5 . Ciudad de Nueva York: John Wiley & Sons, ISBN 0-471-57428-7

[allenby-1] Allenby, Rossi, McCulloch (enero de 2005). "Modelo jerárquico de Bayes: una guía para el practicante" . Revista de aplicaciones bayesianas en marketing , págs. 1–4. Consultado el 26 de abril de 2014, p. 3

[2] Gelman, Andrew ; Carlin, John B .; Stern, Hal S. y Rubin, Donald B. (2004). Análisis de datos bayesianos (segunda ed.). Boca Raton, Florida: CRC Press. págs. 4-5. ISBN 1-58488-388-X.

[3] Lee, Se Yoon; Lei, Bowen; Mallick, Bani (2020). "Estimación de curvas de propagación COVID-19 integrando datos globales e información de préstamo" . PLOS ONE . 15 (7): e0236860. doi : 10.1371 / journal.pone.0236860 . PMC 7390340 . PMID 32726361 .

[4] Lee, Se Yoon; Mallick, Bani (2021). "Modelado jerárquico bayesiano: aplicación hacia resultados de producción en Eagle Ford Shale del sur de Texas" . Sânkhya B . doi : 10.1007 / s13571-020-00245-8 .

[FOOTNOTEGelmanCarlinSternRubin20046-5] Gelman y col. 2004 , pág. 6.

[FOOTNOTEGelmanCarlinSternRubin2004117-6] Gelman y col. 2004 , pág. 117.

[good-7] Bien, IJ (1980). "Un poco de historia de la metodología bayesiana jerárquica" . Trabajos de Estadística y de Investigación Operativa . 31 : 489–519. doi : 10.1007 / BF02888365 . S2CID 121270218 .

[8] Bernardo, Smith (1994). Teoría Bayesiana . Chichester, Inglaterra: John Wiley & Sons, ISBN 0-471-92416-4 , pág. 23

[FOOTNOTEGelmanCarlinSternRubin20046–8-9] Gelman y col. 2004 , págs. 6–8.

[10] Bernardo, Degroot, Lindley (septiembre de 1983). “Actas del II Encuentro Internacional de Valencia” . Estadísticas bayesianas 2 . Ámsterdam: Elsevier Science Publishers BV, ISBN 0-444-87746-0 , págs. 167–168

[FOOTNOTEGelmanCarlinSternRubin2004121–125-11] Gelman y col. 2004 , págs. 121-125.

[diaconis-12] Diaconis, Freedman (1980). “Secuencias finitas intercambiables” . Annals of Probability, págs. 745–747

[13] Bernardo, Degroot, Lindley (septiembre de 1983). “Actas del II Encuentro Internacional de Valencia” . Estadísticas bayesianas 2 . Ámsterdam: Elsevier Science Publishers BV, ISBN 0-444-87746-0 , págs. 371–372

[FOOTNOTEGelmanCarlinSternRubin2004120–121-14] Gelman y col. 2004 , págs. 120-121.

[box-15] Cuadro GEP, Tiao GC (1965). "Problema multiparamétrico desde un punto de vista bayesiano" . Problemas multiparamétricos desde un punto de vista bayesiano Volumen 36 Número 5 . Ciudad de Nueva York: John Wiley & Sons, ISBN 0-471-57428-7

[1]