Método empírico de Bayes

Los métodos empíricos de Bayes son procedimientos de inferencia estadística en los que la distribución previa se estima a partir de los datos. Este enfoque contrasta con los métodos bayesianos estándar , para los que la distribución previa se fija antes de que se observen los datos. A pesar de esta diferencia de perspectiva, el Bayes empírico puede verse como una aproximación a un tratamiento completamente bayesiano de un modelo jerárquico en el que los parámetros en el nivel más alto de la jerarquía se establecen en sus valores más probables, en lugar de integrarse. Empirical Bayes, también conocido como máxima verosimilitud marginal , ^[1] representa un enfoque para establecer hiperparámetros .

Introducción

Los métodos empíricos de Bayes pueden verse como una aproximación a un tratamiento completamente bayesiano de un modelo de Bayes jerárquico .

En, por ejemplo, un modelo de Bayes jerárquico de dos etapas, los datos observados ${\ Displaystyle y = \ {y_ {1}, y_ {2}, \ dots, y_ {n} \}}$ se supone que se generan a partir de un conjunto de parámetros no observados ${\ Displaystyle \ theta = \ {\ theta _ {1}, \ theta _ {2}, \ dots, \ theta _ {n} \}}$ según una distribución de probabilidad ${\ Displaystyle p (y \ mid \ theta) \,}$ . A su vez, los parámetros ${\ Displaystyle \ theta}$ pueden considerarse muestras extraídas de una población caracterizada por hiperparámetros ${\ Displaystyle \ eta \,}$ según una distribución de probabilidad ${\ Displaystyle p (\ theta \ mid \ eta) \,}$ . En el modelo jerárquico de Bayes, aunque no en la aproximación empírica de Bayes, los hiperparámetros ${\ Displaystyle \ eta \,}$ se consideran extraídos de una distribución no parametrizada ${\ Displaystyle p (\ eta) \,}$ .

Información sobre una determinada cantidad de interés ${\ Displaystyle \ theta _ {i} \;}$ por lo tanto, proviene no solo de las propiedades de aquellos datos que dependen directamente de él, sino también de las propiedades de la población de parámetros ${\ Displaystyle \ theta \;}$ como un todo, inferido de los datos como un todo, resumidos por los hiperparámetros ${\ Displaystyle \ eta \;}$ .

Usando el teorema de Bayes ,

{\ Displaystyle p (\ theta \ mid y) = {\ frac {p (y \ mid \ theta) p (\ theta)} {p (y)}} = {\ frac {p (y \ mid \ theta) } {p (y)}} \ int p (\ theta \ mid \ eta) p (\ eta) \, d \ eta \ ,.}

En general, esta integral no será tratable analítica o simbólicamente y debe ser evaluada por métodos numéricos . Se pueden utilizar aproximaciones estocásticas (aleatorias) o deterministas. Ejemplos de métodos estocásticos son la cadena de Markov Monte Carlo y el muestreo de Monte Carlo . Las aproximaciones deterministas se discuten en cuadratura .

Alternativamente, la expresión se puede escribir como

{\ Displaystyle p (\ theta \ mid y) = \ int p (\ theta \ mid \ eta, y) p (\ eta \ mid y) \; d \ eta = \ int {\ frac {p (y \ mid \ theta) p (\ theta \ mid \ eta)} {p (y \ mid \ eta)}} p (\ eta \ mid y) \; d \ eta \ ,,}

y el término en la integral a su vez se puede expresar como

{\ Displaystyle p (\ eta \ mid y) = \ int p (\ eta \ mid \ theta) p (\ theta \ mid y) \; d \ theta.}

Estos sugieren un esquema iterativo, cualitativamente similar en estructura a un muestreador de Gibbs , para evolucionar sucesivamente aproximaciones mejoradas a ${\ Displaystyle p (\ theta \ mid y) \;}$ y ${\ Displaystyle p (\ eta \ mid y) \;}$ . Primero, calcule una aproximación inicial a ${\ Displaystyle p (\ theta \ mid y) \;}$ ignorando el ${\ Displaystyle \ eta}$ dependencia por completo; luego calcule una aproximación a ${\ Displaystyle p (\ eta \ mid y) \;}$ basado en la distribución inicial aproximada de ${\ Displaystyle p (\ theta \ mid y) \;}$ ; entonces usa esto ${\ Displaystyle p (\ eta \ mid y) \;}$ para actualizar la aproximación para ${\ Displaystyle p (\ theta \ mid y) \;}$ ; luego actualiza ${\ Displaystyle p (\ eta \ mid y) \;}$ ; y así.

Cuando la verdadera distribucion ${\ Displaystyle p (\ eta \ mid y) \;}$ tiene un pico agudo, la integral determinante ${\ Displaystyle p (\ theta \ mid y) \;}$ puede que no cambie mucho reemplazando la distribución de probabilidad sobre ${\ Displaystyle \ eta \;}$ con una estimación puntual ${\ Displaystyle \ eta ^ {*} \;}$ que representa el pico de la distribución (o, alternativamente, su media),

{\ Displaystyle p (\ theta \ mid y) \ simeq {\ frac {p (y \ mid \ theta) \; p (\ theta \ mid \ eta ^ {*})} {p (y \ mid \ eta ^ {*})}} \ ,.}

Con esta aproximación, el esquema iterativo anterior se convierte en el algoritmo EM .

El término "Bayes empírico" puede abarcar una amplia variedad de métodos, pero la mayoría puede considerarse como un truncamiento temprano del esquema anterior o algo similar. Las estimaciones puntuales, en lugar de la distribución completa, se utilizan normalmente para los parámetros. ${\ Displaystyle \ eta \;}$ . Las estimaciones para ${\ Displaystyle \ eta ^ {*} \;}$ se hacen típicamente a partir de la primera aproximación a ${\ Displaystyle p (\ theta \ mid y) \;}$ sin refinamiento posterior. Estas estimaciones para ${\ Displaystyle \ eta ^ {*} \;}$ se realizan habitualmente sin considerar una distribución previa adecuada para ${\ Displaystyle \ eta}$ .

Estimación puntual

Método de Robbins: Bayes empírico no paramétrico (NPEB)

Robbins ^[2] consideró un caso de muestreo de una distribución mixta , donde la probabilidad de cada ${\ Displaystyle y_ {i}}$ (condicionado a ${\ Displaystyle \ theta _ {i}}$ ) se especifica mediante una distribución de Poisson ,

{\ Displaystyle p (y_ {i} \ mid \ theta _ {i}) = {{\ theta _ {i}} ^ {y_ {i}} e ^ {- \ theta _ {i}} \ over {y_ {I}}!}}

mientras que el anterior en θ no está especificado excepto que también es iid de una distribución desconocida, con función de distribución acumulativa ${\ Displaystyle G (\ theta)}$ . El muestreo compuesto surge en una variedad de problemas de estimación estadística, como las tasas de accidentes y los ensayos clínicos. ^{[ cita requerida ]} Simplemente buscamos una predicción puntual de ${\ Displaystyle \ theta _ {i}}$ dados todos los datos observados. Debido a que el anterior es indeterminado, tratamos de hacer esto sin el conocimiento de G . ^[3]

Bajo la pérdida de error al cuadrado (SEL), la expectativa condicional E ( θ _i | Y _i = y _i ) es una cantidad razonable para usar en la predicción. Para el modelo de muestreo compuesto de Poisson, esta cantidad es

{\ Displaystyle \ operatorname {E} (\ theta _ {i} \ mid y_ {i}) = {\ int (\ theta ^ {y_ {i} +1} e ^ {- \ theta} / {y_ {i }}!) \, dG (\ theta) \ over {\ int (\ theta ^ {y_ {i}} e ^ {- \ theta} / {y_ {i}}!) \, dG (\ theta}) }.}

Esto se puede simplificar multiplicando la expresión por ${\ Displaystyle ({y_ {i}} + 1) / ({y_ {i}} + 1)}$ , cediendo

{\ Displaystyle \ operatorname {E} (\ theta _ {i} \ mid y_ {i}) = {{(y_ {i} +1) p_ {G} (y_ {i} +1)} \ over {p_ {G} (y_ {i})}},}

donde p _G es la distribución marginal obtenida mediante la integración a cabo θ sobre G .

Para aprovechar esto, Robbins ^[2] sugirió estimar los marginales con sus frecuencias empíricas, produciendo la estimación completamente no paramétrica como:

{\ Displaystyle \ operatorname {E} (\ theta _ {i} \ mid y_ {i}) \ approx (y_ {i} +1) {{\ # \ {Y_ {j} = y_ {i} +1 \ }} \ over {\ # \ {Y_ {j} = y_ {i} \}}},}

dónde ${\ Displaystyle \ #}$ denota "número de". (Consulte también Estimación de frecuencia de Good-Turing ).

Ejemplo: tasas de accidentes

Suponga que cada cliente de una compañía de seguros tiene una "tasa de accidentes" Θ y está asegurado contra accidentes; la distribución de probabilidad de Θ es la distribución subyacente y se desconoce. El número de accidentes sufridos por cada cliente en un período de tiempo específico tiene una distribución de Poisson con un valor esperado igual a la tasa de accidentes del cliente en particular. El número real de accidentes experimentados por un cliente es la cantidad observable. Una forma burda de estimar la distribución de probabilidad subyacente de la tasa de accidentes Θ es estimar la proporción de miembros de la población total que sufren 0, 1, 2, 3, ... accidentes durante el período de tiempo especificado como la proporción correspondiente en el período observado. muestra aleatoria. Una vez hecho esto, se desea predecir la tasa de accidentes de cada cliente de la muestra. Como se indicó anteriormente, se puede usar el valor esperado condicional de la tasa de accidentes Θ dado el número observado de accidentes durante el período de referencia. Así, si un cliente sufre seis accidentes durante el período de referencia, la tasa de accidentes estimada de ese cliente es 7 × [la proporción de la muestra que sufrió 7 accidentes] / [la proporción de la muestra que sufrió 6 accidentes]. Tenga en cuenta que si la proporción de personas que sufren k accidentes es una función decreciente de k , la tasa de accidentes prevista por el cliente será a menudo menor que su número observado de accidentes.

Este efecto de contracción es típico de los análisis empíricos de Bayes.

Bayes empírico paramétrico

Si la verosimilitud y su anterior adoptan formas paramétricas simples (como funciones de verosimilitud de 1 o 2 dimensiones con priores conjugados simples ), entonces el problema empírico de Bayes es solo para estimar el marginal. ${\ Displaystyle m (y \ mid \ eta)}$ y los hiperparámetros ${\ Displaystyle \ eta}$ utilizando el conjunto completo de medidas empíricas. Por ejemplo, un enfoque común, llamado estimación puntual de Bayes empírica paramétrica, es aproximar el marginal utilizando la estimación de máxima verosimilitud (MLE), o una expansión Moments , que permite expresar los hiperparámetros ${\ Displaystyle \ eta}$ en términos de la media empírica y la varianza. Este marginal simplificado permite conectar los promedios empíricos en una estimación puntual para el anterior. ${\ Displaystyle \ theta}$ . La ecuación resultante para el anterior ${\ Displaystyle \ theta}$ se simplifica enormemente, como se muestra a continuación.

Existen varios modelos Bayes empíricos paramétricos comunes, incluido el modelo Poisson-gamma (abajo), el modelo Beta-binomial , el modelo Gaussiano-Gaussiano , el modelo Dirichlet-multinomial , así como modelos específicos para regresión lineal bayesiana (ver más abajo) y Regresión lineal multivariante bayesiana . Los enfoques más avanzados incluyen modelos Bayes jerárquicos y modelos de mezcla Bayesiana .

Modelo de Poisson-gamma

Por ejemplo, en el ejemplo anterior, deje que la probabilidad sea una distribución de Poisson , y deje que el anterior ahora sea especificado por el conjugado anterior , que es una distribución gamma ( ${\ Displaystyle G (\ alpha, \ beta)}$ ) (dónde ${\ Displaystyle \ eta = (\ alpha, \ beta)}$ ):

{\ Displaystyle \ rho (\ theta \ mid \ alpha, \ beta) = {\ frac {\ theta ^ {\ alpha -1} \, e ^ {- \ theta / \ beta}} {\ beta ^ {\ alpha } \ Gamma (\ alpha)}} \ \ mathrm {para} \ \ theta> 0, \ alpha> 0, \ beta> 0 \, \ !.}

Es sencillo mostrar que la parte posterior también es una distribución gamma. Escribir

{\ Displaystyle \ rho (\ theta \ mid y) \ propto \ rho (y \ mid \ theta) \ rho (\ theta \ mid \ alpha, \ beta),}

donde se ha omitido la distribución marginal ya que no depende explícitamente de ${\ Displaystyle \ theta}$ . Términos en expansión que dependen de ${\ Displaystyle \ theta}$ da el posterior como:

{\ Displaystyle \ rho (\ theta \ mid y) \ propto (\ theta ^ {y} \, e ^ {- \ theta}) (\ theta ^ {\ alpha -1} \, e ^ {- \ theta / \ beta}) = \ theta ^ {y + \ alpha -1} \, e ^ {- \ theta (1 + 1 / \ beta)}.}

Entonces la densidad posterior también es una distribución gamma ${\ Displaystyle G (\ alpha ', \ beta')}$ , dónde ${\ Displaystyle \ alpha '= y + \ alpha}$ , y ${\ Displaystyle \ beta '= (1 + 1 / \ beta) ^ {- 1}}$ . También observe que el marginal es simplemente la integral del posterior sobre todos ${\ Displaystyle \ Theta}$ , que resulta ser una distribución binomial negativa .

Para aplicar Bayes empírico, aproximaremos el marginal utilizando la estimación de máxima verosimilitud (MLE). Pero dado que el posterior es una distribución gamma, el MLE del marginal resulta ser solo la media del posterior, que es la estimación puntual ${\ Displaystyle \ operatorname {E} (\ theta \ mid y)}$ nosotros necesitamos. Recordando que la media ${\ Displaystyle \ mu}$ de una distribución gamma ${\ Displaystyle G (\ alpha ', \ beta')}$ es simple ${\ Displaystyle \ alpha '\ beta'}$ , tenemos

{\ Displaystyle \ operatorname {E} (\ theta \ mid y) = \ alpha '\ beta' = {\ frac {{\ bar {y}} + \ alpha} {1 + 1 / \ beta}} = {\ frac {\ beta} {1+ \ beta}} {\ bar {y}} + {\ frac {1} {1+ \ beta}} (\ alpha \ beta).}

Para obtener los valores de ${\ Displaystyle \ alpha}$ y ${\ Displaystyle \ beta}$ , empírico Bayes prescribe estimar la media ${\ Displaystyle \ alpha \ beta}$ y varianza ${\ Displaystyle \ alpha \ beta ^ {2}}$ utilizando el conjunto completo de datos empíricos.

La estimación puntual resultante ${\ Displaystyle \ operatorname {E} (\ theta \ mid y)}$ es, por tanto, como un promedio ponderado de la media muestral ${\ Displaystyle {\ bar {y}}}$ y la media anterior ${\ Displaystyle \ mu = \ alpha \ beta}$ . Esto resulta ser una característica general del Bayes empírico; las estimaciones puntuales de la estimación previa (es decir, la media) se verán como promedios ponderados de la estimación muestral y la estimación previa (también para las estimaciones de la varianza).

Ver también

Estimador de Bayes
Mejor predicción lineal insesgada
Problema de Monty Hall
Lema de Robbins
Selección de variables de picos y losas

Referencias

^ CM Bishop (2005). Redes neuronales para el reconocimiento de patrones . Oxford University Press ISBN 0-19-853864-2
^ a b Robbins, Herbert (1956). "Un enfoque empírico de Bayes a la estadística" . Actas del Tercer Simposio de Berkeley sobre Probabilidad y Estadística Matemática, Volumen 1: Contribuciones a la Teoría de la Estadística : 157-163. Señor 0084919 . Consultado el 15 de marzo de 2008 .
^ Carlin, Bradley P .; Louis, Thomas A. (2000). Bayes y métodos empíricos de Bayes para el análisis de datos (2ª ed.). Chapman y Hall / CRC. págs. Sec. 3.2 y Apéndice B. ISBN 978-1-58488-170-4.

Otras lecturas

Peter E. Rossi; Greg M. Allenby; Rob McCulloch (14 de mayo de 2012). Estadística y marketing bayesianos . John Wiley e hijos. ISBN 978-0-470-86368-8.
Casella, George (mayo de 1985). "Una introducción al análisis de datos empíricos de Bayes" (PDF) . Estadístico estadounidense . 39 (2): 83–87. doi : 10.2307 / 2682801 . hdl : 1813/32886 . JSTOR 2682801 . Señor 0789118 .
Nikulin, Mikhail (1987). "Condiciones de regularidad de Bernstein en un problema de enfoque empírico bayesiano". Revista de matemáticas soviéticas . 36 (5): 596–600. doi : 10.1007 / BF01093293 . S2CID 122405908 .

enlaces externos

Uso del método empírico de Bayes para estimar la seguridad vial (América del Norte)
Métodos empíricos de Bayes para el análisis de datos faltantes
Uso de la distribución Beta-Binomial para evaluar el rendimiento de un dispositivo de identificación biométrica
Clasificadores jerárquicos ingenuos de Bayes (para variables continuas y discretas ).

[Bishop05-1] CM Bishop (2005). Redes neuronales para el reconocimiento de patrones . Oxford University Press ISBN 0-19-853864-2

[Robbins-2] Robbins, Herbert (1956). "Un enfoque empírico de Bayes a la estadística" . Actas del Tercer Simposio de Berkeley sobre Probabilidad y Estadística Matemática, Volumen 1: Contribuciones a la Teoría de la Estadística : 157-163. Señor 0084919 . Consultado el 15 de marzo de 2008 .

[CL-3] Carlin, Bradley P .; Louis, Thomas A. (2000). Bayes y métodos empíricos de Bayes para el análisis de datos (2ª ed.). Chapman y Hall / CRC. págs. Sec. 3.2 y Apéndice B. ISBN 978-1-58488-170-4.

[1]