Inferencia bayesiana

Estadísticas bayesianas
Parte de una serie sobre

Teoría
Regla de decisión admisible Eficiencia bayesiana Epistemología bayesiana Probabilidad bayesiana Interpretaciones de probabilidad Teorema de Bayes Factor de Bayes Inferencia bayesiana Red bayesiana Previo Posterior Probabilidad Conjugado previo Predictivo posterior Hiperparámetro Hyperprior Principio de indiferencia Principio de máxima entropía Método empírico de Bayes Regla de Cromwell Teorema de Bernstein-von Mises Criterio de Schwarz Intervalo creíble Estimación máxima a posteriori Probabilismo radical
Técnicas
Regresión lineal bayesiana Estimador bayesiano Cálculo bayesiano aproximado Cadena de Markov Monte Carlo
Portal de matemáticas
v t mi

La inferencia bayesiana es un método de inferencia estadística en el que se usa el teorema de Bayes para actualizar la probabilidad de una hipótesis a medida que se dispone de más evidencia o información . La inferencia bayesiana es una técnica importante en estadística , y especialmente en estadística matemática . La actualización bayesiana es particularmente importante en el análisis dinámico de una secuencia de datos . La inferencia bayesiana ha encontrado aplicación en una amplia gama de actividades, que incluyen ciencia , ingeniería , filosofía , medicina , deporte yley . En la filosofía de la teoría de la decisión , la inferencia bayesiana está estrechamente relacionada con la probabilidad subjetiva, a menudo llamada " probabilidad bayesiana ".

Introducción a la regla de Bayes

Una visualización geométrica del teorema de Bayes. En la tabla, los valores 2, 3, 6 y 9 dan los pesos relativos de cada condición y caso correspondiente. Las cifras denotan las celdas de la tabla involucradas en cada métrica, siendo la probabilidad la fracción de cada cifra que está sombreada. Esto muestra que P (A | B) P (B) = P (B | A) P (A) es decir, P (A | B) = P (B | A) P (A) P (B) . Se puede usar un razonamiento similar para mostrar que P (¬A | B) = P (B | ¬A) P (¬A) P (B) etc.

Explicación formal

Mesa de contingencia
Hipótesis Evidencia	Satisface la hipótesis H	Viola la hipótesis ¬H	Total
Tiene evidencia E	P (H \| E) · P (E) = P (E \| H) · P (H)	P (¬H \| E) · P (E) = P (E \| ¬H) · P (¬H)	EDUCACIÓN FÍSICA)
Sin evidencia ¬E	P (H \| ¬E) · P (¬E) = P (¬E \| H) · P (H)	P (¬H \| ¬E) · P (¬E) = P (¬E \| ¬H) · P (¬H)	P (¬E) = 1 − P (E)

Total	P (H)	P (¬H) = 1 − P (H)	1

La inferencia bayesiana deriva la probabilidad posterior como consecuencia de dos antecedentes : una probabilidad previa y una " función de verosimilitud " derivada de un modelo estadístico para los datos observados. La inferencia bayesiana calcula la probabilidad posterior de acuerdo con el teorema de Bayes :

{\ Displaystyle P (H \ mid E) = {\ frac {P (E \ mid H) \ cdot P (H)} {P (E)}}}

dónde

${\ Displaystyle \ textstyle H}$ representa cualquier hipótesis cuya probabilidad pueda verse afectada por los datos (denominada evidencia a continuación). A menudo hay hipótesis en competencia y la tarea es determinar cuál es la más probable.
${\ Displaystyle \ textstyle P (H)}$ , la probabilidad previa , es la estimación de la probabilidad de la hipótesis antes de que se observen los datos , la evidencia actual. ${\ Displaystyle \ textstyle H}$ ${\ Displaystyle \ textstyle E}$
${\ Displaystyle \ textstyle E}$ , la evidencia , corresponde a nuevos datos que no se utilizaron para calcular la probabilidad previa.
$\textstyle P(H\mid E)$ , la probabilidad posterior , es la probabilidad de dado , es decir, después de que se observa. Esto es lo que queremos saber: la probabilidad de una hipótesis dada la evidencia observada. $\textstyle H$ $\textstyle E$ $\textstyle E$
$\textstyle P(E\mid H)$ es la probabilidad de observar dada , y se llama probabilidad . En función de con fijo, indica la compatibilidad de la evidencia con la hipótesis dada. La función de verosimilitud es una función de la prueba, mientras que la parte posterior de probabilidad es una función de la hipótesis, . $\textstyle E$ $\textstyle H$ $\textstyle E$ $\textstyle H$ $\textstyle E$ $\textstyle H$
$\textstyle P(E)$ a veces se denomina probabilidad marginal o "evidencia modelo". Este factor es el mismo para todas las hipótesis posibles consideradas (como se desprende del hecho de que la hipótesis no aparece en ninguna parte del símbolo, a diferencia de todos los demás factores), por lo que este factor no entra en la determinación de las probabilidades relativas de diferentes hipótesis. $\textstyle H$

Para diferentes valores de , solo los factores y , ambos en el numerador, afectan el valor de - la probabilidad posterior de una hipótesis es proporcional a su probabilidad previa (su probabilidad inherente) y la probabilidad recién adquirida (su compatibilidad con la nueva evidencia observada). ). $\textstyle H$ $\textstyle P(H)$ $\textstyle P(E\mid H)$ $\textstyle P(H\mid E)$

La regla de Bayes también se puede escribir de la siguiente manera:

{\begin{aligned}P(H\mid E)&={\frac {P(E\mid H)P(H)}{P(E)}}\\\\&={\frac {P(E\mid H)P(H)}{P(E\mid H)P(H)+P(E\mid \neg H)P(\neg H)}}\\\\&={\frac {1}{1+\left({\frac {1}{P(H)}}-1\right){\frac {P(E\mid \neg H)}{P(E\mid H)}}}}\\\end{aligned}}

porque

P(E)=P(E\mid H)P(H)+P(E\mid \neg H)P(\neg H)

y

P(H)+P(\neg H)=1

donde es "no ", la negación lógica de . $\neg H$ $\textstyle H$ $\textstyle H$

Una forma rápida y fácil de recordar la ecuación sería usar la regla de multiplicación:

$P(E\cap H)=P(E\mid H)P(H)=P(H\mid E)P(E)$

Alternativas a la actualización bayesiana

La actualización bayesiana se usa ampliamente y es conveniente desde el punto de vista computacional. Sin embargo, no es la única regla de actualización que podría considerarse racional.

Ian Hacking señaló que los argumentos tradicionales de los " libros holandeses " no especificaban la actualización bayesiana: dejaban abierta la posibilidad de que las reglas de actualización no bayesianas pudieran evitar los libros holandeses. Hacking escribió ^[1]^[2] "Y ni el argumento del libro holandés ni ningún otro en el arsenal personalista de pruebas de los axiomas de probabilidad implica el supuesto dinámico. Ninguno implica bayesianismo. Por lo tanto, el personalista requiere que el supuesto dinámico sea bayesiano. Es cierto que en coherencia un personalista podría abandonar el modelo bayesiano de aprender de la experiencia. La sal podría perder su sabor ".

De hecho, existen reglas de actualización no bayesianas que también evitan los libros holandeses (como se discute en la literatura sobre " cinemática de probabilidad ") luego de la publicación de la regla de Richard C. Jeffrey , que aplica la regla de Bayes al caso donde la evidencia misma se le asigna una probabilidad. ^[3] Las hipótesis adicionales necesarias para requerir únicamente una actualización bayesiana se han considerado sustanciales, complicadas e insatisfactorias. ^[4]

Descripción formal de la inferencia bayesiana

Definiciones

$x$ , un punto de datos en general. De hecho, este puede ser un vector de valores.
$\theta$ , El parámetro de la distribución del punto de datos, es decir, . Este puede ser un vector de parámetros. $x\sim p(x\mid \theta )$
$\alpha$ , El hiperparámetro de la distribución de parámetro, es decir, . Este puede ser un vector de hiperparámetros. $\theta \sim p(\theta \mid \alpha )$
$\mathbf {X}$ es la muestra, un conjunto de puntos de datos observados, es decir, . $n$ $x_{1},\ldots ,x_{n}$
${\tilde {x}}$ , un nuevo punto de datos cuya distribución se va a predecir.

Inferencia bayesiana

La distribución previa es la distribución de los parámetros antes de que se observe cualquier dato, es decir . Es posible que la distribución anterior no se pueda determinar fácilmente; en tal caso, una posibilidad puede ser utilizar Jeffreys antes de obtener una distribución previa antes de actualizarla con observaciones más nuevas. $p(\theta \mid \alpha )$
La distribución muestral es la distribución de los datos observados condicionada a sus parámetros, es decir . Esto también se denomina probabilidad , especialmente cuando se ve como una función de los parámetros, a veces escritos . $p(\mathbf {X} \mid \theta )$ $\operatorname {L} (\theta \mid \mathbf {X} )=p(\mathbf {X} \mid \theta )$
La probabilidad marginal (a veces también denominada evidencia ) es la distribución de los datos observados marginados sobre los parámetros, es decir . $p(\mathbf {X} \mid \alpha )=\int p(\mathbf {X} \mid \theta )p(\theta \mid \alpha )\operatorname {d} \!\theta$
La distribución posterior es la distribución de los parámetros después de tener en cuenta los datos observados. Esto está determinado por la regla de Bayes , que forma el corazón de la inferencia bayesiana:

p(\theta \mid \mathbf {X} ,\alpha )={\frac {p(\theta ,\mathbf {X} ,\alpha )}{p(\mathbf {X} ,\alpha )}}={\frac {p(\mathbf {X} \mid \theta ,\alpha )p(\theta ,\alpha )}{p(\mathbf {X} \mid \alpha )p(\alpha )}}={\frac {p(\mathbf {X} \mid \theta ,\alpha )p(\theta \mid \alpha )}{p(\mathbf {X} \mid \alpha )}}\propto p(\mathbf {X} \mid \theta ,\alpha )p(\theta \mid \alpha )

.

Esto se expresa en palabras como "posterior es proporcional al tiempo de probabilidad anterior", oa veces como "posterior = tiempo de probabilidad anterior, sobre evidencia".

En la práctica, para casi todos los modelos bayesianos complejos utilizados en el aprendizaje automático, la distribución posterior no se obtiene en una distribución de forma cerrada, principalmente porque el espacio de parámetros para puede ser muy alto, o el modelo bayesiano conserva cierta estructura jerárquica formulada a partir de las observaciones y parámetro . En tales situaciones, debemos recurrir a técnicas de aproximación. ^[5] $p(\theta \mid \mathbf {X} ,\alpha )$ $\theta$ $\mathbf {X}$ $\theta$

Predicción bayesiana

La distribución predictiva posterior es la distribución de un nuevo punto de datos, marginado sobre el posterior:

p({\tilde {x}}\mid \mathbf {X} ,\alpha )=\int p({\tilde {x}}\mid \theta )p(\theta \mid \mathbf {X} ,\alpha )\operatorname {d} \!\theta

La distribución predictiva previa es la distribución de un nuevo punto de datos, marginado sobre el anterior:

p({\tilde {x}}\mid \alpha )=\int p({\tilde {x}}\mid \theta )p(\theta \mid \alpha )\operatorname {d} \!\theta

La teoría bayesiana exige el uso de la distribución predictiva posterior para realizar inferencias predictivas , es decir, para predecir la distribución de un nuevo punto de datos no observado. Es decir, en lugar de un punto fijo como predicción, se devuelve una distribución sobre los puntos posibles. Solo así se utiliza toda la distribución posterior de los parámetros. En comparación, la predicción en las estadísticas frecuentistas a menudo implica encontrar una estimación puntual óptima de los parámetros, por ejemplo, por máxima verosimilitud o estimación máxima a posteriori.(MAP), y luego conectando esta estimación en la fórmula para la distribución de un punto de datos. Esto tiene la desventaja de que no tiene en cuenta ninguna incertidumbre en el valor del parámetro y, por lo tanto, subestimará la varianza de la distribución predictiva.

(En algunos casos, las estadísticas frecuentistas pueden solucionar este problema. Por ejemplo, los intervalos de confianza y los intervalos de predicción en las estadísticas frecuentistas cuando se construyen a partir de una distribución normal con media y varianza desconocidas se construyen utilizando una distribución t de Student. Esto estima correctamente la varianza, debido al hecho de que (1) el promedio de las variables aleatorias distribuidas normalmente también se distribuye normalmente, y (2) la distribución predictiva de un punto de datos distribuido normalmente con media y varianza desconocidas, utilizando valores previos conjugados o no informativos , tiene una distribución t de Student. En la estadística bayesiana, sin embargo, la distribución predictiva posterior siempre se puede determinar con exactitud, o al menos con un nivel arbitrario de precisión cuando se utilizan métodos numéricos.

Ambos tipos de distribuciones predictivas tienen la forma de una distribución de probabilidad compuesta (al igual que la probabilidad marginal ). De hecho, si la distribución previa es una previa conjugada , de modo que las distribuciones anterior y posterior provienen de la misma familia, se puede ver que las distribuciones predictivas anterior y posterior también provienen de la misma familia de distribuciones compuestas. La única diferencia es que la distribución predictiva posterior usa los valores actualizados de los hiperparámetros (aplicando las reglas de actualización bayesianas dadas en el artículo anterior conjugado ), mientras que la distribución predictiva anterior usa los valores de los hiperparámetros que aparecen en la distribución anterior.

Inferencia sobre posibilidades exclusivas y exhaustivas

Si la evidencia se usa simultáneamente para actualizar la creencia sobre un conjunto de proposiciones exclusivas y exhaustivas, se puede pensar que la inferencia bayesiana actúa sobre esta distribución de creencias como un todo.

Formulación general

Diagrama que ilustra el espacio de eventos en la formulación general de la inferencia bayesiana. Aunque este diagrama muestra modelos y eventos discretos, el caso continuo puede visualizarse de manera similar usando densidades de probabilidad.

\Omega

Suponga que un proceso genera eventos independientes y distribuidos de manera idéntica , pero se desconoce la distribución de probabilidad. Deje que el espacio de eventos represente el estado actual de creencias para este proceso. Cada modelo está representado por evento . Las probabilidades condicionales se especifican para definir los modelos. es el grado de creencia en . Antes del primer paso de inferencia, hay un conjunto de probabilidades previas iniciales . Estos deben sumar 1, pero por lo demás son arbitrarios. $E_{n},\,\,n=1,2,3,\ldots$ $\Omega$ $M_{m}$ $P(E_{n}\mid M_{m})$ $P(M_{m})$ $M_{m}$ $\{P(M_{m})\}$

Suponga que se observa que el proceso genera . Para cada uno , el anterior se actualiza al posterior . Del teorema de Bayes : ^[6] $\textstyle E\in \{E_{n}\}$ $M\in \{M_{m}\}$ $P(M)$ $P(M\mid E)$

P(M\mid E)={\frac {P(E\mid M)}{\sum _{m}{P(E\mid M_{m})P(M_{m})}}}\cdot P(M)

Tras la observación de más pruebas, este procedimiento puede repetirse.

Diagrama de Venn para los conjuntos fundamentales que se utilizan con frecuencia en la inferencia y los cálculos bayesianos ^[7]

Varias observaciones

Para una secuencia de observaciones independientes e idénticamente distribuidas , se puede demostrar por inducción que la aplicación repetida de lo anterior es equivalente a $\mathbf {E} =(e_{1},\dots ,e_{n})$

P(M\mid \mathbf {E} )={\frac {P(\mathbf {E} \mid M)}{\sum _{m}{P(\mathbf {E} \mid M_{m})P(M_{m})}}}\cdot P(M)

Dónde

P(\mathbf {E} \mid M)=\prod _{k}{P(e_{k}\mid M)}.

Formulación paramétrica

Al parametrizar el espacio de los modelos, la creencia en todos los modelos se puede actualizar en un solo paso. La distribución de creencias sobre el espacio modelo puede entonces considerarse como una distribución de creencias sobre el espacio de parámetros. Las distribuciones en esta sección se expresan como continuas, representadas por densidades de probabilidad, ya que esta es la situación habitual. Sin embargo, la técnica es igualmente aplicable a distribuciones discretas.

Deje que el vector abarque el espacio de parámetros. Dejemos que la distribución previa inicial sea over , donde es un conjunto de parámetros para el prior mismo, o hiperparámetros . Sea una secuencia de observaciones de eventos independientes e idénticamente distribuidas , donde todas están distribuidas como para algunas . El teorema de Bayes se aplica para encontrar la distribución posterior sobre : $\mathbf {\theta }$ $\mathbf {\theta }$ $p(\mathbf {\theta } \mid \mathbf {\alpha } )$ $\mathbf {\alpha }$ $\mathbf {E} =(e_{1},\dots ,e_{n})$ $e_{i}$ $p(e\mid \mathbf {\theta } )$ $\mathbf {\theta }$ $\mathbf {\theta }$

{\begin{aligned}p(\mathbf {\theta } \mid \mathbf {E} ,\mathbf {\alpha } )&={\frac {p(\mathbf {E} \mid \mathbf {\theta } ,\mathbf {\alpha } )}{p(\mathbf {E} \mid \mathbf {\alpha } )}}\cdot p(\mathbf {\theta } \mid \mathbf {\alpha } )\\&={\frac {p(\mathbf {E} \mid \mathbf {\theta } ,\mathbf {\alpha } )}{\int p(\mathbf {E} |\mathbf {\theta } ,\mathbf {\alpha } )p(\mathbf {\theta } \mid \mathbf {\alpha } )\,d\mathbf {\theta } }}\cdot p(\mathbf {\theta } \mid \mathbf {\alpha } )\end{aligned}}

Dónde

p(\mathbf {E} \mid \mathbf {\theta } ,\mathbf {\alpha } )=\prod _{k}p(e_{k}\mid \mathbf {\theta } )

Propiedades matematicas

Esta sección incluye una lista de referencias generales , pero permanece en gran parte sin verificar porque carece de suficientes citas en línea correspondientes . Ayude a mejorar esta sección introduciendo citas más precisas. ( Febrero de 2012 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

Interpretación de factor

$\textstyle {\frac {P(E\mid M)}{P(E)}}>1\Rightarrow \textstyle P(E\mid M)>P(E)$ . Es decir, si el modelo fuera cierto, la evidencia sería más probable de lo que predice el estado actual de creencias. Lo contrario se aplica a una disminución de la fe. Si la creencia no cambia ,. Es decir, la evidencia es independiente del modelo. Si el modelo fuera cierto, la evidencia sería exactamente tan probable como predice el estado actual de creencias. $\textstyle {\frac {P(E\mid M)}{P(E)}}=1\Rightarrow \textstyle P(E\mid M)=P(E)$

Regla de Cromwell

Si entonces . Si , entonces . Esto puede interpretarse en el sentido de que las condenas duras son insensibles a las pruebas contrarias. $P(M)=0$ $P(M\mid E)=0$ $P(M)=1$ $P(M|E)=1$

El primero se deriva directamente del teorema de Bayes. Este último se puede derivar aplicando la primera regla al evento "no " en lugar de " ", dando "si , entonces ", del cual se sigue inmediatamente el resultado. $M$ $M$ $1-P(M)=0$ $1-P(M\mid E)=0$

Comportamiento asintótico de la parte posterior

Considere el comportamiento de una distribución de creencias a medida que se actualiza una gran cantidad de veces con ensayos independientes e idénticamente distribuidos . Para probabilidades previas suficientemente agradables, el teorema de Bernstein-von Mises da que en el límite de infinitos ensayos, el posterior converge a una distribución gaussiana independiente del prior inicial bajo algunas condiciones descritas en primer lugar y rigurosamente probadas por Joseph L. Doob en 1948, a saber si la variable aleatoria en consideración tiene un espacio de probabilidad finito . Los resultados más generales fueron obtenidos más tarde por el estadístico David A. Freedman, quien publicó en dos artículos de investigación seminales en 1963 ^[8] y 1965.^[9] cuándo y bajo qué circunstancias se garantiza el comportamiento asintótico de la parte posterior. Su artículo de 1963 trata, como Doob (1949), el caso finito y llega a una conclusión satisfactoria. Sin embargo, si la variable aleatoria tiene un espacio de probabilidad infinito pero contable(es decir, correspondiente a un dado con infinitas caras), el artículo de 1965 demuestra que para un subconjunto denso de priores el teorema de Bernstein-von Mises no es aplicable. En este caso, es casi seguro que no haya convergencia asintótica. Posteriormente, en las décadas de 1980 y 1990, Freedman y Persi Diaconis continuaron trabajando en el caso de los espacios de probabilidad numerables infinitos.^[10] En resumen, puede que no haya suficientes pruebas para suprimir los efectos de la elección inicial y, especialmente para sistemas grandes (pero finitos), la convergencia puede ser muy lenta.

A priori conjugados

En forma parametrizada, a menudo se supone que la distribución a priori proviene de una familia de distribuciones llamadas priores conjugados . La utilidad de un previo conjugado es que la distribución posterior correspondiente estará en la misma familia, y el cálculo puede expresarse en forma cerrada .

Estimaciones de parámetros y predicciones

A menudo se desea utilizar una distribución posterior para estimar un parámetro o una variable. Varios métodos de estimación bayesiana seleccionan medidas de tendencia central de la distribución posterior.

Para problemas unidimensionales, existe una mediana única para problemas prácticos continuos. La mediana posterior es atractiva como estimador robusto . ^[11]

Si existe una media finita para la distribución posterior, entonces la media posterior es un método de estimación. ^[12]

{\tilde {\theta }}=\operatorname {E} [\theta ]=\int \theta \,p(\theta \mid \mathbf {X} ,\alpha )\,d\theta

Tomar un valor con la mayor probabilidad define las estimaciones máximas a posteriori (MAP) : ^[13]

\{\theta _{\text{MAP}}\}\subset \arg \max _{\theta }p(\theta \mid \mathbf {X} ,\alpha ).

Hay ejemplos en los que no se alcanza un máximo, en cuyo caso el conjunto de estimaciones de MAP está vacío .

Existen otros métodos de estimación que minimizan el riesgo posterior (pérdida posterior esperada) con respecto a una función de pérdida , y estos son de interés para la teoría de la decisión estadística utilizando la distribución muestral ("estadísticas frecuentistas"). ^[14]

La distribución predictiva posterior de una nueva observación (que es independiente de las observaciones anteriores) está determinada por ^[15] ${\tilde {x}}$

p({\tilde {x}}|\mathbf {X} ,\alpha )=\int p({\tilde {x}},\theta \mid \mathbf {X} ,\alpha )\,d\theta =\int p({\tilde {x}}\mid \theta )p(\theta \mid \mathbf {X} ,\alpha )\,d\theta .

Ejemplos de

Probabilidad de una hipótesis

Mesa de contingencia
bol Galleta	# 1 H ₁	# 2 H ₂	Total
Llanura, E	30	20	50
Choc, ¬ E	10	20	30
Total	40	40	80
P ( H ₁ \| E ) = 30/50 = 0,6

Suponga que hay dos tazones llenos de galletas. El tazón n. ° 1 tiene 10 galletas con chispas de chocolate y 30 galletas simples, mientras que el tazón n. ° 2 tiene 20 de cada una. Nuestro amigo Fred escoge un cuenco al azar y luego escoge una galleta al azar. Podemos suponer que no hay ninguna razón para creer que Fred trate un tazón de manera diferente a otro, de la misma manera con las galletas. La galleta resulta ser sencilla. ¿Qué tan probable es que Fred lo haya sacado del cuenco n. ° 1?

Intuitivamente, parece claro que la respuesta debería ser más de la mitad, ya que hay más galletas simples en el tazón # 1. La respuesta precisa la da el teorema de Bayes. Deje corresponder al cuenco # 1, y al cuenco # 2. Se da que los tazones son idénticos desde el punto de vista de Fred, por lo tanto , y los dos deben sumar 1, por lo que ambos son iguales a 0.5. El evento es la observación de una simple cookie. Por el contenido de los tazones, sabemos que y la fórmula de Bayes produce $H_{1}$ $H_{2}$ $P(H_{1})=P(H_{2})$ $E$ $P(E\mid H_{1})=30/40=0.75$ $P(E\mid H_{2})=20/40=0.5.$

{\begin{aligned}P(H_{1}\mid E)&={\frac {P(E\mid H_{1})\,P(H_{1})}{P(E\mid H_{1})\,P(H_{1})\;+\;P(E\mid H_{2})\,P(H_{2})}}\\\\\ &={\frac {0.75\times 0.5}{0.75\times 0.5+0.5\times 0.5}}\\\\\ &=0.6\end{aligned}}

Antes de que observáramos la galleta, la probabilidad que asignamos a Fred de haber elegido el cuenco n. ° 1 era la probabilidad previa , que era de 0,5. Después de observar la cookie, debemos revisar la probabilidad a , que es 0,6. $P(H_{1})$ $P(H_{1}\mid E)$

Haciendo una predicción

Resultados de ejemplo para el ejemplo de arqueología. Esta simulación se generó utilizando c = 15,2.

Un arqueólogo está trabajando en un sitio que se cree que data de la época medieval, entre el siglo XI y el siglo XVI. Sin embargo, no se sabe exactamente cuándo en este período estuvo habitado el sitio. Se encuentran fragmentos de cerámica, algunos vidriados y otros decorados. Se espera que si el sitio estuviera habitado durante el período medieval temprano, entonces el 1% de la cerámica estaría vidriada y el 50% de su área decorada, mientras que si hubiera estado habitado en el período medieval tardío, el 81% estaría vidriado y 5% de su superficie decorada. ¿Qué grado de confianza puede tener el arqueólogo en la fecha de ocupación a medida que se desenterran los fragmentos?

Se calculará el grado de creencia en la variable continua (siglo), con el conjunto discreto de eventos como evidencia. Suponiendo una variación lineal del esmalte y la decoración con el tiempo, y que estas variables son independientes, $C$ $\{GD,G{\bar {D}},{\bar {G}}D,{\bar {G}}{\bar {D}}\}$

P(E=GD\mid C=c)=(0.01+{\frac {0.81-0.01}{16-11}}(c-11))(0.5-{\frac {0.5-0.05}{16-11}}(c-11))

P(E=G{\bar {D}}\mid C=c)=(0.01+{\frac {0.81-0.01}{16-11}}(c-11))(0.5+{\frac {0.5-0.05}{16-11}}(c-11))

P(E={\bar {G}}D\mid C=c)=((1-0.01)-{\frac {0.81-0.01}{16-11}}(c-11))(0.5-{\frac {0.5-0.05}{16-11}}(c-11))

P(E={\bar {G}}{\bar {D}}\mid C=c)=((1-0.01)-{\frac {0.81-0.01}{16-11}}(c-11))(0.5+{\frac {0.5-0.05}{16-11}}(c-11))

Suponga un antecedente uniforme y que los ensayos son independientes y están distribuidos de forma idéntica . Cuando se descubre un nuevo fragmento de tipo , se aplica el teorema de Bayes para actualizar el grado de creencia de cada uno : $\textstyle f_{C}(c)=0.2$ $e$ $c$

$f_{C}(c\mid E=e)={\frac {P(E=e\mid C=c)}{P(E=e)}}f_{C}(c)={\frac {P(E=e\mid C=c)}{\int _{11}^{16}{P(E=e\mid C=c)f_{C}(c)dc}}}f_{C}(c)$

En el gráfico se muestra una simulación por computadora de la creencia cambiante a medida que se desenterran 50 fragmentos. En la simulación, el sitio estaba habitado alrededor de 1420 o . Al calcular el área debajo de la parte relevante del gráfico para 50 ensayos, el arqueólogo puede decir que prácticamente no hay posibilidad de que el sitio estuviera habitado en los siglos XI y XII, alrededor del 1% de probabilidad de que estuviera habitado durante el siglo XIII, 63 % de probabilidad durante el siglo XIV y 36% durante el siglo XV. El teorema de Bernstein-von Mises afirma aquí la convergencia asintótica a la distribución "verdadera" porque el espacio de probabilidad correspondiente al conjunto discreto de eventos es finito (ver la sección anterior sobre el comportamiento asintótico del posterior). $c=15.2$ $\{GD,G{\bar {D}},{\bar {G}}D,{\bar {G}}{\bar {D}}\}$

En estadística frecuentista y teoría de la decisión

Una decisión de la teoría de la justificación del uso de la inferencia bayesiana fue dado por Abraham Wald , que demostró que cada procedimiento bayesiano único es admisible . A la inversa, todo procedimiento estadístico admisible es un procedimiento bayesiano o un límite de procedimientos bayesianos. ^[dieciséis]

Wald caracterizó los procedimientos admisibles como procedimientos bayesianos (y límites de los procedimientos bayesianos), haciendo del formalismo bayesiano una técnica central en áreas de inferencia frecuentista como la estimación de parámetros , la prueba de hipótesis y el cálculo de intervalos de confianza . ^[17]^[18]^[19] Por ejemplo:

"Bajo algunas condiciones, todos los procedimientos admisibles son procedimientos de Bayes o límites de los procedimientos de Bayes (en varios sentidos). Estos resultados notables, al menos en su forma original, se deben esencialmente a Wald. Son útiles porque la propiedad de ser Bayes es más fácil de analizar que la admisibilidad ". ^[dieciséis]
"En la teoría de la decisión, un método bastante general para probar la admisibilidad consiste en exhibir un procedimiento como una solución única de Bayes". ^[20]
"En los primeros capítulos de este trabajo se utilizaron distribuciones previas con soporte finito y los correspondientes procedimientos de Bayes para establecer algunos de los principales teoremas relacionados con la comparación de experimentos. Los procedimientos de Bayes con respecto a distribuciones previas más generales han jugado un papel muy importante en el desarrollo de la estadística, incluida su teoría asintótica ". "Hay muchos problemas en los que una mirada a las distribuciones posteriores, para los anteriores adecuados, arroja información inmediatamente interesante. Además, esta técnica difícilmente puede evitarse en el análisis secuencial". ^[21]

"Un hecho útil es que cualquier regla de decisión de Bayes obtenida tomando una prioridad adecuada en todo el espacio de parámetros debe ser admisible" ^[22]
"Un área importante de investigación en el desarrollo de ideas de admisibilidad ha sido la de los procedimientos convencionales de teoría de muestreo, y se han obtenido muchos resultados interesantes". ^[23]

Selección de modelo

La metodología bayesiana también juega un papel en la selección del modelo, donde el objetivo es seleccionar un modelo de un conjunto de modelos en competencia que represente más de cerca el proceso subyacente que generó los datos observados. En la comparación del modelo bayesiano, se selecciona el modelo con la probabilidad posterior más alta dados los datos. La probabilidad posterior de un modelo depende de la evidencia, o probabilidad marginal , que refleja la probabilidad de que los datos sean generados por el modelo, y de la creencia previa del modelo. Cuando dos modelos en competencia se consideran a priori como equiprobables, la razón de sus probabilidades posteriores corresponde al factor de Bayes. Dado que la comparación del modelo bayesiano tiene como objetivo seleccionar el modelo con la mayor probabilidad posterior, esta metodología también se conoce como la regla de selección máxima a posteriori (MAP) ^[24] o la regla de probabilidad MAP. ^[25]

Programación probabilística

Aunque conceptualmente simples, los métodos bayesianos pueden ser matemática y numéricamente desafiantes. Los lenguajes de programación probabilísticos (PPL) implementan funciones para construir fácilmente modelos bayesianos junto con métodos de inferencia automáticos eficientes. Esto ayuda a separar la construcción del modelo de la inferencia, lo que permite a los profesionales centrarse en sus problemas específicos y dejar que los PPL se encarguen de los detalles computacionales. ^[26]^[27]^[28]

Aplicaciones

Aplicaciones computacionales

La inferencia bayesiana tiene aplicaciones en inteligencia artificial y sistemas expertos . Las técnicas de inferencia bayesiana han sido una parte fundamental de las técnicas de reconocimiento de patrones computarizado desde finales de la década de 1950. ^[29] También existe una conexión cada vez mayor entre los métodos bayesianos y las técnicas de Monte Carlo basadas en simulación , ya que los modelos complejos no pueden procesarse en forma cerrada mediante un análisis bayesiano, mientras que una estructura de modelo gráfico puede permitir algoritmos de simulación eficientes como el muestreo de Gibbs. y otros esquemas de algoritmos de Metropolis-Hastings . ^[30] Recientemente ^{[¿Cuándo? ] La}inferencia bayesiana ha ganado popularidad entre lacomunidadfilogenéticapor estas razones; Varias aplicaciones permiten estimar simultáneamente muchos parámetros demográficos y evolutivos.

Aplicada a la clasificación estadística , la inferencia bayesiana se ha utilizado para desarrollar algoritmos para identificar correo no deseado . Las aplicaciones que hacen uso de la inferencia bayesiana para el filtrado de correo no deseado incluyen CRM114 , DSPAM , Bogofilter , SpamAssassin , SpamBayes , Mozilla , XEAMS, y otros. La clasificación de spam se trata con más detalle en el artículo sobre el clasificador ingenuo de Bayes .

La inferencia inductiva de Solomonoff es la teoría de la predicción basada en observaciones; por ejemplo, predecir el siguiente símbolo basándose en una serie determinada de símbolos. El único supuesto es que el entorno sigue una distribución de probabilidad desconocida pero computable. Es un marco inductivo formal que combina dos principios bien estudiados de inferencia inductiva: la estadística bayesiana y la navaja de Occam . ^[31]^{[ fuente no confiable? ]} La probabilidad previa universal de Solomonoff de cualquier prefijo p de una secuencia computable x es la suma de las probabilidades de todos los programas (para una computadora universal) que calculan algo que comienza con p . Dado algunos py cualquier distribución de probabilidad computable pero desconocida de la que se muestrea x , el prior universal y el teorema de Bayes pueden usarse para predecir las partes aún no vistas de x de manera óptima. ^[32]^[33]

Aplicaciones bioinformáticas y sanitarias

La inferencia bayesiana se ha aplicado en diferentes aplicaciones de la bioinformática, incluido el análisis de expresión genética diferencial. ^{[34] La} inferencia bayesiana también se utiliza en un modelo general de riesgo de cáncer, llamado CIRI (Índice de riesgo individualizado continuo), donde se incorporan mediciones en serie para actualizar un modelo bayesiano que se construye principalmente a partir de conocimientos previos. ^[35]^[36]

En la sala del tribunal

Los jurados pueden utilizar la inferencia bayesiana para acumular coherentemente la evidencia a favor y en contra de un acusado, y para ver si, en su totalidad, cumple con su umbral personal para " más allá de una duda razonable ". ^[37]^[38]^[39] El teorema de Bayes se aplica sucesivamente a toda la evidencia presentada, con lo posterior de una etapa que se convierte en el anterior de la siguiente. El beneficio de un enfoque bayesiano es que le da al jurado un mecanismo racional e imparcial para combinar pruebas. Puede ser apropiado explicar el teorema de Bayes a los jurados en forma de probabilidades , ya que las probabilidades de apuestas se entienden más ampliamente que las probabilidades. Alternativamente, un enfoque logarítmico, reemplazar la multiplicación por la suma, podría ser más fácil de manejar para un jurado.

Sumando evidencia.

Si la existencia del delito no está en duda, solo la identidad del culpable, se ha sugerido que el prior debe ser uniforme sobre la población calificada. ^[40] Por ejemplo, si 1,000 personas podrían haber cometido el crimen, la probabilidad previa de culpabilidad sería 1/1000.

El uso del teorema de Bayes por parte de los jurados es controvertido. En el Reino Unido, un perito de la defensa explicó el teorema de Bayes al jurado en R v Adams . El jurado condenó, pero el caso fue a apelación sobre la base de que no se había proporcionado ningún medio de acumulación de pruebas para los miembros del jurado que no deseaban utilizar el teorema de Bayes. El Tribunal de Apelación confirmó la condena, pero también opinó que "Introducir el teorema de Bayes, o cualquier método similar, en un juicio penal sumerge al jurado en dominios teóricos y complejos inapropiados e innecesarios, desviándolos de su propia tarea". . "

Gardner-Medwin ^[41] sostiene que el criterio en el que debe basarse un veredicto en un juicio penal no es la probabilidad de culpabilidad, sino más bien la probabilidad de la evidencia, dado que el acusado es inocente (similar a un valor p frecuentista ). Argumenta que si la probabilidad posterior de culpabilidad se calcula mediante el teorema de Bayes, se debe conocer la probabilidad previa de culpabilidad. Esto dependerá de la incidencia del delito, que es una prueba inusual a considerar en un juicio penal. Considere las siguientes tres proposiciones:

A Los hechos y el testimonio conocidos podrían haber surgido si el acusado es culpable

B Los hechos y el testimonio conocidos podrían haber surgido si el acusado es inocente

C El acusado es culpable.

Gardner-Medwin sostiene que el jurado debería creer tanto en A como en no B para poder condenar. A y no-B implican la verdad de C, pero lo contrario no es cierto. Es posible que tanto B como C sean ciertos, pero en este caso él argumenta que un jurado debería absolver, a pesar de que saben que dejarán en libertad a algunos culpables. Véase también la paradoja de Lindley .

Epistemología bayesiana

La epistemología bayesiana es un movimiento que aboga por la inferencia bayesiana como un medio para justificar las reglas de la lógica inductiva.

Karl Popper y David Miller han rechazado la idea del racionalismo bayesiano, es decir, utilizar la regla de Bayes para hacer inferencias epistemológicas: ^[42] Es propensa al mismo círculo vicioso que cualquier otra epistemología justificacionista , porque presupone lo que intenta justificar. Según este punto de vista, una interpretación racional de la inferencia bayesiana la vería simplemente como una versión probabilística de la falsificación , rechazando la creencia, comúnmente sostenida por los bayesianos, de que la alta probabilidad lograda por una serie de actualizaciones bayesianas probaría la hipótesis más allá de cualquier duda razonable. o incluso con probabilidad superior a 0.

Otro

El método científico a veces se interpreta como una aplicación de la inferencia bayesiana. Desde este punto de vista, la regla de Bayes guía (o debería orientar) la actualización de probabilidades sobre hipótesis condicionadas a nuevas observaciones o experimentos . ^[43] La inferencia bayesiana también se ha aplicado para tratar problemas de programación estocástica con información incompleta por Cai et al. (2009). ^[44]
La teoría de la búsqueda bayesiana se utiliza para buscar objetos perdidos.
Inferencia bayesiana en filogenia
Herramienta bayesiana para el análisis de metilación
Los enfoques bayesianos de la función cerebral investigan el cerebro como un mecanismo bayesiano.
Inferencia bayesiana en estudios ecológicos ^[45]^[46]
La inferencia bayesiana se utiliza para estimar parámetros en modelos cinéticos químicos estocásticos ^[47]
Inferencia bayesiana en econofísica para la predicción del mercado de valores o de la moneda ^[48]^[49]
Inferencia bayesiana en marketing
Inferencia bayesiana en el aprendizaje motor

Bayes y inferencia bayesiana

El problema considerado por Bayes en la Proposición 9 de su ensayo, " Un ensayo para resolver un problema en la doctrina de las posibilidades ", es la distribución posterior del parámetro a (la tasa de éxito) de la distribución binomial . ^{[ cita requerida ]}

Historia

El término bayesiano se refiere a Thomas Bayes (1702-1761), quien demostró que se podían poner límites probabilísticos a un evento desconocido. Sin embargo, fue Pierre-Simon Laplace (1749-1827) quien introdujo (como Principio VI) lo que ahora se llama el teorema de Bayes y lo utilizó para abordar problemas de mecánica celeste , estadísticas médicas, confiabilidad y jurisprudencia . ^[50] La inferencia bayesiana temprana, que usaba priores uniformes siguiendo el principio de razón insuficiente de Laplace , se llamaba " probabilidad inversa " (porque infierehacia atrás de las observaciones a los parámetros, o de los efectos a las causas ^[51] ). Después de la década de 1920, la "probabilidad inversa" fue reemplazada en gran medida por una colección de métodos que se denominaron estadísticas frecuentistas . ^[51]

En el siglo XX, las ideas de Laplace se desarrollaron aún más en dos direcciones diferentes, dando lugar a corrientes objetivas y subjetivas en la práctica bayesiana. En la corriente objetiva o "no informativa", el análisis estadístico depende únicamente del modelo asumido, de los datos analizados ^[52] y del método de asignación de la previa, que difiere de un practicante bayesiano objetivo a otro. En la corriente subjetiva o "informativa", la especificación de lo prioritario depende de la creencia (es decir, proposiciones sobre las que se prepara el análisis para actuar), que puede resumir información de expertos, estudios previos, etc.

En la década de 1980, hubo un crecimiento dramático en la investigación y las aplicaciones de los métodos bayesianos, principalmente atribuido al descubrimiento de los métodos de Monte Carlo en cadena de Markov , que eliminó muchos de los problemas computacionales, y un interés creciente en aplicaciones complejas no estándar. ^[53] A pesar del crecimiento de la investigación bayesiana, la mayor parte de la enseñanza de pregrado todavía se basa en estadísticas frecuentistas. ^[54] No obstante, los métodos bayesianos son ampliamente aceptados y utilizados, como por ejemplo en el campo del aprendizaje automático . ^[55]

Ver también

Teorema de Bayes
Bayesian Analysis , la revista de la ISBA
Epistemología bayesiana
Modelado jerárquico bayesiano
Probabilidad bayesiana
Regresión bayesiana
Serie temporal estructural bayesiana (BSTS)
Richard James Boys (1960-2019), estadístico conocido por sus contribuciones a la inferencia bayesiana
Probabilidad inductiva
Teoría del campo de información
Sociedad Internacional de Análisis Bayesiano (ISBA)
Jeffreys antes
Problema de Monty Hall

Referencias

Citas

^ Hacking, Ian (diciembre de 1967). "Probabilidad personal un poco más realista". Filosofía de la ciencia . 34 (4): 316. doi : 10.1086 / 288169 . S2CID 14344339 .
^ Hacking (1988, p. 124)^{[ cita completa necesaria ]}
^ "Teorema de Bayes (enciclopedia de filosofía de Stanford)" . Platón.stanford.edu . Consultado el 5 de enero de 2014 .
^ van Fraassen, B. (1989) Leyes y simetría , Oxford University Press. ISBN 0-19-824860-1
^ Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos : 1–21. arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 . S2CID 220935477 .
^ Gelman, Andrew; Carlin, John B .; Stern, Hal S .; Dunson, David B., Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos , tercera edición. Chapman y Hall / CRC. ISBN 978-1-4398-4095-5 .
^ Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos : 1–21. arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 . S2CID 220935477 .
^ Freedman, DA (1963). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto" . Los Anales de Estadística Matemática . 34 (4): 1386–1403. doi : 10.1214 / aoms / 1177703871 . JSTOR 2238346 .
^ Freedman, DA (1965). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto II" . Los Anales de Estadística Matemática . 36 (2): 454–456. doi : 10.1214 / aoms / 1177700155 . JSTOR 2238150 .
^ Petirrojos, James; Wasserman, Larry (2000). "Condicionamiento, probabilidad y coherencia: una revisión de algunos conceptos fundamentales". JASA . 95 (452): 1340-1346. doi : 10.1080 / 01621459.2000.10474344 . S2CID 120767108 .
^ Sen, Pranab K .; Keating, JP; Mason, RL (1993). Medida de proximidad de Pitman: una comparación de estimadores estadísticos . Filadelfia: SIAM.
^ Choudhuri, Nidhan; Ghosal, Subhashis; Roy, Anindya (1 de enero de 2005). Métodos bayesianos para la estimación de funciones . Manual de Estadística . Pensamiento bayesiano. 25 . págs. 373–414. CiteSeerX 10.1.1.324.3052 . doi : 10.1016 / s0169-7161 (05) 25013-7 . ISBN 9780444515391.
^ "Estimación máxima A Posteriori (MAP)" . www.probabilitycourse.com . Consultado el 2 de junio de 2017 .
^ Yu, Angela. "Introducción a la teoría de la decisión bayesiana" (PDF) . cogsci.ucsd.edu/ . Archivado desde el original (PDF) el 28 de febrero de 2013.
^ Hitchcock, David. "Diapositiva de estadísticas de distribución predictiva posterior" (PDF) . stat.sc.edu .
↑ a b Bickel y Doksum (2001, p. 32)
^ Kiefer, J .; Schwartz R. (1965). "Carácter de Bayes admisible de T 2 -, R 2 - y otras pruebas completamente invariantes para problemas normales multivariantes" . Anales de estadística matemática . 36 (3): 747–770. doi : 10.1214 / aoms / 1177700051 .
^ Schwartz, R. (1969). "Pruebas de Bayes adecuadas invariantes para familias exponenciales" . Anales de estadística matemática . 40 : 270-283. doi : 10.1214 / aoms / 1177697822 .
^ Hwang, JT y Casella, George (1982). "Conjuntos de confianza Minimax para la media de una distribución normal multivariante" (PDF) . Annals of Statistics . 10 (3): 868–881. doi : 10.1214 / aos / 1176345877 .
^ Lehmann, Erich (1986). Prueba de hipótesis estadísticas (Segunda ed.). (ver pág. 309 del Capítulo 6.7 "Admisibilidad", y págs. 17-18 del Capítulo 1.8 "Clases completas"
^ Le Cam, Lucien (1986). Métodos asintóticos en la teoría de la decisión estadística . Springer-Verlag. ISBN 978-0-387-96307-5. (De "Capítulo 12 Distribuciones posteriores y soluciones de Bayes", p. 324)
^ Cox, DR ; Hinkley, DV (1974). Estadística teórica . Chapman y Hall. pag. 432. ISBN 978-0-04-121537-3.
^ Cox, DR ; Hinkley, DV (1974). Estadística teórica . Chapman y Hall. pag. 433. ISBN 978-0-04-121537-3.)
^ Stoica, P .; Selen, Y. (2004). "Una revisión de las reglas de los criterios de información". Revista de procesamiento de señales IEEE . 21 (4): 36–47. doi : 10.1109 / MSP.2004.1311138 . S2CID 17338979 .
^ Fatermans, J .; Van Aert, S .; den Dekker, AJ (2019). "La regla de probabilidad máxima a posteriori para la detección de columnas de átomos a partir de imágenes HAADF STEM". Ultramicroscopía . 201 : 81–91. arXiv : 1902.05809 . doi : 10.1016 / j.ultramic.2019.02.003 . PMID 30991277 . S2CID 104419861 .
^ Bessiere, P., Mazer, E., Ahuactzin, JM y Mekhnacha, K. (2013). Programación Bayesiana (1 edición) Chapman y Hall / CRC.
^ Daniel Roy (2015). "Programación probabilística" . probabilistic-programming.org . Archivado desde el original el 10 de enero de 2016 . Consultado el 2 de enero de 2020 .
^ Ghahramani, Z (2015). "Aprendizaje probabilístico de máquina e inteligencia artificial" . Naturaleza . 521 (7553): 452–459. Código Bibliográfico : 2015Natur.521..452G . doi : 10.1038 / nature14541 . PMID 26017444 . S2CID 216356 .
↑ Fienberg, Stephen E. (1 de marzo de 2006). "¿Cuándo se convirtió la inferencia bayesiana en" bayesiana "? . Análisis bayesiano . 1 (1). doi : 10.1214 / 06-BA101 .
^ Jim Albert (2009). Computación Bayesiana con R, Segunda edición . Nueva York, Dordrecht, etc .: Springer. ISBN 978-0-387-92297-3.
^ Rathmanner, Samuel; Hutter, Marcus; Ormerod, Thomas C (2011). "Un tratado filosófico de inducción universal" . Entropía . 13 (6): 1076-1136. arXiv : 1105.5721 . Código Bibliográfico : 2011Entrp..13.1076R . doi : 10.3390 / e13061076 . S2CID 2499910 .
^ Hutter, Marcus; Él, Yang-Hui; Ormerod, Thomas C (2007). "Sobre la predicción universal y la confirmación bayesiana". Informática Teórica . 384 (2007): 33–48. arXiv : 0709.1516 . Código Bibliográfico : 2007arXiv0709.1516H . doi : 10.1016 / j.tcs.2007.05.016 . S2CID 1500830 .
^ Gács, Peter; Vitányi, Paul M. B. (2 de diciembre de 2010). "Raymond J. Solomonoff 1926-2009". CiteSeerX. CiteSeerX 10.1.1.186.8268 . Cite journal requiere |journal=( ayuda )
^ Robinson, Mark D y McCarthy, Davis J y Smyth, Gordon K edgeR: un paquete de bioconductores para el análisis de expresión diferencial de datos de expresión génica digital, bioinformática.
^ "CIRI" . ciri.stanford.edu . Consultado el 11 de agosto de 2019 .
^ Kurtz, David M .; Esfahani, Mohammad S .; Scherer, Florian; Soo, Joanne; Jin, Michael C .; Liu, Chih Long; Newman, Aaron M .; Dührsen, Ulrich; Hüttmann, Andreas (25 de julio de 2019). "Perfilado de riesgo dinámico utilizando biomarcadores de tumores en serie para la predicción de resultados personalizados" . Celular . 178 (3): 699–713.e19. doi : 10.1016 / j.cell.2019.06.011 . ISSN 1097-4172 . PMC 7380118 . PMID 31280963 .
^ Dawid, A. P. y Mortera, J. (1996) "Análisis coherente de la evidencia de identificación forense". Revista de la Royal Statistical Society , Serie B, 58, 425–443.
^ Capataz, L. A .; Smith, A. F. M. y Evett, I. W. (1997). "Análisis bayesiano de datos de perfiles de ácido desoxirribonucleico en aplicaciones de identificación forense (con discusión)". Revista de la Royal Statistical Society , Serie A, 160, 429–469.
^ Robertson, B. y Vignaux, G. A. (1995) Interpretación de pruebas: evaluación de la ciencia forense en la sala de audiencias . John Wiley e hijos. Chichester. ISBN 978-0-471-96026-3
^ Dawid, AP (2001) Teorema de Bayes y evidencia de ponderación por jurados Archivado el 1 de julio de 2015 en la Wayback Machine.
^ Gardner-Medwin, A. (2005) "¿Qué probabilidad debe abordar el jurado?". Significación , 2 (1), marzo de 2005
^ Miller, David (1994). Racionalismo crítico . Chicago: Open Court. ISBN 978-0-8126-9197-9.
^ Howson y Urbach (2005), Jaynes (2003)
^ Cai, XQ; Wu, XY; Zhou, X. (2009). "Programación estocástica sujeta a averías repetidas con información incompleta". Investigación operativa . 57 (5): 1236-1249. doi : 10.1287 / opre.1080.0660 .
^ Ogle, Kiona; Tucker, Colin; Cable, Jessica M. (1 de enero de 2014). "Más allá de los modelos de mezcla lineal simple: partición de isótopos basados en procesos de procesos ecológicos". Aplicaciones ecológicas . 24 (1): 181-195. doi : 10.1890 / 1051-0761-24.1.181 . ISSN 1939-5582 . PMID 24640543 .
^ Evaristo, Jaivime; McDonnell, Jeffrey J .; Scholl, Martha A .; Bruijnzeel, L. Adrian; Chun, Kwok P. (1 de enero de 2016). "Información sobre la absorción de agua de la planta a partir de mediciones de isótopos de xilema-agua en dos cuencas tropicales con condiciones de humedad contrastantes". Procesos hidrológicos . 30 (18): 3210–3227. Código Bib : 2016HyPr ... 30.3210E . doi : 10.1002 / hyp.10841 . ISSN 1099-1085 .
^ Gupta, Ankur; Rawlings, James B. (abril de 2014). "Comparación de métodos de estimación de parámetros en modelos cinéticos químicos estocásticos: ejemplos en biología de sistemas" . Revista AIChE . 60 (4): 1253–1268. doi : 10.1002 / aic.14409 . ISSN 0001-1541 . PMC 4946376 . PMID 27429455 .
^ Fornalski, KW (2016). "El modelo bayesiano renacuajo para detectar cambios de tendencia en las cotizaciones financieras" (PDF) . Revista R&R de Estadística y Ciencias Matemáticas . 2 (1): 117-122.
↑ Schütz, N .; Holschneider, M. (2011). "Detección de cambios de tendencia en series de tiempo mediante inferencia bayesiana". Revisión E física . 84 (2): 021120. arXiv : 1104.3448 . Código Bibliográfico : 2011PhRvE..84b1120S . doi : 10.1103 / PhysRevE.84.021120 . PMID 21928962 . S2CID 11460968 .
^ Stigler, Stephen M. (1986). "Capítulo 3" . La historia de la estadística . Prensa de la Universidad de Harvard. ISBN 9780674403406.
↑ a b Fienberg, Stephen E. (2006). "¿Cuándo se convirtió la inferencia bayesiana en 'bayesiana'?" . Análisis bayesiano . 1 (1): 1–40 [pág. 5]. doi : 10.1214 / 06-ba101 .
^ Bernardo, José-Miguel (2005). "Análisis de referencia". Manual de estadísticas . 25 . págs. 17–90.
^ Wolpert, R. L. (2004). "Una conversación con James O. Berger". Ciencia estadística . 19 (1): 205–218. CiteSeerX 10.1.1.71.6112 . doi : 10.1214 / 088342304000000053 . Señor 2082155 .
^ Bernardo, José M. (2006). "Una cartilla de estadística matemática bayesiana" (PDF) . Icots-7 .
^ Obispo, CM (2007). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN 978-0387310732.

Fuentes

Aster, Richard; Borchers, Brian y Thurber, Clifford (2012). Estimación de parámetros y problemas inversos , segunda edición, Elsevier. ISBN 0123850487 , ISBN 978-0123850485
Bickel, Peter J. y Doksum, Kjell A. (2001). Estadística matemática, Volumen 1: Temas básicos y seleccionados (Segunda edición (impresión actualizada 2007)). Pearson Prentice – Hall. ISBN 978-0-13-850363-5.
Box, G. E. P. y Tiao, G. C. (1973) Inferencia bayesiana en análisis estadístico , Wiley, ISBN 0-471-57428-7
Edwards, Ward (1968). "Conservadurismo en el procesamiento de la información humana". En Kleinmuntz, B. (ed.). Representación formal del juicio humano . Wiley.
Edwards, Ward (1982). Daniel Kahneman ; Paul Slovic ; Amos Tversky (eds.). "Juicio bajo incertidumbre: heurísticas y sesgos". Ciencia . 185 (4157): 1124-1131. Código bibliográfico : 1974Sci ... 185.1124T . doi : 10.1126 / science.185.4157.1124 . PMID 17835457 . S2CID 143452957 . Capítulo: Conservadurismo en el procesamiento de información humana (extraído)
Jaynes E. T. (2003) Teoría de la probabilidad: la lógica de la ciencia , CUP. ISBN 978-0-521-59271-0 ( Enlace a la edición fragmentaria de marzo de 1996 ).
Howson, C. y Urbach, P. (2005). Razonamiento científico: el enfoque bayesiano (3ª ed.). Compañía Editorial Open Court . ISBN 978-0-8126-9578-6.
Phillips, LD; Edwards, Ward (octubre de 2008). "Capítulo 6: conservadurismo en una tarea de inferencia de probabilidad simple ( Revista de psicología experimental (1966) 72: 346-354)". En Jie W. Weiss; David J. Weiss (eds.). Una ciencia de la toma de decisiones: el legado de Ward Edwards . Prensa de la Universidad de Oxford. pag. 536. ISBN 978-0-19-532298-9.

Otras lecturas

Para un informe completo sobre la historia de la estadística bayesiana y los debates con enfoques frecuentistas, lea Vallverdu, Jordi (2016). Bayesianos versus frecuentistas Un debate filosófico sobre el razonamiento estadístico . Nueva York: Springer. ISBN 978-3-662-48638-2.

Elemental

Los siguientes libros se enumeran en orden ascendente de sofisticación probabilística:

Stone, JV (2013), "Regla de Bayes: una introducción tutorial al análisis bayesiano", Descargar el primer capítulo aquí , Sebtel Press, Inglaterra.
Dennis V. Lindley (2013). Comprensión de la incertidumbre, edición revisada (2ª ed.). John Wiley. ISBN 978-1-118-65012-7.
Colin Howson y Peter Urbach (2005). Razonamiento científico: el enfoque bayesiano (3ª ed.). Compañía Editorial Open Court . ISBN 978-0-8126-9578-6.
Berry, Donald A. (1996). Estadísticas: una perspectiva bayesiana . Duxbury. ISBN 978-0-534-23476-8.
Morris H. DeGroot y Mark J. Schervish (2002). Probabilidad y estadística (tercera ed.). Addison-Wesley. ISBN 978-0-201-52488-8.
Bolstad, William M. (2007) Introducción a la estadística bayesiana : Segunda edición, John Wiley ISBN 0-471-27020-2
Winkler, Robert L (2003). Introducción a la inferencia y decisión bayesianas (2ª ed.). Probabilístico. ISBN 978-0-9647938-4-2.Libro de texto clásico actualizado. La teoría bayesiana se presenta claramente.
Lee, Peter M. Estadísticas bayesianas: una introducción . Cuarta edición (2012), John Wiley ISBN 978-1-1183-3257-3
Carlin, Bradley P. y Louis, Thomas A. (2008). Métodos bayesianos para el análisis de datos, tercera edición . Boca Raton, FL: Chapman y Hall / CRC. ISBN 978-1-58488-697-6.
Gelman, Andrew ; Carlin, John B .; Stern, Hal S .; Dunson, David B .; Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos, tercera edición . Chapman y Hall / CRC. ISBN 978-1-4398-4095-5.

Intermedio o avanzado

Berger, James O (1985). Teoría de la decisión estadística y análisis bayesiano . Springer Series in Statistics (Segunda ed.). Springer-Verlag. Bibcode : 1985sdtb.book ..... B . ISBN 978-0-387-96098-2.
Bernardo, José M .; Smith, Adrian F. M. (1994). Teoría Bayesiana . Wiley.
DeGroot, Morris H. , Decisiones estadísticas óptimas . Biblioteca de clásicos de Wiley. 2004. (Publicado originalmente (1970) por McGraw-Hill.) ISBN 0-471-68029-X .
Schervish, Mark J. (1995). Teoría de la estadística . Springer-Verlag. ISBN 978-0-387-94546-0.
Jaynes, ET (1998) Teoría de la probabilidad: la lógica de la ciencia .
O'Hagan, A. y Forster, J. (2003) Teoría avanzada de estadística de Kendall , Volumen 2B: Inferencia bayesiana . Arnold, Nueva York. ISBN 0-340-52922-9 .
Robert, Christian P (2001). La elección bayesiana: una motivación teórica de decisiones (segunda ed.). Saltador. ISBN 978-0-387-94296-4.
Glenn Shafer y Pearl, Judea , eds. (1988) Razonamiento probabilístico en sistemas inteligentes , San Mateo, CA: Morgan Kaufmann.
Pierre Bessière y col. (2013), " Programación Bayesiana ", CRC Press. ISBN 9781439880326
Francisco J. Samaniego (2010), "A Comparison of the Bayesian and Frequentist Approaches to Estimation" Springer, Nueva York, ISBN 978-1-4419-5940-9

enlaces externos

"Enfoque bayesiano de problemas estadísticos" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Estadísticas bayesianas de Scholarpedia.
Introducción a la probabilidad bayesiana de la Universidad Queen Mary de Londres
Notas matemáticas sobre estadística bayesiana y cadena de Markov Monte Carlo
Lista de lectura bayesiana , categorizada y anotada por Tom Griffiths
A. Hajek y S. Hartmann: Epistemología bayesiana , en: J. Dancy et al. (eds.), Un compañero de epistemología. Oxford: Blackwell 2010, 93-106.
S. Hartmann y J. Sprenger: Epistemología bayesiana , en: S. Bernecker y D. Pritchard (eds.), Routledge Companion to Epistemology. Londres: Routledge 2010, 609–620.
Enciclopedia de Filosofía de Stanford : "Lógica inductiva"
Teoría de la confirmación bayesiana
¿Qué es el aprendizaje bayesiano?

[1] Hacking, Ian (diciembre de 1967). "Probabilidad personal un poco más realista". Filosofía de la ciencia . 34 (4): 316. doi : 10.1086 / 288169 . S2CID 14344339 .

[2] Hacking (1988, p. 124)^{[ cita completa necesaria ]}

[3] "Teorema de Bayes (enciclopedia de filosofía de Stanford)" . Platón.stanford.edu . Consultado el 5 de enero de 2014 .

[4] van Fraassen, B. (1989) Leyes y simetría , Oxford University Press. ISBN 0-19-824860-1

[5] Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos : 1–21. arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 . S2CID 220935477 .

[6] Gelman, Andrew; Carlin, John B .; Stern, Hal S .; Dunson, David B., Vehtari, Aki; Rubin, Donald B. (2013). Análisis de datos bayesianos , tercera edición. Chapman y Hall / CRC. ISBN 978-1-4398-4095-5 .

[7] Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos : 1–21. arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 . S2CID 220935477 .

[8] Freedman, DA (1963). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto" . Los Anales de Estadística Matemática . 34 (4): 1386–1403. doi : 10.1214 / aoms / 1177703871 . JSTOR 2238346 .

[9] Freedman, DA (1965). "Sobre el comportamiento asintótico de las estimaciones de Bayes en el caso discreto II" . Los Anales de Estadística Matemática . 36 (2): 454–456. doi : 10.1214 / aoms / 1177700155 . JSTOR 2238150 .

[10] Petirrojos, James; Wasserman, Larry (2000). "Condicionamiento, probabilidad y coherencia: una revisión de algunos conceptos fundamentales". JASA . 95 (452): 1340-1346. doi : 10.1080 / 01621459.2000.10474344 . S2CID 120767108 .

[11] Sen, Pranab K .; Keating, JP; Mason, RL (1993). Medida de proximidad de Pitman: una comparación de estimadores estadísticos . Filadelfia: SIAM.

[12] Choudhuri, Nidhan; Ghosal, Subhashis; Roy, Anindya (1 de enero de 2005). Métodos bayesianos para la estimación de funciones . Manual de Estadística . Pensamiento bayesiano. 25 . págs. 373–414. CiteSeerX 10.1.1.324.3052 . doi : 10.1016 / s0169-7161 (05) 25013-7 . ISBN 9780444515391.

[13] "Estimación máxima A Posteriori (MAP)" . www.probabilitycourse.com . Consultado el 2 de junio de 2017 .

[14] Yu, Angela. "Introducción a la teoría de la decisión bayesiana" (PDF) . cogsci.ucsd.edu/ . Archivado desde el original (PDF) el 28 de febrero de 2013.

[15] Hitchcock, David. "Diapositiva de estadísticas de distribución predictiva posterior" (PDF) . stat.sc.edu .

[Bickel_&_Doksum_2001,_page_32-16] Bickel y Doksum (2001, p. 32)

[17] Kiefer, J .; Schwartz R. (1965). "Carácter de Bayes admisible de T 2 -, R 2 - y otras pruebas completamente invariantes para problemas normales multivariantes" . Anales de estadística matemática . 36 (3): 747–770. doi : 10.1214 / aoms / 1177700051 .

[18] Schwartz, R. (1969). "Pruebas de Bayes adecuadas invariantes para familias exponenciales" . Anales de estadística matemática . 40 : 270-283. doi : 10.1214 / aoms / 1177697822 .

[19] Hwang, JT y Casella, George (1982). "Conjuntos de confianza Minimax para la media de una distribución normal multivariante" (PDF) . Annals of Statistics . 10 (3): 868–881. doi : 10.1214 / aos / 1176345877 .

[20] Lehmann, Erich (1986). Prueba de hipótesis estadísticas (Segunda ed.). (ver pág. 309 del Capítulo 6.7 "Admisibilidad", y págs. 17-18 del Capítulo 1.8 "Clases completas"

[21] Le Cam, Lucien (1986). Métodos asintóticos en la teoría de la decisión estadística . Springer-Verlag. ISBN 978-0-387-96307-5. (De "Capítulo 12 Distribuciones posteriores y soluciones de Bayes", p. 324)

[22] Cox, DR ; Hinkley, DV (1974). Estadística teórica . Chapman y Hall. pag. 432. ISBN 978-0-04-121537-3.

[23] Cox, DR ; Hinkley, DV (1974). Estadística teórica . Chapman y Hall. pag. 433. ISBN 978-0-04-121537-3.)

[24] Stoica, P .; Selen, Y. (2004). "Una revisión de las reglas de los criterios de información". Revista de procesamiento de señales IEEE . 21 (4): 36–47. doi : 10.1109 / MSP.2004.1311138 . S2CID 17338979 .

[25] Fatermans, J .; Van Aert, S .; den Dekker, AJ (2019). "La regla de probabilidad máxima a posteriori para la detección de columnas de átomos a partir de imágenes HAADF STEM". Ultramicroscopía . 201 : 81–91. arXiv : 1902.05809 . doi : 10.1016 / j.ultramic.2019.02.003 . PMID 30991277 . S2CID 104419861 .

[26] Bessiere, P., Mazer, E., Ahuactzin, JM y Mekhnacha, K. (2013). Programación Bayesiana (1 edición) Chapman y Hall / CRC.

[27] Daniel Roy (2015). "Programación probabilística" . probabilistic-programming.org . Archivado desde el original el 10 de enero de 2016 . Consultado el 2 de enero de 2020 .

[28] Ghahramani, Z (2015). "Aprendizaje probabilístico de máquina e inteligencia artificial" . Naturaleza . 521 (7553): 452–459. Código Bibliográfico : 2015Natur.521..452G . doi : 10.1038 / nature14541 . PMID 26017444 . S2CID 216356 .

[29] Fienberg, Stephen E. (1 de marzo de 2006). "¿Cuándo se convirtió la inferencia bayesiana en" bayesiana "? . Análisis bayesiano . 1 (1). doi : 10.1214 / 06-BA101 .

[30] Jim Albert (2009). Computación Bayesiana con R, Segunda edición . Nueva York, Dordrecht, etc .: Springer. ISBN 978-0-387-92297-3.

[31] Rathmanner, Samuel; Hutter, Marcus; Ormerod, Thomas C (2011). "Un tratado filosófico de inducción universal" . Entropía . 13 (6): 1076-1136. arXiv : 1105.5721 . Código Bibliográfico : 2011Entrp..13.1076R . doi : 10.3390 / e13061076 . S2CID 2499910 .

[32] Hutter, Marcus; Él, Yang-Hui; Ormerod, Thomas C (2007). "Sobre la predicción universal y la confirmación bayesiana". Informática Teórica . 384 (2007): 33–48. arXiv : 0709.1516 . Código Bibliográfico : 2007arXiv0709.1516H . doi : 10.1016 / j.tcs.2007.05.016 . S2CID 1500830 .

[33] Gács, Peter; Vitányi, Paul M. B. (2 de diciembre de 2010). "Raymond J. Solomonoff 1926-2009". CiteSeerX. CiteSeerX 10.1.1.186.8268 . Cite journal requiere |journal=( ayuda )

[:edgr-34] Robinson, Mark D y McCarthy, Davis J y Smyth, Gordon K edgeR: un paquete de bioconductores para el análisis de expresión diferencial de datos de expresión génica digital, bioinformática.

[35] "CIRI" . ciri.stanford.edu . Consultado el 11 de agosto de 2019 .

[36] Kurtz, David M .; Esfahani, Mohammad S .; Scherer, Florian; Soo, Joanne; Jin, Michael C .; Liu, Chih Long; Newman, Aaron M .; Dührsen, Ulrich; Hüttmann, Andreas (25 de julio de 2019). "Perfilado de riesgo dinámico utilizando biomarcadores de tumores en serie para la predicción de resultados personalizados" . Celular . 178 (3): 699–713.e19. doi : 10.1016 / j.cell.2019.06.011 . ISSN 1097-4172 . PMC 7380118 . PMID 31280963 .

[37] Dawid, A. P. y Mortera, J. (1996) "Análisis coherente de la evidencia de identificación forense". Revista de la Royal Statistical Society , Serie B, 58, 425–443.

[38] Capataz, L. A .; Smith, A. F. M. y Evett, I. W. (1997). "Análisis bayesiano de datos de perfiles de ácido desoxirribonucleico en aplicaciones de identificación forense (con discusión)". Revista de la Royal Statistical Society , Serie A, 160, 429–469.

[39] Robertson, B. y Vignaux, G. A. (1995) Interpretación de pruebas: evaluación de la ciencia forense en la sala de audiencias . John Wiley e hijos. Chichester. ISBN 978-0-471-96026-3

[40] Dawid, AP (2001) Teorema de Bayes y evidencia de ponderación por jurados Archivado el 1 de julio de 2015 en la Wayback Machine.

[41] Gardner-Medwin, A. (2005) "¿Qué probabilidad debe abordar el jurado?". Significación , 2 (1), marzo de 2005

[42] Miller, David (1994). Racionalismo crítico . Chicago: Open Court. ISBN 978-0-8126-9197-9.

[43] Howson y Urbach (2005), Jaynes (2003)

[Cai_et_al._2009-44] Cai, XQ; Wu, XY; Zhou, X. (2009). "Programación estocástica sujeta a averías repetidas con información incompleta". Investigación operativa . 57 (5): 1236-1249. doi : 10.1287 / opre.1080.0660 .

[45] Ogle, Kiona; Tucker, Colin; Cable, Jessica M. (1 de enero de 2014). "Más allá de los modelos de mezcla lineal simple: partición de isótopos basados en procesos de procesos ecológicos". Aplicaciones ecológicas . 24 (1): 181-195. doi : 10.1890 / 1051-0761-24.1.181 . ISSN 1939-5582 . PMID 24640543 .

[46] Evaristo, Jaivime; McDonnell, Jeffrey J .; Scholl, Martha A .; Bruijnzeel, L. Adrian; Chun, Kwok P. (1 de enero de 2016). "Información sobre la absorción de agua de la planta a partir de mediciones de isótopos de xilema-agua en dos cuencas tropicales con condiciones de humedad contrastantes". Procesos hidrológicos . 30 (18): 3210–3227. Código Bib : 2016HyPr ... 30.3210E . doi : 10.1002 / hyp.10841 . ISSN 1099-1085 .

[47] Gupta, Ankur; Rawlings, James B. (abril de 2014). "Comparación de métodos de estimación de parámetros en modelos cinéticos químicos estocásticos: ejemplos en biología de sistemas" . Revista AIChE . 60 (4): 1253–1268. doi : 10.1002 / aic.14409 . ISSN 0001-1541 . PMC 4946376 . PMID 27429455 .

[48] Fornalski, KW (2016). "El modelo bayesiano renacuajo para detectar cambios de tendencia en las cotizaciones financieras" (PDF) . Revista R&R de Estadística y Ciencias Matemáticas . 2 (1): 117-122.

[49] Schütz, N .; Holschneider, M. (2011). "Detección de cambios de tendencia en series de tiempo mediante inferencia bayesiana". Revisión E física . 84 (2): 021120. arXiv : 1104.3448 . Código Bibliográfico : 2011PhRvE..84b1120S . doi : 10.1103 / PhysRevE.84.021120 . PMID 21928962 . S2CID 11460968 .

[Stigler1986-50] Stigler, Stephen M. (1986). "Capítulo 3" . La historia de la estadística . Prensa de la Universidad de Harvard. ISBN 9780674403406.

[Fienberg2006-51] Fienberg, Stephen E. (2006). "¿Cuándo se convirtió la inferencia bayesiana en 'bayesiana'?" . Análisis bayesiano . 1 (1): 1–40 [pág. 5]. doi : 10.1214 / 06-ba101 .

[Bernardo2005-52] Bernardo, José-Miguel (2005). "Análisis de referencia". Manual de estadísticas . 25 . págs. 17–90.

[Wolpert2004-53] Wolpert, R. L. (2004). "Una conversación con James O. Berger". Ciencia estadística . 19 (1): 205–218. CiteSeerX 10.1.1.71.6112 . doi : 10.1214 / 088342304000000053 . Señor 2082155 .

[Bernardo2006-54] Bernardo, José M. (2006). "Una cartilla de estadística matemática bayesiana" (PDF) . Icots-7 .

[Bishop2007-55] Obispo, CM (2007). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN 978-0387310732.

Control de autoridad
General	Archivo de autoridad integrado (Alemania)
Bibliotecas nacionales	Estados Unidos
Otro	Microsoft académico