Regresión lineal bayesiana

En estadística , la regresión lineal bayesiana es un enfoque de regresión lineal en el que el análisis estadístico se realiza dentro del contexto de la inferencia bayesiana . Cuando el modelo de regresión tiene errores que tienen una distribución normal , y si se asume una forma particular de distribución previa , los resultados explícitos están disponibles para las distribuciones de probabilidad posteriores de los parámetros del modelo.

Configuración del modelo

Considere un problema de regresión lineal estándar , en el que para ${\ Displaystyle i = 1, \ ldots, n}$ especificamos la media de la distribución condicional de ${\ Displaystyle y_ {i}}$ dado un ${\ Displaystyle k \ times 1}$ vector predictor ${\ Displaystyle \ mathbf {x} _ {i}}$ :

{\ Displaystyle y_ {i} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} + \ varepsilon _ {i},}

dónde ${\ displaystyle {\ boldsymbol {\ beta}}}$ es un ${\ Displaystyle k \ times 1}$ vector, y el ${\ Displaystyle \ varepsilon _ {i}}$ son variables aleatorias independientes e idénticamente distribuidas normalmente :

{\ Displaystyle \ varepsilon _ {i} \ sim N (0, \ sigma ^ {2}).}

Esto corresponde a la siguiente función de verosimilitud :

{\ Displaystyle \ rho (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm { T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ derecha).}

La solución de mínimos cuadrados ordinarios se usa para estimar el vector de coeficientes usando el pseudoinverso de Moore-Penrose :

{\ Displaystyle {\ hat {\ boldsymbol {\ beta}}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y}}

dónde ${\ Displaystyle \ mathbf {X}}$ es el ${\ Displaystyle n \ times (k + 1)}$ matriz de diseño , cada fila de la cual es un vector predictor ${\ Displaystyle \ mathbf {x} _ {i} ^ {\ rm {T}}}$ ; y ${\ Displaystyle \ mathbf {y}}$ es la columna ${\ Displaystyle n}$ -vector ${\ Displaystyle [y_ {1} \; \ cdots \; y_ {n}] ^ {\ rm {T}}}$ .

Este es un enfoque frecuentista , y asume que hay suficientes medidas para decir algo significativo sobre ${\ displaystyle {\ boldsymbol {\ beta}}}$ . En el enfoque bayesiano , los datos se complementan con información adicional en forma de distribución de probabilidad previa . La creencia previa sobre los parámetros se combina con la función de verosimilitud de los datos de acuerdo con el teorema de Bayes para producir la creencia posterior sobre los parámetros. ${\ displaystyle {\ boldsymbol {\ beta}}}$ y ${\ Displaystyle \ sigma}$ . Lo anterior puede tomar diferentes formas funcionales según el dominio y la información que esté disponible a priori .

Con priores conjugados

Distribución previa conjugada

Para una distribución previa arbitraria, puede que no haya una solución analítica para la distribución posterior . En esta sección, consideraremos un llamado previo conjugado para el cual la distribución posterior puede derivarse analíticamente.

Un previo ${\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2})}$ se conjuga a esta función de verosimilitud si tiene la misma forma funcional con respecto a ${\ displaystyle {\ boldsymbol {\ beta}}}$ y ${\ Displaystyle \ sigma}$ . Dado que la probabilidad logarítmica es cuadrática en ${\ displaystyle {\ boldsymbol {\ beta}}}$ , la probabilidad logarítmica se reescribe de modo que la probabilidad se vuelva normal en ${\ displaystyle ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}})}$ . Escribir

{\ Displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta }}) = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} { \ hat {\ boldsymbol {\ beta}}}) + ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}).}

La probabilidad ahora se reescribe como

{\ Displaystyle \ rho (\ mathbf {y} | \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v} {2}}} \ exp \ left (- {\ frac {vs ^ {2}} {2 {\ sigma} ^ {2}}} \ right) (\ sigma ^ {2}) ^ {- {\ frac {nv} {2}}} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat { \ boldsymbol {\ beta}}}) \ derecha),}

dónde

{\ Displaystyle vs ^ {2} = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) \ quad {\ text {y}} \ quad v = nk,}

dónde ${\ Displaystyle k}$ es el número de coeficientes de regresión.

Esto sugiere un formulario para el anterior:

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2}) = \ rho (\ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ { 2}),}

dónde ${\ Displaystyle \ rho (\ sigma ^ {2})}$ es una distribución gamma inversa

{\ Displaystyle \ rho (\ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v_ {0}} {2}} - 1} \ exp \ left (- {\ frac {v_ {0} s_ {0} ^ {2}} {2 \ sigma ^ {2}}} \ right).}

En la notación introducida en el artículo de distribución gamma inversa , esta es la densidad de un ${\ displaystyle {\ text {Inv-Gamma}} (a_ {0}, b_ {0})}$ distribución con ${\ displaystyle a_ {0} = {\ tfrac {v_ {0}} {2}}}$ y ${\ displaystyle b_ {0} = {\ tfrac {1} {2}} v_ {0} s_ {0} ^ {2}}$ con ${\ Displaystyle v_ {0}}$ y ${\ Displaystyle s_ {0} ^ {2}}$ como los valores anteriores de ${\ Displaystyle v}$ y ${\ Displaystyle s ^ {2}}$ , respectivamente. De manera equivalente, también se puede describir como una distribución chi-cuadrado inversa escalada , ${\ displaystyle {\ text {Scale-inv -}} \ chi ^ {2} (v_ {0}, s_ {0} ^ {2}).}$

Además de la densidad previa condicional ${\ Displaystyle \ rho ({\ boldsymbol {\ beta}} | \ sigma ^ {2})}$ es una distribución normal ,

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac { 1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} \ mathbf {\ Lambda} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) \ derecha).}

En la notación de la distribución normal , la distribución previa condicional es ${\ displaystyle {\ mathcal {N}} \ left ({\ boldsymbol {\ mu}} _ {0}, \ sigma ^ {2} \ mathbf {\ Lambda} _ {0} ^ {- 1} \ right) .}$

Distribución posterior

Con el anterior ahora especificado, la distribución posterior se puede expresar como

{\ Displaystyle {\ begin {alineado} \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) & \ propto \ rho (\ mathbf { y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ rho (\ sigma ^ {2}) \\ & \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right) (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu} } _ {0}) \ right) (\ sigma ^ {2}) ^ {- (a_ {0} +1)} \ exp \ left (- {\ frac {b_ {0}} {\ sigma ^ {2 }}} \ derecha) \ end {alineado}}}

Con alguna reorganización, ^[1] el posterior se puede reescribir de modo que el posterior signifique ${\ displaystyle {\ boldsymbol {\ mu}} _ {n}}$ del vector de parámetros ${\ displaystyle {\ boldsymbol {\ beta}}}$ se puede expresar en términos del estimador de mínimos cuadrados ${\ Displaystyle {\ hat {\ boldsymbol {\ beta}}}}$ y la media anterior ${\ displaystyle {\ boldsymbol {\ mu}} _ {0}}$ , con la fuerza de la previa indicada por la matriz de precisión previa ${\ displaystyle {\ boldsymbol {\ Lambda}} _ {0}}$

{\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {-1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ símbolo en negrita {\ mu}} _ {0}).}

Para justificar eso ${\ displaystyle {\ boldsymbol {\ mu}} _ {n}}$ es de hecho la media posterior, los términos cuadráticos en el exponencial se pueden reorganizar como una forma cuadrática en ${\ displaystyle {\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}}$ . ^[2]

{\ Displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta }}) + ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) = ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T }} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu }} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}.}

Ahora, el posterior se puede expresar como una distribución normal multiplicada por una distribución gamma inversa :

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ {0}) ({\ boldsymbol {\ beta}} - {\ símbolo en negrita {\ mu}} _ {n}) \ right) (\ sigma ^ {2}) ^ {- {\ frac {n + 2a_ {0}} {2}} - 1} \ exp \ left (- { \ frac {2b_ {0} + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu} } _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}} {2 \ sigma ^ {2}}} \ right ).}

Por tanto, la distribución posterior se puede parametrizar de la siguiente manera.

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}, \ mathbf {y}, \ mathbf {X}) \ rho (\ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}),}

donde los dos factores corresponden a las densidades de ${\ displaystyle {\ mathcal {N}} \ left ({\ boldsymbol {\ mu}} _ {n}, \ sigma ^ {2} {\ boldsymbol {\ Lambda}} _ {n} ^ {- 1} \ derecho)\,}$ y ${\ Displaystyle {\ text {Inv-Gamma}} \ left (a_ {n}, b_ {n} \ right)}$ distribuciones, con los parámetros de estos dados por

{\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ {0}), \ quad {\ boldsymbol {\ mu}} _ {n} = ({\ boldsymbol {\ Lambda}} _ {n}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X } {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}),}

{\ Displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}}, \ qquad b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf { y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu} }_{norte}).}

Esto se puede interpretar como aprendizaje bayesiano donde los parámetros se actualizan de acuerdo con las siguientes ecuaciones.

{\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {-1} ({\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} + \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ sombrero {\ boldsymbol {\ beta}}}),}

{\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}), }

{\ Displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}},}

{\ Displaystyle b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf {y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu} } _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu}} _ {n}).}

Evidencia modelo

La evidencia del modelo ${\ Displaystyle p (\ mathbf {y} \ mid m)}$ es la probabilidad de los datos dados el modelo ${\ Displaystyle m}$ . También se conoce como probabilidad marginal y como densidad predictiva previa . Aquí, el modelo está definido por la función de verosimilitud ${\ Displaystyle p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma)}$ y la distribución previa de los parámetros, es decir ${\ Displaystyle p ({\ boldsymbol {\ beta}}, \ sigma)}$ . La evidencia del modelo captura en un solo número qué tan bien dicho modelo explica las observaciones. La evidencia del modelo del modelo de regresión lineal bayesiano que se presenta en esta sección se puede utilizar para comparar modelos lineales en competencia mediante la comparación del modelo bayesiano . Estos modelos pueden diferir en el número y los valores de las variables predictoras, así como en sus antecedentes en los parámetros del modelo. La evidencia del modelo ya tiene en cuenta la complejidad del modelo, porque margina los parámetros al integrar ${\ Displaystyle p (\ mathbf {y}, {\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {X})}$ sobre todos los valores posibles de ${\ displaystyle {\ boldsymbol {\ beta}}}$ y ${\ Displaystyle \ sigma}$ .

{\ Displaystyle p (\ mathbf {y} | m) = \ int p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma) \, p ({\ boldsymbol {\ beta}}, \ sigma) \, d {\ boldsymbol {\ beta}} \, d \ sigma}

Esta integral se puede calcular analíticamente y la solución se da en la siguiente ecuación. ^[3]

{\ Displaystyle p (\ mathbf {y} \ mid m) = {\ frac {1} {(2 \ pi) ^ {n / 2}}} {\ sqrt {\ frac {\ det ({\ boldsymbol {\ Lambda}} _ {0})} {\ det ({\ boldsymbol {\ Lambda}} _ {n})}}} \ cdot {\ frac {b_ {0} ^ {a_ {0}}} {b_ { n} ^ {a_ {n}}}} \ cdot {\ frac {\ Gamma (a_ {n})} {\ Gamma (a_ {0})}}}

Aquí ${\ Displaystyle \ Gamma}$ denota la función gamma . Debido a que hemos elegido un conjugado a priori, la probabilidad marginal también se puede calcular fácilmente evaluando la siguiente igualdad para valores arbitrarios de ${\ displaystyle {\ boldsymbol {\ beta}}}$ y ${\ Displaystyle \ sigma}$ .

{\ Displaystyle p (\ mathbf {y} \ mid m) = {\ frac {p ({\ boldsymbol {\ beta}}, \ sigma | m) \, p (\ mathbf {y} \ mid \ mathbf {X }, {\ boldsymbol {\ beta}}, \ sigma, m)} {p ({\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {y}, \ mathbf {X}, m)}}}

Tenga en cuenta que esta ecuación no es más que una reordenación del teorema de Bayes . Insertar las fórmulas para el anterior, la probabilidad y el posterior y simplificar la expresión resultante conduce a la expresión analítica dada anteriormente.

Otros casos

En general, puede ser imposible o poco práctico derivar analíticamente la distribución posterior. Sin embargo, es posible aproximar el posterior mediante un método de inferencia bayesiano aproximado , como el muestreo de Monte Carlo ^[4] o el Bayes variacional .

El caso especial ${\ displaystyle {\ boldsymbol {\ mu}} _ {0} = 0, \ mathbf {\ Lambda} _ {0} = c \ mathbf {I}}$ se llama regresión de crestas .

Se puede realizar un análisis similar para el caso general de la regresión multivariante y parte de esto proporciona la estimación bayesiana de matrices de covarianza : consulte Regresión lineal multivariante bayesiana .

Ver también

Estadísticas lineales de Bayes
Mínimos cuadrados regularizados
Regularización de Tikhonov
Selección de variables de picos y losas
Interpretación bayesiana de la regularización del kernel

Notas

^ Los pasos intermedios de este cálculo se pueden encontrar en O'Hagan (1994) al comienzo del capítulo sobre modelos lineales.
^ Los pasos intermedios se encuentran en Fahrmeir et al. (2009) en la página 188.
^ Los pasos intermedios de este cálculo se pueden encontrar en O'Hagan (1994) en la página 257.
^ Carlin y Louis (2008) y Gelman, et al. (2003) explican cómo utilizar los métodos de muestreo para la regresión lineal bayesiana.

Referencias

Caja, GEP ; Tiao, GC (1973). Inferencia bayesiana en análisis estadístico . Wiley. ISBN 0-471-57428-7.
Carlin, Bradley P .; Louis, Thomas A. (2008). Métodos bayesianos para el análisis de datos, tercera edición . Boca Raton, FL: Chapman y Hall / CRC. ISBN 1-58488-697-8.
Fahrmeir, L .; Kneib, T .; Lang, S. (2009). Regresión. Modelle, Methoden und Anwendungen (Segunda ed.). Heidelberg: Springer. doi : 10.1007 / 978-3-642-01837-4 . ISBN 978-3-642-01836-7.
Fornalski KW; Parzych G .; Pylak M .; Satuła D .; Dobrzyński L. (2010). "Aplicación del razonamiento bayesiano y el método de máxima entropía a algunos problemas de reconstrucción" . Acta Physica Polonica A . 117 (6): 892–899. doi : 10.12693 / APhysPolA.117.892 .
Fornalski, Krzysztof W. (2015). "Aplicaciones del análisis de regresión bayesiana robusto". Revista Internacional de Ciencia de Sistemas de la Sociedad . 7 (4): 314–333. doi : 10.1504 / IJSSS.2015.073223 .
Gelman, Andrew ; Carlin, John B .; Stern, Hal S .; Rubin, Donald B. (2003). Análisis de datos bayesianos, segunda edición . Boca Raton, FL: Chapman y Hall / CRC. ISBN 1-58488-388-X.
Goldstein, Michael; Wooff, David (2007). Estadísticas, teoría y métodos lineales de Bayes . Wiley. ISBN 978-0-470-01562-9.
Minka, Thomas P. (2001) Regresión lineal bayesiana , página web de investigación de Microsoft
Rossi, Peter E .; Allenby, Greg M .; McCulloch, Robert (2006). Estadística y marketing bayesianos . John Wiley e hijos. ISBN 0470863676.
O'Hagan, Anthony (1994). Inferencia Bayesiana . Teoría avanzada de estadística de Kendall. 2B (Primera ed.). Halsted. ISBN 0-340-52922-9.
Sivia, DS; Habilidad, J. (2006). Análisis de datos: un tutorial bayesiano (segunda ed.). Prensa de la Universidad de Oxford.
Walter, Gero; Augustin, Thomas (2009). "Regresión lineal bayesiana: diferentes modelos conjugados y su (in) sensibilidad al conflicto de datos previos" (PDF) . Informe técnico número 069, Departamento de Estadística, Universidad de Munich .

enlaces externos

Estimación bayesiana de modelos lineales (wikilibro de programación R) . Regresión lineal Bayesiano como se aplica en R .

[1] Los pasos intermedios de este cálculo se pueden encontrar en O'Hagan (1994) al comienzo del capítulo sobre modelos lineales.

[2] Los pasos intermedios se encuentran en Fahrmeir et al. (2009) en la página 188.

[3] Los pasos intermedios de este cálculo se pueden encontrar en O'Hagan (1994) en la página 257.

[4] Carlin y Louis (2008) y Gelman, et al. (2003) explican cómo utilizar los métodos de muestreo para la regresión lineal bayesiana.

[1]