Considere un problema de regresión lineal estándar , en el que paraespecificamos la media de la distribución condicional de dado un vector predictor :
dónde es un vector, y el son variables aleatorias independientes e idénticamente distribuidas normalmente :
Esto corresponde a la siguiente función de verosimilitud :
La solución de mínimos cuadrados ordinarios se usa para estimar el vector de coeficientes usando el pseudoinverso de Moore-Penrose :
dónde es el matriz de diseño , cada fila de la cual es un vector predictor; y es la columna -vector .
Este es un enfoque frecuentista , y asume que hay suficientes medidas para decir algo significativo sobre. En el enfoque bayesiano , los datos se complementan con información adicional en forma de distribución de probabilidad previa . La creencia previa sobre los parámetros se combina con la función de verosimilitud de los datos de acuerdo con el teorema de Bayes para producir la creencia posterior sobre los parámetros. y . Lo anterior puede tomar diferentes formas funcionales según el dominio y la información que esté disponible a priori .
Distribución previa conjugada
Para una distribución previa arbitraria, puede que no haya una solución analítica para la distribución posterior . En esta sección, consideraremos un llamado previo conjugado para el cual la distribución posterior puede derivarse analíticamente.
Un previo se conjuga a esta función de verosimilitud si tiene la misma forma funcional con respecto a y . Dado que la probabilidad logarítmica es cuadrática en, la probabilidad logarítmica se reescribe de modo que la probabilidad se vuelva normal en . Escribir
La probabilidad ahora se reescribe como
dónde
dónde es el número de coeficientes de regresión.
Esto sugiere un formulario para el anterior:
dónde es una distribución gamma inversa
En la notación introducida en el artículo de distribución gamma inversa , esta es la densidad de un distribución con y con y como los valores anteriores de y , respectivamente. De manera equivalente, también se puede describir como una distribución chi-cuadrado inversa escalada ,
Además de la densidad previa condicional es una distribución normal ,
En la notación de la distribución normal , la distribución previa condicional es
Distribución posterior
Con el anterior ahora especificado, la distribución posterior se puede expresar como
Con alguna reorganización, [1] el posterior se puede reescribir de modo que el posterior signifique del vector de parámetros se puede expresar en términos del estimador de mínimos cuadrados y la media anterior , con la fuerza de la previa indicada por la matriz de precisión previa
Para justificar eso es de hecho la media posterior, los términos cuadráticos en el exponencial se pueden reorganizar como una forma cuadrática en. [2]
Ahora, el posterior se puede expresar como una distribución normal multiplicada por una distribución gamma inversa :
Por tanto, la distribución posterior se puede parametrizar de la siguiente manera.
donde los dos factores corresponden a las densidades de y distribuciones, con los parámetros de estos dados por
Esto se puede interpretar como aprendizaje bayesiano donde los parámetros se actualizan de acuerdo con las siguientes ecuaciones.
Evidencia modelo
La evidencia del modelo es la probabilidad de los datos dados el modelo . También se conoce como probabilidad marginal y como densidad predictiva previa . Aquí, el modelo está definido por la función de verosimilitud y la distribución previa de los parámetros, es decir . La evidencia del modelo captura en un solo número qué tan bien dicho modelo explica las observaciones. La evidencia del modelo del modelo de regresión lineal bayesiano que se presenta en esta sección se puede utilizar para comparar modelos lineales en competencia mediante la comparación del modelo bayesiano . Estos modelos pueden diferir en el número y los valores de las variables predictoras, así como en sus antecedentes en los parámetros del modelo. La evidencia del modelo ya tiene en cuenta la complejidad del modelo, porque margina los parámetros al integrar sobre todos los valores posibles de y .
Esta integral se puede calcular analíticamente y la solución se da en la siguiente ecuación. [3]
Aquí denota la función gamma . Debido a que hemos elegido un conjugado a priori, la probabilidad marginal también se puede calcular fácilmente evaluando la siguiente igualdad para valores arbitrarios de y .
Tenga en cuenta que esta ecuación no es más que una reordenación del teorema de Bayes . Insertar las fórmulas para el anterior, la probabilidad y el posterior y simplificar la expresión resultante conduce a la expresión analítica dada anteriormente.
En general, puede ser imposible o poco práctico derivar analíticamente la distribución posterior. Sin embargo, es posible aproximar el posterior mediante un método de inferencia bayesiano aproximado , como el muestreo de Monte Carlo [4] o el Bayes variacional .
El caso especial se llama regresión de crestas .
Se puede realizar un análisis similar para el caso general de la regresión multivariante y parte de esto proporciona la estimación bayesiana de matrices de covarianza : consulte Regresión lineal multivariante bayesiana .