Considere un problema de regresión en el que la variable dependiente que se va a predecir no es un escalar de valor real único , sino un vector de longitud m de números reales correlacionados. Como en la configuración de regresión estándar, hay n observaciones, donde cada observación i consta de k -1 variables explicativas , agrupadas en un vectorde longitud k (donde se ha agregado una variable ficticia con un valor de 1 para permitir un coeficiente de intersección). Esto puede verse como un conjunto de m problemas de regresión relacionados para cada observación i :
donde el conjunto de errores están todos correlacionados. De manera equivalente, se puede ver como un solo problema de regresión donde el resultado es un vector de fila y los vectores de coeficientes de regresión se apilan uno al lado del otro, de la siguiente manera:
La matriz de coeficientes B es una matriz donde los vectores de coeficiente para cada problema de regresión se apilan horizontalmente:
El vector de ruido para cada observación i es conjuntamente normal, de modo que los resultados de una observación dada están correlacionados:
Podemos escribir todo el problema de regresión en forma de matriz como:
donde Y y E sonmatrices. La matriz de diseño X es unamatriz con las observaciones apiladas verticalmente, como en la configuración de regresión lineal estándar :
La solución clásica de mínimos cuadrados lineales frecuentistas es simplemente estimar la matriz de coeficientes de regresiónusando el pseudoinverso de Moore-Penrose :
- .
Para obtener la solución bayesiana, necesitamos especificar la probabilidad condicional y luego encontrar el conjugado apropiado antes. Al igual que con el caso univariado de regresión bayesiana lineal , encontraremos que podemos especificar un previo conjugado condicional natural (que depende de la escala).
Escribamos nuestra probabilidad condicional como [1]
escribiendo el error en términos de y rendimientos
Buscamos un conjugado a priori natural: una densidad articular que tiene la misma forma funcional que la probabilidad. Dado que la probabilidad es cuadrática en, reescribimos la probabilidad para que sea normal en (la desviación de la estimación muestral clásica).
Usando la misma técnica que con la regresión lineal bayesiana , descomponemos el término exponencial usando una forma matricial de la técnica de suma de cuadrados. Aquí, sin embargo, también necesitaremos utilizar el cálculo diferencial matricial ( producto de Kronecker y transformaciones de vectorización ).
Primero, apliquemos suma de cuadrados para obtener una nueva expresión para la probabilidad:
Nos gustaría desarrollar una forma condicional para los priores:
dónde es una distribución de Wishart inversa yes alguna forma de distribución normal en la matriz. Esto se logra usando la transformación de vectorización , que convierte la probabilidad de una función de las matrices a una función de los vectores .
Escribir
Dejar
dónde denota el producto de Kronecker de las matrices A y B , una generalización del producto exterior que multiplica un matriz por una matriz para generar una matriz, que consta de cada combinación de productos de elementos de las dos matrices.
Luego
lo que conducirá a una probabilidad que es normal en .
Con la probabilidad en una forma más manejable, ahora podemos encontrar un previo conjugado natural (condicional).
Distribución previa conjugada
El conjugado natural antes de usar la variable vectorizada tiene la forma: [1]
- ,
dónde
y
Distribución posterior
Utilizando el anterior y la probabilidad anteriores, la distribución posterior se puede expresar como: [1]
dónde . Los términos que involucran se puede agrupar (con ) utilizando:
- ,
con
- .
Esto ahora nos permite escribir el posterior de una forma más útil:
- .
Esto toma la forma de una distribución inversa de Wishart multiplicada por una distribución normal de Matrix :
y
- .
Los parámetros de este posterior vienen dados por: