Regresión lineal multivariante bayesiana

En estadística , la regresión lineal multivariante bayesiana es un enfoque bayesiano de la regresión lineal multivariante , es decir, regresión lineal donde el resultado predicho es un vector de variables aleatorias correlacionadas en lugar de una única variable aleatoria escalar. Un tratamiento más general de este enfoque se puede encontrar en el artículo Estimador MMSE .

Detalles

Considere un problema de regresión en el que la variable dependiente que se va a predecir no es un escalar de valor real único , sino un vector de longitud m de números reales correlacionados. Como en la configuración de regresión estándar, hay n observaciones, donde cada observación i consta de k -1 variables explicativas , agrupadas en un vector ${\ Displaystyle \ mathbf {x} _ {i}}$ de longitud k (donde se ha agregado una variable ficticia con un valor de 1 para permitir un coeficiente de intersección). Esto puede verse como un conjunto de m problemas de regresión relacionados para cada observación i :

{\ Displaystyle y_ {i, 1} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} _ {1} + \ epsilon _ {i, 1}}

{\ Displaystyle \ cdots}

{\ Displaystyle y_ {i, m} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} _ {m} + \ epsilon _ {i, m}}

donde el conjunto de errores ${\ Displaystyle \ {\ epsilon _ {i, 1}, \ ldots, \ epsilon _ {i, m} \}}$ están todos correlacionados. De manera equivalente, se puede ver como un solo problema de regresión donde el resultado es un vector de fila ${\ Displaystyle \ mathbf {y} _ {i} ^ {\ rm {T}}}$ y los vectores de coeficientes de regresión se apilan uno al lado del otro, de la siguiente manera:

{\ Displaystyle \ mathbf {y} _ {i} ^ {\ rm {T}} = \ mathbf {x} _ {i} ^ {\ rm {T}} \ mathbf {B} + {\ boldsymbol {\ epsilon }} _ {i} ^ {\ rm {T}}.}

La matriz de coeficientes B es una ${\ Displaystyle k \ times m}$ matriz donde los vectores de coeficiente ${\ displaystyle {\ boldsymbol {\ beta}} _ {1}, \ ldots, {\ boldsymbol {\ beta}} _ {m}}$ para cada problema de regresión se apilan horizontalmente:

{\ Displaystyle \ mathbf {B} = {\ begin {bmatrix} {\ begin {pmatrix} \\ {\ boldsymbol {\ beta}} _ {1} \\\\\ end {pmatrix}} \ cdots {\ begin {pmatrix} \\ {\ boldsymbol {\ beta}} _ {m} \\\\\ end {pmatrix}} \ end {bmatrix}} = {\ begin {bmatrix} {\ begin {pmatrix} \ beta _ { 1,1} \\\ vdots \\\ beta _ {k, 1} \\\ end {pmatrix}} \ cdots {\ begin {pmatrix} \ beta _ {1, m} \\\ vdots \\\ beta _ {k, m} \\\ end {pmatrix}} \ end {bmatrix}}.}

El vector de ruido ${\ displaystyle {\ boldsymbol {\ epsilon}} _ {i}}$ para cada observación i es conjuntamente normal, de modo que los resultados de una observación dada están correlacionados:

{\ displaystyle {\ boldsymbol {\ epsilon}} _ {i} \ sim N (0, {\ boldsymbol {\ Sigma}} _ {\ epsilon}).}

Podemos escribir todo el problema de regresión en forma de matriz como:

{\ Displaystyle \ mathbf {Y} = \ mathbf {X} \ mathbf {B} + \ mathbf {E},}

donde Y y E son ${\ Displaystyle n \ times m}$ matrices. La matriz de diseño X es una ${\ Displaystyle n \ times k}$ matriz con las observaciones apiladas verticalmente, como en la configuración de regresión lineal estándar :

{\ Displaystyle \ mathbf {X} = {\ begin {bmatrix} \ mathbf {x} _ {1} ^ {\ rm {T}} \\\ mathbf {x} _ {2} ^ {\ rm {T} } \\\ vdots \\\ mathbf {x} _ {n} ^ {\ rm {T}} \ end {bmatrix}} = {\ begin {bmatrix} x_ {1,1} & \ cdots & x_ {1, k} \\ x_ {2,1} & \ cdots & x_ {2, k} \\\ vdots & \ ddots & \ vdots \\ x_ {n, 1} & \ cdots & x_ {n, k} \ end {bmatrix }}.}

La solución clásica de mínimos cuadrados lineales frecuentistas es simplemente estimar la matriz de coeficientes de regresión ${\ Displaystyle {\ hat {\ mathbf {B}}}}$ usando el pseudoinverso de Moore-Penrose :

{\ Displaystyle {\ hat {\ mathbf {B}}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm { T}} \ mathbf {Y}}

.

Para obtener la solución bayesiana, necesitamos especificar la probabilidad condicional y luego encontrar el conjugado apropiado antes. Al igual que con el caso univariado de regresión bayesiana lineal , encontraremos que podemos especificar un previo conjugado condicional natural (que depende de la escala).

Escribamos nuestra probabilidad condicional como ^[1]

{\ Displaystyle \ rho (\ mathbf {E} | {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ propto | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- n / 2} \ exp (- {\ frac {1} {2}} {\ rm {tr}} (\ mathbf {E} ^ {\ rm {T}} \ mathbf {E} {\ boldsymbol {\ Sigma}} _ { \ epsilon} ^ {- 1})),}

escribiendo el error ${\ Displaystyle \ mathbf {E}}$ en términos de ${\ Displaystyle \ mathbf {Y}, \ mathbf {X},}$ y ${\ Displaystyle \ mathbf {B}}$ rendimientos

{\ Displaystyle \ rho (\ mathbf {Y} | \ mathbf {X}, \ mathbf {B}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ propto | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- n / 2} \ exp (- {\ frac {1} {2}} {\ rm {tr}} ((\ mathbf {Y} - \ mathbf {X} \ mathbf {\ mathbf {B}}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {X} \ mathbf {\ mathbf {B}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {-1})),}

Buscamos un conjugado a priori natural: una densidad articular ${\ Displaystyle \ rho (\ mathbf {B}, \ Sigma _ {\ epsilon})}$ que tiene la misma forma funcional que la probabilidad. Dado que la probabilidad es cuadrática en ${\ Displaystyle \ mathbf {B}}$ , reescribimos la probabilidad para que sea normal en ${\ Displaystyle (\ mathbf {B} - {\ hat {\ mathbf {B}}})}$ (la desviación de la estimación muestral clásica).

Usando la misma técnica que con la regresión lineal bayesiana , descomponemos el término exponencial usando una forma matricial de la técnica de suma de cuadrados. Aquí, sin embargo, también necesitaremos utilizar el cálculo diferencial matricial ( producto de Kronecker y transformaciones de vectorización ).

Primero, apliquemos suma de cuadrados para obtener una nueva expresión para la probabilidad:

{\ Displaystyle \ rho (\ mathbf {Y} | \ mathbf {X}, \ mathbf {B}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ propto | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- (nk) / 2} \ exp (- {\ rm {tr}} ({\ frac {1} {2}} \ mathbf {S} ^ {\ rm {T}} \ mathbf {S} {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1})) | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- k / 2} \ exp (- {\ frac {1} {2}} {\ rm {tr}} ((\ mathbf {B} - {\ hat {\ mathbf {B}}}) ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1} )),}

{\ Displaystyle \ mathbf {S} = \ mathbf {Y} - \ mathbf {X} {\ hat {\ mathbf {B}}}}

Nos gustaría desarrollar una forma condicional para los priores:

{\ Displaystyle \ rho (\ mathbf {B}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) = \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ rho (\ mathbf { B} | {\ boldsymbol {\ Sigma}} _ {\ epsilon}),}

dónde ${\ Displaystyle \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon})}$ es una distribución de Wishart inversa y ${\ Displaystyle \ rho (\ mathbf {B} | {\ boldsymbol {\ Sigma}} _ {\ epsilon})}$ es alguna forma de distribución normal en la matriz ${\ Displaystyle \ mathbf {B}}$ . Esto se logra usando la transformación de vectorización , que convierte la probabilidad de una función de las matrices ${\ Displaystyle \ mathbf {B}, {\ hat {\ mathbf {B}}}}$ a una función de los vectores ${\ displaystyle {\ boldsymbol {\ beta}} = {\ rm {vec}} (\ mathbf {B}), {\ hat {\ boldsymbol {\ beta}}} = {\ rm {vec}} ({\ sombrero {\ mathbf {B}}})}$ .

Escribir

{\ Displaystyle {\ rm {tr}} ((\ mathbf {B} - {\ hat {\ mathbf {B}}}) ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T} } \ mathbf {X} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}) = {\ rm {vec }} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) ^ {\ rm {T}} {\ rm {vec}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1})}

Dejar

{\ Displaystyle {\ rm {vec}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) {\ símbolo en negrita {\ Sigma}} _ {\ epsilon} ^ {- 1}) = ({\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1} \ otimes \ mathbf {X} ^ {\ rm {T }} \ mathbf {X}) {\ rm {vec}} (\ mathbf {B} - {\ hat {\ mathbf {B}}}),}

dónde ${\ Displaystyle \ mathbf {A} \ otimes \ mathbf {B}}$ denota el producto de Kronecker de las matrices A y B , una generalización del producto exterior que multiplica un ${\ Displaystyle m \ times n}$ matriz por una ${\ Displaystyle p \ times q}$ matriz para generar una ${\ Displaystyle mp \ times nq}$ matriz, que consta de cada combinación de productos de elementos de las dos matrices.

Luego

{\ Displaystyle {\ rm {vec}} (\ mathbf {B} - {\ hat {\ mathbf {B}}}) ^ {\ rm {T}} ({\ boldsymbol {\ Sigma}} _ {\ epsilon } ^ {- 1} \ otimes \ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) {\ rm {vec}} (\ mathbf {B} - {\ hat {\ mathbf {B} }})}

{\ displaystyle = ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} ({\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {-1} \ otimes \ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}})}

lo que conducirá a una probabilidad que es normal en ${\ displaystyle ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}})}$ .

Con la probabilidad en una forma más manejable, ahora podemos encontrar un previo conjugado natural (condicional).

Distribución previa conjugada

El conjugado natural antes de usar la variable vectorizada ${\ displaystyle {\ boldsymbol {\ beta}}}$ tiene la forma: ^[1]

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) = \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ rho ( {\ boldsymbol {\ beta}} | {\ boldsymbol {\ Sigma}} _ {\ epsilon})}

,

dónde

{\ Displaystyle \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ sim {\ mathcal {W}} ^ {- 1} (\ mathbf {V_ {0}}, {\ boldsymbol {\ nu }} _ {0})}

y

{\ displaystyle \ rho ({\ boldsymbol {\ beta}} | {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ sim N ({\ boldsymbol {\ beta}} _ {0}, {\ boldsymbol { \ Sigma}} _ {\ epsilon} \ otimes {\ boldsymbol {\ Lambda}} _ {0} ^ {- 1}).}

Distribución posterior

Utilizando el anterior y la probabilidad anteriores, la distribución posterior se puede expresar como: ^[1]

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, {\ boldsymbol {\ Sigma}} _ {\ epsilon} | \ mathbf {Y}, \ mathbf {X}) \ propto | {\ boldsymbol {\ Sigma }} _ {\ epsilon} | ^ {- ({\ boldsymbol {\ nu}} _ {0} + m + 1) / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} (\ mathbf {V_ {0}} {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

{\ Displaystyle \ times | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- k / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} ( (\ mathbf {B} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B} - \ mathbf {B_ {0} }) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

{\ Displaystyle \ times | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- n / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} ( (\ mathbf {Y} - \ mathbf {XB}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))},}

dónde ${\ displaystyle {\ rm {vec}} (\ mathbf {B_ {0}}) = {\ boldsymbol {\ beta}} _ {0}}$ . Los términos que involucran ${\ Displaystyle \ mathbf {B}}$ se puede agrupar (con ${\ displaystyle {\ boldsymbol {\ Lambda}} _ {0} = \ mathbf {U} ^ {\ rm {T}} \ mathbf {U}}$ ) utilizando:

{\ displaystyle (\ mathbf {B} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B} - \ mathbf {B_ {0}}) + (\ mathbf {Y} - \ mathbf {XB}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB})}

{\ displaystyle = \ left ({\ begin {bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0}} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B} \ right) ^ {\ rm {T}} \ left ({\ begin {bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0}} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B} \ right)}

{\ displaystyle = \ left ({\ begin {bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0}} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B_ {n}} \ right) ^ {\ rm {T}} \ left ({\ begin {bmatrix} \ mathbf {Y} \\\ mathbf {UB_ {0 }} \ end {bmatrix}} - {\ begin {bmatrix} \ mathbf {X} \\\ mathbf {U} \ end {bmatrix}} \ mathbf {B_ {n}} \ right) + (\ mathbf {B } - \ mathbf {B_ {n}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0 }) (\ mathbf {B} - \ mathbf {B_ {n}})}

{\ displaystyle = (\ mathbf {Y} - \ mathbf {XB_ {n}}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB_ {n}}) + (\ mathbf {B_ {0}} - \ mathbf {B_ {n}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B_ {0}} - \ mathbf {B_ {n }}) + (\ mathbf {B} - \ mathbf {B_ {n}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ símbolo en negrita {\ Lambda}} _ {0}) (\ mathbf {B} - \ mathbf {B_ {n}})}

,

con

{\ Displaystyle \ mathbf {B_ {n}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ mathbf {B}}} + {\ boldsymbol {\ Lambda}} _ {0} \ mathbf {B_ {0} }) = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {Y} + {\ boldsymbol {\ Lambda}} _ {0} \ mathbf {B_ {0}})}

.

Esto ahora nos permite escribir el posterior de una forma más útil:

{\ Displaystyle \ rho ({\ boldsymbol {\ beta}}, {\ boldsymbol {\ Sigma}} _ {\ epsilon} | \ mathbf {Y}, \ mathbf {X}) \ propto | {\ boldsymbol {\ Sigma }} _ {\ epsilon} | ^ {- ({\ boldsymbol {\ nu}} _ {0} + m + n + 1) / 2} \ exp {(- {\ frac {1} {2}} { \ rm {tr}} ((\ mathbf {V_ {0}} + (\ mathbf {Y} - \ mathbf {XB_ {n}}) ^ {\ rm {T}} (\ mathbf {Y} - \ mathbf {XB_ {n}}) + (\ mathbf {B_ {n}} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} (\ mathbf {B_ {n}} - \ mathbf {B_ {0}})) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

{\ Displaystyle \ times | {\ boldsymbol {\ Sigma}} _ {\ epsilon} | ^ {- k / 2} \ exp {(- {\ frac {1} {2}} {\ rm {tr}} ( (\ mathbf {B} - \ mathbf {B_ {n}}) ^ {\ rm {T}} (\ mathbf {X} ^ {T} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ { 0}) (\ mathbf {B} - \ mathbf {B_ {n}}) {\ boldsymbol {\ Sigma}} _ {\ epsilon} ^ {- 1}))}}

.

Esto toma la forma de una distribución inversa de Wishart multiplicada por una distribución normal de Matrix :

{\ Displaystyle \ rho ({\ boldsymbol {\ Sigma}} _ {\ epsilon} | \ mathbf {Y}, \ mathbf {X}) \ sim {\ mathcal {W}} ^ {- 1} (\ mathbf { V_ {n}}, {\ boldsymbol {\ nu}} _ {n})}

y

{\ Displaystyle \ rho (\ mathbf {B} | \ mathbf {Y}, \ mathbf {X}, {\ boldsymbol {\ Sigma}} _ {\ epsilon}) \ sim {\ mathcal {MN}} _ {k , m} (\ mathbf {B_ {n}}, {\ boldsymbol {\ Lambda}} _ {n} ^ {- 1}, {\ boldsymbol {\ Sigma}} _ {\ epsilon})}

.

Los parámetros de este posterior vienen dados por:

{\ Displaystyle \ mathbf {V_ {n}} = \ mathbf {V_ {0}} + (\ mathbf {Y} - \ mathbf {XB_ {n}}) ^ {\ rm {T}} (\ mathbf {Y } - \ mathbf {XB_ {n}}) + (\ mathbf {B_ {n}} - \ mathbf {B_ {0}}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0 } (\ mathbf {B_ {n}} - \ mathbf {B_ {0}})}

{\ displaystyle {\ boldsymbol {\ nu}} _ {n} = {\ boldsymbol {\ nu}} _ {0} + n}

{\ Displaystyle \ mathbf {B_ {n}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {Y} + {\ boldsymbol {\ Lambda}} _ {0} \ mathbf {B_ {0}})}

{\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}}

Ver también

Referencias

^ ^a ^b ^c Peter E. Rossi, Greg M. Allenby, Rob McCulloch. Estadística y marketing bayesianos . John Wiley & Sons, 2012, pág. 32.

Caja, GEP ; Tiao, GC (1973). "8". Inferencia bayesiana en análisis estadístico . Wiley. ISBN 0-471-57428-7.
Geisser, S. (1965). "Estimación bayesiana en análisis multivariante". Los Anales de Estadística Matemática . 36 (1): 150-159. JSTOR 2238083 .
Tiao, GC; Zellner, A. (1964). "Sobre la estimación bayesiana de regresión multivariante". Revista de la Royal Statistical Society. Serie B (Metodológica) . 26 (2): 277–285. JSTOR 2984424 .

[BSaM-1] Peter E. Rossi, Greg M. Allenby, Rob McCulloch. Estadística y marketing bayesianos . John Wiley & Sons, 2012, pág. 32.

[1]