Modelo probit multivariado

En estadística y econometría , el modelo probit multivariado es una generalización del modelo probit utilizado para estimar varios resultados binarios correlacionados de forma conjunta. Por ejemplo, si se cree que las decisiones de enviar al menos un niño a la escuela pública y la de votar a favor de un presupuesto escolar están correlacionadas (ambas decisiones son binarias), entonces el modelo probit multivariado sería apropiado para predecir conjuntamente estas dos opciones sobre una base específica para cada individuo. JR Ashford y RR Sowden propusieron inicialmente un enfoque para el análisis probit multivariante. ^[1] Siddhartha Chiby Edward Greenberg extendió esta idea y también propuso métodos de inferencia basados en simulación para el modelo probit multivariante que simplificaba y generalizaba la estimación de parámetros. ^[2]

Ejemplo: probit bivariado

En el modelo probit ordinario, solo hay una variable dependiente binaria ${\ Displaystyle Y}$ y así solo una variable latente ${\ Displaystyle Y ^ {*}}$ se utiliza. Por el contrario, en el modelo probit bivariado hay dos variables dependientes binarias ${\ Displaystyle Y_ {1}}$ y ${\ Displaystyle Y_ {2}}$ , por lo que hay dos variables latentes: ${\ Displaystyle Y_ {1} ^ {*}}$ y ${\ Displaystyle Y_ {2} ^ {*}}$ . Se asume que cada variable observada toma el valor 1 si y solo si su variable latente continua subyacente toma un valor positivo:

{\ displaystyle Y_ {1} = {\ begin {cases} 1 & {\ text {if}} Y_ {1} ^ {*}> 0, \\ 0 & {\ text {de lo contrario}}, \ end {cases}} }

{\ displaystyle Y_ {2} = {\ begin {cases} 1 & {\ text {if}} Y_ {2} ^ {*}> 0, \\ 0 & {\ text {de lo contrario}}, \ end {cases}} }

con

{\ Displaystyle {\ begin {cases} Y_ {1} ^ {*} = X_ {1} \ beta _ {1} + \ varepsilon _ {1} \\ Y_ {2} ^ {*} = X_ {2} \ beta _ {2} + \ varepsilon _ {2} \ end {cases}}}

y

{\ displaystyle {\ begin {bmatrix} \ varepsilon _ {1} \\\ varepsilon _ {2} \ end {bmatrix}} \ mid X \ sim {\ mathcal {N}} \ left ({\ begin {bmatrix} 0 \\ 0 \ end {bmatrix}}, {\ begin {bmatrix} 1 & \ rho \\\ rho & 1 \ end {bmatrix}} \ right)}

Ajustar el modelo probit bivariado implica estimar los valores de ${\ Displaystyle \ beta _ {1}, \ \ beta _ {2},}$ y ${\ Displaystyle \ rho}$ . Para hacerlo, se debe maximizar la probabilidad del modelo . Esta probabilidad es

{\ Displaystyle {\ begin {alineado} L (\ beta _ {1}, \ beta _ {2}) = {\ Big (} \ prod & P (Y_ {1} = 1, Y_ {2} = 1 \ mid \ beta _ {1}, \ beta _ {2}) ^ {Y_ {1} Y_ {2}} P (Y_ {1} = 0, Y_ {2} = 1 \ mid \ beta _ {1}, \ beta _ {2}) ^ {(1-Y_ {1}) Y_ {2}} \\ [8pt] & {} \ qquad P (Y_ {1} = 1, Y_ {2} = 0 \ mid \ beta _ {1}, \ beta _ {2}) ^ {Y_ {1} (1-Y_ {2})} P (Y_ {1} = 0, Y_ {2} = 0 \ mid \ beta _ {1} , \ beta _ {2}) ^ {(1-Y_ {1}) (1-Y_ {2})} {\ Big)} \ end {alineado}}}

Sustituyendo las variables latentes ${\ Displaystyle Y_ {1} ^ {*}}$ y ${\ Displaystyle Y_ {2} ^ {*}}$ en las funciones de probabilidad y tomando registros da

{\ Displaystyle {\ begin {alineado} \ sum & {\ Big (} Y_ {1} Y_ {2} \ ln P (\ varepsilon _ {1}> - X_ {1} \ beta _ {1}, \ varepsilon _ {2}> - X_ {2} \ beta _ {2}) \\ [4pt] & {} \ quad {} + (1-Y_ {1}) Y_ {2} \ ln P (\ varepsilon _ { 1} <- X_ {1} \ beta _ {1}, \ varepsilon _ {2}> - X_ {2} \ beta _ {2}) \\ [4pt] & {} \ quad {} + Y_ {1 } (1-Y_ {2}) \ ln P (\ varepsilon _ {1}> - X_ {1} \ beta _ {1}, \ varepsilon _ {2} <- X_ {2} \ beta _ {2} ) \\ [4pt] & {} \ quad {} + (1-Y_ {1}) (1-Y_ {2}) \ ln P (\ varepsilon _ {1} <- X_ {1} \ beta _ { 1}, \ varepsilon _ {2} <- X_ {2} \ beta _ {2}) {\ Big)}. \ End {alineado}}}

Después de un poco de reescritura, la función de probabilidad logarítmica se convierte en:

{\ Displaystyle {\ begin {alineado} \ sum & {\ Big (} Y_ {1} Y_ {2} \ ln \ Phi (X_ {1} \ beta _ {1}, X_ {2} \ beta _ {2 }, \ rho) \\ [4pt] & {} \ quad {} + (1-Y_ {1}) Y_ {2} \ ln \ Phi (-X_ {1} \ beta _ {1}, X_ {2 } \ beta _ {2}, - \ rho) \\ [4pt] & {} \ quad {} + Y_ {1} (1-Y_ {2}) \ ln \ Phi (X_ {1} \ beta _ { 1}, - X_ {2} \ beta _ {2}, - \ rho) \\ [4pt] & {} \ quad {} + (1-Y_ {1}) (1-Y_ {2}) \ ln \ Phi (-X_ {1} \ beta _ {1}, - X_ {2} \ beta _ {2}, \ rho) {\ Big)}. \ End {alineado}}}

Tenga en cuenta que ${\ Displaystyle \ Phi}$ es la función de distribución acumulativa de la distribución normal bivariada . ${\ Displaystyle Y_ {1}}$ y ${\ Displaystyle Y_ {2}}$ en la función logarítmica de verosimilitud se observan variables que son iguales a uno o cero.

Probit multivariante

Para el caso general, ${\ Displaystyle \ mathbf {y_ {i}} = (y_ {1}, ..., y_ {j}), \ (i = 1, ..., N)}$ donde podemos llevar ${\ Displaystyle j}$ como opciones y ${\ Displaystyle i}$ como individuos u observaciones, la probabilidad de observar la elección ${\ Displaystyle \ mathbf {y_ {i}}}$ es

{\ Displaystyle {\ begin {alineado} \ Pr (\ mathbf {y_ {i}} | \ mathbf {X_ {i} \ beta}, \ Sigma) = & \ int _ {A_ {J}} \ cdots \ int _ {A_ {1}} f_ {N} (\ mathbf {y} _ {i} ^ {*} | \ mathbf {X_ {i} \ beta}, \ Sigma) dy_ {1} ^ {*} \ dots dy_ {J} ^ {*} \\\ Pr (\ mathbf {y_ {i}} | \ mathbf {X_ {i} \ beta}, \ Sigma) = & \ int \ mathbb {1} _ {y ^ { *} \ in A} f_ {N} (\ mathbf {y} _ {i} ^ {*} | \ mathbf {X_ {i} \ beta}, \ Sigma) d \ mathbf {y} _ {i} ^ {*} \ end {alineado}}}

Dónde ${\ Displaystyle A = A_ {1} \ times \ cdots \ times A_ {J}}$ y,

{\ Displaystyle A_ {j} = {\ begin {cases} (- \ infty, 0] & y_ {j} ^ {*} = 0 \\ (0, \ infty) & y_ {j} ^ {*} = 1 \ finalizar {casos}}}

La función logarítmica de verosimilitud en este caso sería ${\ Displaystyle \ sum _ {i = 1} ^ {N} \ log \ Pr (\ mathbf {y_ {i}} | \ mathbf {X_ {i} \ beta}, \ Sigma)}$

Excepto por ${\ Displaystyle J \ leq 2}$ normalmente no hay una solución de forma cerrada para las integrales en la ecuación de verosimilitud logarítmica. En su lugar, se pueden utilizar métodos de simulación para simular las probabilidades de elección. Los métodos que utilizan el muestreo por importancia incluyen el algoritmo GHK (Geweke, Hajivassilou, McFadden y Keane), ^[3] AR (aceptar-rechazar), el método de Stern. También existen enfoques de MCMC para este problema, incluidos CRB (método de Chib con Rao-Blackwellization), CRT (Chib, Ritter, Tanner), ARK (kernel de aceptación-rechazo) y ASK (kernel de muestreo adaptativo). ^[4] En Probit-LMM (Mandt, Wenzel, Nakajima et al.) Se propone un enfoque variacional para escalar grandes conjuntos de datos. ^[5]

Referencias

^ Ashford, JR; Sowden, RR (septiembre de 1970). "Análisis probit multivariante" . Cite journal requiere |journal=( ayuda )
^ Chib, Siddhartha; Greenberg, Edward (junio de 1998). "Análisis de modelos probit multivariados" . Biometrika . 85 (2): 347–361. CiteSeerX 10.1.1.198.8541 . doi : 10.1093 / biomet / 85.2.347 - a través de Oxford Academic.
^ Hajivassiliou, Vassilis (1994). "Capítulo 40 Métodos clásicos de estimación para modelos LDV mediante simulación". Manual de Econometría . 4 : 2383–2441. doi : 10.1016 / S1573-4412 (05) 80009-1 . ISBN 9780444887665.
^ Jeliazkov, Ivan (2010). "Perspectivas de MCMC sobre estimación de verosimilitud simulada". Avances en Econometría . 26 : 3-39. doi : 10.1108 / S0731-9053 (2010) 0000026005 . ISBN 978-0-85724-149-8.
^ Mandt, Stephan; Wenzel, Florian; Nakajima, Shinichi; John, Cunningham; Lippert, Christoph; Kloft, Marius (2017). "Modelo mixto lineal probit disperso" (PDF) . Aprendizaje automático . 106 (9-10): 1-22. arXiv : 1507.04777 . doi : 10.1007 / s10994-017-5652-6 .

Otras lecturas

Greene, William H., Análisis econométrico , séptima edición, Prentice-Hall, 2012.

[1] Ashford, JR; Sowden, RR (septiembre de 1970). "Análisis probit multivariante" . Cite journal requiere |journal=( ayuda )

[2] Chib, Siddhartha; Greenberg, Edward (junio de 1998). "Análisis de modelos probit multivariados" . Biometrika . 85 (2): 347–361. CiteSeerX 10.1.1.198.8541 . doi : 10.1093 / biomet / 85.2.347 - a través de Oxford Academic.

[3] Hajivassiliou, Vassilis (1994). "Capítulo 40 Métodos clásicos de estimación para modelos LDV mediante simulación". Manual de Econometría . 4 : 2383–2441. doi : 10.1016 / S1573-4412 (05) 80009-1 . ISBN 9780444887665.

[4] Jeliazkov, Ivan (2010). "Perspectivas de MCMC sobre estimación de verosimilitud simulada". Avances en Econometría . 26 : 3-39. doi : 10.1108 / S0731-9053 (2010) 0000026005 . ISBN 978-0-85724-149-8.

[5] Mandt, Stephan; Wenzel, Florian; Nakajima, Shinichi; John, Cunningham; Lippert, Christoph; Kloft, Marius (2017). "Modelo mixto lineal probit disperso" (PDF) . Aprendizaje automático . 106 (9-10): 1-22. arXiv : 1507.04777 . doi : 10.1007 / s10994-017-5652-6 .

[1]