Modelo probit

En estadística , un modelo probit es un tipo de regresión donde la variable dependiente puede tomar solo dos valores, por ejemplo casado o no casado. La palabra es una baúl de viaje , procedente de prob capacidad + ONU que . ^[1] El propósito del modelo es estimar la probabilidad de que una observación con características particulares caiga en una de las categorías específicas; además, clasificar las observaciones en función de sus probabilidades predichas es un tipo de modelo de clasificación binaria .

Un modelo probit es una especificación popular para un modelo de respuesta binaria . Como tal, trata el mismo conjunto de problemas que la regresión logística utilizando técnicas similares. Cuando se ve en el marco del modelo lineal generalizado , el modelo probit emplea una función de enlace probit . ^[2] La mayoría de las veces se estima utilizando el procedimiento de máxima verosimilitud , ^[3] tal estimación se denomina regresión probit .

Marco conceptual

Suponga que una variable de respuesta Y es binaria , es decir, puede tener solo dos resultados posibles que denotaremos como 1 y 0. Por ejemplo, Y puede representar la presencia / ausencia de una determinada condición, el éxito / fracaso de algún dispositivo, responda sí / no en una encuesta, etc. también tenemos un vector de regresores X , que se supone que influyen en el resultado Y . Específicamente, asumimos que el modelo toma la forma

{\ Displaystyle \ Pr (Y = 1 \ mid X) = \ Phi (X ^ {T} \ beta),}

donde Pr denota probabilidad y Φ es la función de distribución acumulativa ( CDF ) de la distribución normal estándar . Los parámetros β se estiman típicamente por máxima verosimilitud .

Es posible motivar el modelo probit como modelo de variable latente . Supongamos que existe una variable aleatoria auxiliar

{\ Displaystyle Y ^ {\ ast} = X ^ {T} \ beta + \ varepsilon,}

donde ε ~ N (0, 1). Entonces Y puede verse como un indicador de si esta variable latente es positiva:

{\ displaystyle Y = \ left. {\ begin {cases} 1 & Y ^ {*}> 0 \\ 0 & {\ text {de lo contrario}} \ end {cases}} \ right \} = \ left. {\ begin {cases } 1 & X ^ {T} \ beta + \ varepsilon> 0 \\ 0 & {\ text {de otro modo}} \ end {cases}} \ right \}}

El uso de la distribución normal estándar no causa pérdida de generalidad en comparación con el uso de una distribución normal con una media y una desviación estándar arbitrarias, porque la suma de una cantidad fija a la media se puede compensar restando la misma cantidad de la intersección y multiplicando la desviación estándar por una cantidad fija se puede compensar multiplicando los pesos por la misma cantidad.

Para ver que los dos modelos son equivalentes, tenga en cuenta que

{\ Displaystyle {\ begin {alineado} & \ Pr (Y = 1 \ mid X) \\ = {} & \ Pr (Y ^ {\ ast}> 0) \\ = {} & \ Pr (X ^ { T} \ beta + \ varepsilon> 0) \\ = {} & \ Pr (\ varepsilon> -X ^ {T} \ beta) \\ = {} & \ Pr (\ varepsilon

Estimación del modelo

Estimación de máxima verosimilitud

Suponga un conjunto de datos ${\ Displaystyle \ {y_ {i}, x_ {i} \} _ {i = 1} ^ {n}}$ contiene n unidades estadísticas independientes correspondientes al modelo anterior.

Para la observación única, condicionada al vector de entradas de esa observación, tenemos:

{\ Displaystyle Pr (y_ {i} = 1 | x_ {i}) = \ Phi (x_ {i} '\ beta)}

^{[ aclaración necesaria ]}

{\ Displaystyle Pr (y_ {i} = 0 | x_ {i}) = 1- \ Phi (x_ {i} '\ beta)}

dónde ${\ Displaystyle x_ {i}}$ es un vector de ${\ Displaystyle K \ times 1}$ entradas, y ${\ Displaystyle \ beta}$ es un ${\ Displaystyle K \ times 1}$ vector de coeficientes.

La probabilidad de una sola observación ${\ Displaystyle (y_ {i}, x_ {i})}$ es entonces

{\ Displaystyle {\ mathcal {L}} (\ beta; y_ {i}, x_ {i}) = \ Phi (x_ {i} '\ beta) ^ {y_ {i}} [1- \ Phi (x_ {i} '\ beta)] ^ {(1-y_ {i})}}

De hecho, si ${\ Displaystyle y_ {i} = 1}$ , luego ${\ Displaystyle {\ mathcal {L}} (\ beta; y_ {i}, x_ {i}) = \ Phi (x_ {i} '\ beta)}$ , y si ${\ Displaystyle y_ {i} = 0}$ , luego ${\ Displaystyle {\ mathcal {L}} (\ beta; y_ {i}, x_ {i}) = 1- \ Phi (x_ {i} '\ beta)}$ .

Dado que las observaciones son independientes y están distribuidas de manera idéntica, entonces la probabilidad de toda la muestra, o la probabilidad conjunta , será igual al producto de las probabilidades de las observaciones individuales:

{\ Displaystyle {\ mathcal {L}} (\ beta; Y, X) = \ prod _ {i = 1} ^ {n} \ left (\ Phi (x_ {i} '\ beta) ^ {y_ {i }} [1- \ Phi (x_ {i} '\ beta)] ^ {(1-y_ {i})} \ right)}

La función de probabilidad logarítmica conjunta es por tanto

{\ Displaystyle \ ln {\ mathcal {L}} (\ beta; Y, X) = \ sum _ {i = 1} ^ {n} {\ bigg (} y_ {i} \ ln \ Phi (x_ {i } '\ beta) + (1-y_ {i}) \ ln \! {\ big (} 1- \ Phi (x_ {i}' \ beta) {\ big)} {\ bigg)}}

El estimador ${\ Displaystyle {\ hat {\ beta}}}$ que maximiza esta función será consistente , asintóticamente normal y eficiente siempre que E [ XX ' ] exista y no sea singular. Se puede demostrar que esta función logarítmica de verosimilitud es cóncava globalmente en β y, por lo tanto, los algoritmos numéricos estándar para la optimización convergerán rápidamente al máximo único.

Distribución asintótica para ${\ Displaystyle {\ hat {\ beta}}}$ es dado por

{\ displaystyle {\ sqrt {n}} ({\ hat {\ beta}} - \ beta) \ {\ xrightarrow {d}} \ {\ mathcal {N}} (0, \, \ Omega ^ {- 1 }),}

dónde

{\ Displaystyle \ Omega = \ operatorname {E} {\ bigg [} {\ frac {\ varphi ^ {2} (X '\ beta)} {\ Phi (X' \ beta) (1- \ Phi (X ') \ beta))}} XX '{\ bigg]}, \ qquad {\ hat {\ Omega}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} {\ frac {\ varphi ^ {2} (x '_ {i} {\ hat {\ beta}})} {\ Phi (x' _ {i} {\ hat {\ beta}}) (1- \ Phi (x '_ {i} {\ hat {\ beta}}))}} x_ {i} x' _ {i},}

y ${\ Displaystyle \ varphi = \ Phi '}$ es la función de densidad de probabilidad ( PDF ) de la distribución normal estándar.

También se encuentran disponibles métodos semiparamétricos y no paramétricos de máxima verosimilitud para modelos probit y otros modelos relacionados. ^[4]

Método de chi-cuadrado mínimo de Berkson

Este método se puede aplicar solo cuando hay muchas observaciones de la variable de respuesta ${\ Displaystyle y_ {i}}$ teniendo el mismo valor del vector de regresores ${\ Displaystyle x_ {i}}$ (esta situación puede denominarse "muchas observaciones por celda"). Más específicamente, el modelo se puede formular como sigue.

Supongamos que entre n observaciones ${\ Displaystyle \ {y_ {i}, x_ {i} \} _ {i = 1} ^ {n}}$ solo hay T valores distintos de los regresores, que se pueden denotar como ${\ Displaystyle \ {x _ {(1)}, \ ldots, x _ {(T)} \}}$ . Dejar ${\ Displaystyle n_ {t}}$ ser el número de observaciones con ${\ Displaystyle x_ {i} = x _ {(t)},}$ y ${\ Displaystyle r_ {t}}$ el número de tales observaciones con ${\ Displaystyle y_ {i} = 1}$ . Suponemos que de hecho hay "muchas" observaciones por cada "celda": para cada ${\ Displaystyle t, \ lim _ {n \ rightarrow \ infty} n_ {t} / n = c_ {t}> 0}$ .

Denotar

{\ Displaystyle {\ hat {p}} _ {t} = r_ {t} / n_ {t}}

{\ Displaystyle {\ hat {\ sigma}} _ {t} ^ {2} = {\ frac {1} {n_ {t}}} {\ frac {{\ hat {p}} _ {t} (1 - {\ hat {p}} _ {t})} {\ varphi ^ {2} {\ big (} \ Phi ^ {- 1} ({\ hat {p}} _ {t}) {\ big) }}}}

Entonces, el estimador de chi-cuadrado mínimo de Berkson es un estimador de mínimos cuadrados generalizado en una regresión de ${\ Displaystyle \ Phi ^ {- 1} ({\ hat {p}} _ {t})}$ en ${\ Displaystyle x _ {(t)}}$ con pesas ${\ Displaystyle {\ hat {\ sigma}} _ {t} ^ {- 2}}$ :

{\ Displaystyle {\ hat {\ beta}} = {\ Bigg (} \ sum _ {t = 1} ^ {T} {\ hat {\ sigma}} _ {t} ^ {- 2} x _ {(t )} x '_ {(t)} {\ Bigg)} ^ {- 1} \ sum _ {t = 1} ^ {T} {\ hat {\ sigma}} _ {t} ^ {- 2} x_ {(t)} \ Phi ^ {- 1} ({\ hat {p}} _ {t})}

Se puede demostrar que este estimador es consistente (como n → ∞ y T fijo), asintóticamente normal y eficiente. ^{[ cita requerida ]} Su ventaja es la presencia de una fórmula de forma cerrada para el estimador. Sin embargo, solo tiene sentido realizar este análisis cuando las observaciones individuales no están disponibles, solo sus recuentos agregados ${\ Displaystyle r_ {t}}$ , ${\ Displaystyle n_ {t}}$ , y ${\ Displaystyle x _ {(t)}}$ (por ejemplo, en el análisis del comportamiento electoral).

Muestreo de Gibbs

El muestreo de Gibbs de un modelo probit es posible porque los modelos de regresión suelen utilizar distribuciones previas normales sobre las ponderaciones, y esta distribución se conjuga con la distribución normal de los errores (y, por tanto, de las variables latentes Y ^* ). El modelo se puede describir como

{\ displaystyle {\ begin {alineado} {\ boldsymbol {\ beta}} & \ sim {\ mathcal {N}} (\ mathbf {b} _ {0}, \ mathbf {B} _ {0}) \\ [3pt] y_ {i} ^ {\ ast} \ mid \ mathbf {x} _ {i}, {\ boldsymbol {\ beta}} & \ sim {\ mathcal {N}} (\ mathbf {x} '_ {i} {\ boldsymbol {\ beta}}, 1) \\ [3pt] y_ {i} & = {\ begin {cases} 1 & {\ text {if}} y_ {i} ^ {\ ast}> 0 \\ 0 & {\ text {de lo contrario}} \ end {cases}} \ end {alineado}}}

A partir de esto, podemos determinar las densidades condicionales completas necesarias:

{\ Displaystyle {\ begin {alineado} \ mathbf {B} & = (\ mathbf {B} _ {0} ^ {- 1} + \ mathbf {X} '\ mathbf {X}) ^ {- 1} \ \ [3pt] {\ boldsymbol {\ beta}} \ mid \ mathbf {y} ^ {\ ast} & \ sim {\ mathcal {N}} (\ mathbf {B} (\ mathbf {B} _ {0} ^ {- 1} \ mathbf {b} _ {0} + \ mathbf {X} '\ mathbf {y} ^ {\ ast}), \ mathbf {B}) \\ [3pt] y_ {i} ^ { \ ast} \ mid y_ {i} = 0, \ mathbf {x} _ {i}, {\ boldsymbol {\ beta}} & \ sim {\ mathcal {N}} (\ mathbf {x} '_ {i } {\ boldsymbol {\ beta}}, 1) [y_ {i} ^ {\ ast} <0] \\ [3pt] y_ {i} ^ {\ ast} \ mid y_ {i} = 1, \ mathbf {x} _ {i}, {\ boldsymbol {\ beta}} & \ sim {\ mathcal {N}} (\ mathbf {x} '_ {i} {\ boldsymbol {\ beta}}, 1) [y_ {i} ^ {\ ast} \ geq 0] \ end {alineado}}}

El resultado para β se da en el artículo sobre regresión lineal bayesiana , aunque se especifica con una notación diferente.

El único truco está en las dos últimas ecuaciones. La notación ${\ Displaystyle [y_ {i} ^ {\ ast} <0]}$ es el corchete de Iverson , a veces escrito ${\ Displaystyle {\ mathcal {I}} (y_ {i} ^ {\ ast} <0)}$ o similar. Indica que la distribución debe truncarse dentro del rango dado y reescalarse apropiadamente. En este caso particular, surge una distribución normal truncada . El muestreo de esta distribución depende de cuánto se trunca. Si queda una gran fracción de la masa original, el muestreo se puede realizar fácilmente con muestreo de rechazo, simplemente muestrear un número de la distribución no truncada y rechazarlo si queda fuera de la restricción impuesta por el truncamiento. Sin embargo, si se toma una muestra de solo una pequeña fracción de la masa original (por ejemplo, si se toma una muestra de una de las colas de la distribución normal, por ejemplo, si ${\ Displaystyle \ mathbf {x} '_ {i} {\ boldsymbol {\ beta}}}$ es alrededor de 3 o más, y se desea una muestra negativa), entonces esto será ineficiente y será necesario recurrir a otros algoritmos de muestreo. El muestreo general de la normal truncada se puede lograr utilizando aproximaciones a la CDF normal y la función probit , y R tiene una función rtnorm()para generar muestras normales truncadas.

Evaluación del modelo

La idoneidad de un modelo binario estimado se puede evaluar contando el número de observaciones verdaderas igual a 1 y el número igual a cero, para lo cual el modelo asigna una clasificación predicha correcta al tratar cualquier probabilidad estimada superior a 1/2 (o inferior a 1 /). 2), como una asignación de una predicción de 1 (o de 0). Consulte Regresión logística § Adecuación del modelo para obtener más detalles.

Rendimiento bajo especificación incorrecta

Considere la formulación del modelo de variable latente del modelo probit. Cuando la varianza de ${\ Displaystyle \ varepsilon}$ condicionado a ${\ Displaystyle x}$ no es constante sino dependiente de ${\ Displaystyle x}$ , entonces surge el problema de la heterocedasticidad . Por ejemplo, suponga ${\ Displaystyle y ^ {*} = \ beta _ {0} + B_ {1} x_ {1} + \ varepsilon}$ y ${\ Displaystyle \ varepsilon \ mid x \ sim N (0, x_ {1} ^ {2})}$ dónde ${\ Displaystyle x_ {1}}$ es una variable explicativa positiva continua. Bajo heterocedasticidad, el estimador probit para ${\ Displaystyle \ beta}$ suele ser inconsistente y la mayoría de las pruebas sobre los coeficientes no son válidas. Más importante aún, el estimador de ${\ Displaystyle P (y = 1 \ mid x)}$ también se vuelve inconsistente. Para hacer frente a este problema, el modelo original debe transformarse para que sea homocedástico. Por ejemplo, en el mismo ejemplo, ${\ Displaystyle 1 [\ beta _ {0} + \ beta _ {1} x_ {1} + \ varepsilon> 0]}$ se puede reescribir como ${\ Displaystyle 1 [\ beta _ {0} / x_ {1} + \ beta _ {1} + \ varepsilon / x_ {1}> 0]}$ , dónde ${\ Displaystyle \ varepsilon / x_ {1} \ mid x \ sim N (0,1)}$ . Por lo tanto, ${\ Displaystyle P (y = 1 \ mid x) = \ Phi (\ beta _ {1} + \ beta _ {0} / x_ {1})}$ y ejecutando probit en ${\ Displaystyle (1,1 / x_ {1})}$ genera un estimador consistente para la probabilidad condicional ${\ Displaystyle P (y = 1 \ mid x).}$

Cuando la suposición de que ${\ Displaystyle \ varepsilon}$ se distribuye normalmente no se mantiene, entonces surge un problema de especificación incorrecta de la forma funcional : si el modelo todavía se estima como un modelo probit, los estimadores de los coeficientes ${\ Displaystyle \ beta}$ son inconsistentes. Por ejemplo, si ${\ Displaystyle \ varepsilon}$ sigue una distribución logística en el modelo real, pero el modelo se estima mediante probit, las estimaciones serán generalmente más pequeñas que el valor real. Sin embargo, la inconsistencia de las estimaciones de los coeficientes es prácticamente irrelevante porque las estimaciones de los efectos parciales , ${\ Displaystyle \ P parcial (y = 1 \ mid x) / \ Parcial x_ {i '}}$ , estará cerca de las estimaciones dadas por el modelo logit verdadero. ^[5]

Para evitar el problema de la especificación incorrecta de la distribución, se puede adoptar un supuesto de distribución general para el término de error, de modo que se puedan incluir muchos tipos diferentes de distribución en el modelo. El costo es un cálculo más pesado y una menor precisión por el aumento del número de parámetros. ^[6] En la mayoría de los casos en la práctica donde la forma de distribución está mal especificada, los estimadores de los coeficientes son inconsistentes, pero los estimadores de la probabilidad condicional y los efectos parciales siguen siendo muy buenos. ^{[ cita requerida ]}

También se pueden adoptar enfoques semiparamétricos o no paramétricos, por ejemplo, a través de métodos de verosimilitud local o de cuasi-verosimilitud no paramétrica, que evitan suposiciones en una forma paramétrica para la función índice y son robustos a la elección de la función de enlace (por ejemplo, probit o logit). ^[4]

Historia

El modelo probit generalmente se le atribuye a Chester Bliss , quien acuñó el término "probit" en 1934, ^[7] ya John Gaddum (1933), quien sistematizó trabajos anteriores. ^[8] Sin embargo, el modelo básico data de la ley Weber-Fechner de Gustav Fechner , publicada en Fechner (1860), y fue redescubierto repetidamente hasta la década de 1930; ver Finney (1971 , Capítulo 3.6) y Aitchison & Brown (1957 , Capítulo 1.2). ^[8]

Ronald Fisher propuso un método rápido para calcular estimaciones de máxima verosimilitud para el modelo probit como apéndice del trabajo de Bliss en 1935. ^[9]

Ver también

Modelo lineal generalizado
Variable dependiente limitada
Modelo logit
Probit multinomial
Modelos probit multivariados
Probit ordenado y modelo logit ordenado
Separación (estadísticas)
Modelo Tobit

Referencias

^ Diccionario de inglés de Oxford , 3ª ed. sv probit (artículo de junio de 2007): Bliss, CI (1934). "El método de los probits". Ciencia . 79 (2037): 38–39. doi : 10.1126 / science.79.2037.38 . PMID 17813446 . Estas unidades de probabilidad arbitrarias se han denominado "probits".
^ Agresti, Alan (2015). Fundamentos de modelos lineales y lineales generalizados . Nueva York: Wiley. págs. 183–186. ISBN 978-1-118-73003-4.
^ Aldrich, John H .; Nelson, Forrest D .; Adler, E. Scott (1984). Modelos de probabilidad lineal, logit y probit . Sabio. págs. 48–65. ISBN 0-8039-2133-0.
^ a b Park, Byeong U .; Simar, Léopold; Zelenyuk, Valentin (2017). "Estimación no paramétrica de modelos dinámicos de elección discreta para datos de series de tiempo" (PDF) . Estadísticas computacionales y análisis de datos . 108 : 97-120. doi : 10.1016 / j.csda.2016.10.024 .
^ Greene, WH (2003), Análisis econométrico, Prentice Hall, Upper Saddle River, Nueva Jersey.
^ Para más detalles, consulte: Cappé, O., Moulines, E. y Ryden, T. (2005): “Inference in Hidden Markov Models”, Springer-Verlag New York, Capítulo 2.
^ Felicidad, CI (1934). "El método de los probits". Ciencia . 79 (2037): 38–39. doi : 10.1126 / science.79.2037.38 . PMID 17813446 .
↑ a b Cramer , 2002 , p. 7.
^ Fisher, RA (1935). "El caso de supervivientes cero en ensayos Probit" . Annals of Applied Biology . 22 : 164-165. doi : 10.1111 / j.1744-7348.1935.tb07713.x . Archivado desde el original el 30 de abril de 2014.

Cramer, JS (2002). Los orígenes de la regresión logística (PDF) (Informe técnico). 119 . Instituto Tinbergen. págs. 167-178. doi : 10.2139 / ssrn.360300 .
- Publicado en: Cramer, JS (2004). "Los primeros orígenes del modelo logit". Estudios de Historia y Filosofía de la Ciencia Parte C: Estudios de Historia y Filosofía de las Ciencias Biológicas y Biomédicas . 35 (4): 613–626. doi : 10.1016 / j.shpsc.2004.09.003 .
Finney, DJ (1971). Análisis probit .

Otras lecturas

Albert, JH; Chib, S. (1993). "Análisis bayesiano de datos de respuesta binaria y policotómica". Revista de la Asociación Estadounidense de Estadística . 88 (422): 669–679. doi : 10.1080 / 01621459.1993.10476321 . JSTOR 2290350 .
Amemiya, Takeshi (1985). "Modelos de respuesta cualitativa" . Econometría avanzada . Oxford: Basil Blackwell. págs. 267–359. ISBN 0-631-13345-3.
Gouriéroux, Christian (2000). "La dicotomía simple" . Econometría de variables dependientes cualitativas . Nueva York: Cambridge University Press. págs. 6-37. ISBN 0-521-58985-1.
Liao, Tim Futing (1994). Interpretación de modelos de probabilidad: logit, probit y otros modelos lineales generalizados . Sabio. ISBN 0-8039-4999-5.
McCullagh, Peter ; John Nelder (1989). Modelos lineales generalizados . Londres: Chapman y Hall. ISBN 0-412-31760-5.

enlaces externos

Medios relacionados con el modelo Probit en Wikimedia Commons
Conferencia de econometría (tema: modelo Probit) en YouTube por Mark Thoma

[1] Diccionario de inglés de Oxford , 3ª ed. sv probit (artículo de junio de 2007): Bliss, CI (1934). "El método de los probits". Ciencia . 79 (2037): 38–39. doi : 10.1126 / science.79.2037.38 . PMID 17813446 . Estas unidades de probabilidad arbitrarias se han denominado "probits".

[2] Agresti, Alan (2015). Fundamentos de modelos lineales y lineales generalizados . Nueva York: Wiley. págs. 183–186. ISBN 978-1-118-73003-4.

[3] Aldrich, John H .; Nelson, Forrest D .; Adler, E. Scott (1984). Modelos de probabilidad lineal, logit y probit . Sabio. págs. 48–65. ISBN 0-8039-2133-0.

[sciencedirect.com-4] Park, Byeong U .; Simar, Léopold; Zelenyuk, Valentin (2017). "Estimación no paramétrica de modelos dinámicos de elección discreta para datos de series de tiempo" (PDF) . Estadísticas computacionales y análisis de datos . 108 : 97-120. doi : 10.1016 / j.csda.2016.10.024 .

[5] Greene, WH (2003), Análisis econométrico, Prentice Hall, Upper Saddle River, Nueva Jersey.

[6] Para más detalles, consulte: Cappé, O., Moulines, E. y Ryden, T. (2005): “Inference in Hidden Markov Models”, Springer-Verlag New York, Capítulo 2.

[7] Felicidad, CI (1934). "El método de los probits". Ciencia . 79 (2037): 38–39. doi : 10.1126 / science.79.2037.38 . PMID 17813446 .

[FOOTNOTECramer20027-8] Cramer , 2002 , p. 7.

[9] Fisher, RA (1935). "El caso de supervivientes cero en ensayos Probit" . Annals of Applied Biology . 22 : 164-165. doi : 10.1111 / j.1744-7348.1935.tb07713.x . Archivado desde el original el 30 de abril de 2014.

[1]