Regresión binomial

En estadística , la regresión binomial es una técnica de análisis de regresión en la que la respuesta (a menudo denominada Y ) tiene una distribución binomial : es el número de éxitos en una serie de ${\ Displaystyle n}$ Ensayos independientes de Bernoulli , donde cada ensayo tiene probabilidad de éxito. ${\ Displaystyle p}$ . ^[1] En la regresión binomial, la probabilidad de éxito está relacionada con las variables explicativas : el concepto correspondiente en la regresión ordinaria es relacionar el valor medio de la respuesta no observada con las variables explicativas.

La regresión binomial está estrechamente relacionada con la regresión binaria : si la respuesta es una variable binaria (dos posibles resultados), entonces se puede considerar como una distribución binomial con ${\ Displaystyle n = 1}$ ensayo considerando uno de los resultados como "éxito" y el otro como "fracaso", contando los resultados como 1 o 0: contando un éxito como 1 éxito de 1 ensayo y contando un fracaso como 0 éxitos de 1 ensayo . Los modelos de regresión binomial son esencialmente los mismos que los modelos de elección binaria , un tipo de modelo de elección discreta . La principal diferencia está en la motivación teórica.

En el aprendizaje automático , la regresión binomial se considera un caso especial de clasificación probabilística y, por lo tanto, una generalización de la clasificación binaria .

Aplicación de ejemplo

En un ejemplo publicado de una aplicación de regresión binomial, ^[2] los detalles fueron los siguientes. La variable de resultado observada fue si ocurrió o no una falla en un proceso industrial. Había dos variables explicativas: la primera era un factor simple de dos casos que representaba si se utilizó o no una versión modificada del proceso y la segunda era una variable cuantitativa ordinaria que medía la pureza del material que se suministraba para el proceso.

Especificación del modelo

La variable de respuesta Y se supone que se binomialmente distribuido condicional en las variables explicativas X . Se conoce el número de ensayos n , y la probabilidad de éxito de cada ensayo p se especifica como una función θ (X) . Esto implica que la expectativa condicional y la varianza condicional de la fracción observada de éxitos, Y / n , son

{\ Displaystyle E (Y / n \ mid X) = \ theta (X)}

{\ Displaystyle \ operatorname {Var} (Y / n \ mid X) = \ theta (X) (1- \ theta (X)) / n}

El objetivo de la regresión binomial es estimar la función θ (X) . Normalmente, el estadístico asume ${\ Displaystyle \ theta (X) = m (\ beta ^ {\ mathrm {T}} X)}$ , para una función conocida m , y estima β . Las opciones comunes para m incluyen la función logística . ^[1]

Los datos a menudo se ajustan como un modelo lineal generalizado donde los valores predichos μ son las probabilidades de que cualquier evento individual resulte en un éxito. La probabilidad de las predicciones viene dada por

{\ Displaystyle L ({\ boldsymbol {\ mu}} \ mid Y) = \ prod _ {i = 1} ^ {n} \ left (1_ {y_ {i} = 1} (\ mu _ {i}) + 1_ {y_ {i} = 0} (1- \ mu _ {i}) \ derecha), \, \!}

donde 1 _A es la función indicadora que toma el valor uno cuando ocurre el evento A , y cero en caso contrario: en esta formulación, para cualquier observación dada y _i , solo uno de los dos términos dentro del producto contribuye, según y _i = 0 o 1. La función de verosimilitud se especifica más completamente definiendo los parámetros formales μ _i como funciones parametrizadas de las variables explicativas: esto define la verosimilitud en términos de un número muy reducido de parámetros. El ajuste del modelo generalmente se logra empleando el método de máxima probabilidad para determinar estos parámetros. En la práctica, el uso de una formulación como modelo lineal generalizado permite aprovechar ciertas ideas algorítmicas que son aplicables a toda la clase de modelos más generales, pero que no se aplican a todos los problemas de máxima verosimilitud.

Los modelos utilizados en la regresión binomial a menudo pueden extenderse a datos multinomiales.

Existen muchos métodos para generar los valores de μ de manera sistemática que permiten la interpretación del modelo; se analizan a continuación.

Funciones de enlace

Existe el requisito de que el modelo que vincula las probabilidades μ con las variables explicativas debe ser de una forma que solo produzca valores en el rango de 0 a 1. Se pueden ajustar muchos modelos en la forma

{\ displaystyle {\ boldsymbol {\ mu}} = g ({\ boldsymbol {\ eta}}) \ ,.}

Aquí η es una variable intermedia que representa una combinación lineal, que contiene los parámetros de regresión, de las variables explicativas. La función g es la función de distribución acumulativa (CDF) de alguna distribución de probabilidad . Por lo general, esta distribución de probabilidad tiene un soporte de menos infinito a más infinito, de modo que cualquier valor finito de η es transformado por la función g en un valor dentro del rango de 0 a 1.

En el caso de la regresión logística , la función de enlace es el logaritmo de la razón de posibilidades o la función logística . En el caso de probit , el enlace es el CDF de la distribución normal . El modelo de probabilidad lineal no es una especificación de regresión binomial adecuada porque las predicciones no necesitan estar en el rango de cero a uno; a veces se usa para este tipo de datos cuando el espacio de probabilidad es donde ocurre la interpretación o cuando el analista carece de la sofisticación suficiente para ajustar o calcular linealizaciones aproximadas de probabilidades para la interpretación.

Comparación entre regresión binomial y modelos de elección binaria

Un modelo de elección binaria supone una variable latente U _n , la utilidad (o beneficio neto) que la persona n obtiene al realizar una acción (en lugar de no realizarla). La utilidad que obtiene la persona al realizar la acción depende de las características de la persona, algunas de las cuales son observadas por el investigador y otras no:

{\ Displaystyle U_ {n} = {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}} + \ varepsilon _ {n}}

dónde ${\ displaystyle {\ boldsymbol {\ beta}}}$ es un conjunto de coeficientes de regresión y ${\ Displaystyle \ mathbf {s_ {n}}}$ es un conjunto de variables independientes (también conocidas como "características") que describen a la persona n , que pueden ser " variables ficticias " discretas o variables continuas regulares. ${\ Displaystyle \ varepsilon _ {n}}$ es una variable aleatoria que especifica "ruido" o "error" en la predicción, que se supone que se distribuye de acuerdo con alguna distribución. Normalmente, si hay una media o un parámetro de varianza en la distribución, no se puede identificar , por lo que los parámetros se establecen en valores convenientes; por convención generalmente significan 0, varianza 1.

La persona realiza la acción, y _n = 1 , si U _n > 0. Se supone que el término no observado, ε _n , tiene una distribución logística .

La especificación se escribe sucintamente como:

- U _n = βs _n + ε _n
- ${\ Displaystyle Y_ {n} = {\ begin {cases} 1, & {\ text {if}} U_ {n}> 0, \\ 0, & {\ text {if}} U_ {n} \ leq 0 \ end {cases}}}$
- ε ∼ logístico , estándar normal , etc.

Escribámoslo de manera ligeramente diferente:

- U _n = βs _n - e _n
- ${\ Displaystyle Y_ {n} = {\ begin {cases} 1, & {\ text {if}} U_ {n}> 0, \\ 0, & {\ text {if}} U_ {n} \ leq 0 \ end {cases}}}$
- e ∼ logístico , estándar normal , etc.

Aquí hemos hecho la sustitución e _n = - ε _n . Esto cambia una variable aleatoria a una ligeramente diferente, definida sobre un dominio negado. Da la casualidad de que las distribuciones de error que solemos considerar (por ejemplo , distribución logística , distribución normal estándar, distribución t de Student estándar , etc.) son simétricas alrededor de 0 y, por tanto, la distribución sobre e _n es idéntica a la distribución sobre ε _n .

Denote la función de distribución acumulativa (CDF) de ${\ Displaystyle e}$ como ${\ Displaystyle F_ {e},}$ y la función cuantil (CDF inversa) de ${\ Displaystyle e}$ como ${\ displaystyle F_ {e} ^ {- 1}.}$

Tenga en cuenta que

{\ Displaystyle {\ begin {alineado} \ Pr (Y_ {n} = 1) & = \ Pr (U_ {n}> 0) \\ [6pt] & = \ Pr ({\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}} -e_ {n}> 0) \\ [6pt] & = \ Pr (-e_ {n}> - {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n }}) \\ [6pt] & = \ Pr (e_ {n} \ leq {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}) \\ [6pt] & = F_ {e} ( {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}) \ end {alineado}}}

Desde ${\ Displaystyle Y_ {n}}$ es un ensayo de Bernoulli , donde ${\ Displaystyle \ mathbb {E} [Y_ {n}] = \ Pr (Y_ {n} = 1),}$ tenemos

{\ Displaystyle \ mathbb {E} [Y_ {n}] = F_ {e} ({\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}})}

o equivalente

{\ Displaystyle F_ {e} ^ {- 1} (\ mathbb {E} [Y_ {n}]) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}.}

Tenga en cuenta que esto es exactamente equivalente al modelo de regresión binomial expresado en el formalismo del modelo lineal generalizado .

Si ${\ Displaystyle e_ {n} \ sim {\ mathcal {N}} (0,1),}$ es decir, distribuido como una distribución normal estándar , entonces

{\ Displaystyle \ Phi ^ {- 1} (\ mathbb {E} [Y_ {n}]) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}}

que es exactamente un modelo probit .

Si ${\ Displaystyle e_ {n} \ sim \ operatorname {Logística} (0,1),}$ es decir, distribuida como una distribución logística estándar con media 0 y parámetro de escala 1, entonces la función cuantil correspondiente es la función logit , y

{\ Displaystyle \ operatorname {logit} (\ mathbb {E} [Y_ {n}]) = {\ boldsymbol {\ beta}} \ cdot \ mathbf {s_ {n}}}

que es exactamente un modelo logit .

Tenga en cuenta que los dos formalismos diferentes, modelos lineales generalizados (GLM) y modelos de elección discreta , son equivalentes en el caso de modelos de elección binaria simple, pero pueden extenderse de diferentes maneras:

Los GLM pueden manejar fácilmente variables de respuesta distribuidas arbitrariamente ( variables dependientes ), no solo variables categóricas o variables ordinales , a las que los modelos de elección discreta están limitados por su naturaleza. Los GLM tampoco se limitan a funciones de enlace que son funciones cuantílicas de alguna distribución, a diferencia del uso de una variable de error , que por supuesto debe tener una distribución de probabilidad .
Por otro lado, debido a que los modelos de elección discreta se describen como tipos de modelos generativos , es conceptualmente más fácil extenderlos a situaciones complicadas con opciones múltiples, posiblemente correlacionadas, para cada persona u otras variaciones.

Interpretación / derivación de variables latentes

Se puede construir un modelo de variable latente que involucre una variable binomial observada Y de manera que Y esté relacionada con la variable latente Y * a través de

{\ displaystyle Y = {\ begin {cases} 0, & {\ mbox {if}} Y ^ {*}> 0 \\ 1, & {\ mbox {if}} Y ^ {*} <0. \ end {casos}}}

La variable latente Y * se relaciona luego con un conjunto de variables de regresión X por el modelo

{\ Displaystyle Y ^ {*} = X \ beta + \ epsilon \.}

Esto da como resultado un modelo de regresión binomial.

La varianza de ϵ no se puede identificar y, cuando no es de interés, a menudo se asume que es igual a uno. Si ϵ tiene una distribución normal, entonces un probit es el modelo apropiado y si ϵ tiene una distribución log-Weibull , entonces un logit es apropiado. Si ϵ se distribuye uniformemente, entonces es apropiado un modelo de probabilidad lineal.

Ver también

Modelo de probabilidad lineal
Regresión de Poisson
Modelado predictivo

Notas

↑ a b Sanford Weisberg (2005). "Regresión binomial". Regresión lineal aplicada . Wiley-IEEE. pp. 253 -254. ISBN 0-471-66379-4.
^ Cox y Snell (1981), Ejemplo H, p. 91

Referencias

Cox, RD ; Snell, EJ (1981). Estadística aplicada: principios y ejemplos . Chapman y Hall. ISBN 0-412-16570-8.

Otras lecturas

Dean, CB (1992). "Pruebas de sobredispersión en modelos de regresión binomial y de Poisson". Revista de la Asociación Estadounidense de Estadística . Informa UK Limited. 87 (418): 451–457. doi : 10.1080 / 01621459.1992.10475225 . ISSN 0162-1459 . JSTOR 2290276 .

[Weisberg-1] Sanford Weisberg (2005). "Regresión binomial". Regresión lineal aplicada . Wiley-IEEE. pp. 253 -254. ISBN 0-471-66379-4.

[2] Cox y Snell (1981), Ejemplo H, p. 91

[1]