Distribución beta-binomial

En teoría de probabilidad y estadística , la distribución beta-binomial es una familia de distribuciones de probabilidad discretas sobre un soporte finito de enteros no negativos que surgen cuando la probabilidad de éxito en cada uno de un número fijo o conocido de ensayos de Bernoulli es desconocida o aleatoria. La distribución binomial beta es la distribución binomial en la que la probabilidad de éxito en cada uno de los n ensayos no es fija, sino que se extrae aleatoriamente de una distribución beta . Se utiliza con frecuencia en estadísticas bayesianas , métodos empíricos de Bayes yestadística clásica para capturar la sobredispersión en datos distribuidos de tipo binomial.

Función de probabilidad
Función de distribución acumulativa
Parámetros	n ∈ N ₀ - número de intentos ${\ Displaystyle \ alpha> 0}$ ( real ) ${\ Displaystyle \ beta> 0}$ ( real )
Apoyo	k ∈ {0,…, n }
PMF	${\ Displaystyle {\ binom {n} {k}} {\ frac {\ mathrm {B} (k + \ alpha, n-k + \ beta)} {\ mathrm {B} (\ alpha, \ beta)}} \ !}$
CDF	${\ Displaystyle {\ begin {cases} 0, & k <0 \\ {\ binom {n} {k}} {\ tfrac {\ mathrm {B} (k + \ alpha, n-k + \ beta)} {\ mathrm {B} (\ alpha, \ beta)}} {} _ {3} \! F_ {2} ({\ boldsymbol {a}}, {\ boldsymbol {b}}, k), & 0 \ leq k$ donde ₃F ₂ ( a , b , k) es la función hipergeométrica generalizada ${\ Displaystyle {} _ {3} \! F_ {2} (1, -k, n \! - \! k \! + \! \ beta; n \! - \! k \! - \! 1, 1 \! - \! K \! - \! \ Alpha; 1) \!}$
Significar	${\ displaystyle {\ frac {n \ alpha} {\ alpha + \ beta}} \!}$
Diferencia	${\ Displaystyle {\ frac {n \ alpha \ beta (\ alpha + \ beta + n)} {(\ alpha + \ beta) ^ {2} (\ alpha + \ beta +1)}} \!}$
Oblicuidad	${\ Displaystyle {\ tfrac {(\ alpha + \ beta + 2n) (\ beta - \ alpha)} {(\ alpha + \ beta +2)}} {\ sqrt {\ tfrac {1+ \ alpha + \ beta } {n \ alpha \ beta (n + \ alpha + \ beta)}}} \!}$
Ex. curtosis	Ver texto
MGF	${\ Displaystyle _ {2} F_ {1} (- n, \ alpha; \ alpha + \ beta; 1-e ^ {t}) \!}$ dónde ${\ Displaystyle _ {2} F_ {1}}$ es la función hipergeométrica
CF	${\ Displaystyle _ {2} F_ {1} (- n, \ alpha; \ alpha + \ beta; 1-e ^ {it}) \!}$
PGF	${\ Displaystyle _ {2} F_ {1} (- n, \ alpha; \ alpha + \ beta; 1-z) \!}$

Se reduce a la distribución de Bernoulli como un caso especial cuando n = 1. Para α = β = 1, es la distribución uniforme discreta de 0 an . También se aproxima arbitrariamente bien a la distribución binomial para α y β grandes . De manera similar, contiene la distribución binomial negativa en el límite con β y n grandes . El binomio beta es una versión unidimensional de la distribución de Dirichlet-multinomial, ya que las distribuciones binomial y beta son versiones univariadas de las distribuciones multinomial y de Dirichlet, respectivamente.

El caso especial en el que α y β son números enteros también se conoce como distribución hipergeométrica negativa .

Motivación y derivación

Como distribución compuesta

La distribución Beta es una distribución conjugada de la distribución binomial . Este hecho conduce a una distribución de compuestos analíticamente manejable donde uno puede pensar en la ${\ Displaystyle p}$ parámetro en la distribución binomial como extraído aleatoriamente de una distribución beta. Es decir, si

{\ Displaystyle X \ sim \ operatorname {Bin} (n, p)}

luego

{\ Displaystyle P (X = k \ mid p, n) = L (p \ mid k) = {n \ elige k} p ^ {k} (1-p) ^ {nk}}

donde Bin ( n , p ) representa la distribución binomial , y donde p es una variable aleatoria con una distribución beta .

{\ Displaystyle {\ begin {alineado} \ pi (p \ mid \ alpha, \ beta) & = \ mathrm {Beta} (\ alpha, \ beta) \\ [5pt] & = {\ frac {p ^ {\ alpha -1} (1-p) ^ {\ beta -1}} {\ mathrm {B} (\ alpha, \ beta)}} \ quad {\ text {para}} 0 \ leq p \ leq 1, \ final {alineado}}}

entonces la distribución compuesta viene dada por

{\ Displaystyle {\ begin {alineado} f (k \ mid n, \ alpha, \ beta) & = \ int _ {0} ^ {1} L (p \ mid k) \ pi (p \ mid \ alpha, \ beta) \, dp \\ [6pt] & = {n \ elija k} {\ frac {1} {\ mathrm {B} (\ alpha, \ beta)}} \ int _ {0} ^ {1} p ^ {k + \ alpha -1} (1-p) ^ {n-k + \ beta -1} \, dp \\ [6pt] & = {n \ elija k} {\ frac {\ mathrm {B} ( k + \ alpha, n-k + \ beta)} {\ mathrm {B} (\ alpha, \ beta)}}. \ end {alineado}}}

Usando las propiedades de la función beta , esto se puede escribir alternativamente

{\ Displaystyle f (k \ mid n, \ alpha, \ beta) = {\ frac {\ Gamma (n + 1)} {\ Gamma (k + 1) \ Gamma (n-k + 1)}} {\ frac {\ Gamma (k + \ alpha) \ Gamma (n-k + \ beta)} {\ Gamma (n + \ alpha + \ beta)}} {\ frac {\ Gamma (\ alpha + \ beta)} {\ Gamma ( \ alpha) \ Gamma (\ beta)}}.}

Beta-binomio como modelo de urna

La distribución beta-binomial también se puede motivar a través de un modelo de urna para valores enteros positivos de α y β , conocido como modelo de urna de Pólya . Específicamente, imagine una urna que contenga α bolas rojas y β bolas negras, donde se realizan sorteos aleatorios. Si se observa una bola roja, se devuelven dos bolas rojas a la urna. Del mismo modo, si se saca una bola negra, se devuelven dos bolas negras a la urna. Si esto se repite n veces, entonces la probabilidad de observar k bolas rojas sigue una distribución beta-binomial con parámetros n , α y β .

Si los sorteos aleatorios son con reemplazo simple (no se agregan a la urna bolas por encima de la bola observada), entonces la distribución sigue una distribución binomial y si los sorteos aleatorios se realizan sin reemplazo, la distribución sigue una distribución hipergeométrica .

Momentos y propiedades

Los primeros tres momentos crudos son

{\ Displaystyle {\ begin {alineado} \ mu _ {1} & = {\ frac {n \ alpha} {\ alpha + \ beta}} \\ [8pt] \ mu _ {2} & = {\ frac { n \ alpha [n (1+ \ alpha) + \ beta]} {(\ alpha + \ beta) (1+ \ alpha + \ beta)}} \\ [8pt] \ mu _ {3} & = {\ frac {n \ alpha [n ^ {2} (1+ \ alpha) (2+ \ alpha) + 3n (1+ \ alpha) \ beta + \ beta (\ beta - \ alpha)]} {(\ alpha + \ beta) (1+ \ alpha + \ beta) (2+ \ alpha + \ beta)}} \ end {alineado}}}

y la curtosis es

{\ Displaystyle \ beta _ {2} = {\ frac {(\ alpha + \ beta) ^ {2} (1+ \ alpha + \ beta)} {n \ alpha \ beta (\ alpha + \ beta +2) (\ alpha + \ beta +3) (\ alpha + \ beta + n)}} \ left [(\ alpha + \ beta) (\ alpha + \ beta -1 + 6n) +3 \ alpha \ beta (n- 2) + 6n ^ {2} - {\ frac {3 \ alpha \ beta n (6-n)} {\ alpha + \ beta}} - {\ frac {18 \ alpha \ beta n ^ {2}} { (\ alpha + \ beta) ^ {2}}} \ derecha].}

Dejando ${\ Displaystyle \ pi = {\ frac {\ alpha} {\ alpha + \ beta}} \!}$ notamos, sugestivamente, que la media puede escribirse como

{\ Displaystyle \ mu = {\ frac {n \ alpha} {\ alpha + \ beta}} = n \ pi \!}

y la varianza como

{\ Displaystyle \ sigma ^ {2} = {\ frac {n \ alpha \ beta (\ alpha + \ beta + n)} {(\ alpha + \ beta) ^ {2} (\ alpha + \ beta +1) }} = n \ pi (1- \ pi) {\ frac {\ alpha + \ beta + n} {\ alpha + \ beta +1}} = n \ pi (1- \ pi) [1+ (n- 1) \ rho] \!}

dónde ${\ Displaystyle \ rho = {\ tfrac {1} {\ alpha + \ beta +1}} \!}$ . El parámetro ${\ Displaystyle \ rho \!}$ se conoce como correlación "intraclase" o "intragrupo". Es esta correlación positiva la que da lugar a una dispersión excesiva.

Estimaciones puntuales

Método de momentos

El método de estimaciones de momentos se puede obtener observando el primer y segundo momento del binomio beta, a saber

{\ Displaystyle {\ begin {alineado} \ mu _ {1} & = {\ frac {n \ alpha} {\ alpha + \ beta}} \\ [6pt] \ mu _ {2} & = {\ frac { n \ alpha [n (1+ \ alpha) + \ beta]} {(\ alpha + \ beta) (1+ \ alpha + \ beta)}} \ end {alineado}}}

y establecer estos momentos sin procesar iguales a los momentos de muestra sin procesar primero y segundo respectivamente

{\ Displaystyle {\ begin {alineado} {\ widehat {\ mu}} _ {1} &: = m_ {1} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N } X_ {i} \\ [6pt] {\ widehat {\ mu}} _ {2} &: = m_ {2} = {\ frac {1} {N}} \ sum _ {i = 1} ^ { N} X_ {i} ^ {2} \ end {alineado}}}

y despejando α y β obtenemos

{\ Displaystyle {\ begin {alineado} {\ widehat {\ alpha}} & = {\ frac {nm_ {1} -m_ {2}} {n ({\ frac {m_ {2}} {m_ {1} }} - m_ {1} -1) + m_ {1}}} \\ [5pt] {\ widehat {\ beta}} & = {\ frac {(n-m_ {1}) (n - {\ frac {m_ {2}} {m_ {1}}})} {n ({\ frac {m_ {2}} {m_ {1}}} - m_ {1} -1) + m_ {1}}}. \ end {alineado}}}

Estas estimaciones pueden ser negativas sin sentido, lo que es evidencia de que los datos no están dispersos o no están dispersos en relación con la distribución binomial. En este caso, la distribución binomial y la distribución hipergeométrica son candidatos alternativos respectivamente.

Estimación de máxima verosimilitud

Si bien las estimaciones de máxima verosimilitud en forma cerrada no son prácticas, dado que el pdf consta de funciones comunes (función gamma y / o funciones Beta), se pueden encontrar fácilmente a través de la optimización numérica directa. Las estimaciones de máxima verosimilitud a partir de datos empíricos se pueden calcular utilizando métodos generales para ajustar distribuciones de Pólya multinomiales, métodos para los cuales se describen en (Minka 2003). El paquete R VGAM a través de la función vglm, vía máxima verosimilitud, facilita el ajuste de modelos de tipo glm con respuestas distribuidas según la distribución binomial beta. No es necesario que n sea fijo en todas las observaciones.

Ejemplo

Los siguientes datos dan el número de hijos varones entre los primeros 12 hijos del tamaño de la familia 13 en 6115 familias extraídas de los registros de hospitales en el siglo XIX en Sajonia (Sokal y Rohlf, p. 59 de Lindsey). El decimotercer hijo se ignora para mitigar el efecto de que las familias se detengan de forma no aleatoria cuando se alcanza el sexo deseado.

Machos	0	1	2	3	4	5	6	7	8	9	10	11	12
Familias	3	24	104	286	670	1033	1343	1112	829	478	181	45	7

Los dos primeros momentos de muestra son

{\ Displaystyle {\ begin {alineado} m_ {1} & = 6.23 \\ m_ {2} & = 42.31 \\ n & = 12 \ end {alineado}}}

y por lo tanto el método de estimaciones de momentos es

{\ displaystyle {\ begin {alineado} {\ widehat {\ alpha}} & = 34.1350 \\ {\ widehat {\ beta}} & = 31.6085. \ end {alineado}}}

Las estimaciones de máxima verosimilitud se pueden encontrar numéricamente

{\ Displaystyle {\ begin {alineado} {\ widehat {\ alpha}} _ {\ mathrm {mle}} & = 34.09558 \\ {\ widehat {\ beta}} _ {\ mathrm {mle}} & = 31.5715 \ final {alineado}}}

y la probabilidad logarítmica maximizada es

{\ Displaystyle \ log {\ mathcal {L}} = - 12492,9}

de donde encontramos el AIC

{\ Displaystyle {\ mathit {AIC}} = 24989,74.}

El AIC para el modelo binomial competidor es AIC = 25070.34 y, por lo tanto, vemos que el modelo beta-binomial proporciona un ajuste superior a los datos, es decir, hay evidencia de sobredispersión. Trivers y Willard postulan una justificación teórica para la heterogeneidad (también conocida como " explosión ") en la propensión al género entre la descendencia de mamíferos (es decir, sobredispersión).

El ajuste superior es evidente especialmente entre las colas.

Machos	0	1	2	3	4	5	6	7	8	9	10	11	12
Familias observadas	3	24	104	286	670	1033	1343	1112	829	478	181	45	7
Ajustado esperado (beta-binomial)	2.3	22,6	104,8	310,9	655,7	1036.2	1257,9	1182.1	853,6	461,9	177,9	43,8	5.2
Ajustado esperado (binomio p = 0,519215)	0,9	12,1	71,8	258,5	628,1	1085,2	1367.3	1265.6	854,2	410,0	132,8	26,1	2.3

Otras consideraciones bayesianas

Es conveniente volver a parametrizar las distribuciones para que la media esperada de la anterior sea un solo parámetro: Sea

{\ Displaystyle {\ begin {alineado} \ pi (\ theta \ mid \ mu, M) & = \ operatorname {Beta} (M \ mu, M (1- \ mu)) \\ [6pt] & = {\ frac {\ Gamma (M)} {\ Gamma (M \ mu) \ Gamma (M (1- \ mu))}} \ theta ^ {M \ mu -1} (1- \ theta) ^ {M (1 - \ mu) -1} \ end {alineado}}}

dónde

{\ Displaystyle {\ begin {alineado} \ mu & = {\ frac {\ alpha} {\ alpha + \ beta}} \\ [6pt] M & = \ alpha + \ beta \ end {alineado}}}

así que eso

{\ displaystyle {\ begin {alineado} \ operatorname {E} (\ theta \ mid \ mu, M) & = \ mu \\ [6pt] \ operatorname {Var} (\ theta \ mid \ mu, M) & = {\ frac {\ mu (1- \ mu)} {M + 1}}. \ end {alineado}}}

La distribución posterior ρ ( θ | k ) también es una distribución beta:

{\ Displaystyle {\ begin {alineado} \ rho (\ theta \ mid k) & \ propto \ ell (k \ mid \ theta) \ pi (\ theta \ mid \ mu, M) \\ [6pt] & = \ nombre de operador {Beta} (k + M \ mu, n-k + M (1- \ mu)) \\ [6pt] & = {\ frac {\ Gamma (M)} {\ Gamma (M \ mu) \ Gamma (M (1- \ mu))}} {n \ elija k} \ theta ^ {k + M \ mu -1} (1- \ theta) ^ {n-k + M (1- \ mu) -1 } \ end {alineado}}}

Y

{\ Displaystyle \ operatorname {E} (\ theta \ mid k) = {\ frac {k + M \ mu} {n + M}}.}

mientras que la distribución marginal m ( k | μ , M ) viene dada por

{\ Displaystyle {\ begin {alineado} m (k \ mid \ mu, M) & = \ int _ {0} ^ {1} \ ell (k \ mid \ theta) \ pi (\ theta \ mid \ mu, M) \, d \ theta \\ [6pt] & = {\ frac {\ Gamma (M)} {\ Gamma (M \ mu) \ Gamma (M (1- \ mu))}} {n \ elija k } \ int _ {0} ^ {1} \ theta ^ {k + M \ mu -1} (1- \ theta) ^ {n-k + M (1- \ mu) -1} \, d \ theta \\ [6pt] & = {\ frac {\ Gamma (M)} {\ Gamma (M \ mu) \ Gamma (M (1- \ mu))}} {n \ elija k} {\ frac {\ Gamma (k + M \ mu) \ Gamma (n-k + M (1- \ mu))} {\ Gamma (n + M)}}. \ end {alineado}}}

Sustituyendo de nuevo M y μ, en términos de ${\ Displaystyle \ alpha}$ y ${\ Displaystyle \ beta}$ , esto se convierte en:

{\ Displaystyle m (k \ mid \ alpha, \ beta) = {\ frac {\ Gamma (n + 1)} {\ Gamma (k + 1) \ Gamma (n-k + 1)}} {\ frac { \ Gamma (k + \ alpha) \ Gamma (n-k + \ beta)} {\ Gamma (n + \ alpha + \ beta)}} {\ frac {\ Gamma (\ alpha + \ beta)} {\ Gamma (\ alpha ) \ Gamma (\ beta)}}.}

cuál es la distribución beta-binomial esperada con parámetros ${\ Displaystyle n, \ alpha}$ y ${\ Displaystyle \ beta}$ .

También podemos usar el método de expectativas iteradas para encontrar el valor esperado de los momentos marginales. Escribamos nuestro modelo como un modelo de muestreo compuesto de dos etapas. Sea k _i el número de éxito de n _i ensayos para el evento i :

{\ Displaystyle {\ begin {alineado} k_ {i} & \ sim \ operatorname {Bin} (n_ {i}, \ theta _ {i}) \\ [6pt] \ theta _ {i} & \ sim \ operatorname {Beta} (\ mu, M), \ \ mathrm {iid} \ end {alineado}}}

Podemos encontrar estimaciones de momentos iterados para la media y la varianza utilizando los momentos para las distribuciones en el modelo de dos etapas:

{\ Displaystyle \ operatorname {E} \ left ({\ frac {k} {n}} \ right) = \ operatorname {E} \ left [\ operatorname {E} \ left (\ left. {\ frac {k} {n}} \ right | \ theta \ right) \ right] = \ operatorname {E} (\ theta) = \ mu}

{\ Displaystyle {\ begin {alineado} \ operatorname {var} \ left ({\ frac {k} {n}} \ right) & = \ operatorname {E} \ left [\ operatorname {var} \ left (\ left . {\ frac {k} {n}} \ right | \ theta \ right) \ right] + \ operatorname {var} \ left [\ operatorname {E} \ left (\ left. {\ frac {k} {n }} \ right | \ theta \ right) \ right] \\ [6pt] & = \ operatorname {E} \ left [\ left (\ left. {\ frac {1} {n}} \ right) \ theta ( 1- \ theta) \ right | \ mu, M \ right] + \ operatorname {var} \ left (\ theta \ mid \ mu, M \ right) \\ [6pt] & = {\ frac {1} {n }} \ izquierda (\ mu (1- \ mu) \ derecha) + {\ frac {n-1} {n}} {\ frac {(\ mu (1- \ mu))} {M + 1}} \\ [6pt] & = {\ frac {\ mu (1- \ mu)} {n}} \ left (1 + {\ frac {n-1} {M + 1}} \ right). \ End { alineado}}}

(Aquí hemos utilizado la ley de la expectativa total y la ley de la varianza total ).

Queremos estimaciones puntuales para ${\ Displaystyle \ mu}$ y ${\ Displaystyle M}$ . La media estimada ${\ Displaystyle {\ widehat {\ mu}}}$ se calcula a partir de la muestra

{\ Displaystyle {\ widehat {\ mu}} = {\ frac {\ sum _ {i = 1} ^ {N} k_ {i}} {\ sum _ {i = 1} ^ {N} n_ {i} }}.}

La estimación del hiperparámetro M se obtiene utilizando las estimaciones de momento para la varianza del modelo de dos etapas:

{\ Displaystyle s ^ {2} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} \ operatorname {var} \ left ({\ frac {k_ {i}} {n_ {i}}} \ right) = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} {\ frac {{\ widehat {\ mu}} (1 - {\ widehat { \ mu}})} {n_ {i}}} \ left [1 + {\ frac {n_ {i} -1} {{\ widehat {M}} + 1}} \ right]}

Resolviendo:

{\ Displaystyle {\ widehat {M}} = {\ frac {{\ widehat {\ mu}} (1 - {\ widehat {\ mu}}) - s ^ {2}} {s ^ {2} - { \ frac {{\ widehat {\ mu}} (1 - {\ widehat {\ mu}})} {N}} \ sum _ {i = 1} ^ {N} 1 / n_ {i}}},}

dónde

{\ Displaystyle s ^ {2} = {\ frac {N \ sum _ {i = 1} ^ {N} n_ {i} ({\ widehat {\ theta _ {i}}} - {\ widehat {\ mu }}) ^ {2}} {(N-1) \ sum _ {i = 1} ^ {N} n_ {i}}}.}

Dado que ahora tenemos estimaciones puntuales de parámetros, ${\ Displaystyle {\ widehat {\ mu}}}$ y ${\ Displaystyle {\ widehat {M}}}$ , para la distribución subyacente, nos gustaría encontrar una estimación puntual ${\ Displaystyle {\ tilde {\ theta}} _ {i}}$ para la probabilidad de éxito del evento i . Este es el promedio ponderado de la estimación del evento. ${\ Displaystyle {\ widehat {\ theta _ {i}}} = k_ {i} / n_ {i}}$ y ${\ Displaystyle {\ widehat {\ mu}}}$ . Dadas nuestras estimaciones puntuales para el anterior, ahora podemos conectar estos valores para encontrar una estimación puntual para el posterior

{\ Displaystyle {\ tilde {\ theta _ {i}}} = \ operatorname {E} (\ theta \ mid k_ {i}) = {\ frac {k_ {i} + {\ widehat {M}} {\ widehat {\ mu}}} {n_ {i} + {\ widehat {M}}}} = {\ frac {\ widehat {M}} {n_ {i} + {\ widehat {M}}}} {\ ancho {\ mu}} + {\ frac {n_ {i}} {n_ {i} + {\ widehat {M}}}} {\ frac {k_ {i}} {n_ {i}}}.}

Factores de contracción

Podemos escribir la estimación posterior como un promedio ponderado:

{\ displaystyle {\ tilde {\ theta}} _ {i} = {\ widehat {B}} _ {i} \, {\ widehat {\ mu}} + (1 - {\ widehat {B}} _ { i}) {\ widehat {\ theta}} _ {i}}

dónde ${\ Displaystyle {\ widehat {B}} _ {i}}$ se llama factor de contracción .

{\ Displaystyle {\ widehat {B_ {i}}} = {\ frac {\ widehat {M}} {{\ widehat {M}} + n_ {i}}}}

Distribuciones relacionadas

${\ Displaystyle BB (1,1, n) \ sim U (0, n) \,}$ dónde ${\ Displaystyle U (a, b) \,}$ es la distribución uniforme discreta .

Ver también

Distribución de Dirichlet-multinomial

Referencias

Minka, Thomas P. (2003). Estimación de una distribución de Dirichlet . Informe técnico de Microsoft.

enlaces externos

Uso de la distribución beta-binomial para evaluar el rendimiento de un dispositivo de identificación biométrica
Fastfit contiene código Matlab para ajustar distribuciones Beta-Binomial (en forma de distribuciones Pólya bidimensionales) a los datos.
Gráfico interactivo: Relaciones de distribución univariadas
Funciones beta-binomiales en el paquete VGAM R
Distribución beta-binomial en la biblioteca Java de Sandia National Labs Cognitive Foundry