Distribución de Conway-Maxwell-Poisson

En teoría de probabilidad y estadística , la distribución de Conway-Maxwell-Poisson (CMP o COM-Poisson) es una distribución de probabilidad discreta que lleva el nombre de Richard W. Conway , William L. Maxwell y Siméon Denis Poisson que generaliza la distribución de Poisson agregando un parámetro para modelar la sobredispersión y la subdispersión . Es un miembro de la familia exponencial , ^[1] tiene la distribución de Poisson y la distribución geométrica como casos especiales y laDistribución de Bernoulli como caso límite . ^[2]

Conway – Maxwell – Poisson
Función de probabilidad
Función de distribución acumulativa
Parámetros	${\ Displaystyle \ lambda> 0, \ nu \ geq 0}$
Apoyo	${\ Displaystyle x \ in \ {0,1,2, \ dots \}}$
PMF	${\ displaystyle {\ frac {\ lambda ^ {x}} {(x!) ^ {\ nu}}} {\ frac {1} {Z (\ lambda, \ nu)}}}$
CDF	${\ Displaystyle \ sum _ {i = 0} ^ {x} \ Pr (X = i)}$
Significar	${\ Displaystyle \ sum _ {j = 0} ^ {\ infty} {\ frac {j \ lambda ^ {j}} {(j!) ^ {\ nu} Z (\ lambda, \ nu)}}}$
Mediana	Sin forma cerrada
Modo	Ver texto
Diferencia	${\ Displaystyle \ sum _ {j = 0} ^ {\ infty} {\ frac {j ^ {2} \ lambda ^ {j}} {(j!) ^ {\ nu} Z (\ lambda, \ nu) }} - \ operatorname {mean} ^ {2}}$
Oblicuidad	No enlistado
Ex. curtosis	No enlistado
Entropía	No enlistado
MGF	${\ Displaystyle {\ frac {Z (e ^ {t} \ lambda, \ nu)} {Z (\ lambda, \ nu)}}}$
CF	${\ Displaystyle {\ frac {Z (e ^ {it} \ lambda, \ nu)} {Z (\ lambda, \ nu)}}}$

Fondo

La distribución CMP fue propuesta originalmente por Conway y Maxwell en 1962 ^[3] como una solución para manejar sistemas de cola con tarifas de servicio dependientes del estado. La distribución CMP fue introducida en la literatura estadística por Boatwright et al. 2003 ^[4] y Shmueli et al. (2005). ^[2] La primera investigación detallada sobre las propiedades probabilísticas y estadísticas de la distribución fue publicada por Shmueli et al. (2005). ^[2] Algunos resultados teóricos de probabilidad de la distribución COM-Poisson son estudiados y revisados por Li et al. (2019), ^[5] especialmente las caracterizaciones de la distribución COM-Poisson.

Función de masa de probabilidad y propiedades básicas

La distribución CMP se define como la distribución con función de masa de probabilidad

{\ Displaystyle P (X = x) = f (x; \ lambda, \ nu) = {\ frac {\ lambda ^ {x}} {(x!) ^ {\ nu}}} {\ frac {1} {Z (\ lambda, \ nu)}}.}

dónde :

{\ Displaystyle Z (\ lambda, \ nu) = \ sum _ {j = 0} ^ {\ infty} {\ frac {\ lambda ^ {j}} {(j!) ^ {\ nu}}}.}

La función ${\ Displaystyle Z (\ lambda, \ nu)}$ sirve como una constante de normalización, por lo que la función de masa de probabilidad se suma a uno. Tenga en cuenta que ${\ Displaystyle Z (\ lambda, \ nu)}$ no tiene forma cerrada.

El dominio de los parámetros admisibles es ${\ Displaystyle \ lambda, \ nu> 0}$ , y ${\ Displaystyle 0 <\ lambda <1}$ , ${\ Displaystyle \ nu = 0}$ .

El parámetro adicional ${\ Displaystyle \ nu}$ que no aparece en la distribución de Poisson permite el ajuste de la tasa de descomposición. Esta tasa de deterioro es una disminución no lineal en las razones de probabilidades sucesivas, específicamente

{\ Displaystyle {\ frac {P (X = x-1)} {P (X = x)}} = {\ frac {x ^ {\ nu}} {\ lambda}}.}

Cuándo ${\ Displaystyle \ nu = 1}$ , la distribución CMP se convierte en la distribución estándar de Poisson y como ${\ Displaystyle \ nu \ to \ infty}$ , la distribución se aproxima a una distribución de Bernoulli con parámetro ${\ Displaystyle \ lambda / (1+ \ lambda)}$ . Cuándo ${\ Displaystyle \ nu = 0}$ la distribución CMP se reduce a una distribución geométrica con probabilidad de éxito ${\ Displaystyle 1- \ lambda}$ previsto ${\ Displaystyle \ lambda <1}$ . ^[2]

Para la distribución CMP, los momentos se pueden encontrar mediante la fórmula recursiva ^[2]

{\ Displaystyle \ operatorname {E} [X ^ {r + 1}] = {\ begin {cases} \ lambda \, \ operatorname {E} [X + 1] ^ {1- \ nu} & {\ text { if}} r = 0 \\\ lambda \, {\ frac {d} {d \ lambda}} \ operatorname {E} [X ^ {r}] + \ operatorname {E} [X] \ operatorname {E} [X ^ {r}] & {\ text {if}} r> 0. \\\ end {cases}}}

Función de distribución acumulativa

En general ${\ Displaystyle \ nu}$ , no existe una fórmula de forma cerrada para la función de distribución acumulativa de ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ . Si ${\ Displaystyle \ nu \ geq 1}$ es un número entero, sin embargo, podemos obtener la siguiente fórmula en términos de la función hipergeométrica generalizada : ^[6]

{\ Displaystyle F (n) = P (X \ leq n) = 1 - {\ frac {_ {1} F _ {\ nu -1} (; n + 2, \ ldots, n + 2; \ lambda)} {{\ {(n + 1)! \} ^ {\ nu -1}} _ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)}}.}

La constante normalizadora

Muchas estadísticas de resumen importantes, como momentos y acumulados, de la distribución CMP se pueden expresar en términos de la constante de normalización. ${\ Displaystyle Z (\ lambda, \ nu)}$ . ^[2]^[7] De hecho, la función generadora de probabilidad es ${\ Displaystyle \ operatorname {E} s ^ {X} = Z (s \ lambda, \ nu) / Z (\ lambda, \ nu)}$ , y la media y la varianza están dadas por

{\ Displaystyle \ operatorname {E} X = \ lambda {\ frac {d} {d \ lambda}} {\ big \ {} \ ln (Z (\ lambda, \ nu)) {\ big \}},}

{\ Displaystyle \ operatorname {var} (X) = \ lambda {\ frac {d} {d \ lambda}} \ operatorname {E} X.}

La función de generación acumulada es

{\ Displaystyle g (t) = \ ln (\ operatorname {E} [e ^ {tX}]) = \ ln (Z (\ lambda e ^ {t}, \ nu)) - \ ln (Z (\ lambda , \ nu)),}

y los acumulados están dados por

{\ Displaystyle \ kappa _ {n} = sol ^ {(n)} (0) = {\ frac {\ parcial ^ {n}} {\ parcial t ^ {n}}} \ ln (Z (\ lambda e ^ {t}, \ nu)) {\ bigg |} _ {t = 0}, \ quad n \ geq 1.}

Mientras que la constante de normalización ${\ Displaystyle Z (\ lambda, \ nu) = \ sum _ {i = 0} ^ {\ infty} {\ frac {\ lambda ^ {i}} {(i!) ^ {\ nu}}}}$ no tiene en general una forma cerrada, hay algunos casos especiales dignos de mención:

${\ Displaystyle Z (\ lambda, 1) = \ mathrm {e} ^ {\ lambda}}$
${\ Displaystyle Z (\ lambda, 0) = (1- \ lambda) ^ {- 1}}$
${\ Displaystyle \ lim _ {\ nu \ rightarrow \ infty} Z (\ lambda, \ nu) = 1 + \ lambda}$
${\ Displaystyle Z (\ lambda, 2) = I_ {0} (2 {\ sqrt {\ lambda}})}$ , dónde ${\ Displaystyle I_ {0} (x) = \ sum _ {k = 0} ^ {\ infty} {\ frac {1} {(k!) ^ {2}}} {\ big (} {\ frac { x} {2}} {\ big)} ^ {2k}}$ es una función de Bessel modificada del primer tipo. ^[7]
Para entero ${\ Displaystyle \ nu}$ , la constante de normalización se puede expresar ^[6] como una función hipergeométrica generalizada: ${\ Displaystyle Z (\ lambda, \ nu) = _ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)}$ .

Debido a que la constante de normalización no tiene en general una forma cerrada, la siguiente expansión asintótica es de interés. Reparar ${\ Displaystyle \ nu> 0}$ . Entonces como ${\ Displaystyle \ lambda \ rightarrow \ infty}$ , ^[8]

{\ Displaystyle Z (\ lambda, \ nu) = {\ frac {\ exp \ left \ {\ nu \ lambda ^ {1 / \ nu} \ right \}} {\ lambda ^ {(\ nu -1) / 2 \ nu} (2 \ pi) ^ {(\ nu -1) / 2} {\ sqrt {\ nu}}}} \ sum _ {k = 0} ^ {\ infty} c_ {k} {\ big (} \ nu \ lambda ^ {1 / \ nu} {\ big)} ^ {- k},}

donde el ${\ Displaystyle c_ {j}}$ están determinados únicamente por la expansión

{\ Displaystyle \ left (\ Gamma (t + 1) \ right) ^ {- \ nu} = {\ frac {\ nu ^ {\ nu (t + 1/2)}} {\ left (2 \ pi \ derecha) ^ {(\ nu -1) / 2}}} \ sum _ {j = 0} ^ {\ infty} {\ frac {c_ {j}} {\ Gamma (\ nu t + (1+ \ nu) / 2 + j)}}.}

En particular, ${\ Displaystyle c_ {0} = 1}$ , ${\ Displaystyle c_ {1} = {\ frac {\ nu ^ {2} -1} {24}}}$ , ${\ Displaystyle c_ {2} = {\ frac {\ nu ^ {2} -1} {1152}} \ left (\ nu ^ {2} +23 \ right)}$ . Se dan otros coeficientes . ^[8]

Momentos, acumulados y resultados relacionados

Para valores generales de ${\ Displaystyle \ nu}$ , no existen fórmulas cerradas para la media, varianza y momentos de la distribución CMP. Sin embargo, tenemos la siguiente fórmula ordenada. ^[7] Deja ${\ Displaystyle (j) _ {r} = j (j-1) \ cdots (j-r + 1)}$ denotar el factorial descendente . Dejar ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ , ${\ Displaystyle \ lambda, \ nu> 0}$ . Luego

{\ Displaystyle \ operatorname {E} [((X) _ {r}) ^ {\ nu}] = \ lambda ^ {r},}

por ${\ Displaystyle r \ in \ mathbb {N}}$ .

Dado que, en general, las fórmulas de forma cerrada no están disponibles para momentos y acumuladores de la distribución CMP, las siguientes fórmulas asintóticas son de interés. Dejar ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ , dónde ${\ Displaystyle \ nu> 0}$ . Denotar la asimetría ${\ Displaystyle \ gamma _ {1} = {\ frac {\ kappa _ {3}} {\ sigma ^ {3}}}}$ y exceso de curtosis ${\ Displaystyle \ gamma _ {2} = {\ frac {\ kappa _ {4}} {\ sigma ^ {4}}}}$ , dónde ${\ Displaystyle \ sigma ^ {2} = \ mathrm {Var} (X)}$ . Entonces como ${\ Displaystyle \ lambda \ rightarrow \ infty}$ , ^[8]

{\ Displaystyle \ operatorname {E} X = \ lambda ^ {1 / \ nu} \ left (1 - {\ frac {\ nu -1} {2 \ nu}} \ lambda ^ {- 1 / \ nu} - {\ frac {\ nu ^ {2} -1} {24 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} - {\ frac {\ nu ^ {2} -1} {24 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) \ right),}

{\ Displaystyle \ mathrm {Var} (X) = {\ frac {\ lambda ^ {1 / \ nu}} {\ nu}} {\ bigg (} 1 + {\ frac {\ nu ^ {2} -1 } {24 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} + {\ frac {\ nu ^ {2} -1} {12 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) {\ bigg)},}

{\ Displaystyle \ kappa _ {n} = {\ frac {\ lambda ^ {1 / \ nu}} {\ nu ^ {n-1}}} {\ bigg (} 1 + {\ frac {(-1) ^ {n} (\ nu ^ {2} -1)} {24 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} + {\ frac {(-2) ^ {n} (\ nu ^ {2} -1)} {48 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) { \ bigg)},}

{\ Displaystyle \ gamma _ {1} = {\ frac {\ lambda ^ {- 1/2 \ nu}} {\ sqrt {\ nu}}} {\ bigg (} 1 - {\ frac {5 (\ nu ^ {2} -1)} {48 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} - {\ frac {7 (\ nu ^ {2} -1)} {24 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) {\ bigg)},}

{\ Displaystyle \ gamma _ {2} = {\ frac {\ lambda ^ {- 1 / \ nu}} {\ nu}} {\ bigg (} 1 - {\ frac {(\ nu ^ {2} -1 )} {24 \ nu ^ {2}}} \ lambda ^ {- 2 / \ nu} + {\ frac {(\ nu ^ {2} -1)} {6 \ nu ^ {3}}} \ lambda ^ {- 3 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 4 / \ nu}) {\ bigg)},}

{\ Displaystyle \ operatorname {E} [X ^ {n}] = \ lambda ^ {n / \ nu} {\ bigg (} 1 + {\ frac {n (n- \ nu)} {2 \ nu}} \ lambda ^ {- 1 / \ nu} + a_ {2} \ lambda ^ {- 2 / \ nu} + {\ mathcal {O}} (\ lambda ^ {- 3 / \ nu}) {\ bigg)} ,}

dónde

{\ Displaystyle a_ {2} = - {\ frac {n (\ nu -1) (6n \ nu ^ {2} -3n \ nu -15n + 4 \ nu +10)} {24 \ nu ^ {2} }} + {\ frac {1} {\ nu ^ {2}}} {\ bigg \ {} {\ binom {n} {3}} + 3 {\ binom {n} {4}} {\ bigg \ }}.}

La serie asintótica para ${\ Displaystyle \ kappa _ {n}}$ se mantiene para todos ${\ Displaystyle n \ geq 2}$ , y ${\ Displaystyle \ kappa _ {1} = \ operatorname {E} X}$ .

Momentos para el caso del entero ${\ Displaystyle \ nu}$

Cuándo ${\ Displaystyle \ nu}$ es un número entero que se pueden obtener fórmulas explícitas para momentos . El caso ${\ Displaystyle \ nu = 1}$ corresponde a la distribución de Poisson. Supongamos ahora que ${\ Displaystyle \ nu = 2}$ . Para ${\ Displaystyle m \ in \ mathbb {N}}$ , ^[7]

{\ Displaystyle \ operatorname {E} [(X) _ {m}] = {\ frac {\ lambda ^ {m / 2} I_ {m} (2 {\ sqrt {\ lambda}})} {I_ {0 } (2 {\ sqrt {\ lambda}})}}.}

El uso de la fórmula de conexión para momentos y momentos factoriales da

{\ Displaystyle \ operatorname {E} X ^ {m} = \ sum _ {k = 1} ^ {m} \ left \ {{m \ encima de k} \ right \} {\ frac {\ lambda ^ {k / 2} I_ {k} (2 {\ sqrt {\ lambda}})} {I_ {0} (2 {\ sqrt {\ lambda}})}}.}

En particular, la media de ${\ Displaystyle X}$ es dado por

{\ Displaystyle \ operatorname {E} X = {\ frac {{\ sqrt {\ lambda}} I_ {1} (2 {\ sqrt {\ lambda}})} {I_ {0} (2 {\ sqrt {\ lambda}})}}.}

Además, desde ${\ Displaystyle \ operatorname {E} X ^ {2} = \ lambda}$ , la varianza viene dada por

{\ Displaystyle \ mathrm {Var} (X) = \ lambda \ left (1 - {\ frac {I_ {1} (2 {\ sqrt {\ lambda}}) ^ {2}} {I_ {0} (2 {\ sqrt {\ lambda}}) ^ {2}}} \ derecha).}

Supongamos ahora que ${\ Displaystyle \ nu \ geq 1}$ es un número entero. Entonces ^[6]

{\ Displaystyle \ operatorname {E} [(X) _ {m}] = {\ frac {\ lambda ^ {m}} {(m!) ^ {\ nu -1}}} {\ frac {_ {0 } F _ {\ nu -1} (; m + 1, \ ldots, m + 1; \ lambda)} {_ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)} }.}

En particular,

{\ Displaystyle \ operatorname {E} [X] = \ lambda {\ frac {_ {0} F _ {\ nu -1} (; 2, \ ldots, 2; \ lambda)} {_ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)}},}

y

${\ Displaystyle \ mathrm {Var} (X) = {\ frac {\ lambda ^ {2}} {2 ^ {\ nu -1}}} {\ frac {_ {0} F _ {\ nu -1} ( ; 3, \ ldots, 3; \ lambda)} {_ {0} F _ {\ nu -1} (; 1, \ ldots, 1; \ lambda)}} + \ operatorname {E} [X] - (\ nombre de operador {E} [X]) ^ {2}.}$

Desviación media, moda y media

Dejar ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ . Entonces el modo de ${\ Displaystyle X}$ es ${\ Displaystyle \ lfloor \ lambda ^ {1 / \ nu} \ rfloor}$ Si ${\ Displaystyle \ lambda ^ {1 / \ nu}$ no es un número entero. De lo contrario, los modos de ${\ Displaystyle X}$ están ${\ Displaystyle \ lambda ^ {1 / \ nu}}$ y ${\ Displaystyle \ lambda ^ {1 / \ nu} -1}$ . ^[7]

La desviación media de ${\ Displaystyle X ^ {\ nu}}$ sobre su media ${\ Displaystyle \ lambda}$ viene dado por ^[7]

{\ Displaystyle \ operatorname {E} | X ^ {\ nu} - \ lambda | = 2Z (\ lambda, \ nu) ^ {- 1} {\ frac {\ lambda ^ {\ lfloor \ lambda ^ {1 / \ nu} \ rfloor +1}} {\ lfloor \ lambda ^ {1 / \ nu} \ rfloor!}}.}

No se conoce una fórmula explícita para la mediana de ${\ Displaystyle X}$ , pero está disponible el siguiente resultado asintótico. ^[7] Deja ${\ Displaystyle m}$ ser la mediana de ${\ Displaystyle X \ sim {\ mbox {CMP}} (\ lambda, \ nu)}$ . Luego

{\ displaystyle m = \ lambda ^ {1 / \ nu} + {\ mathcal {O}} \ left (\ lambda ^ {1/2 \ nu} \ right),}

como ${\ Displaystyle \ lambda \ rightarrow \ infty}$ .

Caracterización Stein

Dejar ${\ Displaystyle X \ sim {\ mbox {CMP}} (\ lambda, \ nu)}$ y supongamos que ${\ Displaystyle f: \ mathbb {Z} ^ {+} \ mapsto \ mathbb {R}}$ es tal que ${\ Displaystyle \ operatorname {E} | f (X + 1) | <\ infty}$ y ${\ Displaystyle \ operatorname {E} | X ^ {\ nu} f (X) | <\ infty}$ . Luego

{\ Displaystyle \ operatorname {E} [\ lambda f (X + 1) -X ^ {\ nu} f (X)] = 0.}

Por el contrario, suponga ahora que ${\ Displaystyle W}$ es una variable aleatoria de valor real compatible con ${\ Displaystyle \ mathbb {Z} ^ {+}}$ tal que ${\ Displaystyle \ operatorname {E} [\ lambda f (W + 1) -W ^ {\ nu} f (W)] = 0}$ para todos acotados ${\ Displaystyle f: \ mathbb {Z} ^ {+} \ mapsto \ mathbb {R}}$ . Luego ${\ Displaystyle W \ sim {\ mbox {CMP}} (\ lambda, \ nu)}$ . ^[7]

Utilizar como distribución limitante

Dejar ${\ Displaystyle Y_ {n}}$ tienen la distribución binomial de Conway-Maxwell con parámetros ${\ Displaystyle n}$ , ${\ Displaystyle p = \ lambda / n ^ {\ nu}}$ y ${\ Displaystyle \ nu}$ . Reparar ${\ Displaystyle \ lambda> 0}$ y ${\ Displaystyle \ nu> 0}$ . Luego, ${\ Displaystyle Y_ {n}}$ converge en distribución a la ${\ Displaystyle \ mathrm {CMP} (\ lambda, \ nu)}$ distribución como ${\ Displaystyle n \ rightarrow \ infty}$ . ^[7] Este resultado generaliza la aproximación clásica de Poisson de la distribución binomial. De manera más general, la distribución CMP surge como una distribución limitante de la distribución binomial de Conway-Maxwell-Poisson. ^[7] Aparte del hecho de que COM-binomio se aproxima a COM-Poisson, Zhang et al. (2018) ^[9] ilustra que la distribución binomial COM-negativa con la función de masa de probabilidad

{\ Displaystyle \ mathrm {P} (X = k) = {\ frac {{{({\ frac {\ Gamma (r + k)} {k! \ Gamma (r)}})} ^ {\ nu} } {p ^ {k}} {{(1-p)} ^ {r}}} {\ sum \ limits _ {i = 0} ^ {\ infty} {{({\ frac {\ Gamma (r + i)} {i! \ Gamma (r)}})} ^ {\ nu}} {p ^ {i}} {{(1-p)} ^ {r}}}} = {{\ left ({ \ frac {\ Gamma (r + k)} {k! \ Gamma (r)}} \ right)} ^ {\ nu}} {{p ^ {k}} {{(1-p)} ^ {r }}} {\ frac {1} {C (r, \ nu, p)}}, \ quad (k = 0,1,2, \ ldots),}

convergentes a una distribución límite que es el COM-Poisson, como ${\ Displaystyle {r \ to + \ infty}}$ .

Distribuciones relacionadas

${\ Displaystyle X \ sim \ operatorname {CMP} (\ lambda, 1)}$ , luego ${\ Displaystyle X}$ sigue la distribución de Poisson con parámetro ${\ Displaystyle \ lambda}$ .
Suponer ${\ Displaystyle \ lambda <1}$ . Entonces sí ${\ Displaystyle X \ sim \ mathrm {CMP} (\ lambda, 0)}$ , tenemos eso ${\ Displaystyle X}$ sigue la distribución geométrica con función de masa de probabilidad ${\ Displaystyle P (X = k) = \ lambda ^ {k} (1- \ lambda)}$ , ${\ Displaystyle k \ geq 0}$ .
La secuencia de variable aleatoria ${\ Displaystyle X _ {\ nu} \ sim \ mathrm {CMP} (\ lambda, \ nu)}$ converge en distribución como ${\ Displaystyle \ nu \ rightarrow \ infty}$ a la distribución de Bernoulli con media ${\ Displaystyle \ lambda (1+ \ lambda) ^ {- 1}}$ .

Estimación de parámetros

Existen algunos métodos para estimar los parámetros de la distribución de CMP a partir de los datos. Se discutirán dos métodos: mínimos cuadrados ponderados y máxima verosimilitud. El método de mínimos cuadrados ponderados es simple y eficiente, pero carece de precisión. La probabilidad máxima, por otro lado, es precisa, pero es más compleja y computacionalmente intensiva.

Mínimos cuadrados ponderados

Los mínimos cuadrados ponderados proporcionan un método simple y eficiente para derivar estimaciones aproximadas de los parámetros de la distribución CMP y determinar si la distribución sería un modelo apropiado. Después del uso de este método, se debe emplear un método alternativo para calcular estimaciones más precisas de los parámetros si el modelo se considera apropiado.

Este método usa la relación de probabilidades sucesivas como se discutió anteriormente. Al tomar logaritmos de ambos lados de esta ecuación, surge la siguiente relación lineal

{\ Displaystyle \ log {\ frac {p_ {x-1}} {p_ {x}}} = - \ log \ lambda + \ nu \ log x}

dónde ${\ Displaystyle p_ {x}}$ denota ${\ Displaystyle \ Pr (X = x)}$ . Al estimar los parámetros, las probabilidades se pueden reemplazar por las frecuencias relativas de ${\ Displaystyle x}$ y ${\ Displaystyle x-1}$ . Para determinar si la distribución CMP es un modelo apropiado, estos valores deben trazarse contra ${\ Displaystyle \ log x}$ para todas las proporciones sin recuentos de cero. Si los datos parecen ser lineales, es probable que el modelo se ajuste bien.

Una vez que se determina la idoneidad del modelo, los parámetros se pueden estimar ajustando una regresión de ${\ Displaystyle \ log ({\ hat {p}} _ {x-1} / {\ hat {p}} _ {x})}$ en ${\ Displaystyle \ log x}$ . Sin embargo, se viola el supuesto básico de homocedasticidad , por lo que se debe utilizar una regresión de mínimos cuadrados ponderados . La matriz de ponderación inversa tendrá las varianzas de cada razón en la diagonal con las covarianzas de un paso en la primera fuera de la diagonal, ambas dadas a continuación.

{\ Displaystyle \ operatorname {var} \ left [\ log {\ frac {{\ hat {p}} _ {x-1}} {{\ hat {p}} _ {x}}} \ right] \ approx {\ frac {1} {np_ {x}}} + {\ frac {1} {np_ {x-1}}}}

{\ displaystyle {\ text {cov}} \ left (\ log {\ frac {{\ hat {p}} _ {x-1}} {{\ hat {p}} _ {x}}}, \ log {\ frac {{\ hat {p}} _ {x}} {{\ hat {p}} _ {x + 1}}} \ right) \ approx - {\ frac {1} {np_ {x}} }}

Máxima verosimilitud

La función de probabilidad de CMP es

{\ Displaystyle {\ mathcal {L}} (\ lambda, \ nu \ mid x_ {1}, \ dots, x_ {n}) = \ lambda ^ {S_ {1}} \ exp (- \ nu S_ {2 }) Z ^ {- n} (\ lambda, \ nu)}

dónde ${\ Displaystyle S_ {1} = \ sum _ {i = 1} ^ {n} x_ {i}}$ y ${\ Displaystyle S_ {2} = \ sum _ {i = 1} ^ {n} \ log x_ {i}!}$ . Maximizar la probabilidad produce las siguientes dos ecuaciones

{\ Displaystyle \ operatorname {E} [X] = {\ bar {X}}}

{\ Displaystyle \ operatorname {E} [\ log X!] = {\ overline {\ log X!}}}

que no tienen solución analítica.

En cambio, las estimaciones de máxima verosimilitud se aproximan numéricamente mediante el método de Newton-Raphson . En cada iteración, las expectativas, variaciones y covarianza de ${\ Displaystyle X}$ y ${\ Displaystyle \ log X!}$ se aproximan utilizando las estimaciones para ${\ Displaystyle \ lambda}$ y ${\ Displaystyle \ nu}$ de la iteración anterior en la expresión

{\ Displaystyle \ operatorname {E} [f (x)] = \ sum _ {j = 0} ^ {\ infty} f (j) {\ frac {\ lambda ^ {j}} {(j!) ^ { \ nu} Z (\ lambda, \ nu)}}.}

Esto se continúa hasta la convergencia de ${\ Displaystyle {\ hat {\ lambda}}}$ y ${\ Displaystyle {\ hat {\ nu}}}$ .

Modelo lineal generalizado

La distribución básica de CMP discutida anteriormente también se ha utilizado como base para un modelo lineal generalizado (GLM) que utiliza una formulación bayesiana. Se ha desarrollado un GLM de doble enlace basado en la distribución de CMP, ^[10] y este modelo se ha utilizado para evaluar los datos de accidentes de tráfico. ^[11]^[12] El CMP GLM desarrollado por Guikema y Coffelt (2008) se basa en una reformulación de la distribución CMP anterior, reemplazando ${\ Displaystyle \ lambda}$ con ${\ Displaystyle \ mu = \ lambda ^ {1 / \ nu}}$ . La parte integral de ${\ Displaystyle \ mu}$ es entonces el modo de distribución. Se ha utilizado un enfoque de estimación bayesiano completo con muestreo MCMC implementado en WinBugs con antecedentes no informativos para los parámetros de regresión. ^[10]^[11] Este enfoque es computacionalmente costoso, pero produce las distribuciones posteriores completas para los parámetros de regresión y permite incorporar el conocimiento experto mediante el uso de antecedentes informativos.

Se ha desarrollado una formulación GLM clásica para una regresión CMP que generaliza la regresión de Poisson y la regresión logística . ^[13] Esto aprovecha las propiedades de la familia exponencial de la distribución CMP para obtener una estimación elegante del modelo (a través de la máxima verosimilitud ), inferencia, diagnóstico e interpretación. Este enfoque requiere un tiempo de cálculo sustancialmente menor que el enfoque bayesiano, a costa de no permitir que el conocimiento experto se incorpore al modelo. ^[13] Además, produce errores estándar para los parámetros de regresión (a través de la matriz de información de Fisher) en comparación con las distribuciones posteriores completas que se pueden obtener mediante la formulación bayesiana. También proporciona una prueba estadística para el nivel de dispersión en comparación con un modelo de Poisson. Está disponible el código para ajustar una regresión CMP, probar la dispersión y evaluar el ajuste. ^[14]

Los dos marcos GLM desarrollados para la distribución CMP amplían significativamente la utilidad de esta distribución para problemas de análisis de datos.

Referencias

^ "Regresión de Conway-Maxwell-Poisson" . Soporte SAS . SAS Institute, Inc . Consultado el 2 de marzo de 2015 .
^ a b c d e f Shmueli G., Minka T., Kadane JB, Borle S. y Boatwright, PB "Una distribución útil para ajustar datos discretos: resurgimiento de la distribución Conway-Maxwell-Poisson". Revista de la Royal Statistical Society : Serie C (Estadísticas aplicadas) 54.1 (2005): 127-142. [1]
^ Conway, RW; Maxwell, WL (1962), "Un modelo de colas con tasas de servicio dependientes del estado", Journal of Industrial Engineering , 12 : 132-136
^ Boatwright, P., Borle, S. y Kadane, JB "Un modelo de distribución conjunta de la cantidad de compra y el momento". Revista de la Asociación Estadounidense de Estadística 98 (2003): 564–572.
^ Li B., Zhang H., Jiao H. "Algunas caracterizaciones y propiedades de las variables aleatorias COM-Poisson". Comunicaciones en estadística : teoría y métodos, (2019). [2]
^ a b c Nadarajah, S. "Momento útil y formulaciones de CDF para la distribución COM-Poisson". Papeles estadísticos 50 (2009): 617–622.
^ a b c d e f g h i j Daly, F. y Gaunt, RE "La distribución de Conway-Maxwell-Poisson: teoría de la distribución y aproximación". Revista Latinoamericana de Probabilidad y Estadística Matemática ALEA 13 (2016): 635–658.
^ a b c Gaunt, RE, Iyengar, S., Olde Daalhuis, AB y Simsek, B. "Una expansión asintótica para la constante de normalización de la distribución de Conway-Maxwell-Poisson". A aparecer en los Anales del Instituto de Matemáticas Estadísticas (2017+) DOI 10.1007 / s10463-017-0629-6
^ Zhang H., Tan K., Li B. "Distribución binomial COM-negativa: modelado de sobredispersión y datos de recuento ultraaltos con inflado cero". Frontiers of Mathematics in China, 2018, 13 (4): 967–998. [3]
^ a b Guikema, SD y JP Coffelt (2008) "Un modelo de regresión de datos de recuento flexible para el análisis de riesgos", Análisis de riesgos , 28 (1), 213-223. doi : 10.1111 / j.1539-6924.2008.01014.x
^ a b Lord, D., SD Guikema y SR Geedipally (2008) "Aplicación del modelo lineal generalizado de Conway-Maxwell-Poisson para analizar choques de vehículos de motor", Análisis y prevención de accidentes , 40 (3), 1123-1134. doi : 10.1016 / j.aap.2007.12.003
^ Lord, D., SR Geedipally y SD Guikema (2010) "Extensión de la aplicación de los modelos Conway-Maxwell-Poisson: análisis de datos de accidentes de tráfico que presentan una dispersión insuficiente", análisis de riesgo , 30 (8), 1268-1276. doi : 10.1111 / j.1539-6924.2010.01417.x
^ a b Vendedores, KS y Shmueli, G. (2010), "Un modelo de regresión flexible para datos de recuento" , Anales de estadísticas aplicadas , 4 (2), 943–961
^ Código para el modelado COM_Poisson , Georgetown Univ.

enlaces externos

Paquete de distribución Conway-Maxwell-Poisson para R (compoisson) de Jeffrey Dunn, parte de Comprehensive R Archive Network (CRAN)
Paquete de distribución Conway – Maxwell – Poisson para R (compoisson) de Tom Minka, paquete de terceros

[SAS2015-1] "Regresión de Conway-Maxwell-Poisson" . Soporte SAS . SAS Institute, Inc . Consultado el 2 de marzo de 2015 .

[S05-2] Shmueli G., Minka T., Kadane JB, Borle S. y Boatwright, PB "Una distribución útil para ajustar datos discretos: resurgimiento de la distribución Conway-Maxwell-Poisson". Revista de la Royal Statistical Society : Serie C (Estadísticas aplicadas) 54.1 (2005): 127-142. [1]

[3] Conway, RW; Maxwell, WL (1962), "Un modelo de colas con tasas de servicio dependientes del estado", Journal of Industrial Engineering , 12 : 132-136

[Boatwright03-4] Boatwright, P., Borle, S. y Kadane, JB "Un modelo de distribución conjunta de la cantidad de compra y el momento". Revista de la Asociación Estadounidense de Estadística 98 (2003): 564–572.

[L19-5] Li B., Zhang H., Jiao H. "Algunas caracterizaciones y propiedades de las variables aleatorias COM-Poisson". Comunicaciones en estadística : teoría y métodos, (2019). [2]

[N09-6] Nadarajah, S. "Momento útil y formulaciones de CDF para la distribución COM-Poisson". Papeles estadísticos 50 (2009): 617–622.

[DG16-7] ^ a b c d e f g h i j Daly, F. y Gaunt, RE "La distribución de Conway-Maxwell-Poisson: teoría de la distribución y aproximación". Revista Latinoamericana de Probabilidad y Estadística Matemática ALEA 13 (2016): 635–658.

[Gauntetal17-8] Gaunt, RE, Iyengar, S., Olde Daalhuis, AB y Simsek, B. "Una expansión asintótica para la constante de normalización de la distribución de Conway-Maxwell-Poisson". A aparecer en los Anales del Instituto de Matemáticas Estadísticas (2017+) DOI 10.1007 / s10463-017-0629-6

[Zhang18-9] Zhang H., Tan K., Li B. "Distribución binomial COM-negativa: modelado de sobredispersión y datos de recuento ultraaltos con inflado cero". Frontiers of Mathematics in China, 2018, 13 (4): 967–998. [3]

[GC-10] Guikema, SD y JP Coffelt (2008) "Un modelo de regresión de datos de recuento flexible para el análisis de riesgos", Análisis de riesgos , 28 (1), 213-223. doi : 10.1111 / j.1539-6924.2008.01014.x

[Lord1-11] Lord, D., SD Guikema y SR Geedipally (2008) "Aplicación del modelo lineal generalizado de Conway-Maxwell-Poisson para analizar choques de vehículos de motor", Análisis y prevención de accidentes , 40 (3), 1123-1134. doi : 10.1016 / j.aap.2007.12.003

[Lord2-12] Lord, D., SR Geedipally y SD Guikema (2010) "Extensión de la aplicación de los modelos Conway-Maxwell-Poisson: análisis de datos de accidentes de tráfico que presentan una dispersión insuficiente", análisis de riesgo , 30 (8), 1268-1276. doi : 10.1111 / j.1539-6924.2010.01417.x

[SS-13] Vendedores, KS y Shmueli, G. (2010), "Un modelo de regresión flexible para datos de recuento" , Anales de estadísticas aplicadas , 4 (2), 943–961

[14] Código para el modelado COM_Poisson , Georgetown Univ.

[1]