La distribución CMP fue propuesta originalmente por Conway y Maxwell en 1962 [3] como una solución para manejar sistemas de cola con tarifas de servicio dependientes del estado. La distribución CMP fue introducida en la literatura estadística por Boatwright et al. 2003 [4] y Shmueli et al. (2005). [2] La primera investigación detallada sobre las propiedades probabilísticas y estadísticas de la distribución fue publicada por Shmueli et al. (2005). [2] Algunos resultados teóricos de probabilidad de la distribución COM-Poisson son estudiados y revisados por Li et al. (2019), [5] especialmente las caracterizaciones de la distribución COM-Poisson.
Función de masa de probabilidad y propiedades básicas
La función sirve como una constante de normalización, por lo que la función de masa de probabilidad se suma a uno. Tenga en cuenta que no tiene forma cerrada.
El dominio de los parámetros admisibles es , y , .
El parámetro adicional que no aparece en la distribución de Poisson permite el ajuste de la tasa de descomposición. Esta tasa de deterioro es una disminución no lineal en las razones de probabilidades sucesivas, específicamente
Muchas estadísticas de resumen importantes, como momentos y acumulados, de la distribución CMP se pueden expresar en términos de la constante de normalización. . [2] [7] De hecho, la función generadora de probabilidad es, y la media y la varianza están dadas por
Mientras que la constante de normalización no tiene en general una forma cerrada, hay algunos casos especiales dignos de mención:
, dónde es una función de Bessel modificada del primer tipo. [7]
Para entero , la constante de normalización se puede expresar [6] como una función hipergeométrica generalizada:.
Debido a que la constante de normalización no tiene en general una forma cerrada, la siguiente expansión asintótica es de interés. Reparar. Entonces como, [8]
donde el están determinados únicamente por la expansión
En particular, , , . Se dan otros coeficientes . [8]
Momentos, acumulados y resultados relacionados
Para valores generales de , no existen fórmulas cerradas para la media, varianza y momentos de la distribución CMP. Sin embargo, tenemos la siguiente fórmula ordenada. [7] Dejadenotar el factorial descendente . Dejar, . Luego
por .
Dado que, en general, las fórmulas de forma cerrada no están disponibles para momentos y acumuladores de la distribución CMP, las siguientes fórmulas asintóticas son de interés. Dejar, dónde . Denotar la asimetría y exceso de curtosis , dónde . Entonces como, [8]
dónde
La serie asintótica para se mantiene para todos , y .
Momentos para el caso del entero
Cuándo es un número entero que se pueden obtener fórmulas explícitas para momentos . El casocorresponde a la distribución de Poisson. Supongamos ahora que. Para, [7]
El uso de la fórmula de conexión para momentos y momentos factoriales da
En particular, la media de es dado por
Además, desde , la varianza viene dada por
Supongamos ahora que es un número entero. Entonces [6]
En particular,
y
Desviación media, moda y media
Dejar . Entonces el modo de es Si no es un número entero. De lo contrario, los modos de están y . [7]
La desviación media de sobre su media viene dado por [7]
No se conoce una fórmula explícita para la mediana de, pero está disponible el siguiente resultado asintótico. [7] Deja ser la mediana de . Luego
como .
Caracterización Stein
Dejar y supongamos que es tal que y . Luego
Por el contrario, suponga ahora que es una variable aleatoria de valor real compatible con tal que para todos acotados . Luego. [7]
Utilizar como distribución limitante
Dejar tienen la distribución binomial de Conway-Maxwell con parámetros, y . Reparar y . Luego, converge en distribución a la distribución como . [7] Este resultado generaliza la aproximación clásica de Poisson de la distribución binomial. De manera más general, la distribución CMP surge como una distribución limitante de la distribución binomial de Conway-Maxwell-Poisson. [7] Aparte del hecho de que COM-binomio se aproxima a COM-Poisson, Zhang et al. (2018) [9] ilustra que la distribución binomial COM-negativa con la función de masa de probabilidad
convergentes a una distribución límite que es el COM-Poisson, como .
Distribuciones relacionadas
, luego sigue la distribución de Poisson con parámetro .
Suponer . Entonces sí, tenemos eso sigue la distribución geométrica con función de masa de probabilidad , .
La secuencia de variable aleatoria converge en distribución como a la distribución de Bernoulli con media .
Estimación de parámetros
Existen algunos métodos para estimar los parámetros de la distribución de CMP a partir de los datos. Se discutirán dos métodos: mínimos cuadrados ponderados y máxima verosimilitud. El método de mínimos cuadrados ponderados es simple y eficiente, pero carece de precisión. La probabilidad máxima, por otro lado, es precisa, pero es más compleja y computacionalmente intensiva.
Mínimos cuadrados ponderados
Los mínimos cuadrados ponderados proporcionan un método simple y eficiente para derivar estimaciones aproximadas de los parámetros de la distribución CMP y determinar si la distribución sería un modelo apropiado. Después del uso de este método, se debe emplear un método alternativo para calcular estimaciones más precisas de los parámetros si el modelo se considera apropiado.
Este método usa la relación de probabilidades sucesivas como se discutió anteriormente. Al tomar logaritmos de ambos lados de esta ecuación, surge la siguiente relación lineal
dónde denota . Al estimar los parámetros, las probabilidades se pueden reemplazar por las frecuencias relativas de y . Para determinar si la distribución CMP es un modelo apropiado, estos valores deben trazarse contrapara todas las proporciones sin recuentos de cero. Si los datos parecen ser lineales, es probable que el modelo se ajuste bien.
Una vez que se determina la idoneidad del modelo, los parámetros se pueden estimar ajustando una regresión de en . Sin embargo, se viola el supuesto básico de homocedasticidad , por lo que se debe utilizar una regresión de mínimos cuadrados ponderados . La matriz de ponderación inversa tendrá las varianzas de cada razón en la diagonal con las covarianzas de un paso en la primera fuera de la diagonal, ambas dadas a continuación.
Máxima verosimilitud
La función de probabilidad de CMP es
dónde y . Maximizar la probabilidad produce las siguientes dos ecuaciones
que no tienen solución analítica.
En cambio, las estimaciones de máxima verosimilitud se aproximan numéricamente mediante el método de Newton-Raphson . En cada iteración, las expectativas, variaciones y covarianza de y se aproximan utilizando las estimaciones para y de la iteración anterior en la expresión
Esto se continúa hasta la convergencia de y .
Modelo lineal generalizado
La distribución básica de CMP discutida anteriormente también se ha utilizado como base para un modelo lineal generalizado (GLM) que utiliza una formulación bayesiana. Se ha desarrollado un GLM de doble enlace basado en la distribución de CMP, [10] y este modelo se ha utilizado para evaluar los datos de accidentes de tráfico. [11] [12] El CMP GLM desarrollado por Guikema y Coffelt (2008) se basa en una reformulación de la distribución CMP anterior, reemplazando con . La parte integral dees entonces el modo de distribución. Se ha utilizado un enfoque de estimación bayesiano completo con muestreo MCMC implementado en WinBugs con antecedentes no informativos para los parámetros de regresión. [10] [11] Este enfoque es computacionalmente costoso, pero produce las distribuciones posteriores completas para los parámetros de regresión y permite incorporar el conocimiento experto mediante el uso de antecedentes informativos.
Se ha desarrollado una formulación GLM clásica para una regresión CMP que generaliza la regresión de Poisson y la regresión logística . [13] Esto aprovecha las propiedades de la familia exponencial de la distribución CMP para obtener una estimación elegante del modelo (a través de la máxima verosimilitud ), inferencia, diagnóstico e interpretación. Este enfoque requiere un tiempo de cálculo sustancialmente menor que el enfoque bayesiano, a costa de no permitir que el conocimiento experto se incorpore al modelo. [13] Además, produce errores estándar para los parámetros de regresión (a través de la matriz de información de Fisher) en comparación con las distribuciones posteriores completas que se pueden obtener mediante la formulación bayesiana. También proporciona una prueba estadística para el nivel de dispersión en comparación con un modelo de Poisson. Está disponible el código para ajustar una regresión CMP, probar la dispersión y evaluar el ajuste. [14]
Los dos marcos GLM desarrollados para la distribución CMP amplían significativamente la utilidad de esta distribución para problemas de análisis de datos.
Referencias
^ "Regresión de Conway-Maxwell-Poisson" . Soporte SAS . SAS Institute, Inc . Consultado el 2 de marzo de 2015 .
^ a b c d e f Shmueli G., Minka T., Kadane JB, Borle S. y Boatwright, PB "Una distribución útil para ajustar datos discretos: resurgimiento de la distribución Conway-Maxwell-Poisson". Revista de la Royal Statistical Society : Serie C (Estadísticas aplicadas) 54.1 (2005): 127-142. [1]
^Conway, RW; Maxwell, WL (1962), "Un modelo de colas con tasas de servicio dependientes del estado", Journal of Industrial Engineering , 12 : 132-136
^ Boatwright, P., Borle, S. y Kadane, JB "Un modelo de distribución conjunta de la cantidad de compra y el momento". Revista de la Asociación Estadounidense de Estadística 98 (2003): 564–572.
^ Li B., Zhang H., Jiao H. "Algunas caracterizaciones y propiedades de las variables aleatorias COM-Poisson". Comunicaciones en estadística : teoría y métodos, (2019). [2]
^ a b c Nadarajah, S. "Momento útil y formulaciones de CDF para la distribución COM-Poisson". Papeles estadísticos 50 (2009): 617–622.
^ a b c d e f g h i j Daly, F. y Gaunt, RE "La distribución de Conway-Maxwell-Poisson: teoría de la distribución y aproximación". Revista Latinoamericana de Probabilidad y Estadística Matemática ALEA 13 (2016): 635–658.
^ a b c Gaunt, RE, Iyengar, S., Olde Daalhuis, AB y Simsek, B. "Una expansión asintótica para la constante de normalización de la distribución de Conway-Maxwell-Poisson". A aparecer en los Anales del Instituto de Matemáticas Estadísticas (2017+) DOI 10.1007 / s10463-017-0629-6
^ Zhang H., Tan K., Li B. "Distribución binomial COM-negativa: modelado de sobredispersión y datos de recuento ultraaltos con inflado cero". Frontiers of Mathematics in China, 2018, 13 (4): 967–998. [3]
^ a b Guikema, SD y JP Coffelt (2008) "Un modelo de regresión de datos de recuento flexible para el análisis de riesgos", Análisis de riesgos , 28 (1), 213-223. doi : 10.1111 / j.1539-6924.2008.01014.x
^ a b Lord, D., SD Guikema y SR Geedipally (2008) "Aplicación del modelo lineal generalizado de Conway-Maxwell-Poisson para analizar choques de vehículos de motor", Análisis y prevención de accidentes , 40 (3), 1123-1134. doi : 10.1016 / j.aap.2007.12.003
^ Lord, D., SR Geedipally y SD Guikema (2010) "Extensión de la aplicación de los modelos Conway-Maxwell-Poisson: análisis de datos de accidentes de tráfico que presentan una dispersión insuficiente", análisis de riesgo , 30 (8), 1268-1276. doi : 10.1111 / j.1539-6924.2010.01417.x
^ a b Vendedores, KS y Shmueli, G. (2010), "Un modelo de regresión flexible para datos de recuento" , Anales de estadísticas aplicadas , 4 (2), 943–961
^ Código para el modelado COM_Poisson , Georgetown Univ.
enlaces externos
Paquete de distribución Conway-Maxwell-Poisson para R (compoisson) de Jeffrey Dunn, parte de Comprehensive R Archive Network (CRAN)
Paquete de distribución Conway – Maxwell – Poisson para R (compoisson) de Tom Minka, paquete de terceros