En estadística , la sobredispersión es la presencia de una mayor variabilidad ( dispersión estadística ) en un conjunto de datos de lo que se esperaría según un modelo estadístico dado .
Una tarea común en la estadística aplicada es elegir un modelo paramétrico que se ajuste a un conjunto dado de observaciones empíricas. Esto requiere una evaluación del ajuste del modelo elegido. Por lo general, es posible elegir los parámetros del modelo de tal manera que la media poblacional teórica del modelo sea aproximadamente igual a la media muestral . Sin embargo, especialmente para modelos simples con pocos parámetros, las predicciones teóricas pueden no coincidir con las observaciones empíricas para momentos superiores . Cuando la varianza observada es mayor que la varianza de un modelo teórico, se ha producido una sobredispersión . Por el contrario, la dispersión insuficientesignifica que hubo menos variación en los datos de lo previsto. La sobredispersión es una característica muy común en el análisis de datos aplicado porque, en la práctica, las poblaciones son frecuentemente heterogéneas (no uniformes) contrariamente a los supuestos implícitos en los modelos paramétricos simples ampliamente utilizados.
Ejemplos de
Poisson
La sobredispersión se encuentra a menudo cuando se ajustan modelos paramétricos muy simples, como los basados en la distribución de Poisson . La distribución de Poisson tiene un parámetro libre y no permite ajustar la varianza independientemente de la media. La elección de una distribución de la familia de Poisson suele depender de la naturaleza de los datos empíricos. Por ejemplo, el análisis de regresión de Poisson se usa comúnmente para modelar datos de recuento . Si la sobredispersión es una característica, un modelo alternativo con parámetros libres adicionales puede proporcionar un mejor ajuste. En el caso de los datos de recuento, se puede proponer un modelo de mezcla de Poisson como la distribución binomial negativa , en el que la media de la distribución de Poisson se puede pensar en sí misma como una variable aleatoria extraída, en este caso, de la distribución gamma , introduciendo así un parámetro libre adicional (tenga en cuenta que la distribución binomial negativa resultante se caracteriza completamente por dos parámetros).
Binomio
Como ejemplo más concreto, se ha observado que el número de niños nacidos en familias no se ajusta fielmente a una distribución binomial como cabría esperar. En cambio, las proporciones de sexo de las familias parecen inclinarse hacia niños o niñas (ver, por ejemplo, la hipótesis de Trivers-Willard para una posible explicación), es decir, hay más familias de varones , más familias de niñas y no hay suficientes familias cercanas a la proporción media de niños a niñas de 51:49 de la población de lo esperado de una distribución binomial, y la varianza empírica resultante es mayor que la especificada por un modelo binomial.
En este caso, la distribución del modelo beta-binomial es un modelo alternativo popular y analíticamente tratable a la distribución binomial, ya que proporciona un mejor ajuste a los datos observados. [1] Para capturar la heterogeneidad de las familias, se puede pensar en el parámetro de probabilidad del modelo binomial (por ejemplo, la probabilidad de ser un niño) como una variable aleatoria en sí misma (es decir, el modelo de efectos aleatorios ) extraída para cada familia a partir de una distribución beta. como la distribución de mezcla. La distribución de compuestos resultante (beta-binomio) tiene un parámetro libre adicional.
Otro modelo común de sobredispersión, cuando algunas de las observaciones no son de Bernoulli, surge de la introducción de una variable aleatoria normal en un modelo logístico . El software está ampliamente disponible para adaptarse a este tipo de modelo multinivel . En este caso, si la varianza de la variable normal es cero, el modelo se reduce a la regresión logística estándar (no dispersa) . Este modelo tiene un parámetro libre adicional, a saber, la varianza de la variable normal.
Con respecto a las variables aleatorias binomiales, el concepto de sobredispersión sólo tiene sentido si n> 1 (es decir, la sobredispersión no tiene sentido para las variables aleatorias de Bernoulli).
Distribución normal
Como la distribución normal (gaussiana) tiene la varianza como parámetro, cualquier dato con varianza finita (incluidos los datos finitos) se puede modelar con una distribución normal con la varianza exacta; la distribución normal es un modelo de dos parámetros, con media y varianza. . Por lo tanto, en ausencia de un modelo subyacente, no existe la noción de que los datos se dispersen en exceso en relación con el modelo normal, aunque el ajuste puede ser deficiente en otros aspectos (como los momentos más altos de sesgo , curtosis , etc.). Sin embargo, en el caso de que los datos estén modelados por una distribución normal con una variación esperada, pueden estar sobre o subredispersados en relación con esa predicción.
Por ejemplo, en una encuesta estadística , el margen de error (determinado por el tamaño de la muestra) predice el error de muestreo y, por tanto, la dispersión de los resultados en encuestas repetidas. Si se realiza un metanálisis de encuestas repetidas de una población fija (digamos con un tamaño de muestra dado, por lo que el margen de error es el mismo), se espera que los resultados caigan en una distribución normal con una desviación estándar igual al margen de error. Sin embargo, en presencia de heterogeneidad de estudios donde los estudios tienen un sesgo de muestreo diferente , la distribución es en cambio una distribución compuesta y se distribuirá en exceso en relación con la distribución predicha. Por ejemplo, dadas las encuestas de opinión repetidas todas con un margen de error del 3%, si son realizadas por diferentes organizaciones encuestadoras, se espera que los resultados tengan una desviación estándar superior al 3%, debido al sesgo de los encuestadores de diferentes metodologías.
Diferencias de terminología entre disciplinas
La sobredispersión y la subdispersión son términos que se han adoptado en las ramas de las ciencias biológicas . En parasitología , el término 'sobredispersión' se usa generalmente como se define aquí, es decir, una distribución con una varianza más alta de la esperada.
En algunas áreas de la ecología , sin embargo, los significados se han transpuesto, de modo que la sobredispersión en realidad se considera que significa más uniforme (menor varianza) de lo esperado. Esta confusión ha hecho que algunos ecologistas sugieran que los términos "agregado" o "contagioso" se utilizarían mejor en ecología para "sobredispersión". [2] Estas preferencias también se están infiltrando en la parasitología . [3] En general, esta sugerencia no se ha tenido en cuenta y persiste la confusión en la literatura.
Además, en demografía , la sobredispersión es a menudo evidente en el análisis de los datos de recuento de muertes, pero los demógrafos prefieren el término " heterogeneidad no observada ".
Ver también
- Índice de dispersión
- Distribución de probabilidad compuesta
- Cuasi-verosimilitud
Referencias
- ^ Lindsey, JK; Altham, PME (1998). "Análisis de la proporción de sexos humanos mediante modelos de sobredispersión". Revista de la Sociedad Real de Estadística, Serie C . 47 (1): 149-157. doi : 10.1111 / 1467-9876.00103 .
- ^ Greig-Smith, P. (1983). Ecología vegetal cuantitativa (Tercera ed.). Prensa de la Universidad de California. ISBN 0-632-00142-9.
- ^ Poulin, R. (2006). Ecología evolutiva de parásitos . Prensa de la Universidad de Princeton.