sobredispersión


En estadística , la sobredispersión es la presencia de una mayor variabilidad ( dispersión estadística ) en un conjunto de datos de lo que cabría esperar en función de un modelo estadístico determinado .

Una tarea común en estadística aplicada es elegir un modelo paramétrico que se ajuste a un conjunto dado de observaciones empíricas. Esto requiere una evaluación del ajuste del modelo elegido. Por lo general, es posible elegir los parámetros del modelo de tal manera que la media poblacional teórica del modelo sea aproximadamente igual a la media de la muestra . Sin embargo, especialmente para modelos simples con pocos parámetros, las predicciones teóricas pueden no coincidir con las observaciones empíricas para momentos más altos . Cuando la varianza observada es mayor que la varianza de un modelo teórico, se ha producido una sobredispersión . Por el contrario, la subdispersiónsignifica que hubo menos variación en los datos de lo previsto. La dispersión excesiva es una característica muy común en el análisis de datos aplicado porque, en la práctica, las poblaciones suelen ser heterogéneas (no uniformes) en contra de las suposiciones implícitas en los modelos paramétricos simples ampliamente utilizados.

La sobredispersión se encuentra a menudo cuando se ajustan modelos paramétricos muy simples, como los basados ​​en la distribución de Poisson . La distribución de Poisson tiene un parámetro libre y no permite ajustar la varianza independientemente de la media. La elección de una distribución de la familia de Poisson a menudo está dictada por la naturaleza de los datos empíricos. Por ejemplo, el análisis de regresión de Poisson se usa comúnmente para modelar datos de conteo . Si la sobredispersión es una característica, un modelo alternativo con parámetros libres adicionales puede proporcionar un mejor ajuste. En el caso de los datos de conteo, un modelo de mezcla de Poisson como la distribución binomial negativaEn su lugar, se puede proponer, en el que la media de la distribución de Poisson puede considerarse como una variable aleatoria extraída, en este caso, de la distribución gamma , introduciendo así un parámetro libre adicional (obsérvese que la distribución binomial negativa resultante está completamente caracterizada por dos parámetros).

Como ejemplo más concreto, se ha observado que el número de niños nacidos en las familias no se ajusta fielmente a una distribución binomial como cabría esperar. En cambio, las proporciones de sexo de las familias parecen inclinarse hacia los niños o las niñas (ver, por ejemplo, la hipótesis de Trivers-Willard para una posible explicación), es decir, hay más familias de niños, más familias de niñas y no hay suficientes familias cercanas a ellos. la proporción promedio de niños a niñas de la población 51:49 de lo esperado de una distribución binomial, y la varianza empírica resultante es mayor que la especificada por un modelo binomial.

En este caso, la distribución del modelo binomial beta es un modelo alternativo popular y manejable analíticamente a la distribución binomial, ya que proporciona un mejor ajuste a los datos observados. [1] Para capturar la heterogeneidad de las familias, se puede pensar que el parámetro de probabilidad del modelo binomial (por ejemplo, la probabilidad de ser un niño) es en sí mismo una variable aleatoria (es decir , un modelo de efectos aleatorios ) extraída para cada familia de una distribución beta como la distribución de la mezcla. La distribución compuesta resultante (beta-binomial) tiene un parámetro libre adicional.

Otro modelo común para la sobredispersión, cuando algunas de las observaciones no son de Bernoulli , surge al introducir una variable aleatoria normal en un modelo logístico . El software está ampliamente disponible para ajustar este tipo de modelo multinivel . En este caso, si la varianza de la variable normal es cero, el modelo se reduce a la regresión logística estándar (no dispersa) . Este modelo tiene un parámetro libre adicional, a saber, la varianza de la variable normal.