Estimación de densidad

En probabilidad y estadística , la estimación de densidad es la construcción de una estimación , basada en datos observados, de una función de densidad de probabilidad subyacente no observable . La función de densidad no observable se considera como la densidad según la cual se distribuye una gran población; los datos generalmente se consideran como una muestra aleatoria de esa población.

Se utilizan una variedad de enfoques para la estimación de la densidad, incluidas las ventanas de Parzen y una variedad de técnicas de agrupación de datos , incluida la cuantificación vectorial . La forma más básica de estimación de la densidad es un histograma reescalado .

Consideraremos registros de la incidencia de diabetes . Lo siguiente se cita textualmente de la descripción del conjunto de datos :

En este ejemplo, construimos tres estimaciones de densidad para "glu" ( concentración de glucosa en plasma ), una condicional a la presencia de diabetes, la segunda condicional a la ausencia de diabetes y la tercera no condicional a la diabetes. Las estimaciones de densidad condicional se utilizan luego para construir la probabilidad de diabetes condicional en "glu".

Los datos "glu" se obtuvieron del paquete MASS ^[3] del lenguaje de programación R. Dentro de R, ?Pima.try ?Pima.tedar una cuenta más completa de los datos.

La media de "glu" en los casos de diabetes es 143,1 y la desviación estándar es 31,26. La media de "glu" en los casos sin diabetes es 110,0 y la desviación estándar es 24,29. De esto vemos que, en este conjunto de datos, los casos de diabetes están asociados con mayores niveles de "glu". Esto quedará más claro mediante gráficos de las funciones de densidad estimadas.

Demostración de estimación de densidad utilizando la estimación de densidad Kernel : La densidad real es una mezcla de dos gaussianas centradas alrededor de 0 y 3, que se muestran con una curva azul sólida. En cada cuadro, se generan 100 muestras a partir de la distribución, que se muestra en rojo. Centrado en cada muestra, se dibuja un núcleo gaussiano en gris. Promediar las gaussianas produce la estimación de densidad que se muestra en la curva negra discontinua.

Densidad estimada de p (glu | diabetes=1) (rojo), p (glu | diabetes=0) (azul) y p (glu) (negro)

Probabilidad estimada de p (diabetes=1 | glu)

Histograma y función de densidad para una distribución Gumbel ^[8]