En probabilidad y estadística , la estimación de densidad es la construcción de una estimación , basada en datos observados, de una función de densidad de probabilidad subyacente no observable . La función de densidad no observable se considera como la densidad según la cual se distribuye una gran población; los datos generalmente se consideran como una muestra aleatoria de esa población.
Se utilizan una variedad de enfoques para la estimación de la densidad, incluidas las ventanas de Parzen y una variedad de técnicas de agrupación de datos , incluida la cuantificación vectorial . La forma más básica de estimación de la densidad es un histograma reescalado .
Consideraremos registros de la incidencia de diabetes . Lo siguiente se cita textualmente de la descripción del conjunto de datos :
En este ejemplo, construimos tres estimaciones de densidad para "glu" ( concentración de glucosa en plasma ), una condicional a la presencia de diabetes, la segunda condicional a la ausencia de diabetes y la tercera no condicional a la diabetes. Las estimaciones de densidad condicional se utilizan luego para construir la probabilidad de diabetes condicional en "glu".
Los datos "glu" se obtuvieron del paquete MASS [3] del lenguaje de programación R. Dentro de R, ?Pima.tr
y ?Pima.te
dar una cuenta más completa de los datos.
La media de "glu" en los casos de diabetes es 143,1 y la desviación estándar es 31,26. La media de "glu" en los casos sin diabetes es 110,0 y la desviación estándar es 24,29. De esto vemos que, en este conjunto de datos, los casos de diabetes están asociados con mayores niveles de "glu". Esto quedará más claro mediante gráficos de las funciones de densidad estimadas.