Estimación de la densidad de kernel


En estadística , la estimación de la densidad del kernel ( KDE ) es una forma no paramétrica de estimar la función de densidad de probabilidad de una variable aleatoria . La estimación de la densidad de kernel es un problema fundamental de suavizado de datos donde se hacen inferencias sobre la población , basadas en una muestra de datos finitos . En algunos campos, como el procesamiento de señales y la econometría , también se denomina método de ventana de Parzen-Rosenblatt , en honor a Emanuel Parzen y Murray Rosenblatt., a quienes generalmente se les atribuye haberlo creado de forma independiente en su forma actual. [1] [2] Una de las aplicaciones más famosas de la estimación de la densidad del kernel es estimar las densidades marginales condicionales de clase de los datos cuando se usa un clasificador Bayes ingenuo , [3] [4] que puede mejorar su precisión de predicción. [3]

Sea ( x 1 , x 2 , ..., x n ) muestras independientes e idénticamente distribuidas extraídas de alguna distribución univariante con una densidad desconocida f en cualquier punto x dado . Estamos interesados ​​en estimar la forma de esta función f . Su estimador de densidad de kernel es

donde K es el kernel , una función no negativa, y h > 0 es un parámetro de suavizado llamado ancho de banda. Un kernel con el subíndice h se denomina kernel escalado y se define como K h ( x ) = 1 / h K ( x / h ) . Intuitivamente, uno quiere elegir h tan pequeño como lo permitan los datos; sin embargo, siempre existe una compensación entre el sesgo del estimador y su varianza. La elección del ancho de banda se analiza con más detalle a continuación.

Se utiliza comúnmente una variedad de funciones del kernel : uniforme, triangular, biweight, triweight, Epanechnikov, normal y otras. El núcleo de Epanechnikov es óptimo en un sentido de error cuadrático medio, [5] aunque la pérdida de eficiencia es pequeña para los núcleos enumerados anteriormente. [6] Debido a sus convenientes propiedades matemáticas, a menudo se usa el núcleo normal, lo que significa que K ( x ) = ϕ ( x ) , donde ϕ es la función de densidad normal estándar .

La construcción de una estimación de densidad de kernel encuentra interpretaciones en campos fuera de la estimación de densidad. [7] Por ejemplo, en termodinámica , esto es equivalente a la cantidad de calor generado cuando los granos de calor (la solución fundamental de la ecuación de calor ) se colocan en las ubicaciones de cada punto de datos x i . Se utilizan métodos similares para construir operadores de Laplace discretos en nubes de puntos para el aprendizaje múltiple (por ejemplo, mapa de difusión ).

Las estimaciones de densidad de kernel están estrechamente relacionadas con los histogramas , pero se pueden dotar de propiedades como suavidad o continuidad mediante el uso de un kernel adecuado. El siguiente diagrama basado en estos 6 puntos de datos ilustra esta relación:


Estimación de la densidad del kernel de 100 números aleatorios distribuidos normalmente utilizando diferentes anchos de banda de suavizado.
Comparación del histograma (izquierda) y la estimación de la densidad del kernel (derecha) construida con los mismos datos. Los seis granos individuales son las curvas de trazos rojos, la densidad del grano estima las curvas azules. Los puntos de datos son el diagrama de alfombra en el eje horizontal.
Comparación del histograma (izquierda) y la estimación de la densidad del kernel (derecha) construida con los mismos datos. Los seis granos individuales son las curvas de trazos rojos, la densidad del grano estima las curvas azules. Los puntos de datos son el diagrama de alfombra en el eje horizontal.
Estimación de densidad de kernel (KDE) con diferentes anchos de banda de una muestra aleatoria de 100 puntos de una distribución normal estándar. Gris: densidad real (estándar normal). Rojo: KDE con h = 0.05. Negro: KDE con h = 0.337. Verde: KDE con h = 2.
Comparación entre la regla empírica y el ancho de banda para resolver la ecuación
Comparación entre la regla empírica y el ancho de banda para resolver la ecuación.