Estimación de la densidad del kernel


En estadística , la estimación de densidad kernel ( KDE ) es una forma no paramétrica de estimar la función de densidad de probabilidad de una variable aleatoria . La estimación de la densidad del núcleo es un problema fundamental de suavizado de datos en el que se realizan inferencias sobre la población , en función de una muestra de datos finitos . En algunos campos, como el procesamiento de señales y la econometría , también se denomina método de ventana de Parzen-Rosenblatt , en honor a Emanuel Parzen y Murray Rosenblatt., a quienes generalmente se les atribuye haberlo creado de forma independiente en su forma actual. [1] [2] Una de las aplicaciones más famosas de la estimación de la densidad del núcleo es la estimación de las densidades marginales condicionales de clase de los datos cuando se utiliza un clasificador de Bayes ingenuo , [3] [4] que puede mejorar la precisión de su predicción. [3]

Sean ( x 1 , x 2 , ..., x n ) muestras independientes e idénticamente distribuidas extraídas de alguna distribución univariada con una densidad desconocida ƒ en cualquier punto dado x . Estamos interesados ​​en estimar la forma de esta función ƒ . Su estimador de densidad kernel es

donde K es el kernel , una función no negativa, y h > 0 es un parámetro de suavizado llamado ancho de banda. Un kernel con el subíndice h se denomina kernel escalado y se define como K h ( x ) = 1/ h K ( x / h ) . Intuitivamente, uno quiere elegir h tan pequeño como lo permitan los datos; sin embargo, siempre existe una compensación entre el sesgo del estimador y su varianza. La elección del ancho de banda se analiza con más detalle a continuación.

Comúnmente se usa una gama de funciones kernel : uniforme, triangular, bipeso, tripeso, Epanechnikov, normal y otras. El kernel de Epanechnikov es óptimo en un sentido de error cuadrático medio, [5] aunque la pérdida de eficiencia es pequeña para los kernels enumerados anteriormente. [6] Debido a sus convenientes propiedades matemáticas, a menudo se usa el núcleo normal, lo que significa K ( x ) = ϕ ( x ) , donde ϕ es la función de densidad normal estándar .

La construcción de una estimación de densidad kernel encuentra interpretaciones en campos fuera de la estimación de densidad. [7] Por ejemplo, en termodinámica , esto es equivalente a la cantidad de calor generado cuando los núcleos de calor (la solución fundamental de la ecuación del calor ) se colocan en cada ubicación de punto de datos x i . Se utilizan métodos similares para construir operadores discretos de Laplace en nubes de puntos para aprendizaje múltiple (por ejemplo, mapa de difusión ).

Las estimaciones de la densidad del kernel están estrechamente relacionadas con los histogramas , pero se pueden dotar de propiedades como la suavidad o la continuidad mediante el uso de un kernel adecuado. El siguiente diagrama basado en estos 6 puntos de datos ilustra esta relación:


Estimación de la densidad del núcleo de 100 números aleatorios normalmente distribuidos utilizando diferentes anchos de banda de suavizado.
Comparación del histograma (izquierda) y la estimación de la densidad del kernel (derecha) construida con los mismos datos. Los seis núcleos individuales son las curvas discontinuas rojas, la densidad del núcleo estima las curvas azules. Los puntos de datos son el diagrama de alfombra en el eje horizontal.
Comparación del histograma (izquierda) y la estimación de la densidad del kernel (derecha) construida con los mismos datos. Los seis núcleos individuales son las curvas discontinuas rojas, la densidad del núcleo estima las curvas azules. Los puntos de datos son el diagrama de alfombra en el eje horizontal.
Estimación de la densidad del kernel (KDE) con diferentes anchos de banda de una muestra aleatoria de 100 puntos de una distribución normal estándar. Gris: densidad verdadera (normal estándar). Rojo: KDE con h=0.05. Negro: KDE con h=0.337. Verde: KDE con h=2.
Comparación entre la regla empírica y el ancho de banda de resolución de ecuaciones
Comparación entre la regla empírica y el ancho de banda de resolución de ecuaciones.