Estimación de densidad de kernel variable

En estadística , la estimación de densidad de kernel adaptativa o de "ancho de banda variable" es una forma de estimación de densidad de kernel en la que el tamaño de los kernels utilizados en la estimación varía según la ubicación de las muestras o la ubicación del punto de prueba. Es una técnica particularmente eficaz cuando el espacio muestral es multidimensional. ^[1]

Razón fundamental

Dado un conjunto de muestras, ${\ Displaystyle \ lbrace {\ vec {x}} _ {i} \ rbrace}$ , deseamos estimar la densidad, ${\ Displaystyle P ({\ vec {x}})}$ , en un punto de prueba, ${\ Displaystyle {\ vec {x}}}$ :

{\ Displaystyle P ({\ vec {x}}) \ approx {\ frac {W} {nh ^ {D}}}}

{\ Displaystyle W = \ sum _ {i = 1} ^ {n} w_ {i}}

{\ Displaystyle w_ {i} = K \ left ({\ frac {{\ vec {x}} - {\ vec {x}} _ {i}} {h}} \ right)}

donde n es el número de muestras, K es el "núcleo" , h es su ancho y D es el número de dimensiones en ${\ Displaystyle {\ vec {x}}}$ . El kernel se puede considerar como un filtro lineal simple .

El uso de un ancho de filtro fijo puede significar que en regiones de baja densidad, todas las muestras caerán en las colas del filtro con una ponderación muy baja, mientras que las regiones de alta densidad encontrarán un número excesivo de muestras en la región central con una ponderación cercana a la unidad. . Para solucionar este problema, variamos el ancho del kernel en diferentes regiones del espacio muestral. Hay dos métodos para hacer esto: estimación de globo y puntual. En un estimador de globo, el ancho del núcleo varía según la ubicación del punto de prueba. En un estimador puntual, el ancho del grano varía según la ubicación de la muestra. ^[1]

Para los estimadores multivariados, el parámetro, h , se puede generalizar para variar no solo el tamaño, sino también la forma del kernel. Este enfoque más complicado no se cubrirá aquí.

Estimadores de globo

Un método común para variar el ancho del grano es hacerlo inversamente proporcional a la densidad en el punto de prueba:

{\ Displaystyle h = {\ frac {k} {\ left [nP ({\ vec {x}}) \ right] ^ {1 / D}}}}

donde k es una constante. Si remplazamos la PDF estimada y asumimos una función del núcleo gaussiano , podemos demostrar que W es una constante: ^[2]

{\ Displaystyle W = k ^ {D} (2 \ pi) ^ {D / 2}}

Una derivación similar es válida para cualquier núcleo cuya función de normalización sea del orden $h D$ , aunque con un factor constante diferente en lugar del término $(2 π) D / 2$ . Esto produce una generalización del algoritmo del vecino k más cercano . Es decir, una función de núcleo uniforme devolverá la técnica KNN. ^[2]

El error tiene dos componentes: un término de varianza y un término de sesgo. El término de variación se da como: ^[1]

{\ Displaystyle e_ {1} = {\ frac {P \ int K ^ {2}} {nh ^ {D}}}}

.

El término de sesgo se encuentra evaluando la función aproximada en el límite a medida que el ancho del núcleo se vuelve mucho mayor que el espaciado de la muestra. Al usar una expansión de Taylor para la función real, el término de sesgo desaparece:

{\ Displaystyle e_ {2} = {\ frac {h ^ {2}} {n}} \ nabla ^ {2} P}

De este modo, se puede derivar un ancho de kernel óptimo que minimice el error de cada estimación.

Uso para clasificación estadística

El método es particularmente eficaz cuando se aplica a la clasificación estadística . Hay dos formas de proceder: la primera es calcular los PDF de cada clase por separado, utilizando diferentes parámetros de ancho de banda, y luego compararlos como en Taylor. ^[3] Alternativamente, podemos dividir la suma según la clase de cada muestra:

{\ Displaystyle P (j, {\ vec {x}}) \ approx {\ frac {1} {n}} \ sum _ {i = 1, c_ {i} = j} ^ {n} w_ {i} }

donde c _i es la clase de la i- ésima muestra. La clase del punto de prueba puede estimarse mediante máxima verosimilitud .

Muchos núcleos, el gaussiano por ejemplo, son suaves. En consecuencia, las estimaciones de probabilidades conjuntas o condicionales son tanto continuas como diferenciables. Esto facilita la búsqueda de un borde entre dos clases al poner a cero la diferencia entre las probabilidades condicionales:

{\ Displaystyle R ({\ vec {x}}) = P (2 | {\ vec {x}}) - P (1 | {\ vec {x}}) = {\ frac {P (2, {\ vec {x}}) - P (1, {\ vec {x}})} {P (1, {\ vec {x}}) + P (2, {\ vec {x}})}}}

Por ejemplo, podemos usar un algoritmo unidimensional de búsqueda de raíces para poner a cero R a lo largo de una línea entre dos muestras que se extienden a ambos lados del borde de la clase. De este modo, se puede muestrear el borde tantas veces como sea necesario. Las muestras de borde junto con las estimaciones de los gradientes de R determinan la clase de un punto de prueba a través de un producto escalar:

{\ Displaystyle j = \ arg {\ underset {i} {\ min}} | {\ vec {b_ {i}}} - {\ vec {x}} | \,}

{\ Displaystyle p = ({\ vec {x}} - {\ vec {b_ {j}}}) \ cdot \ nabla _ {\ vec {x}} R | _ {{\ vec {x}} = { \ vec {b_ {j}}}} \,}

{\ Displaystyle c = (3 + p / | p |) / 2 \,}

dónde ${\ Displaystyle \ lbrace {\ vec {b_ {i}}} \ rbrace}$ muestrea el borde de la clase yc es la clase estimada. El valor de R , que determina las probabilidades condicionales, puede extrapolarse al punto de prueba:

{\ Displaystyle R ({\ vec {x}}) \ approx \ tanh p \,}

^[2]

Las clasificaciones de dos clases son fáciles de generalizar a varias clases.

enlaces externos

akde1d.m - Archivo m de Matlab para la estimación de densidad de kernel adaptativa unidimensional.
libAGF : una biblioteca de C ++ para la estimación de densidad de kernel adaptativa multivariante.
akde.m - Función de Matlab para la estimación de densidad de kernel variable multivariante (de alta dimensión).

Referencias

^ ^a ^b ^c D. G. Terrell; DW Scott (1992). "Estimación de densidad de kernel variable" . Annals of Statistics . 20 (3): 1236–1265. doi : 10.1214 / aos / 1176348768 .
^ ^a ^b ^c Molinos, Peter (2011). "Clasificación estadística eficiente de medidas satelitales". Revista Internacional de Percepción Remota . 32 (21): 6109–6132. arXiv : 1202.2194 . doi : 10.1080 / 01431161.2010.507795 .
^ Taylor, Charles (1997). "Clasificación y estimación de la densidad del grano". Vistas en astronomía . 41 (3): 411–417. Bibcode : 1997VA ..... 41..411T . doi : 10.1016 / s0083-6656 (97) 00046-9 .

[Terrell_Scott1992-1] D. G. Terrell; DW Scott (1992). "Estimación de densidad de kernel variable" . Annals of Statistics . 20 (3): 1236–1265. doi : 10.1214 / aos / 1176348768 .

[Mills2010-2] Molinos, Peter (2011). "Clasificación estadística eficiente de medidas satelitales". Revista Internacional de Percepción Remota . 32 (21): 6109–6132. arXiv : 1202.2194 . doi : 10.1080 / 01431161.2010.507795 .

[Taylor1997-3] Taylor, Charles (1997). "Clasificación y estimación de la densidad del grano". Vistas en astronomía . 41 (3): 411–417. Bibcode : 1997VA ..... 41..411T . doi : 10.1016 / s0083-6656 (97) 00046-9 .

[1]