Kernel más suave

Un kernel suave es una técnica estadística para estimar una función con valor real ${\ Displaystyle f: \ mathbb {R} ^ {p} \ to \ mathbb {R}}$ como el promedio ponderado de los datos observados vecinos. El peso lo define el grano, de modo que a los puntos más cercanos se les asigna un mayor peso. La función estimada es suave y el nivel de suavidad se establece mediante un solo parámetro.

Esta técnica es más apropiada cuando la dimensión del predictor es baja ( p <3), por ejemplo, para la visualización de datos.

Definiciones

Dejar ${\ Displaystyle K_ {h _ {\ lambda}} (X_ {0}, X)}$ ser un kernel definido por

{\ Displaystyle K_ {h _ {\ lambda}} (X_ {0}, X) = D \ left ({\ frac {\ left \ | X-X_ {0} \ right \ |} {h _ {\ lambda} ( X_ {0})}} \ right)}

dónde:

${\ Displaystyle X, X_ {0} \ in \ mathbb {R} ^ {p}}$
${\ Displaystyle \ left \ | \ cdot \ right \ |}$ es la norma euclidiana
${\ Displaystyle h _ {\ lambda} (X_ {0})}$ es un parámetro (radio del kernel)
D ( t ) es típicamente una función de valor real positivo, cuyo valor disminuye (o no aumenta) para la distancia creciente entre X y X ₀ .

Los núcleos populares utilizados para suavizar incluyen los núcleos parabólicos (Epanechnikov), Tricube y Gaussianos .

Dejar ${\ Displaystyle Y (X): \ mathbb {R} ^ {p} \ to \ mathbb {R}}$ ser una función continua de X . Para cada ${\ Displaystyle X_ {0} \ in \ mathbb {R} ^ {p}}$ , el promedio ponderado del kernel de Nadaraya-Watson ( estimación suave Y ( X )) se define por

{\ Displaystyle {\ hat {Y}} (X_ {0}) = {\ frac {\ sum \ limits _ {i = 1} ^ {N} {K_ {h _ {\ lambda}} (X_ {0}, X_ {i}) Y (X_ {i})}} {\ sum \ limits _ {i = 1} ^ {N} {K_ {h _ {\ lambda}} (X_ {0}, X_ {i})} }}}

dónde:

N es el número de puntos observados
Y ( X _i ) son las observaciones en los puntos X _i .

En las siguientes secciones, describimos algunos casos particulares de suavizadores de kernel.

Kernel gaussiano más suave

El kernel gaussiano es uno de los kernels más utilizados y se expresa con la siguiente ecuación.

{\ Displaystyle K (x ^ {*}, x_ {i}) = \ exp \ left (- {\ frac {(x ^ {*} - x_ {i}) ^ {2}} {2b ^ {2} }}\derecho)}

Aquí, b es la escala de longitud para el espacio de entrada.

Gaussian kernel regression.png

Vecino más cercano más suave

La idea del vecino más cercano más suave es la siguiente. Para cada punto X ₀ , tome m vecinos más cercanos y estime el valor de Y ( X ₀ ) promediando los valores de estos vecinos.

Formalmente, ${\ Displaystyle h_ {m} (X_ {0}) = \ left \ | X_ {0} -X _ {[m]} \ right \ |}$ , dónde ${\ Displaystyle X _ {[m]}}$ es el m ésimo más cercano al vecino X ₀ , y

{\ displaystyle D (t) = {\ begin {cases} 1 / m & {\ text {if}} | t | \ leq 1 \\ 0 & {\ text {de otro modo}} \ end {cases}}}

Ejemplo:

En este ejemplo, X es unidimensional. Para cada X ₀ , el ${\ Displaystyle {\ hat {Y}} (X_ {0})}$ es un valor promedio de 16 más cercano a X ₀ puntos (indicado en rojo). El resultado no es lo suficientemente suave.

Kernel promedio más suave

La idea del kernel promedio más suave es la siguiente. Para cada punto de datos X ₀ , elija un tamaño de distancia constante λ (radio del núcleo o ancho de ventana para p = 1 dimensión) y calcule un promedio ponderado para todos los puntos de datos que estén más cerca de ${\ Displaystyle \ lambda}$ a X ₀ (cuanto más cerca de X _{0 los} puntos obtienen mayor peso).

Formalmente, ${\ displaystyle h _ {\ lambda} (X_ {0}) = \ lambda = {\ text {constante}},}$ y D ( t ) es uno de los núcleos populares.

Ejemplo:

Para cada X _0, el ancho de la ventana es constante y el peso de cada punto en la ventana se indica esquemáticamente con la figura amarilla en el gráfico. Se puede ver que la estimación es suave, pero los puntos límite están sesgados. La razón de esto es el número desigual de puntos (desde la derecha y desde la izquierda hasta el X ₀ ) en la ventana, cuando el X ₀ está lo suficientemente cerca del límite.

Regresión lineal local

En las dos secciones anteriores asumimos que la función Y (X) subyacente es localmente constante, por lo que pudimos usar el promedio ponderado para la estimación. La idea de la regresión lineal local es ajustar localmente una línea recta (o un hiperplano para dimensiones más altas) y no la constante (línea horizontal). Después de ajustar la línea, la estimación ${\ Displaystyle {\ hat {Y}} (X_ {0})}$ es proporcionado por el valor de esta línea en el punto X ₀ . Repitiendo este procedimiento para cada X ₀ , se puede obtener la función de estimación ${\ Displaystyle {\ hat {Y}} (X)}$ . Como en la sección anterior, el ancho de la ventana es constante. ${\ Displaystyle h _ {\ lambda} (X_ {0}) = \ lambda = {\ text {constante}}.}$ Formalmente, la regresión lineal local se calcula resolviendo un problema de mínimos cuadrados ponderados.

Para una dimensión ( p = 1):

${\ Displaystyle {\ begin {alineado} & \ min _ {\ alpha (X_ {0}), \ beta (X_ {0})} \ sum \ limits _ {i = 1} ^ {N} {K_ {h_ {\ lambda}} (X_ {0}, X_ {i}) \ left (Y (X_ {i}) - \ alpha (X_ {0}) - \ beta (X_ {0}) X_ {i} \ right ) ^ {2}} \\ & \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \ , \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \, \ ,\,\,\,\Flecha hacia abajo \\&\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, \, \, \, \, \, \, {\ hat {Y}} (X_ {0}) = \ alpha (X_ {0}) + \ beta (X_ {0}) X_ {0} \\\ final {alineado}}}$

La solución de forma cerrada viene dada por:

{\ Displaystyle {\ hat {Y}} (X_ {0}) = \ left (1, X_ {0} \ right) \ left (B ^ {T} W (X_ {0}) B \ right) ^ { -1} B ^ {T} W (X_ {0}) y}

dónde:

${\ Displaystyle y = \ left (Y (X_ {1}), \ dots, Y (X_ {N}) \ right) ^ {T}}$
${\ Displaystyle W (X_ {0}) = \ operatorname {diag} \ left (K_ {h _ {\ lambda}} (X_ {0}, X_ {i}) \ right) _ {N \ times N}}$
${\ Displaystyle B ^ {T} = \ left ({\ begin {matrix} 1 & 1 & \ dots & 1 \\ X_ {1} & X_ {2} & \ dots & X_ {N} \\\ end {matrix}} \ right) }$

Ejemplo:

La función resultante es suave y se reduce el problema con los puntos límite sesgados.

La regresión lineal local se puede aplicar a cualquier espacio dimensional, aunque la cuestión de qué es un vecindario local se vuelve más complicada. Es común usar k puntos de entrenamiento más cercanos a un punto de prueba para ajustar la regresión lineal local. Esto puede dar lugar a una gran variación de la función ajustada. Para limitar la varianza, el conjunto de puntos de entrenamiento debe contener el punto de prueba en su casco convexo (ver referencia de Gupta et al.).

Regresión polinomial local

En lugar de ajustar funciones localmente lineales, se pueden ajustar funciones polinómicas.

Para p = 1, se debe minimizar:

${\ Displaystyle {\ underset {\ alpha (X_ {0}), \ beta _ {j} (X_ {0}), j = 1, ..., d} {\ mathop {\ min}}} \, \ sum \ limits _ {i = 1} ^ {N} {K_ {h _ {\ lambda}} (X_ {0}, X_ {i}) \ left (Y (X_ {i}) - \ alpha (X_ { 0}) - \ sum \ limits _ {j = 1} ^ {d} {\ beta _ {j} (X_ {0}) X_ {i} ^ {j}} \ right) ^ {2}}}$

con ${\ Displaystyle {\ hat {Y}} (X_ {0}) = \ alpha (X_ {0}) + \ sum \ limits _ {j = 1} ^ {d} {\ beta _ {j} (X_ { 0}) X_ {0} ^ {j}}}$

En el caso general (p> 1), se debe minimizar:

${\ Displaystyle {\ begin {alineado} & {\ hat {\ beta}} (X_ {0}) = {\ underset {\ beta (X_ {0})} {\ mathop {\ arg \ min}}} \ , \ sum \ limits _ {i = 1} ^ {N} {K_ {h _ {\ lambda}} (X_ {0}, X_ {i}) \ left (Y (X_ {i}) - b (X_ { i}) ^ {T} \ beta (X_ {0}) \ right)} ^ {2} \\ & b (X) = \ left ({\ begin {matrix} 1, & X_ {1}, & X_ {2} , ... & X_ {1} ^ {2}, & X_ {2} ^ {2}, ... & X_ {1} X_ {2} \, \, \, ... \\\ end {matrix}} \ right) \\ & {\ hat {Y}} (X_ {0}) = b (X_ {0}) ^ {T} {\ hat {\ beta}} (X_ {0}) \\\ end { alineado}}}$

Ver también

Referencias

Li, Q. y JS Racine. Econometría no paramétrica: teoría y práctica . Prensa de la Universidad de Princeton, 2007, ISBN 0-691-12161-3 .
T. Hastie, R. Tibshirani y J. Friedman, Los elementos del aprendizaje estadístico , Capítulo 6, Springer, 2001. ISBN 0-387-95284-5 ( sitio de libros complementarios ).
M. Gupta, E. García y E. Chin, "Regresión lineal local adaptable con aplicación a la gestión del color de la impresora", IEEE Trans. Procesamiento de imágenes 2008.