Un kernel suave es una técnica estadística para estimar una función con valor real como el promedio ponderado de los datos observados vecinos. El peso lo define el grano, de modo que a los puntos más cercanos se les asigna un mayor peso. La función estimada es suave y el nivel de suavidad se establece mediante un solo parámetro.
Esta técnica es más apropiada cuando la dimensión del predictor es baja ( p <3), por ejemplo, para la visualización de datos.
Definiciones
Dejar ser un kernel definido por
dónde:
- es la norma euclidiana
- es un parámetro (radio del kernel)
- D ( t ) es típicamente una función de valor real positivo, cuyo valor disminuye (o no aumenta) para la distancia creciente entre X y X 0 .
Los núcleos populares utilizados para suavizar incluyen los núcleos parabólicos (Epanechnikov), Tricube y Gaussianos .
Dejar ser una función continua de X . Para cada, el promedio ponderado del kernel de Nadaraya-Watson ( estimación suave Y ( X )) se define por
dónde:
- N es el número de puntos observados
- Y ( X i ) son las observaciones en los puntos X i .
En las siguientes secciones, describimos algunos casos particulares de suavizadores de kernel.
Kernel gaussiano más suave
El kernel gaussiano es uno de los kernels más utilizados y se expresa con la siguiente ecuación.
Aquí, b es la escala de longitud para el espacio de entrada.
Vecino más cercano más suave
La idea del vecino más cercano más suave es la siguiente. Para cada punto X 0 , tome m vecinos más cercanos y estime el valor de Y ( X 0 ) promediando los valores de estos vecinos.
Formalmente, , dónde es el m ésimo más cercano al vecino X 0 , y
Ejemplo:
En este ejemplo, X es unidimensional. Para cada X 0 , eles un valor promedio de 16 más cercano a X 0 puntos (indicado en rojo). El resultado no es lo suficientemente suave.
Kernel promedio más suave
La idea del kernel promedio más suave es la siguiente. Para cada punto de datos X 0 , elija un tamaño de distancia constante λ (radio del núcleo o ancho de ventana para p = 1 dimensión) y calcule un promedio ponderado para todos los puntos de datos que estén más cerca dea X 0 (cuanto más cerca de X 0 los puntos obtienen mayor peso).
Formalmente, y D ( t ) es uno de los núcleos populares.
Ejemplo:
Para cada X 0, el ancho de la ventana es constante y el peso de cada punto en la ventana se indica esquemáticamente con la figura amarilla en el gráfico. Se puede ver que la estimación es suave, pero los puntos límite están sesgados. La razón de esto es el número desigual de puntos (desde la derecha y desde la izquierda hasta el X 0 ) en la ventana, cuando el X 0 está lo suficientemente cerca del límite.
Regresión lineal local
En las dos secciones anteriores asumimos que la función Y (X) subyacente es localmente constante, por lo que pudimos usar el promedio ponderado para la estimación. La idea de la regresión lineal local es ajustar localmente una línea recta (o un hiperplano para dimensiones más altas) y no la constante (línea horizontal). Después de ajustar la línea, la estimaciónes proporcionado por el valor de esta línea en el punto X 0 . Repitiendo este procedimiento para cada X 0 , se puede obtener la función de estimación. Como en la sección anterior, el ancho de la ventana es constante. Formalmente, la regresión lineal local se calcula resolviendo un problema de mínimos cuadrados ponderados.
Para una dimensión ( p = 1):
La solución de forma cerrada viene dada por:
dónde:
Ejemplo:
La función resultante es suave y se reduce el problema con los puntos límite sesgados.
La regresión lineal local se puede aplicar a cualquier espacio dimensional, aunque la cuestión de qué es un vecindario local se vuelve más complicada. Es común usar k puntos de entrenamiento más cercanos a un punto de prueba para ajustar la regresión lineal local. Esto puede dar lugar a una gran variación de la función ajustada. Para limitar la varianza, el conjunto de puntos de entrenamiento debe contener el punto de prueba en su casco convexo (ver referencia de Gupta et al.).
Regresión polinomial local
En lugar de ajustar funciones localmente lineales, se pueden ajustar funciones polinómicas.
Para p = 1, se debe minimizar:
con
En el caso general (p> 1), se debe minimizar:
Ver también
Referencias
- Li, Q. y JS Racine. Econometría no paramétrica: teoría y práctica . Prensa de la Universidad de Princeton, 2007, ISBN 0-691-12161-3 .
- T. Hastie, R. Tibshirani y J. Friedman, Los elementos del aprendizaje estadístico , Capítulo 6, Springer, 2001. ISBN 0-387-95284-5 ( sitio de libros complementarios ).
- M. Gupta, E. García y E. Chin, "Regresión lineal local adaptable con aplicación a la gestión del color de la impresora", IEEE Trans. Procesamiento de imágenes 2008.