En estadística , la regresión Kernel es una técnica no paramétrica para estimar la expectativa condicional de una variable aleatoria . El objetivo es encontrar una relación no lineal entre un par de variables aleatorias X y Y .
En cualquier regresión no paramétrica , la expectativa condicional de una variable relativo a una variable puede estar escrito:
dónde es una función desconocida.
Regresión del kernel de Nadaraya-Watson
Nadaraya y Watson , ambos en 1964, propusieron estimarcomo un promedio ponderado localmente, utilizando un kernel como función de ponderación. [1] [2] [3] El estimador Nadaraya-Watson es:
dónde es un kernel con ancho de banda . El denominador es un término de ponderación con suma 1.
Derivación
Usando la estimación de densidad kernel para la distribución conjunta f (x, y) y f (x) con un núcleo K ,
,
,
obtenemos
que es el estimador de Nadaraya-Watson.
Estimador de kernel de Priestley-Chao
dónde es el ancho de banda (o parámetro de suavizado).
Estimador de kernel de Gasser-Müller
dónde
Ejemplo
Este ejemplo se basa en datos de salarios de corte transversal canadiense que consisten en una muestra aleatoria tomada de las cintas de uso público del censo canadiense de 1971 para individuos masculinos que tienen educación común (grado 13). Hay 205 observaciones en total.
La figura de la derecha muestra la función de regresión estimada usando un kernel gaussiano de segundo orden junto con límites de variabilidad asintótica
Script por ejemplo
Los siguientes comandos del lenguaje de programación R utilizan la npreg()
función para ofrecer un suavizado óptimo y crear la figura dada anteriormente. Estos comandos se pueden ingresar en el símbolo del sistema mediante cortar y pegar.
install.packages ( "np" ) biblioteca ( np ) # datos de biblioteca no paramétricos ( cps71 ) adjuntar ( cps71 )m <- npreg ( logwage ~ age )plot ( m , plot.errors.method = "asymptotic" , plot.errors.style = "band" , ylim = c ( 11 , 15.2 ))puntos ( edad , logwage , cex = . 25 )
Relacionados
Según David Salsburg , los algoritmos utilizados en la regresión del kernel se desarrollaron de forma independiente y se utilizaron en sistemas difusos : "Con casi exactamente el mismo algoritmo informático, los sistemas difusos y las regresiones basadas en la densidad del kernel parecen haberse desarrollado de forma completamente independiente entre sí. " [4]
Implementación estadística
- Paquete de programa matemático GNU Octave
- Julia : KernelEstimator.jl
- MATLAB : En estas páginas se encuentra disponible una caja de herramientas MATLAB gratuita con implementación de regresión del kernel, estimación de la densidad del kernel, estimación del kernel de la función de riesgo y muchas otras (esta caja de herramientas es parte del libro [5] ).
- Python : la
KernelReg
clase para tipos de datos mixtos en el subpaquetestatsmodels.nonparametric
(incluye otras clases relacionadas con la densidad del kernel), el paquete kernel_regression como una extensión de sklearn (memoria ineficiente, útil solo para conjuntos de datos pequeños) - R : la función
npreg
del paquete np puede realizar una regresión del kernel. [6] [7] - Stata : npregress , kernreg2
Ver también
Referencias
- ^ Nadaraya, EA (1964). "Sobre la estimación de la regresión". Teoría de la probabilidad y sus aplicaciones . 9 (1): 141–2. doi : 10.1137 / 1109020 .
- ^ Watson, GS (1964). "Análisis de regresión suave". Saṅkhyā: El indio Diario de Estadística, Serie A . 26 (4): 359–372. JSTOR 25049340 .
- ^ Bierens, Herman J. (1994). "El estimador de la función de regresión del kernel de Nadaraya-Watson" . Temas de Econometría Avanzada . Nueva York: Cambridge University Press. págs. 212–247. ISBN 0-521-41900-X.
- ^ Salsburg, D. (2002). The Lady Tasting Tea: Cómo las estadísticas revolucionaron la ciencia en el siglo XX . WH Freeman. págs. 290–91. ISBN 0-8050-7134-2.
- ^ Horová, I .; Koláček, J .; Zelinka, J. (2012). Kernel Smoothing en MATLAB: teoría y práctica del Kernel Smoothing . Singapur: World Scientific Publishing. ISBN 978-981-4405-48-5.
- ^ np : métodos de suavizado de kernel no paramétricos para tipos de datos mixtos
- ^ Kloke, John; McKean, Joseph W. (2014). Métodos estadísticos no paramétricos Uso de R . Prensa CRC. págs. 98-106. ISBN 978-1-4398-7343-4.
Otras lecturas
- Henderson, Daniel J .; Parmeter, Christopher F. (2015). Econometría no paramétrica aplicada . Prensa de la Universidad de Cambridge. ISBN 978-1-107-01025-3.
- Li, Qi; Racine, Jeffrey S. (2007). Econometría no paramétrica: teoría y práctica . Prensa de la Universidad de Princeton. ISBN 0-691-12161-3.
- Pagan, A .; Ullah, A. (1999). Econometría no paramétrica . Prensa de la Universidad de Cambridge. ISBN 0-521-35564-8.
- Simonoff, Jeffrey S. (1996). Métodos de suavizado en estadística . Saltador. ISBN 0-387-94716-7.
enlaces externos
- Regresión de kernel adaptativa a escala (con software Matlab).
- Tutorial de regresión Kernel mediante hoja de cálculo (con Microsoft Excel ).
- Una demostración de regresión del kernel en línea Requiere .NET 3.0 o posterior.
- Regresión del kernel con selección automática de ancho de banda (con Python)