En el aprendizaje automático , las máquinas kernel son una clase de algoritmos para el análisis de patrones , cuyo miembro más conocido es la máquina de vectores de soporte (SVM). La tarea general del análisis de patrones es encontrar y estudiar tipos generales de relaciones (por ejemplo , grupos , clasificaciones , componentes principales , correlaciones , clasificaciones ) en conjuntos de datos. Para muchos algoritmos que resuelven estas tareas, los datos en representación sin procesar deben transformarse explícitamente en representaciones de vectores de características a través de un mapa de características especificado por el usuario.: en contraste, los métodos del kernel requieren solo un kernel especificado por el usuario , es decir, una función de similitud sobre pares de puntos de datos en representación sin formato.
Los métodos del kernel deben su nombre al uso de funciones del kernel , que les permiten operar en un espacio de características implícitas de alta dimensión sin siquiera calcular las coordenadas de los datos en ese espacio, sino simplemente computando los productos internos entre las imágenes de todos los pares de datos en el espacio de características. Esta operación suele ser computacionalmente más económica que el cálculo explícito de las coordenadas. Este enfoque se denomina " truco del núcleo ". [1] Se han introducido funciones del núcleo para datos de secuencia, gráficos , texto, imágenes y vectores.
Los algoritmos capaces de operar con núcleos incluyen el perceptrón del núcleo , máquinas de vectores de soporte (SVM), procesos gaussianos , análisis de componentes principales (PCA), análisis de correlación canónica , regresión de crestas , agrupamiento espectral , filtros adaptativos lineales y muchos otros.
La mayoría de los algoritmos del kernel se basan en optimización convexa o problemas propios y están bien fundamentados estadísticamente. Normalmente, sus propiedades estadísticas se analizan utilizando la teoría del aprendizaje estadístico (por ejemplo, utilizando la complejidad de Rademacher ).
Motivación y explicación informal
Los métodos del kernel se pueden considerar como aprendices basados en instancias : en lugar de aprender un conjunto fijo de parámetros correspondientes a las características de sus entradas, en cambio "recuerdan" los-ésimo ejemplo de entrenamiento y aprende para ello un peso correspondiente . La predicción de entradas no etiquetadas, es decir, aquellas que no están en el conjunto de entrenamiento, se trata mediante la aplicación de una función de similitud. , llamado kernel , entre la entrada sin etiqueta y cada uno de los insumos de formación . Por ejemplo, un clasificador binario kernelizado normalmente calcula una suma ponderada de similitudes
- ,
dónde
- es la etiqueta predicha del clasificador binario kernelizado para la entrada sin etiqueta cuya verdadera etiqueta oculta es de interés;
- es la función del kernel que mide la similitud entre cualquier par de entradas ;
- la suma varía sobre los n ejemplos etiquetados en el conjunto de entrenamiento del clasificador, con ;
- la son los pesos para los ejemplos de entrenamiento, según lo determinado por el algoritmo de aprendizaje;
- la función de signo determina si la clasificación prevista sale positivo o negativo.
Los clasificadores de kernel se describieron ya en la década de 1960, con la invención del perceptrón de kernel . [2] Alcanzaron gran importancia con la popularidad de la máquina de vectores de soporte (SVM) en la década de 1990, cuando se descubrió que la SVM era competitiva con las redes neuronales en tareas como el reconocimiento de escritura a mano .
Matemáticas: el truco del núcleo
El truco del núcleo evita el mapeo explícito que se necesita para que los algoritmos de aprendizaje lineal aprendan una función no lineal o un límite de decisión . Para todos y en el espacio de entrada , ciertas funciones se puede expresar como un producto interior en otro espacio. La funcióna menudo se denomina kernel o función de kernel . La palabra "núcleo" se usa en matemáticas para denotar una función de ponderación para una suma ponderada o integral .
Ciertos problemas en el aprendizaje automático tienen más estructura que una función de ponderación arbitraria . El cálculo se hace mucho más simple si el kernel se puede escribir en forma de "mapa de características" que satisface
La restricción clave es que debe ser un producto interior adecuado. Por otro lado, una representación explícita de no es necesario, siempre que es un espacio de producto interior . La alternativa se deriva del teorema de Mercer : una función definida implícitamente existe siempre que el espacio puede equiparse con una medida adecuada que garantice la funciónsatisface la condición de Mercer .
El teorema de Mercer es similar a una generalización del resultado del álgebra lineal que asocia un producto interno a cualquier matriz definida positiva . De hecho, la condición de Mercer se puede reducir a este caso más simple. Si elegimos como nuestra medida la medida de conteo para todos , que cuenta el número de puntos dentro del conjunto , entonces la integral en el teorema de Mercer se reduce a una suma
Si esta suma es válida para todas las secuencias finitas de puntos en y todas las opciones de coeficientes de valor real (cf. kernel definido positivo ), entonces la función satisface la condición de Mercer.
Algunos algoritmos que dependen de relaciones arbitrarias en el espacio nativo tendría, de hecho, una interpretación lineal en un escenario diferente: el espacio de rango de . La interpretación lineal nos da una idea del algoritmo. Además, a menudo no es necesario calculardirectamente durante el cálculo, como es el caso de las máquinas de vectores de soporte . Algunos citan este atajo de tiempo de ejecución como el beneficio principal. Los investigadores también lo utilizan para justificar los significados y propiedades de los algoritmos existentes.
Teóricamente, una matriz de Gram con respecto a (a veces también llamada "matriz del núcleo" [3] ), donde, debe ser positivo semi-definido (PSD) . [4] Empíricamente, para la heurística del aprendizaje automático, las elecciones de una función que no satisfacen la condición de Mercer aún pueden funcionar razonablemente si al menos se aproxima a la idea intuitiva de similitud. [5] Independientemente de si es un núcleo de Mercer, todavía puede denominarse "núcleo".
Si la función del kernel es también una función de covarianza como se usa en los procesos gaussianos , entonces la matriz de Gramtambién se puede llamar matriz de covarianza . [6]
Aplicaciones
Las áreas de aplicación de los métodos del kernel son diversas e incluyen geoestadística , [7] kriging , ponderación de distancia inversa , reconstrucción 3D , bioinformática , quimioinformática , extracción de información y reconocimiento de escritura a mano .
Núcleos populares
- Núcleo de Fisher
- Núcleos de gráficos
- Kernel más suave
- Núcleo polinomial
- Núcleo de función de base radial (RBF)
- Núcleos de cadena
- Núcleo tangente neuronal
- Núcleo del proceso gaussiano de la red neuronal (NNGP)
Ver también
- Métodos de kernel para salida vectorial
- Estimación de la densidad de kernel
- Representante teorema
- Teorema de Cover
Referencias
- ^ Theodoridis, Sergios (2008). Reconocimiento de patrones . Elsevier BV pág. 203. ISBN 9780080949123.
- ^ Aizerman, MA; Braverman, Emmanuel M .; Rozonoer, LI (1964). "Fundamentos teóricos del método de función potencial en el aprendizaje de reconocimiento de patrones". Automatización y Telemando . 25 : 821–837. Citado en Guyon, Isabelle; Boser, B .; Vapnik, Vladimir (1993). Ajuste automático de la capacidad de clasificadores de dimensiones VC muy grandes . Avances en sistemas de procesamiento de información neuronal. CiteSeerX 10.1.1.17.7215 .
- ^ Hofmann, Thomas; Scholkopf, Bernhard; Smola, Alexander J. (2008). "Métodos de Kernel en Machine Learning" . Cite journal requiere
|journal=
( ayuda ) - ^ Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . Estados Unidos, Massachusetts: MIT Press. ISBN 9780262018258.
- ^ Sewell, Martin. "Máquinas de vectores de soporte: condición de Mercer" . www.svms.org .
- ^ Rasmussen, CE; Williams, CKI (2006). "Procesos gaussianos para el aprendizaje automático". Cite journal requiere
|journal=
( ayuda ) - ^ Honarkhah, M .; Caers, J. (2010). "Simulación estocástica de patrones utilizando el modelado de patrones basado en la distancia". Geociencias matemáticas . 42 : 487–517. doi : 10.1007 / s11004-010-9276-7 .
Otras lecturas
- Shawe-Taylor, J .; Cristianini, N. (2004). Métodos de kernel para análisis de patrones . Prensa de la Universidad de Cambridge.
- Liu, W .; Principe, J .; Haykin, S. (2010). Filtrado adaptativo de kernel: una introducción completa . Wiley.
- Schölkopf, B .; Smola, AJ; Bach, F. (2018). Aprendizaje con kernels: máquinas de vectores de soporte, regularización, optimización y más . Prensa del MIT. ISBN 978-0-262-53657-8.
enlaces externos
- Kernel-Machines Org : sitio web de la comunidad
- onlineprediction.net Artículo sobre métodos del kernel