Método de kernel

En el aprendizaje automático , las máquinas kernel son una clase de algoritmos para el análisis de patrones , cuyo miembro más conocido es la máquina de vectores de soporte (SVM). La tarea general del análisis de patrones es encontrar y estudiar tipos generales de relaciones (por ejemplo , grupos , clasificaciones , componentes principales , correlaciones , clasificaciones ) en conjuntos de datos. Para muchos algoritmos que resuelven estas tareas, los datos en representación sin procesar deben transformarse explícitamente en representaciones de vectores de características a través de un mapa de características especificado por el usuario.: en contraste, los métodos del kernel requieren solo un kernel especificado por el usuario , es decir, una función de similitud sobre pares de puntos de datos en representación sin formato.

Los métodos del kernel deben su nombre al uso de funciones del kernel , que les permiten operar en un espacio de características implícitas de alta dimensión sin siquiera calcular las coordenadas de los datos en ese espacio, sino simplemente computando los productos internos entre las imágenes de todos los pares de datos en el espacio de características. Esta operación suele ser computacionalmente más económica que el cálculo explícito de las coordenadas. Este enfoque se denomina " truco del núcleo ". ^[1] Se han introducido funciones del núcleo para datos de secuencia, gráficos , texto, imágenes y vectores.

Los algoritmos capaces de operar con núcleos incluyen el perceptrón del núcleo , máquinas de vectores de soporte (SVM), procesos gaussianos , análisis de componentes principales (PCA), análisis de correlación canónica , regresión de crestas , agrupamiento espectral , filtros adaptativos lineales y muchos otros.

La mayoría de los algoritmos del kernel se basan en optimización convexa o problemas propios y están bien fundamentados estadísticamente. Normalmente, sus propiedades estadísticas se analizan utilizando la teoría del aprendizaje estadístico (por ejemplo, utilizando la complejidad de Rademacher ).

Motivación y explicación informal

Los métodos del kernel se pueden considerar como aprendices basados en instancias : en lugar de aprender un conjunto fijo de parámetros correspondientes a las características de sus entradas, en cambio "recuerdan" los ${\ Displaystyle i}$ -ésimo ejemplo de entrenamiento ${\ Displaystyle (\ mathbf {x} _ {i}, y_ {i})}$ y aprende para ello un peso correspondiente ${\ Displaystyle w_ {i}}$ . La predicción de entradas no etiquetadas, es decir, aquellas que no están en el conjunto de entrenamiento, se trata mediante la aplicación de una función de similitud. ${\ Displaystyle k}$ , llamado kernel , entre la entrada sin etiqueta ${\ Displaystyle \ mathbf {x '}}$ y cada uno de los insumos de formación ${\ Displaystyle \ mathbf {x} _ {i}}$ . Por ejemplo, un clasificador binario kernelizado normalmente calcula una suma ponderada de similitudes

{\ Displaystyle {\ hat {y}} = \ operatorname {sgn} \ sum _ {i = 1} ^ {n} w_ {i} y_ {i} k (\ mathbf {x} _ {i}, \ mathbf {X'} )}

,

dónde

${\ Displaystyle {\ hat {y}} \ in \ {- 1, + 1 \}}$ es la etiqueta predicha del clasificador binario kernelizado para la entrada sin etiqueta ${\ Displaystyle \ mathbf {x '}}$ cuya verdadera etiqueta oculta ${\ Displaystyle y}$ es de interés;
${\ Displaystyle k \ colon {\ mathcal {X}} \ times {\ mathcal {X}} \ to \ mathbb {R}}$ es la función del kernel que mide la similitud entre cualquier par de entradas ${\ Displaystyle \ mathbf {x}, \ mathbf {x '} \ in {\ mathcal {X}}}$ ;
la suma varía sobre los $n$ ejemplos etiquetados ${\ Displaystyle \ {(\ mathbf {x} _ {i}, y_ {i}) \} _ {i = 1} ^ {n}}$ en el conjunto de entrenamiento del clasificador, con ${\ Displaystyle y_ {i} \ in \ {- 1, + 1 \}}$ ;
la ${\ Displaystyle w_ {i} \ in \ mathbb {R}}$ son los pesos para los ejemplos de entrenamiento, según lo determinado por el algoritmo de aprendizaje;
la función de signo ${\ Displaystyle \ operatorname {sgn}}$ determina si la clasificación prevista ${\ Displaystyle {\ hat {y}}}$ sale positivo o negativo.

Los clasificadores de kernel se describieron ya en la década de 1960, con la invención del perceptrón de kernel . ^[2] Alcanzaron gran importancia con la popularidad de la máquina de vectores de soporte (SVM) en la década de 1990, cuando se descubrió que la SVM era competitiva con las redes neuronales en tareas como el reconocimiento de escritura a mano .

Matemáticas: el truco del núcleo

SVM con kernel dado por φ (( a , b )) = ( a , b , a ² + b ² ) y por lo tanto K ( x , y ) =

{\ Displaystyle \ mathbf {x} \ cdot \ mathbf {y} + \ left \ | \ mathbf {x} \ right \ | ^ {2} \ left \ | \ mathbf {y} \ right \ | ^ {2} }

. Los puntos de entrenamiento se asignan a un espacio tridimensional donde se puede encontrar fácilmente un hiperplano separador.

El truco del núcleo evita el mapeo explícito que se necesita para que los algoritmos de aprendizaje lineal aprendan una función no lineal o un límite de decisión . Para todos ${\ Displaystyle \ mathbf {x}}$ y ${\ Displaystyle \ mathbf {x '}}$ en el espacio de entrada ${\ Displaystyle {\ mathcal {X}}}$ , ciertas funciones ${\ Displaystyle k (\ mathbf {x}, \ mathbf {x '})}$ se puede expresar como un producto interior en otro espacio ${\ Displaystyle {\ mathcal {V}}}$ . La función ${\ Displaystyle k \ colon {\ mathcal {X}} \ times {\ mathcal {X}} \ to \ mathbb {R}}$ a menudo se denomina kernel o función de kernel . La palabra "núcleo" se usa en matemáticas para denotar una función de ponderación para una suma ponderada o integral .

Ciertos problemas en el aprendizaje automático tienen más estructura que una función de ponderación arbitraria ${\ Displaystyle k}$ . El cálculo se hace mucho más simple si el kernel se puede escribir en forma de "mapa de características" ${\ Displaystyle \ varphi \ colon {\ mathcal {X}} \ to {\ mathcal {V}}}$ que satisface

{\ Displaystyle k (\ mathbf {x}, \ mathbf {x '}) = \ langle \ varphi (\ mathbf {x}), \ varphi (\ mathbf {x'}) \ rangle _ {\ mathcal {V} }.}

La restricción clave es que ${\ Displaystyle \ langle \ cdot, \ cdot \ rangle _ {\ mathcal {V}}}$ debe ser un producto interior adecuado. Por otro lado, una representación explícita de ${\ Displaystyle \ varphi}$ no es necesario, siempre que ${\ Displaystyle {\ mathcal {V}}}$ es un espacio de producto interior . La alternativa se deriva del teorema de Mercer : una función definida implícitamente ${\ Displaystyle \ varphi}$ existe siempre que el espacio ${\ Displaystyle {\ mathcal {X}}}$ puede equiparse con una medida adecuada que garantice la función ${\ Displaystyle k}$ satisface la condición de Mercer .

El teorema de Mercer es similar a una generalización del resultado del álgebra lineal que asocia un producto interno a cualquier matriz definida positiva . De hecho, la condición de Mercer se puede reducir a este caso más simple. Si elegimos como nuestra medida la medida de conteo ${\ Displaystyle \ mu (T) = | T |}$ para todos ${\ Displaystyle T \ subconjunto X}$ , que cuenta el número de puntos dentro del conjunto ${\ Displaystyle T}$ , entonces la integral en el teorema de Mercer se reduce a una suma

{\ Displaystyle \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} k (\ mathbf {x} _ {i}, \ mathbf {x} _ {j}) c_ {i} c_ {j} \ geq 0.}

Si esta suma es válida para todas las secuencias finitas de puntos ${\ Displaystyle (\ mathbf {x} _ {1}, \ dotsc, \ mathbf {x} _ {n})}$ en ${\ Displaystyle {\ mathcal {X}}}$ y todas las opciones de ${\ Displaystyle n}$ coeficientes de valor real ${\ Displaystyle (c_ {1}, \ dots, c_ {n})}$ (cf. kernel definido positivo ), entonces la función ${\ Displaystyle k}$ satisface la condición de Mercer.

Algunos algoritmos que dependen de relaciones arbitrarias en el espacio nativo ${\ Displaystyle {\ mathcal {X}}}$ tendría, de hecho, una interpretación lineal en un escenario diferente: el espacio de rango de ${\ Displaystyle \ varphi}$ . La interpretación lineal nos da una idea del algoritmo. Además, a menudo no es necesario calcular ${\ Displaystyle \ varphi}$ directamente durante el cálculo, como es el caso de las máquinas de vectores de soporte . Algunos citan este atajo de tiempo de ejecución como el beneficio principal. Los investigadores también lo utilizan para justificar los significados y propiedades de los algoritmos existentes.

Teóricamente, una matriz de Gram ${\ Displaystyle \ mathbf {K} \ in \ mathbb {R} ^ {n \ times n}}$ con respecto a ${\ Displaystyle \ {\ mathbf {x} _ {1}, \ dotsc, \ mathbf {x} _ {n} \}}$ (a veces también llamada "matriz del núcleo" ^[3] ), donde ${\ Displaystyle K_ {ij} = k (\ mathbf {x} _ {i}, \ mathbf {x} _ {j})}$ , debe ser positivo semi-definido (PSD) . ^[4] Empíricamente, para la heurística del aprendizaje automático, las elecciones de una función ${\ Displaystyle k}$ que no satisfacen la condición de Mercer aún pueden funcionar razonablemente si ${\ Displaystyle k}$ al menos se aproxima a la idea intuitiva de similitud. ^[5] Independientemente de si ${\ Displaystyle k}$ es un núcleo de Mercer, ${\ Displaystyle k}$ todavía puede denominarse "núcleo".

Si la función del kernel ${\ Displaystyle k}$ es también una función de covarianza como se usa en los procesos gaussianos , entonces la matriz de Gram ${\ Displaystyle \ mathbf {K}}$ también se puede llamar matriz de covarianza . ^[6]

Aplicaciones

Las áreas de aplicación de los métodos del kernel son diversas e incluyen geoestadística , ^[7] kriging , ponderación de distancia inversa , reconstrucción 3D , bioinformática , quimioinformática , extracción de información y reconocimiento de escritura a mano .

Núcleos populares

Núcleo de Fisher
Núcleos de gráficos
Kernel más suave
Núcleo polinomial
Núcleo de función de base radial (RBF)
Núcleos de cadena
Núcleo tangente neuronal
Núcleo del proceso gaussiano de la red neuronal (NNGP)

Ver también

Métodos de kernel para salida vectorial
Estimación de la densidad de kernel
Representante teorema
Teorema de Cover

Referencias

^ Theodoridis, Sergios (2008). Reconocimiento de patrones . Elsevier BV pág. 203. ISBN 9780080949123.
^ Aizerman, MA; Braverman, Emmanuel M .; Rozonoer, LI (1964). "Fundamentos teóricos del método de función potencial en el aprendizaje de reconocimiento de patrones". Automatización y Telemando . 25 : 821–837. Citado en Guyon, Isabelle; Boser, B .; Vapnik, Vladimir (1993). Ajuste automático de la capacidad de clasificadores de dimensiones VC muy grandes . Avances en sistemas de procesamiento de información neuronal. CiteSeerX 10.1.1.17.7215 .
^ Hofmann, Thomas; Scholkopf, Bernhard; Smola, Alexander J. (2008). "Métodos de Kernel en Machine Learning" . Cite journal requiere |journal=( ayuda )
^ Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . Estados Unidos, Massachusetts: MIT Press. ISBN 9780262018258.
^ Sewell, Martin. "Máquinas de vectores de soporte: condición de Mercer" . www.svms.org .
^ Rasmussen, CE; Williams, CKI (2006). "Procesos gaussianos para el aprendizaje automático". Cite journal requiere |journal=( ayuda )
^ Honarkhah, M .; Caers, J. (2010). "Simulación estocástica de patrones utilizando el modelado de patrones basado en la distancia". Geociencias matemáticas . 42 : 487–517. doi : 10.1007 / s11004-010-9276-7 .

Otras lecturas

Shawe-Taylor, J .; Cristianini, N. (2004). Métodos de kernel para análisis de patrones . Prensa de la Universidad de Cambridge.
Liu, W .; Principe, J .; Haykin, S. (2010). Filtrado adaptativo de kernel: una introducción completa . Wiley.
Schölkopf, B .; Smola, AJ; Bach, F. (2018). Aprendizaje con kernels: máquinas de vectores de soporte, regularización, optimización y más . Prensa del MIT. ISBN 978-0-262-53657-8.

enlaces externos

Kernel-Machines Org : sitio web de la comunidad
onlineprediction.net Artículo sobre métodos del kernel

[1] Theodoridis, Sergios (2008). Reconocimiento de patrones . Elsevier BV pág. 203. ISBN 9780080949123.

[2] Aizerman, MA; Braverman, Emmanuel M .; Rozonoer, LI (1964). "Fundamentos teóricos del método de función potencial en el aprendizaje de reconocimiento de patrones". Automatización y Telemando . 25 : 821–837. Citado en Guyon, Isabelle; Boser, B .; Vapnik, Vladimir (1993). Ajuste automático de la capacidad de clasificadores de dimensiones VC muy grandes . Avances en sistemas de procesamiento de información neuronal. CiteSeerX 10.1.1.17.7215 .

[3] Hofmann, Thomas; Scholkopf, Bernhard; Smola, Alexander J. (2008). "Métodos de Kernel en Machine Learning" . Cite journal requiere |journal=( ayuda )

[4] Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . Estados Unidos, Massachusetts: MIT Press. ISBN 9780262018258.

[5] Sewell, Martin. "Máquinas de vectores de soporte: condición de Mercer" . www.svms.org .

[6] Rasmussen, CE; Williams, CKI (2006). "Procesos gaussianos para el aprendizaje automático". Cite journal requiere |journal=( ayuda )

[7] Honarkhah, M .; Caers, J. (2010). "Simulación estocástica de patrones utilizando el modelado de patrones basado en la distancia". Geociencias matemáticas . 42 : 487–517. doi : 10.1007 / s11004-010-9276-7 .

[1]