Núcleo de función de base radial

En el aprendizaje automático , el kernel de función de base radial , o kernel RBF , es una función de kernel popular que se utiliza en varios algoritmos de aprendizaje kernelizados . En particular, se usa comúnmente en la clasificación de máquinas de vectores de soporte . ^[1]

El kernel RBF en dos muestras x y x ' , representadas como vectores de características en algún espacio de entrada , se define como ^[2]

{\ Displaystyle K (\ mathbf {x}, \ mathbf {x '}) = \ exp \ left (- {\ frac {\ | \ mathbf {x} - \ mathbf {x'} \ | ^ {2}} {2 \ sigma ^ {2}}} \ right)}

${\ Displaystyle \ textstyle \ | \ mathbf {x} - \ mathbf {x '} \ | ^ {2}}$ puede reconocerse como la distancia euclidiana al cuadrado entre los dos vectores de características. ${\ Displaystyle \ sigma}$ es un parámetro gratuito. Una definición equivalente involucra un parámetro ${\ Displaystyle \ textstyle \ gamma = {\ tfrac {1} {2 \ sigma ^ {2}}}}$ :

{\ Displaystyle K (\ mathbf {x}, \ mathbf {x '}) = \ exp (- \ gamma \ | \ mathbf {x} - \ mathbf {x'} \ | ^ {2})}

Dado que el valor del kernel RBF disminuye con la distancia y varía entre cero (en el límite) y uno (cuando $x = x '$ ), tiene una interpretación fácil como medida de similitud . ^[2] El espacio de características del kernel tiene un número infinito de dimensiones; por ${\ Displaystyle \ sigma = 1}$ , su expansión es: ^[3]

{\ Displaystyle {\ begin {alineado} {2} \ exp \ left (- {\ frac {1} {2}} \ | \ mathbf {x} - \ mathbf {x '} \ | ^ {2} \ right ) & = \ exp ({\ frac {2} {2}} \ mathbf {x} ^ {\ top} \ mathbf {x '} - {\ frac {1} {2}} \ | \ mathbf {x} \ | ^ {2} - {\ frac {1} {2}} \ | \ mathbf {x '} \ | ^ {2}) \\ & = \ exp (\ mathbf {x} ^ {\ top} \ mathbf {x '}) \ exp (- {\ frac {1} {2}} \ | \ mathbf {x} \ | ^ {2}) \ exp (- {\ frac {1} {2}} \ | \ mathbf {x '} \ | ^ {2}) \\ & = \ sum _ {j = 0} ^ {\ infty} {\ frac {(\ mathbf {x} ^ {\ top} \ mathbf {x' }) ^ {j}} {j!}} \ exp \ left (- {\ frac {1} {2}} \ | \ mathbf {x} \ | ^ {2} \ right) \ exp \ left (- {\ frac {1} {2}} \ | \ mathbf {x '} \ | ^ {2} \ right) \\ & = \ sum _ {j = 0} ^ {\ infty} \ sum _ {\ sum n_ {i} = j} \ exp \ left (- {\ frac {1} {2}} \ | \ mathbf {x} \ | ^ {2} \ right) {\ frac {x_ {1} ^ {n_ {1}} \ cdots x_ {k} ^ {n_ {k}}} {\ sqrt {n_ {1}! \ Cdots n_ {k}!}}} \ Exp \ left (- {\ frac {1} { 2}} \ | \ mathbf {x '} \ | ^ {2} \ right) {\ frac {{x'} _ {1} ^ {n_ {1}} \ cdots {x '} _ {k} ^ {n_ {k}}} {\ sqrt {n_ {1}! \ cdots n_ {k}!}}} \ end {alignedat}}}

Aproximaciones

Debido a que las máquinas de vectores de soporte y otros modelos que emplean el truco del kernel no escalan bien a un gran número de muestras de entrenamiento o un gran número de características en el espacio de entrada, se han introducido varias aproximaciones al kernel RBF (y kernels similares). ^[4] Típicamente, estos toman la forma de una función z que mapea un solo vector a un vector de mayor dimensionalidad, aproximándose al kernel:

{\ Displaystyle \ langle z (\ mathbf {x}), z (\ mathbf {x '}) \ rangle \ approx \ langle \ varphi (\ mathbf {x}), \ varphi (\ mathbf {x'}) \ rangle = K (\ mathbf {x}, \ mathbf {x '})}

dónde ${\ Displaystyle \ textstyle \ varphi}$ es el mapeo implícito incrustado en el kernel de RBF.

Una forma de construir tal z es tomar muestras al azar de la transformación de Fourier del núcleo. ^[5] Otro enfoque utiliza el método de Nyström para aproximar la descomposición propia de la matriz de Gram K , utilizando solo una muestra aleatoria del conjunto de entrenamiento. ^[6]

Ver también

Referencias

^ Chang, Yin-Wen; Hsieh, Cho-Jui; Chang, Kai-Wei; Ringgaard, Michael; Lin, Chih-Jen (2010). "Entrenamiento y prueba de mapeos de datos polinomiales de bajo grado a través de SVM lineal" . Revista de investigación sobre aprendizaje automático . 11 : 1471-1490.
↑ ^a ^b Jean-Philippe Vert, Koji Tsuda y Bernhard Schölkopf (2004). "Una introducción a los métodos del kernel". Métodos kernel en biología computacional .
^ Shashua, Amnon (2009). "Introducción al aprendizaje automático: notas de clase 67577". arXiv : 0904.3664v1 [ cs.LG ].
^ Andreas Müller (2012). Aproximaciones de kernel para SVM eficientes (y otros métodos de extracción de características) .
^ Ali Rahimi y Benjamin Recht (2007). "Funciones aleatorias para máquinas de kernel a gran escala" . Sistemas de procesamiento de información neuronal .
^ CKI Williams y M. Seeger (2001). "Usando el método Nyström para acelerar las máquinas kernel" . Avances en sistemas de procesamiento de información neuronal .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[Chang2010-1] Chang, Yin-Wen; Hsieh, Cho-Jui; Chang, Kai-Wei; Ringgaard, Michael; Lin, Chih-Jen (2010). "Entrenamiento y prueba de mapeos de datos polinomiales de bajo grado a través de SVM lineal" . Revista de investigación sobre aprendizaje automático . 11 : 1471-1490.

[primer-2] Jean-Philippe Vert, Koji Tsuda y Bernhard Schölkopf (2004). "Una introducción a los métodos del kernel". Métodos kernel en biología computacional .

[3] Shashua, Amnon (2009). "Introducción al aprendizaje automático: notas de clase 67577". arXiv : 0904.3664v1 [ cs.LG ].

[4] Andreas Müller (2012). Aproximaciones de kernel para SVM eficientes (y otros métodos de extracción de características) .

[5] Ali Rahimi y Benjamin Recht (2007). "Funciones aleatorias para máquinas de kernel a gran escala" . Sistemas de procesamiento de información neuronal .

[6] CKI Williams y M. Seeger (2001). "Usando el método Nyström para acelerar las máquinas kernel" . Avances en sistemas de procesamiento de información neuronal .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[1]