Pérdida de bisagra

En el aprendizaje automático , la pérdida de bisagra es una función de pérdida que se utiliza para entrenar clasificadores . La pérdida de bisagra se utiliza para la clasificación de "margen máximo", sobre todo para las máquinas de vectores de soporte (SVM). ^[1]

Gráfico de pérdida de bisagra (azul, medida verticalmente) frente a pérdida cero-uno (medida verticalmente; clasificación errónea, verde:

y <0

) para

t = 1

y variable

y

(medida horizontalmente). Nótese que la pérdida de bisagra penaliza las predicciones

y <1

, que corresponden a la noción de margen en una máquina de vectores de soporte.

Para una salida prevista $t = \pm 1$ y una puntuación de clasificador $y$ , la pérdida de bisagra de la predicción $y$ se define como

{\ Displaystyle \ ell (y) = \ max (0,1-t \ cdot y)}

Tenga en cuenta que ${\ Displaystyle y}$ debe ser la salida "sin procesar" de la función de decisión del clasificador, no la etiqueta de clase predicha. Por ejemplo, en SVM lineales, ${\ Displaystyle y = \ mathbf {w} \ cdot \ mathbf {x} + b}$ , dónde ${\ Displaystyle (\ mathbf {w}, b)}$ son los parámetros del hiperplano y ${\ Displaystyle \ mathbf {x}}$ es la (s) variable (s) de entrada.

Cuando $t$ e $Y$ tienen el mismo signo (es decir, $y$ predice la clase derecha) y ${\ Displaystyle | y | \ geq 1}$ , la perdida de la bisagra ${\ Displaystyle \ ell (y) = 0}$ . Cuando tienen signos opuestos, ${\ Displaystyle \ ell (y)}$ aumenta linealmente con $y$ , y de manera similar si ${\ Displaystyle | y | <1}$ , incluso si tiene el mismo signo (predicción correcta, pero no con suficiente margen).

Extensiones

Si bien las SVM binarias se extienden comúnmente a la clasificación multiclase en una forma de uno contra todos o uno contra uno, ^[2] también es posible extender la pérdida de bisagra en sí para tal fin. Se han propuesto varias variaciones diferentes de pérdida de bisagra multiclase. ^[3] Por ejemplo, Crammer y Singer ^{[4] lo} definieron para un clasificador lineal como ^[5]

{\ Displaystyle \ ell (y) = \ max (0,1+ \ max _ {y \ neq t} \ mathbf {w} _ {y} \ mathbf {x} - \ mathbf {w} _ {t} \ mathbf {x})}

Dónde ${\ Displaystyle t}$ la etiqueta de destino, ${\ Displaystyle \ mathbf {w} _ {t}}$ y ${\ Displaystyle \ mathbf {w} _ {y}}$ los parámetros del modelo.

Weston y Watkins proporcionaron una definición similar, pero con una suma en lugar de un máximo: ^[6]^[3]

{\ Displaystyle \ ell (y) = \ sum _ {y \ neq t} \ max (0,1+ \ mathbf {w} _ {y} \ mathbf {x} - \ mathbf {w} _ {t} \ mathbf {x})}

En la predicción estructurada , la pérdida de bisagra se puede extender aún más a espacios de salida estructurados. Las SVM estructuradas con reescalado de márgenes utilizan la siguiente variante, donde $w$ denota los parámetros de la SVM , $y$ las predicciones de la SVM, $φ$ la función de característica conjunta y $Δ$ la pérdida de Hamming :

{\ Displaystyle {\ begin {alineado} \ ell (\ mathbf {y}) & = \ max (0, \ Delta (\ mathbf {y}, \ mathbf {t}) + \ langle \ mathbf {w}, \ phi (\ mathbf {x}, \ mathbf {y}) \ rangle - \ langle \ mathbf {w}, \ phi (\ mathbf {x}, \ mathbf {t}) \ rangle) \\ & = \ max ( 0, \ max _ {y \ in {\ mathcal {Y}}} \ left (\ Delta (\ mathbf {y}, \ mathbf {t}) + \ langle \ mathbf {w}, \ phi (\ mathbf { x}, \ mathbf {y}) \ rangle \ right) - \ langle \ mathbf {w}, \ phi (\ mathbf {x}, \ mathbf {t}) \ rangle) \ end {alineado}}}

Mejoramiento

La pérdida de bisagra es una función convexa , por lo que muchos de los optimizadores convexos habituales que se utilizan en el aprendizaje automático pueden funcionar con ella. No es diferenciable , pero tiene un subgradiente con respecto a los parámetros del modelo $w$ de una SVM lineal con función de puntuación. ${\ Displaystyle y = \ mathbf {w} \ cdot \ mathbf {x}}$ que es dado por

{\ Displaystyle {\ frac {\ parcial \ ell} {\ parcial w_ {i}}} = {\ begin {cases} -t \ cdot x_ {i} & {\ text {if}} t \ cdot y <1 \\ 0 & {\ text {de lo contrario}} \ end {cases}}}

Gráfico de tres variantes de la pérdida de bisagra en función de

z = ty

: la variante "ordinaria" (azul), su cuadrado (verde) y la versión lisa por partes de Rennie y Srebro (rojo).

Sin embargo, dado que la derivada de la pérdida de bisagra en ${\ displaystyle ty = 1}$ no está definido, las versiones suavizadas pueden ser preferidas para la optimización, como Rennie y Srebro ^[7]

{\ Displaystyle \ ell (y) = {\ begin {cases} {\ frac {1} {2}} - ty & {\ text {if}} ~~ ty \ leq 0, \\ {\ frac {1} { 2}} (1-ty) ^ {2} & {\ text {if}} ~~ 0

o el cuadráticamente suavizado

{\ Displaystyle \ ell _ {\ gamma} (y) = {\ begin {cases} {\ frac {1} {2 \ gamma}} \ max (0,1-ty) ^ {2} & {\ text { if}} ~~ ty \ geq 1- \ gamma \\ 1 - {\ frac {\ gamma} {2}} - ty & {\ text {de lo contrario}} \ end {cases}}}

sugerido por Zhang. ^[8] La pérdida de Huber modificada ${\ Displaystyle L}$ es un caso especial de esta función de pérdida con ${\ Displaystyle \ gamma = 2}$ , específicamente ${\ Displaystyle L (t, y) = 4 \ ell _ {2} (y)}$ .

Referencias

↑ Rosasco, L .; De Vito, ED; Caponnetto, A .; Piana, M .; Verri, A. (2004). "¿Las funciones de pérdida son todas iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . doi : 10.1162 / 089976604773135104 . PMID 15070510 .
^ Duan, KB; Keerthi, SS (2005). "¿Cuál es el mejor método de SVM multiclase? Un estudio empírico" (PDF) . Sistemas de clasificación múltiple . LNCS . 3541 . págs. 278-285. CiteSeerX 10.1.1.110.6789 . doi : 10.1007 / 11494683_28 . ISBN 978-3-540-26306-7.
^ ^a ^b Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). "Una vista unificada sobre la clasificación de vectores de soporte de clases múltiples" (PDF) . Revista de investigación sobre aprendizaje automático . 17 : 1–32.
^ Crammer, Koby; Cantante, Yoram (2001). "Sobre la implementación algorítmica de máquinas vectoriales basadas en kernel multiclase" (PDF) . Revista de investigación sobre aprendizaje automático . 2 : 265-292.
^ Moore, Robert C .; DeNero, John (2011). " Regularización L ₁ y L ₂ para modelos multiclase de pérdida de bisagra" (PDF) . Proc. Symp. sobre aprendizaje automático en el procesamiento del habla y el lenguaje .
^ Weston, Jason; Watkins, Chris (1999). "Máquinas de vectores de soporte para el reconocimiento de patrones de clases múltiples" (PDF) . Simposio europeo sobre redes neuronales artificiales .
^ Rennie, Jason DM; Srebro, Nathan (2005). Funciones de pérdida para niveles de preferencia: regresión con etiquetas ordenadas discretas (PDF) . Proc. Taller multidisciplinario del IJCAI sobre avances en el manejo de preferencias.
^ Zhang, Tong (2004). Resolver problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradientes estocásticos (PDF) . ICML.

[1] Rosasco, L .; De Vito, ED; Caponnetto, A .; Piana, M .; Verri, A. (2004). "¿Las funciones de pérdida son todas iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . doi : 10.1162 / 089976604773135104 . PMID 15070510 .

[duan2005-2] Duan, KB; Keerthi, SS (2005). "¿Cuál es el mejor método de SVM multiclase? Un estudio empírico" (PDF) . Sistemas de clasificación múltiple . LNCS . 3541 . págs. 278-285. CiteSeerX 10.1.1.110.6789 . doi : 10.1007 / 11494683_28 . ISBN 978-3-540-26306-7.

[unifiedview-3] Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). "Una vista unificada sobre la clasificación de vectores de soporte de clases múltiples" (PDF) . Revista de investigación sobre aprendizaje automático . 17 : 1–32.

[4] Crammer, Koby; Cantante, Yoram (2001). "Sobre la implementación algorítmica de máquinas vectoriales basadas en kernel multiclase" (PDF) . Revista de investigación sobre aprendizaje automático . 2 : 265-292.

[5] Moore, Robert C .; DeNero, John (2011). " Regularización L ₁ y L ₂ para modelos multiclase de pérdida de bisagra" (PDF) . Proc. Symp. sobre aprendizaje automático en el procesamiento del habla y el lenguaje .

[6] Weston, Jason; Watkins, Chris (1999). "Máquinas de vectores de soporte para el reconocimiento de patrones de clases múltiples" (PDF) . Simposio europeo sobre redes neuronales artificiales .

[7] Rennie, Jason DM; Srebro, Nathan (2005). Funciones de pérdida para niveles de preferencia: regresión con etiquetas ordenadas discretas (PDF) . Proc. Taller multidisciplinario del IJCAI sobre avances en el manejo de preferencias.

[zhang-8] Zhang, Tong (2004). Resolver problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradientes estocásticos (PDF) . ICML.

[1]