En el aprendizaje automático , la pérdida de bisagra es una función de pérdida que se utiliza para entrenar clasificadores . La pérdida de bisagra se utiliza para la clasificación de "margen máximo", sobre todo para las máquinas de vectores de soporte (SVM). [1]
Para una salida prevista t = ± 1 y una puntuación de clasificador y , la pérdida de bisagra de la predicción y se define como
Tenga en cuenta que debe ser la salida "sin procesar" de la función de decisión del clasificador, no la etiqueta de clase predicha. Por ejemplo, en SVM lineales,, dónde son los parámetros del hiperplano y es la (s) variable (s) de entrada.
Cuando t e Y tienen el mismo signo (es decir, y predice la clase derecha) y, la perdida de la bisagra . Cuando tienen signos opuestos,aumenta linealmente con y , y de manera similar si, incluso si tiene el mismo signo (predicción correcta, pero no con suficiente margen).
Extensiones
Si bien las SVM binarias se extienden comúnmente a la clasificación multiclase en una forma de uno contra todos o uno contra uno, [2] también es posible extender la pérdida de bisagra en sí para tal fin. Se han propuesto varias variaciones diferentes de pérdida de bisagra multiclase. [3] Por ejemplo, Crammer y Singer [4] lo definieron para un clasificador lineal como [5]
Dónde la etiqueta de destino, y los parámetros del modelo.
Weston y Watkins proporcionaron una definición similar, pero con una suma en lugar de un máximo: [6] [3]
En la predicción estructurada , la pérdida de bisagra se puede extender aún más a espacios de salida estructurados. Las SVM estructuradas con reescalado de márgenes utilizan la siguiente variante, donde w denota los parámetros de la SVM , y las predicciones de la SVM, φ la función de característica conjunta y Δ la pérdida de Hamming :
Mejoramiento
La pérdida de bisagra es una función convexa , por lo que muchos de los optimizadores convexos habituales que se utilizan en el aprendizaje automático pueden funcionar con ella. No es diferenciable , pero tiene un subgradiente con respecto a los parámetros del modelo w de una SVM lineal con función de puntuación. que es dado por
Sin embargo, dado que la derivada de la pérdida de bisagra en no está definido, las versiones suavizadas pueden ser preferidas para la optimización, como Rennie y Srebro [7]
o el cuadráticamente suavizado
sugerido por Zhang. [8] La pérdida de Huber modificada es un caso especial de esta función de pérdida con , específicamente .
Referencias
- ↑ Rosasco, L .; De Vito, ED; Caponnetto, A .; Piana, M .; Verri, A. (2004). "¿Las funciones de pérdida son todas iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . doi : 10.1162 / 089976604773135104 . PMID 15070510 .
- ^ Duan, KB; Keerthi, SS (2005). "¿Cuál es el mejor método de SVM multiclase? Un estudio empírico" (PDF) . Sistemas de clasificación múltiple . LNCS . 3541 . págs. 278-285. CiteSeerX 10.1.1.110.6789 . doi : 10.1007 / 11494683_28 . ISBN 978-3-540-26306-7.
- ^ a b Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). "Una vista unificada sobre la clasificación de vectores de soporte de clases múltiples" (PDF) . Revista de investigación sobre aprendizaje automático . 17 : 1–32.
- ^ Crammer, Koby; Cantante, Yoram (2001). "Sobre la implementación algorítmica de máquinas vectoriales basadas en kernel multiclase" (PDF) . Revista de investigación sobre aprendizaje automático . 2 : 265-292.
- ^ Moore, Robert C .; DeNero, John (2011). " Regularización L 1 y L 2 para modelos multiclase de pérdida de bisagra" (PDF) . Proc. Symp. sobre aprendizaje automático en el procesamiento del habla y el lenguaje .
- ^ Weston, Jason; Watkins, Chris (1999). "Máquinas de vectores de soporte para el reconocimiento de patrones de clases múltiples" (PDF) . Simposio europeo sobre redes neuronales artificiales .
- ^ Rennie, Jason DM; Srebro, Nathan (2005). Funciones de pérdida para niveles de preferencia: regresión con etiquetas ordenadas discretas (PDF) . Proc. Taller multidisciplinario del IJCAI sobre avances en el manejo de preferencias.
- ^ Zhang, Tong (2004). Resolver problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradientes estocásticos (PDF) . ICML.