En el aprendizaje automático y la optimización matemática , las funciones de pérdida para la clasificación son funciones de pérdida computacionalmente factibles que representan el precio pagado por la inexactitud de las predicciones en los problemas de clasificación (problemas para identificar a qué categoría pertenece una observación en particular). [1] Dado como el espacio de todas las entradas posibles (generalmente ), y como el conjunto de etiquetas (posibles salidas), un objetivo típico de los algoritmos de clasificación es encontrar una función cuál predice mejor una etiqueta para una entrada determinada . [2] Sin embargo, debido a información incompleta, ruido en la medición o componentes probabilísticos en el proceso subyacente, es posible que el mismo para generar diferentes . [3] Como resultado, el objetivo del problema de aprendizaje es minimizar la pérdida esperada (también conocida como riesgo), definida como
dónde es una función de pérdida dada, y es la función de densidad de probabilidad del proceso que generó los datos, que se puede escribir de manera equivalente como
Dentro de la clasificación, varias funciones de pérdida de uso común están escritas únicamente en términos del producto de la etiqueta verdadera y la etiqueta predicha . Por tanto, pueden definirse como funciones de una sola variable, así que eso con una función convenientemente elegida . Se denominan funciones de pérdida basadas en márgenes . Elegir una función de pérdida basada en márgenes equivale a elegir. La selección de una función de pérdida dentro de este marco impacta el óptimo lo que minimiza el riesgo esperado.
En el caso de la clasificación binaria, es posible simplificar el cálculo del riesgo esperado a partir de la integral especificada anteriormente. Específicamente,
La segunda igualdad se deriva de las propiedades descritas anteriormente. La tercera igualdad se deriva del hecho de que 1 y −1 son los únicos valores posibles para, y el cuarto porque . El término entre paréntesisse conoce como riesgo condicional.
Uno puede resolver el minimizador de tomando la derivada funcional de la última igualdad con respecto a y estableciendo la derivada igual a 0. Esto resultará en la siguiente ecuación
lo que también equivale a establecer la derivada del riesgo condicional igual a cero.
Dada la naturaleza binaria de la clasificación, una selección natural para una función de pérdida (asumiendo el mismo costo para falsos positivos y falsos negativos ) sería la función de pérdida 0-1 ( función indicadora 0-1 ), que toma el valor de 0 si la predicción la clasificación es igual a la de la clase verdadera o un 1 si la clasificación predicha no coincide con la clase verdadera. Esta selección está modelada por
dónde indica la función escalón Heaviside . Sin embargo, esta función de pérdida no es convexa ni uniforme, y la resolución de la solución óptima es un problema de optimización combinatoria difícil de NP . [4] Como resultado, es mejor sustituir los sustitutos de la función de pérdida que son manejables por los algoritmos de aprendizaje de uso común, ya que tienen propiedades convenientes, como ser convexos y suaves. Además de su manejabilidad computacional, se puede demostrar que las soluciones al problema de aprendizaje utilizando estos sustitutos de pérdida permiten la recuperación de la solución real al problema de clasificación original. [5] Algunos de estos sustitutos se describen a continuación.
En la práctica, la distribución de probabilidad es desconocido. En consecuencia, utilizando un conjunto de entrenamiento de puntos de muestra distribuidos de forma independiente e idéntica
extraídos del espacio muestral de datos , se busca minimizar el riesgo empírico
como un sustituto del riesgo esperado. [3] (Consulte la teoría del aprendizaje estadístico para obtener una descripción más detallada).
Consistencia de Bayes
Utilizando el teorema de Bayes , se puede demostrar que el óptimo, es decir, el que minimiza el riesgo esperado asociado con la pérdida cero-uno, implementa la regla de decisión óptima de Bayes para un problema de clasificación binaria y tiene la forma de
- .
Se dice que una función de pérdida está calibrada por clasificación o es consistente con Bayes si su es tal que y, por tanto, es óptimo según la regla de decisión de Bayes. Una función de pérdida consistente de Bayes nos permite encontrar la función de decisión óptima de Bayes minimizando directamente el riesgo esperado y sin tener que modelar explícitamente las funciones de densidad de probabilidad.
Para pérdida de margen convexo , se puede demostrar que es Bayes consistente si y solo si es diferenciable en 0 y . [6] [1] Sin embargo, este resultado no excluye la existencia de funciones de pérdida consistentes de Bayes no convexas. Un resultado más general indica que se pueden generar funciones de pérdida consistentes de Bayes utilizando la siguiente formulación [7]
- ,
dónde es cualquier función invertible tal que y es cualquier función diferenciable estrictamente cóncava tal que . La Tabla I muestra las funciones de pérdida consistente de Bayes generadas para algunas opciones de ejemplo de y . Tenga en cuenta que la pérdida salvaje y tangente no son convexas. Se ha demostrado que estas funciones de pérdida no convexas son útiles para tratar valores atípicos en la clasificación. [7] [8] Para todas las funciones de pérdida generadas a partir de (2), la probabilidad posteriorse puede encontrar utilizando la función de enlace invertible como. Estas funciones de pérdida en las que la probabilidad posterior se puede recuperar utilizando el enlace invertible se denominan funciones de pérdida adecuadas .
Nombre de la pérdida | ||||
---|---|---|---|---|
Exponencial | ||||
Logístico | ||||
Cuadrado | ||||
salvaje | ||||
Tangente |
El único minimizador del riesgo esperado, , asociado con las funciones de pérdida generadas anteriormente se puede encontrar directamente a partir de la ecuación (1) y se muestra que es igual al correspondiente . Esto es válido incluso para las funciones de pérdida no convexas, lo que significa que se pueden utilizar algoritmos basados en el descenso de gradiente, como el aumento de gradiente, para construir el minimizador.
Funciones de pérdida adecuadas, margen de pérdida y regularización
Para funciones de pérdida adecuadas, el margen de pérdida se puede definir comoy se muestra que está directamente relacionado con las propiedades de regularización del clasificador. [9] Específicamente, una función de pérdida de mayor margen aumenta la regularización y produce mejores estimaciones de la probabilidad posterior. Por ejemplo, el margen de pérdida se puede aumentar para la pérdida logística introduciendo un parámetro y escribir la pérdida logística como donde más pequeño aumenta el margen de la pérdida. Se muestra que esto es directamente equivalente a disminuir la tasa de aprendizaje en el aumento de gradiente. donde disminuyendo mejora la regularización del clasificador potenciado. La teoría deja claro que cuando una tasa de aprendizaje de se utiliza, la fórmula correcta para recuperar la probabilidad posterior es ahora .
En conclusión, al elegir una función de pérdida con mayor margen (menor ) aumentamos la regularización y mejoramos nuestras estimaciones de la probabilidad posterior, lo que a su vez mejora la curva ROC del clasificador final.
Pérdida cuadrada
Si bien se usa más comúnmente en regresión, la función de pérdida cuadrada se puede reescribir como una función y utilizado para la clasificación. Se puede generar usando (2) y Table-I de la siguiente manera
La función de pérdida cuadrada es tanto convexa como suave. Sin embargo, la función de pérdida cuadrada tiende a penalizar excesivamente los valores atípicos, lo que lleva a tasas de convergencia más lentas (con respecto a la complejidad de la muestra) que para las funciones de pérdida logística o pérdida de bisagra. [1] Además, las funciones que producen valores altos de para algunos funcionará mal con la función de pérdida cuadrada, ya que los valores altos de será penalizado severamente, independientemente de si los signos de y partido.
Una ventaja de la función de pérdida de cuadrados es que su estructura se presta a una fácil validación cruzada de los parámetros de regularización. Específicamente para la regularización de Tikhonov , se puede resolver el parámetro de regularización mediante la validación cruzada de dejar uno fuera al mismo tiempo que se necesitaría para resolver un solo problema. [10]
El minimizador de para la función de pérdida al cuadrado se puede encontrar directamente a partir de la ecuación (1) como
Pérdida logística
La función de pérdida logística se puede generar usando (2) y la Tabla-I de la siguiente manera
La pérdida logística es convexa y crece linealmente para valores negativos que la hacen menos sensible a valores atípicos. La pérdida logística se utiliza en el algoritmo LogitBoost .
El minimizador de para la función de pérdida logística se puede encontrar directamente a partir de la ecuación (1) como
Esta función no está definida cuando o (tendiendo hacia ∞ y −∞ respectivamente), pero predice una curva suave que crece cuando aumenta y es igual a 0 cuando . [3]
Es fácil comprobar que la pérdida logística y la pérdida de entropía cruzada binaria (pérdida logarítmica) son de hecho iguales (hasta una constante multiplicativa). La pérdida de entropía cruzada está estrechamente relacionada con la divergencia de Kullback-Leibler entre la distribución empírica y la distribución predicha. La pérdida de entropía cruzada es omnipresente en las redes neuronales profundas modernas .
Pérdida exponencial
La función de pérdida exponencial se puede generar usando (2) y la Tabla-I de la siguiente manera
La pérdida exponencial es convexa y crece exponencialmente para valores negativos, lo que la hace más sensible a valores atípicos. La pérdida exponencial se utiliza en el algoritmo AdaBoost .
El minimizador de para la función de pérdida exponencial se puede encontrar directamente a partir de la ecuación (1) como
Pérdida salvaje
La pérdida salvaje [7] se puede generar usando (2) y la Tabla-I de la siguiente manera
La pérdida de Savage es cuasi-convexa y está limitada a grandes valores negativos, lo que la hace menos sensible a los valores atípicos. La pérdida de Savage se ha utilizado en el aumento de gradiente y el algoritmo SavageBoost.
El minimizador de para la función de pérdida salvaje se puede encontrar directamente a partir de la ecuación (1) como
Pérdida tangente
La pérdida de tangente [11] se puede generar usando (2) y la Tabla-I de la siguiente manera
La pérdida de tangente es cuasi-convexa y está limitada a valores negativos grandes, lo que la hace menos sensible a los valores atípicos. Curiosamente, la pérdida de tangente también asigna una penalización limitada a los puntos de datos que se han clasificado "demasiado correctamente". Esto puede ayudar a evitar un entrenamiento excesivo en el conjunto de datos. La pérdida de tangente se ha utilizado en el aumento de gradiente , el algoritmo TangentBoost y los bosques de decisión alternos. [12]
El minimizador de para la función de pérdida de tangente se puede encontrar directamente a partir de la ecuación (1) como
Pérdida de bisagra
La función de pérdida de bisagra se define con , dónde es la función de la parte positiva .
La pérdida de bisagra proporciona un límite superior convexo relativamente estrecho en la función del indicador 0-1 . Específicamente, la pérdida de bisagra es igual a la función del indicador 0-1 cuando y . Además, la minimización del riesgo empírico de esta pérdida es equivalente a la formulación clásica para máquinas de vectores de soporte (SVM). Los puntos correctamente clasificados que se encuentran fuera de los límites del margen de los vectores de apoyo no se penalizan, mientras que los puntos dentro de los límites del margen o en el lado equivocado del hiperplano se penalizan de forma lineal en comparación con su distancia desde el límite correcto. [4]
Si bien la función de pérdida de bisagra es tanto convexa como continua, no es suave (no es diferenciable) en . En consecuencia, la función de pérdida de bisagra no se puede utilizar con métodos de descenso de gradiente o métodos de descenso de gradiente estocástico que se basan en la diferenciabilidad en todo el dominio. Sin embargo, la pérdida de bisagra tiene un subgradiente en, que permite la utilización de métodos de descenso de subgrados . [4] Las SVM que utilizan la función de pérdida de bisagra también se pueden resolver mediante programación cuadrática .
El minimizador de para la función de pérdida de bisagra es
Cuándo , que coincide con el de la función del indicador 0-1. Esta conclusión hace que la pérdida de bisagra sea bastante atractiva, ya que se pueden poner límites a la diferencia entre el riesgo esperado y el signo de la función de pérdida de bisagra. [1] La pérdida de bisagra no se puede derivar de (2) ya que no es invertible.
Pérdida de bisagra suave generalizada
La función de pérdida de bisagra suave generalizada con parámetro Se define como
dónde
Está aumentando monótonamente y llega a 0 cuando .
Ver también
- Programación diferenciable
Referencias
- ↑ a b c d Rosasco, L .; De Vito, ED; Caponnetto, A .; Piana, M .; Verri, A. (2004). "¿Las funciones de pérdida son todas iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . doi : 10.1162 / 089976604773135104 . PMID 15070510 . S2CID 11845688 .
- ^ Shen, Yi (2005), Lass Functions For Binary Classification and Class Probability Estimation (PDF) , Universidad de Pennsylvania , consultado el 6 de diciembre de 2014
- ^ a b c Rosasco, Lorenzo; Poggio, Tomaso (2014), A Regularization Tour of Machine Learning , MIT-9.520 Lectures Notes, Manuscrito
- ^ a b c Piyush, Rai (13 de septiembre de 2011), Support Vector Machines (cont.), Classification Loss Functions and Regularizers (PDF) , Utah CS5350 / 6350: Machine Learning , consultado el 4 de mayo de 2021
- ^ Ramanan, Deva (27 de febrero de 2008), Lecture 14 (PDF) , UCI ICS273A: Machine Learning , consultado el 6 de diciembre de 2014
- ^ Bartlett, Peter L .; Jordan, Michael I .; Mcauliffe, Jon D. (2006). "Convexidad, clasificación y límites de riesgo". Revista de la Asociación Estadounidense de Estadística . 101 (473): 138-156. doi : 10.1198 / 016214505000000907 . ISSN 0162-1459 . JSTOR 30047445 . S2CID 2833811 .
- ^ a b c Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). "Sobre el diseño de funciones de pérdida para la clasificación: teoría, robustez de valores atípicos y SavageBoost" (PDF) . Actas de la 21ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'08. Estados Unidos: Curran Associates Inc .: 1049–1056. ISBN 9781605609492.
- ^ Leistner, C .; Saffari, A .; Roth, PM; Bischof, H. (septiembre de 2009). "Sobre la solidez del impulso en línea - un estudio competitivo". 2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops : 1362–1369. doi : 10.1109 / ICCVW.2009.5457451 . ISBN 978-1-4244-4442-7. S2CID 6032045 .
- ^ Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). "Una visión de las pérdidas de margen como regularizadores de estimaciones de probabilidad" . Revista de investigación sobre aprendizaje automático . 16 (85): 2751–2795. ISSN 1533-7928 .
- ^ Rifkin, Ryan M .; Lippert, Ross A. (1 de mayo de 2007), Notas sobre mínimos cuadrados regularizados (PDF) , Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT
- ^ Masnadi-Shirazi, H .; Mahadevan, V .; Vasconcelos, N. (junio de 2010). "Sobre el diseño de clasificadores robustos para visión artificial". Conferencia de la Sociedad de Computación IEEE 2010 sobre visión por computadora y reconocimiento de patrones : 779–786. CiteSeerX 10.1.1.172.6416 . doi : 10.1109 / CVPR.2010.5540136 . ISBN 978-1-4244-6984-0. S2CID 632758 .
- ^ Schulter, S .; Wohlhart, P .; Leistner, C .; Saffari, A .; Roth, PM; Bischof, H. (junio de 2013). "Bosques de decisión alternos". Conferencia IEEE de 2013 sobre visión por computadora y reconocimiento de patrones : 508–515. CiteSeerX 10.1.1.301.1305 . doi : 10.1109 / CVPR.2013.72 . ISBN 978-0-7695-4989-7. S2CID 6557162 .