La función LogSumExp (LSE) (también llamada RealSoftMax [1] o softplus multivariable ) es un máximo suave , una aproximación suave a la función máxima , utilizada principalmente por algoritmos de aprendizaje automático. [2] Se define como el logaritmo de la suma de las exponenciales de los argumentos:
Propiedades
El dominio de la función LogSumExp es , el espacio de coordenadas real , y su rango es, la línea real . Es una aproximación al máximo con los siguientes límites
La primera desigualdad es estricta a menos que . La segunda desigualdad es estricta a menos que todos los argumentos sean iguales. Prueba: dejar. Luego. Aplicar el logaritmo a la desigualdad da el resultado.
Además, podemos escalar la función para hacer que los límites sean más estrictos. Considere la función. Luego
Prueba: Reemplace cada con para algunos en las desigualdades anteriores, para dar
y desde
finalmente, dividiendo por da el resultado.
Además, si multiplicamos por un número negativo, por supuesto, encontramos una comparación con el función:
La función LogSumExp es convexa, y aumenta estrictamente de forma monotónica en todas partes de su dominio [3] (pero no estrictamente convexa en todas partes [4] ).
Escritura las derivadas parciales son:
Lo que significa que el gradiente de LogSumExp es la función softmax
El conjugado convexo de LogSumExp es la entropía negativa .
truco log-sum-exp para cálculos de dominio de registro
La función LSE se encuentra a menudo cuando los cálculos aritméticos habituales se realizan en una escala logarítmica , como en la probabilidad logarítmica . [5]
Similar a las operaciones de multiplicación en escala lineal que se convierten en simples sumas en escala logarítmica, una operación de suma en escala lineal se convierte en LSE en escala logarítmica:
Un propósito común de usar cálculos de dominio logarítmico es aumentar la precisión y evitar problemas de subdesbordamiento y desbordamiento cuando se representan directamente números muy pequeños o muy grandes (es decir, en un dominio lineal) utilizando números de punto flotante de precisión limitada. [6]
Desafortunadamente, el uso de LSE directamente en este caso puede volver a causar problemas de desbordamiento / subdesbordamiento. Por lo tanto, se debe utilizar el siguiente equivalente en su lugar (especialmente cuando la precisión de la aproximación 'máxima' anterior no es suficiente). Por lo tanto, muchas bibliotecas matemáticas como IT ++ proporcionan una rutina predeterminada de LSE y utilizan esta fórmula internamente.
dónde
Una función de tipo log-sum-exp estrictamente convexa
LSE es convexo pero no estrictamente convexo. Podemos definir una función de tipo log-sum-exp estrictamente convexa [7] agregando un argumento adicional establecido en cero:
Esta función es un generador de Bregman adecuado (estrictamente convexo y diferenciable). Se encuentra en el aprendizaje automático, por ejemplo, como el acumulador de la familia multinomial / binomial.
En el análisis tropical , esta es la suma en el registro semirrígido .
Ver también
Referencias
- ^ Zhang, Aston; Lipton, Zack; Li, Mu; Smola, Alex. "Sumérjase en el aprendizaje profundo, capítulo 3 ejercicios" . www.d2l.ai . Consultado el 27 de junio de 2020 .
- ^ Nielsen, Frank; Sol, Ke (2016). "Límites garantizados en la divergencia Kullback-Leibler de mezclas univariadas utilizando desigualdades log-sum-exp por partes". Entropía . 18 : 442. arXiv : 1606.05850 . Código bibliográfico : 2016Entrp..18..442N . doi : 10.3390 / e18120442 . S2CID 17259055 .
- ^ El Ghaoui, Laurent (2017). Modelos y aplicaciones de optimización .
- ^ "análisis convexo - Acerca de la convexidad estricta de la función log-sum-exp - Intercambio de pila de matemáticas" . stackexchange.com .
- ^ McElreath, Richard. Repensamiento estadístico . OCLC 1107423386 .
- ^ "Aspectos prácticos: estabilidad numérica" . CS231n Redes neuronales convolucionales para el reconocimiento visual .
- ^ Nielsen, Frank; Hadjeres, Gaetan (2018). "Geometría de la información de Monte Carlo: el caso doblemente plano". arXiv : 1803.07225 . Código bibliográfico : 2018arXiv180307225N . Cite journal requiere
|journal=
( ayuda )