LogSumExp

La función LogSumExp (LSE) (también llamada RealSoftMax ^[1] o softplus multivariable ) es un máximo suave , una aproximación suave a la función máxima , utilizada principalmente por algoritmos de aprendizaje automático. ^[2] Se define como el logaritmo de la suma de las exponenciales de los argumentos:

{\ Displaystyle \ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) = \ log \ left (\ exp (x_ {1}) + \ cdots + \ exp (x_ {n}) \ right )}

Propiedades

El dominio de la función LogSumExp es ${\ Displaystyle \ mathbb {R} ^ {n}}$ , el espacio de coordenadas real , y su rango es ${\ Displaystyle \ mathbb {R}}$ , la línea real . Es una aproximación al máximo ${\ Displaystyle \ max _ {i} x_ {i}}$ con los siguientes límites

{\ Displaystyle \ max {\ {x_ {1}, \ dots, x_ {n} \}} \ leq \ mathrm {LSE} (x_ {1}, \ dots, x_ {n}) \ leq \ max {\ {x_ {1}, \ dots, x_ {n} \}} + \ log (n).}

La primera desigualdad es estricta a menos que ${\ Displaystyle n = 1}$ . La segunda desigualdad es estricta a menos que todos los argumentos sean iguales. Prueba: dejar ${\ Displaystyle m = \ max _ {i} x_ {i}}$ . Luego ${\ Displaystyle \ exp (m) \ leq \ sum _ {i = 1} ^ {n} \ exp (x_ {i}) \ leq n \ exp (m)}$ . Aplicar el logaritmo a la desigualdad da el resultado.

Además, podemos escalar la función para hacer que los límites sean más estrictos. Considere la función ${\ Displaystyle {\ frac {1} {t}} \ mathrm {LSE} (tx)}$ . Luego

{\ Displaystyle \ max {\ {x_ {1}, \ dots, x_ {n} \}} <{\ frac {1} {t}} \ mathrm {LSE} (tx) \ leq \ max {\ {x_ {1}, \ dots, x_ {n} \}} + {\ frac {\ log (n)} {t}}.}

Prueba: Reemplace cada ${\ Displaystyle x_ {i}}$ con ${\ displaystyle tx_ {i}}$ para algunos ${\ Displaystyle t> 0}$ en las desigualdades anteriores, para dar

{\ Displaystyle \ max {\ {tx_ {1}, \ dots, tx_ {n} \}} <\ mathrm {LSE} (tx_ {1}, \ dots, tx_ {n}) \ leq \ max {\ { tx_ {1}, \ dots, tx_ {n} \}} + \ log (n).}

y desde ${\ Displaystyle t> 0}$

{\ Displaystyle t \ max {\ {x_ {1}, \ dots, x_ {n} \}} <\ mathrm {LSE} (tx_ {1}, \ dots, tx_ {n}) \ leq t \ max { \ {x_ {1}, \ dots, x_ {n} \}} + \ log (n).}

finalmente, dividiendo por ${\ Displaystyle t}$ da el resultado.

Además, si multiplicamos por un número negativo, por supuesto, encontramos una comparación con el ${\ Displaystyle \ min}$ función:

{\ Displaystyle \ min {\ {x_ {1}, \ dots, x_ {n} \}} - {\ frac {\ log (n)} {t}} \ leq {\ frac {1} {- t} } \ mathrm {LSE} (-tx) <\ min {\ {x_ {1}, \ dots, x_ {n} \}}.}

La función LogSumExp es convexa, y aumenta estrictamente de forma monotónica en todas partes de su dominio ^[3] (pero no estrictamente convexa en todas partes ^[4] ).

Escritura ${\ Displaystyle \ mathbf {x} = (x_ {1}, \ dots, x_ {n}),}$ las derivadas parciales son:

{\ estilo de visualización {\ frac {\ parcial} {\ parcial x_ {i}}} {LSE (\ mathbf {x})} = {\ frac {\ exp x_ {i}} {\ sum _ {j} \ exp {x_ {j}}}}.}

Lo que significa que el gradiente de LogSumExp es la función softmax

El conjugado convexo de LogSumExp es la entropía negativa .

truco log-sum-exp para cálculos de dominio de registro

La función LSE se encuentra a menudo cuando los cálculos aritméticos habituales se realizan en una escala logarítmica , como en la probabilidad logarítmica . ^[5]

Similar a las operaciones de multiplicación en escala lineal que se convierten en simples sumas en escala logarítmica, una operación de suma en escala lineal se convierte en LSE en escala logarítmica:

{\ Displaystyle LSE (\ log (x_ {1}), ..., \ log (x_ {n})) = \ log (x_ {1} + \ dots + x_ {n})}

Un propósito común de usar cálculos de dominio logarítmico es aumentar la precisión y evitar problemas de subdesbordamiento y desbordamiento cuando se representan directamente números muy pequeños o muy grandes (es decir, en un dominio lineal) utilizando números de punto flotante de precisión limitada. ^[6]

Desafortunadamente, el uso de LSE directamente en este caso puede volver a causar problemas de desbordamiento / subdesbordamiento. Por lo tanto, se debe utilizar el siguiente equivalente en su lugar (especialmente cuando la precisión de la aproximación 'máxima' anterior no es suficiente). Por lo tanto, muchas bibliotecas matemáticas como IT ++ proporcionan una rutina predeterminada de LSE y utilizan esta fórmula internamente.

{\ Displaystyle LSE (x_ {1}, \ dots, x_ {n}) = x ^ {*} + \ log \ left (\ exp (x_ {1} -x ^ {*}) + \ cdots + \ exp (x_ {n} -x ^ {*}) \ derecha)}

dónde ${\ Displaystyle x ^ {*} = \ max {\ {x_ {1}, \ dots, x_ {n} \}}}$

Una función de tipo log-sum-exp estrictamente convexa

LSE es convexo pero no estrictamente convexo. Podemos definir una función de tipo log-sum-exp estrictamente convexa ^[7] agregando un argumento adicional establecido en cero:

{\ Displaystyle LSE_ {0} ^ {+} (x_ {1}, ..., x_ {n}) = LSE (0, x_ {1}, ..., x_ {n})}

Esta función es un generador de Bregman adecuado (estrictamente convexo y diferenciable). Se encuentra en el aprendizaje automático, por ejemplo, como el acumulador de la familia multinomial / binomial.

En el análisis tropical , esta es la suma en el registro semirrígido .

Ver también

Referencias

^ Zhang, Aston; Lipton, Zack; Li, Mu; Smola, Alex. "Sumérjase en el aprendizaje profundo, capítulo 3 ejercicios" . www.d2l.ai . Consultado el 27 de junio de 2020 .
^ Nielsen, Frank; Sol, Ke (2016). "Límites garantizados en la divergencia Kullback-Leibler de mezclas univariadas utilizando desigualdades log-sum-exp por partes". Entropía . 18 : 442. arXiv : 1606.05850 . Código bibliográfico : 2016Entrp..18..442N . doi : 10.3390 / e18120442 . S2CID 17259055 .
^ El Ghaoui, Laurent (2017). Modelos y aplicaciones de optimización .
^ "análisis convexo - Acerca de la convexidad estricta de la función log-sum-exp - Intercambio de pila de matemáticas" . stackexchange.com .
^ McElreath, Richard. Repensamiento estadístico . OCLC 1107423386 .
^ "Aspectos prácticos: estabilidad numérica" . CS231n Redes neuronales convolucionales para el reconocimiento visual .
^ Nielsen, Frank; Hadjeres, Gaetan (2018). "Geometría de la información de Monte Carlo: el caso doblemente plano". arXiv : 1803.07225 . Código bibliográfico : 2018arXiv180307225N . Cite journal requiere |journal=( ayuda )

[1] Zhang, Aston; Lipton, Zack; Li, Mu; Smola, Alex. "Sumérjase en el aprendizaje profundo, capítulo 3 ejercicios" . www.d2l.ai . Consultado el 27 de junio de 2020 .

[F._Nielsen_2016-2] Nielsen, Frank; Sol, Ke (2016). "Límites garantizados en la divergencia Kullback-Leibler de mezclas univariadas utilizando desigualdades log-sum-exp por partes". Entropía . 18 : 442. arXiv : 1606.05850 . Código bibliográfico : 2016Entrp..18..442N . doi : 10.3390 / e18120442 . S2CID 17259055 .

[L._El_Ghaoui_2017-3] El Ghaoui, Laurent (2017). Modelos y aplicaciones de optimización .

[4] "análisis convexo - Acerca de la convexidad estricta de la función log-sum-exp - Intercambio de pila de matemáticas" . stackexchange.com .

[5] McElreath, Richard. Repensamiento estadístico . OCLC 1107423386 .

[6] "Aspectos prácticos: estabilidad numérica" . CS231n Redes neuronales convolucionales para el reconocimiento visual .

[F._Nielsen_2018-7] Nielsen, Frank; Hadjeres, Gaetan (2018). "Geometría de la información de Monte Carlo: el caso doblemente plano". arXiv : 1803.07225 . Código bibliográfico : 2018arXiv180307225N . Cite journal requiere |journal=( ayuda )

[1]