Máximo suave

En matemáticas , un máximo uniforme de una familia indexada x ₁ , ..., x _n de números es una aproximación suave a la función máxima , lo que significa una familia paramétrica de funciones tal que para cada $α$ , la función es suave y la familia converge a la función máxima como . El concepto de mínimo uniforme se define de manera similar. En muchos casos, una sola familia se aproxima a ambos: máximo cuando el parámetro va al infinito positivo, mínimo cuando el parámetro va al infinito negativo; en símbolos, como ${\ Displaystyle \ max (x_ {1}, \ ldots, x_ {n}),}$ ${\ Displaystyle m _ {\ alpha} (x_ {1}, \ ldots, x_ {n})}$ ${\ Displaystyle m _ {\ alpha}}$ ${\ Displaystyle m _ {\ alpha} \ to \ max}$ ${\ Displaystyle \ alpha \ to \ infty}$ ${\ Displaystyle m _ {\ alpha} \ to \ max}$ ${\ Displaystyle \ alpha \ to \ infty}$ y como . El término también se puede usar libremente para una función suave específica que se comporta de manera similar a un máximo, sin necesariamente ser parte de una familia parametrizada. ${\ Displaystyle m _ {\ alpha} \ to \ min}$ $\alpha \to -\infty$

Ejemplos de

Smoothmax de (−x, x) versus x para varios valores de parámetros. Muy suave para = 0,5 y más nítido para = 8.

\alpha

\alpha

Para grandes valores positivos del parámetro , la siguiente formulación es una aproximación suave y diferenciable de la función máxima. Para valores negativos del parámetro que son grandes en valor absoluto, se aproxima al mínimo. $\alpha >0$

{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {\sum _{i=1}^{n}x_{i}e^{\alpha x_{i}}}{\sum _{i=1}^{n}e^{\alpha x_{i}}}}

${\mathcal {S}}_{\alpha }$ tiene las siguientes propiedades:

${\mathcal {S}}_{\alpha }\to \max$ como $\alpha \to \infty$
${\mathcal {S}}_{0}$ es la media aritmética de sus entradas
${\mathcal {S}}_{\alpha }\to \min$ como $\alpha \to -\infty$

El gradiente de está estrechamente relacionado con softmax y está dado por ${\mathcal {S}}_{\alpha }$

\nabla _{x_{i}}{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {e^{\alpha x_{i}}}{\sum _{j=1}^{n}e^{\alpha x_{j}}}}[1+\alpha (x_{i}-{\mathcal {S}}_{\alpha }(x_{1},\ldots ,x_{n}))].

Esto hace que la función softmax sea útil para técnicas de optimización que utilizan el descenso de gradientes .

LogSumExp

Otro máximo suave es LogSumExp :

\mathrm {LSE} _{\alpha }(x_{1},\ldots ,x_{n})=(1/\alpha )\log(\exp(\alpha x_{1})+\ldots +\exp(\alpha x_{n}))

Esto también se puede normalizar si no son negativos, lo que produce una función con dominio y rango : $x_{i}$ $[0,\infty )^{n}$ $[0,\infty )$

g(x_{1},\ldots ,x_{n})=\log(\exp(x_{1})+\ldots +\exp(x_{n})-(n-1))

El término corrige el hecho de que cancelando todos menos uno cero exponencial, y si todos son cero. $(n-1)$ $\exp(0)=1$ $\log 1=0$ $x_{i}$

p-norma

Otro máximo suave es la p-norma :

||(x_{1},\ldots ,x_{n})||_{p}=\left(|x_{1}|^{p}+\cdots +|x_{n}|^{p}\right)^{1/p}

que converge a como . $||(x_{1},\ldots ,x_{n})||_{\infty }=\max _{1\leq i\leq n}|x_{i}|$ $p\to \infty$

Una ventaja de la p-norma es que es una norma . Como tal, es "invariante de escala" (homogéneo):, y satisface la desigualdad triangular. $||(\lambda x_{1},\ldots ,\lambda x_{n})||_{p}=|\lambda |\times ||(x_{1},\ldots ,x_{n})||_{p}$

Uso en métodos numéricos

Esta sección está vacía. Puedes ayudar agregando más . ( Febrero de 2015 )

Otras opciones de función de suavizado

{\mathcal {max}}_{\alpha }(x_{1},x_{2})=\left((x_{1}+x_{2})+{\sqrt {(x_{1}-x_{2})^{2}+\alpha }}\right)/2

Donde es un parámetro. $\alpha$

Ver también

Referencias

M. Lange, D. Zühlke, O. Holz y T. Villmann, "Aplicaciones de las normas lp y sus aproximaciones suaves para la cuantificación de vectores de aprendizaje basada en gradientes", en Proc. ESANN , abril de 2014, págs. 271-276. ( https://www.elen.ucl.ac.be/Proceedings/esann/esannpdf/es2014-153.pdf )