Descenso de gradiente estocástico


El descenso de gradiente estocástico (a menudo abreviado SGD ) es un método iterativo para optimizar una función objetivo con propiedades de suavidad adecuadas (por ejemplo, diferenciable o subdiferenciable ). Puede considerarse como una aproximación estocástica de la optimización del descenso del gradiente , ya que reemplaza el gradiente real (calculado a partir de todo el conjunto de datos ) por una estimación del mismo (calculado a partir de un subconjunto de datos seleccionado al azar). Especialmente en problemas de optimización de alta dimensión , esto reduce la carga computacional muy alta., logrando iteraciones más rápidas en el comercio para una tasa de convergencia más baja. [1]

Si bien la idea básica detrás de la aproximación estocástica se remonta al algoritmo Robbins-Monro de la década de 1950, el descenso de gradiente estocástico se ha convertido en un método de optimización importante en el aprendizaje automático . [2]

Tanto la estimación estadística como el aprendizaje automático consideran el problema de minimizar una función objetivo que tiene forma de suma:

donde se estima el parámetro que minimiza . Cada función de sumando se asocia típicamente con la -ésima observación en el conjunto de datos (utilizado para el entrenamiento).

En la estadística clásica, los problemas de minimización de suma surgen en la estimación de mínimos cuadrados y de máxima verosimilitud (para observaciones independientes). La clase general de estimadores que surgen como minimizadores de sumas se denominan estimadores M. Sin embargo, en estadística, se ha reconocido durante mucho tiempo que requerir incluso la minimización local es demasiado restrictivo para algunos problemas de estimación de máxima verosimilitud. [3] Por lo tanto, los teóricos estadísticos contemporáneos a menudo consideran puntos estacionarios de la función de probabilidad (o ceros de su derivada, la función de puntuación y otras ecuaciones de estimación ).

El problema de la minimización de la suma también surge para la minimización empírica del riesgo . En este caso, es el valor de la función de pérdida en el -ésimo ejemplo, y es el riesgo empírico.


Se toman las fluctuaciones en la función objetivo total como pasos de gradiente con respecto a los mini lotes.