Normalización por lotes

La normalización por lotes (también conocida como norma por lotes ) es un método que se utiliza para hacer que las redes neuronales artificiales sean más rápidas y estables mediante la normalización de las entradas de las capas al volver a centrar y escalar. ^[1] Fue propuesto por Sergey Ioffe y Christian Szegedy en 2015. ^[2]

Si bien el efecto de la normalización por lotes es evidente, las razones de su eficacia siguen siendo objeto de discusión. Se creía que podía mitigar el problema del cambio de covariables interno , donde la inicialización de parámetros y los cambios en la distribución de las entradas de cada capa afectan la tasa de aprendizaje de la red. ^[2] Recientemente, algunos académicos han argumentado que la normalización por lotes no reduce el cambio de covariables interno, sino que suaviza la función objetivo , lo que a su vez mejora el rendimiento. ^[3] Sin embargo, en la inicialización, la normalización de lotes de hecho induce una explosión de gradiente severa en redes profundas, que solo se alivia con conexiones de salto en redes residuales.^[4] Otros sostienen que la normalización por lotes logra el desacoplamiento de la dirección de longitud y, por lo tanto, acelera las redes neuronales . ^[5]

Después de la norma por lotes , se han introducido muchos otros métodos de normalización en la capa , como la normalización de instancias, la normalización de capas y la normalización de grupos.

Motivación: el fenómeno del cambio de covariables interno

Cada capa de una red neuronal tiene entradas con una distribución correspondiente, que se ve afectada durante el proceso de entrenamiento por la aleatoriedad en la inicialización de los parámetros y la aleatoriedad en los datos de entrada. El efecto de estas fuentes de aleatoriedad en la distribución de las entradas a las capas internas durante el entrenamiento se describe como cambio de covariables internas . Aunque parece faltar una definición clara y precisa, el fenómeno observado en los experimentos es el cambio en las medias y las variaciones de las entradas a las capas internas durante el entrenamiento.

La normalización de lotes se propuso inicialmente para mitigar el cambio de covariables interno. ^[2] Durante la etapa de entrenamiento de las redes, a medida que cambian los parámetros de las capas anteriores, la distribución de entradas a la capa actual cambia en consecuencia, de modo que la capa actual necesita reajustarse constantemente a nuevas distribuciones. Este problema es especialmente grave para las redes profundas, porque los pequeños cambios en las capas ocultas menos profundas se amplificarán a medida que se propaguen dentro de la red, lo que provocará un cambio significativo en las capas ocultas más profundas. Por lo tanto, se propone el método de normalización por lotes para reducir estos cambios no deseados para acelerar el entrenamiento y producir modelos más confiables.

Además de reducir el cambio de covariables interno, se cree que la normalización de lotes introduce muchos otros beneficios . Con esta operación adicional, la red puede utilizar una mayor tasa de aprendizaje sin desaparecer o explotar gradientes. Además, la normalización por lotes parece tener un efecto de regularización, de modo que la red mejora sus propiedades de generalización y, por lo tanto, no es necesario utilizar el abandono para mitigar el sobreajuste . También se ha observado que con la norma por lotes la red se vuelve más robusta a diferentes esquemas de inicialización y tasas de aprendizaje.

Procedimientos

^[2]

Transformación de normalización por lotes

En una red neuronal, la normalización por lotes se logra mediante un paso de normalización que fija las medias y las variaciones de las entradas de cada capa. Idealmente, la normalización se llevaría a cabo en todo el conjunto de entrenamiento, pero para usar este paso junto con los métodos de optimización estocástica , no es práctico usar la información global. Por lo tanto, la normalización se restringe a cada mini-lote en el proceso de entrenamiento.

Utilice B para indicar un mini lote de tamaño m de todo el conjunto de entrenamiento. Por tanto, la media empírica y la varianza de B podrían denotarse como

${\ Displaystyle \ mu _ {B} = {\ frac {1} {m}} \ sum _ {i = 1} ^ {m} x_ {i}}$ , y ${\ Displaystyle \ sigma _ {B} ^ {2} = {\ frac {1} {m}} \ sum _ {i = 1} ^ {m} (x_ {i} - \ mu _ {B}) ^ {2}}$ .

Para una capa de la red con entrada d- dimensional, ${\ Displaystyle x = (x ^ {(1)}, ..., x ^ {(d)})}$ , cada dimensión de su entrada se normaliza (es decir, se vuelve a centrar y se vuelve a escalar) por separado,

${\ Displaystyle {\ hat {x}} _ {i} ^ {(k)} = {\ frac {x_ {i} ^ {(k)} - \ mu _ {B} ^ {(k)}} { \ sqrt {\ sigma _ {B} ^ {(k) ^ {2}} + \ epsilon}}}}$ , dónde ${\ Displaystyle k \ en [1, d]}$ y ${\ Displaystyle i \ en [1, m]}$ ; ${\ Displaystyle \ mu _ {B} ^ {(k)}}$ y ${\ Displaystyle \ sigma _ {B} ^ {(k) ^ {2}}}$ son la media y la varianza por dimensión, respectivamente.

${\ Displaystyle \ epsilon}$ se agrega en el denominador para la estabilidad numérica y es una constante arbitrariamente pequeña. La activación normalizada resultante ${\ Displaystyle {\ hat {x}} ^ {(k)}}$ tienen media cero y varianza unitaria, si ${\ Displaystyle \ epsilon}$ no se tiene en cuenta. Para restaurar el poder de representación de la red, se sigue un paso de transformación como

${\ Displaystyle y_ {i} ^ {(k)} = \ gamma ^ {(k)} {\ hat {x}} _ {i} ^ {(k)} + \ beta ^ {(k)}}$ ,

donde los parámetros ${\ Displaystyle \ gamma ^ {(k)}}$ y ${\ Displaystyle \ beta ^ {(k)}}$ posteriormente se aprenden en el proceso de optimización.

Formalmente, la operación que implementa la normalización por lotes es una transformación ${\ Displaystyle BN _ {\ gamma ^ {(k)}, \ beta ^ {(k)}}: x_ {1 ... m} ^ {(k)} \ rightarrow y_ {1 ... m} ^ { (k)}}$ llamada la transformación de normalización por lotes. La salida de la transformada BN ${\ Displaystyle y ^ {(k)} = BN _ {\ gamma ^ {(k)}, \ beta ^ {(k)}} (x ^ {(k)})}$ luego se pasa a otras capas de red, mientras que la salida normalizada ${\ Displaystyle {\ hat {x}} _ {i} ^ {(k)}}$ permanece interno a la capa actual.

Retropropagación

La transformada BN descrita es una operación diferenciable , y el gradiente de la pérdida l con respecto a los diferentes parámetros se puede calcular directamente con la regla de la cadena .

Específicamente, ${\ Displaystyle {\ frac {\ parcial l} {\ parcial y_ {i} ^ {(k)}}}}$ depende de la elección de la función de activación , y el gradiente frente a otros parámetros podría expresarse en función de ${\ Displaystyle {\ frac {\ parcial l} {\ parcial y_ {i} ^ {(k)}}}}$ :

${\ Displaystyle {\ frac {\ l parcial} {\ parcial {\ hat {x}} _ {i} ^ {(k)}}} = {\ frac {\ l parcial} {\ parcial y_ {i} ^ {(k)}}} \ gamma ^ {(k)}}$ ,

${\ Displaystyle {\ frac {\ parcial l} {\ parcial \ gamma ^ {(k)}}} = \ suma _ {i = 1} ^ {m} {\ frac {\ parcial l} {\ parcial y_ { i} ^ {(k)}}} {\ hat {x}} _ {i} ^ {(k)}}$ , ${\ Displaystyle {\ frac {\ parcial l} {\ parcial \ beta ^ {(k)}}} = \ sum _ {i = 1} ^ {m} {\ frac {\ parcial l} {\ parcial y_ { i} ^ {(k)}}}}$ ,
${\ Displaystyle {\ frac {\ parcial l} {\ parcial \ sigma _ {B} ^ {(k) ^ {2}}}} = \ sum _ {i = 1} ^ {m} {\ frac {\ parcial l} {\ parcial y_ {i} ^ {(k)}}} (x_ {i} ^ {(k)} - \ mu _ {B} ^ {(k)}) \ left (- {\ frac {\ gamma ^ {(k)}} {2}} (\ sigma _ {B} ^ {(k) ^ {2}} + \ epsilon) ^ {- 3/2} \ right)}$ , ${\ Displaystyle {\ frac {\ l parcial} {\ parcial \ mu _ {B} ^ {(k)}}} = \ sum _ {i = 1} ^ {m} {\ frac {\ l parcial} { \ y parcial_ {i} ^ {(k)}}} {\ frac {- \ gamma ^ {(k)}} {\ sqrt {\ sigma _ {B} ^ {(k) ^ {2}} + \ épsilon}}} + {\ frac {\ parcial l} {\ parcial \ sigma _ {B} ^ {(k) ^ {2}}}} {\ frac {1} {m}} \ sum _ {i = 1} ^ {m} (- 2) \ cdot (x_ {i} ^ {(k)} - \ mu _ {B} ^ {(k)})}$ ,

y ${\ estilo de visualización {\ frac {\ l parcial} {\ x parcial_ {i} ^ {(k)}}} = {\ frac {\ l parcial} {\ parcial {\ sombrero {x}} _ {i} ^ {(k)}}} {\ frac {1} {\ sqrt {\ sigma _ {B} ^ {(k) ^ {2}} + \ epsilon}}} + {\ frac {\ parcial l} {\ parcial \ sigma _ {B} ^ {(k) ^ {2}}}} {\ frac {2 (x_ {i} ^ {(k)} - \ mu _ {B} ^ {(k)})} {m}} + {\ frac {\ parcial l} {\ parcial \ mu _ {B} ^ {(k)}}} {\ frac {1} {m}}}$ .

Inferencia con redes normalizadas por lotes

Durante la etapa de entrenamiento, los pasos de normalización dependen de los mini lotes para garantizar un entrenamiento eficiente y confiable. Sin embargo, en la etapa de inferencia, esta dependencia ya no es útil. En cambio, el paso de normalización en esta etapa se calcula con las estadísticas de población de manera que la salida podría depender de la entrada de manera determinista. La población media, ${\ Displaystyle E [x ^ {(k)}]}$ , y varianza, ${\ Displaystyle \ operatorname {Var} [x ^ {(k)}]}$ , se calculan como:

${\ Displaystyle E [x ^ {(k)}] = E_ {B} [\ mu _ {B} ^ {(k)}]}$ , y ${\ Displaystyle \ operatorname {Var} [x ^ {(k)}] = {\ frac {m} {m-1}} E_ {B} [\ sigma _ {B} ^ {(k) ^ {2} }]}$ .

Por tanto, las estadísticas de población son una representación completa de los mini lotes.

La transformada BN en el paso de inferencia se convierte así

${\ Displaystyle y ^ {(k)} = BN _ {\ gamma ^ {(k)}, \ beta ^ {(k)}} ^ {\ text {inf}} (x ^ {(k)}) = { \ frac {\ gamma ^ {(k)}} {\ sqrt {\ operatorname {Var} [x ^ {(k)}] + \ epsilon}}} x ^ {(k)} + {\ Bigg (} \ beta ^ {(k)} - {\ frac {\ gamma ^ {(k)} E [x ^ {(k)}]} {\ sqrt {\ operatorname {Var} [x ^ {(k)}] + \ epsilon}}} {\ Bigg)}}$ ,

dónde ${\ Displaystyle y ^ {(k)}}$ pasa a capas futuras en lugar de ${\ Displaystyle x ^ {(k)}}$ . Dado que los parámetros están fijos en esta transformación, el procedimiento de normalización por lotes esencialmente aplica una transformación lineal a la activación.

Comprensión de la normalización por lotes

Aunque la normalización por lotes se ha convertido en un método popular debido a sus fortalezas, el mecanismo de trabajo del método aún no se comprende bien. Los académicos muestran que el cambio de covariables interno no se reduce significativamente por la normalización de lotes, a pesar de la creencia común. ^[3] Algunos académicos atribuyen el buen desempeño a suavizar la función objetivo, mientras que otros proponen que el desacoplamiento longitud-dirección es la razón detrás de su efectividad. ^[3]^[5]

Normalización de lotes y cambio de covariables interno

La correlación entre la normalización por lotes y el cambio de covariables interno es ampliamente aceptada, pero no fue respaldada por resultados experimentales. Los académicos han demostrado recientemente con experimentos que la relación hipotética no es precisa. Más bien, la precisión mejorada con la capa de normalización por lotes parece ser independiente del cambio de covariables interno. ^[3]

Adición de desplazamiento covariable a capas de normalización por lotes

Para comprender si existe alguna correlación entre la reducción del cambio de covariables y la mejora del rendimiento, se realiza un experimento para dilucidar la relación. Específicamente, se entrenan y comparan tres modelos: una red VGG estándar sin normalización por lotes, una red VGG con capas de normalización por lotes y una red VGG con capas de normalización por lotes y ruido aleatorio. En el tercer modelo, el ruido tiene una media distinta de cero y una varianza no unitaria, y se genera al azar para cada capa. Luego se agrega después de las capas de normalización por lotes para introducir deliberadamente el cambio de covariables en la activación.

Con estos tres modelos se realizan dos observaciones. Primero, el tercer modelo ruidoso tiene distribuciones menos estables en todas las capas en comparación con los otros dos modelos debido a la capa de ruido adicional. A pesar del ruido, la precisión de entrenamiento del segundo y tercer modelo es similar, y ambos son más altos que la del primer modelo. Si bien los cambios de covariables internos son mayores en todos los niveles, el modelo con normalización por lotes aún funciona mejor que el modelo VGG estándar. Por tanto, se podría concluir que el cambio de covariables interno podría no ser el factor que contribuya al rendimiento de la normalización de lotes.

Medición del desplazamiento de covariables interno con y sin capas de normalización por lotes

Dado que se plantea la hipótesis de que las capas de normalización por lotes podrían reducir el desplazamiento de covariables interno, se configura un experimento para medir cuantitativamente cuánto se reduce el desplazamiento de covariables. Primero, la noción de cambio de covariables interno debe definirse matemáticamente. Específicamente, para cuantificar el ajuste que hacen los parámetros de una capa en respuesta a actualizaciones en capas anteriores, se mide la correlación entre los gradientes de la pérdida antes y después de que se actualizan todas las capas anteriores, ya que los gradientes podrían capturar los cambios del entrenamiento de primer orden. método. Si el desplazamiento introducido por los cambios en las capas anteriores es pequeño, entonces la correlación entre los gradientes sería cercana a 1.

La correlación entre los gradientes se calcula para cuatro modelos: una red VGG estándar, una red VGG con capas de normalización por lotes, una red lineal profunda de 25 capas (DLN) entrenada con descenso de gradiente de lote completo y una red DLN con capas de normalización por lotes . Curiosamente, se muestra que los modelos VGG y DLN estándar tienen correlaciones de gradientes más altas en comparación con sus contrapartes, lo que indica que las capas de normalización de lotes adicionales no reducen el cambio de covariables interno.

Suavidad del panorama de optimización

Algunos estudiosos propusieron y demostraron que la normalización de lotes podría introducir mayor Lipschitzness en la pérdida y el gradiente durante el entrenamiento, y que esta suavidad mejorada podría explicar su gran rendimiento. Estos efectos se pueden observar comparando redes VGG entrenadas con y sin normalización por lotes, y también es consistente entre otras redes, como las redes profundas lineales. En concreto, se observa que la pérdida cambia menos, y que los gradientes de pérdida tienen menores magnitudes y son más Lipschitz. Además, los modelos normalizados por lotes se comparan con modelos con diferentes técnicas de normalización. Específicamente, estos métodos de normalización funcionan fijando primero el momento de activación de primer orden y luego normalizándolo por el promedio de la ${\ Displaystyle l_ {p}}$ norma. Por lo tanto, estos métodos tienen un cambio de distribución mayor, pero un paisaje más suave. Evidentemente, estos modelos tienen un rendimiento similar al de los modelos normalizados por lotes. Por tanto, esta relación bidireccional podría indicar que la suavidad del panorama de optimización podría ser un factor que contribuya al rendimiento superior de la normalización de lotes.

Además de analizar esta correlación experimentalmente, también se proporciona un análisis teórico para verificar que la normalización de lotes podría resultar en un paisaje más suave. Considere dos redes idénticas, una contiene capas de normalización por lotes y la otra no, luego se comparan los comportamientos de estas dos redes. Denote las funciones de pérdida como ${\ Displaystyle L}$ y ${\ Displaystyle {\ hat {L}}}$ , respectivamente. Deje que la entrada a ambas redes sea ${\ Displaystyle x}$ , y la salida sea ${\ Displaystyle y}$ , para cual ${\ Displaystyle y = Wx}$ , dónde ${\ Displaystyle W}$ son los pesos de las capas. Para la segunda red, ${\ Displaystyle y}$ además, pasa por una capa de normalización por lotes. Denote la activación normalizada como ${\ Displaystyle {\ hat {y}}}$ , que tiene media cero y varianza unitaria. Que la activación transformada sea ${\ Displaystyle z = \ gamma {\ hat {y}} + \ beta}$ y supongamos ${\ Displaystyle \ gamma}$ y ${\ Displaystyle \ beta}$ son constantes. Finalmente, denote la desviación estándar sobre un mini-lote ${\ Displaystyle {\ hat {y_ {j}}} \ in \ mathbb {R} ^ {m}}$ como ${\ Displaystyle \ sigma _ {j}}$ .

Primero, se puede demostrar que la magnitud del gradiente de una red normalizada por lotes, ${\ Displaystyle || \ triangledown _ {y_ {i}} {\ hat {L}} ||}$ , está acotado, con el límite expresado como

${\ Displaystyle || \ triangledown _ {y_ {i}} {\ hat {L}} || ^ {2} \ leq {\ frac {\ gamma ^ {2}} {\ sigma _ {j} ^ {2 }}} {\ Bigg (} || \ triangledown _ {y_ {i}} L || ^ {2} - {\ frac {1} {m}} \ langle 1, \ triangledown _ {y_ {i}} L \ rangle ^ {2} - {\ frac {1} {m}} \ langle \ triangledown _ {y_ {i}} L, {\ hat {y}} _ {j} \ rangle ^ {2} {\ bigg)}}$ .

Dado que la magnitud del gradiente representa el Lipschitzness de la pérdida, esta relación indica que una red normalizada por lotes podría lograr un Lipschitzness mayor comparativamente. Observe que el límite se vuelve más estrecho cuando el degradado ${\ Displaystyle \ triangledown _ {y_ {i}} {\ hat {L}}}$ se correlaciona con la activación ${\ Displaystyle {\ hat {y_ {i}}}}$ , que es un fenómeno común. La escala de ${\ Displaystyle {\ frac {\ gamma ^ {2}} {\ sigma _ {j} ^ {2}}}}$ también es significativa, ya que la varianza suele ser grande.

En segundo lugar, la forma cuadrática de la pérdida hessiana con respecto a la activación en la dirección del gradiente se puede acotar como

${\ Displaystyle (\ triangledown _ {y_ {j}} {\ hat {L}}) ^ {T} {\ frac {\ parcial {\ hat {L}}} {\ parcial y_ {j} \ parcial y_ { j}}} (\ triangledown _ {y_ {j}} {\ hat {L}}) \ leq {\ frac {\ gamma ^ {2}} {\ sigma ^ {2}}} {\ bigg (} { \ frac {\ parcial {\ hat {L}}} {\ parcial y_ {j}}} {\ bigg)} ^ {T} {\ bigg (} {\ frac {\ parcial L} {\ parcial y_ {j } \ y_ parcial {j}}} {\ bigg)} {\ bigg (} {\ frac {\ parcial {\ hat {L}}} {\ y_ parcial {j}}} {\ bigg)} - {\ frac {\ gamma} {m \ sigma ^ {2}}} \ langle \ triangledown _ {y_ {j}} L, {\ hat {y_ {j}}} \ rangle {\ bigg |} {\ bigg |} {\ frac {\ parcial {\ hat {L}}} {\ parcial y_ {j}}} {\ bigg |} {\ bigg |} ^ {2}}$ .

La escala de ${\ Displaystyle {\ frac {\ gamma ^ {2}} {\ sigma _ {j} ^ {2}}}}$ indica que el hessiano de pérdida es resistente a la varianza del mini-lote, mientras que el segundo término en el lado derecho sugiere que se vuelve más suave cuando el hessiano y el producto interno no son negativos. Si la pérdida es localmente convexa , entonces el hessiano es semidefinido positivo , mientras que el producto interno es positivo si ${\ Displaystyle {\ hat {g_ {j}}}}$ está en la dirección hacia el mínimo de la pérdida. Por lo tanto, se podría concluir de esta desigualdad que el gradiente generalmente se vuelve más predictivo con la capa de normalización por lotes.

Luego sigue traducir los límites relacionados con la pérdida con respecto a la activación normalizada a un límite en la pérdida con respecto a los pesos de la red:

${\ Displaystyle {\ hat {g_ {j}}} \ leq {\ frac {\ gamma ^ {2}} {\ sigma _ {j} ^ {2}}} (g_ {j} ^ {2} -m \ mu _ {g_ {j}} ^ {2} - \ lambda ^ {2} \ langle \ triangledown _ {y_ {j}} L, {\ hat {y}} _ {j} \ rangle ^ {2} )}$ , dónde ${\ Displaystyle g_ {j} = max_ {|| X || \ leq \ lambda} || \ triangledown _ {W} L || ^ {2}}$ y ${\ Displaystyle {\ hat {g}} _ {j} = max_ {|| X || \ leq \ lambda} || \ triangledown _ {W} {\ hat {L}} || ^ {2}}$ .

Además del panorama más suave, se muestra además que la normalización por lotes podría resultar en una mejor inicialización con la siguiente desigualdad:

${\ Displaystyle || W_ {0} - {\ hat {W}} ^ {*} || ^ {2} \ leq || W_ {0} -W ^ {*} || ^ {2} - {\ frac {1} {|| W ^ {*} || ^ {2}}} (|| W ^ {*} || ^ {2} - \ langle W ^ {*}, W_ {0} \ rangle) ^ {2}}$ , dónde ${\ Displaystyle W ^ {*}}$ y ${\ Displaystyle {\ hat {W}} ^ {*}}$ son los pesos óptimos locales para las dos redes, respectivamente.

Algunos estudiosos argumentan que el análisis anterior no puede capturar completamente el desempeño de la normalización por lotes, porque la prueba solo concierne al valor propio más grande, o equivalentemente, una dirección en el paisaje en todos los puntos. Se sugiere que se debe tener en cuenta el espectro propio completo para realizar un análisis concluyente. ^[5]

^[3]

Rugosidad contradictoria del panorama de optimización en la inicialización

Aunque batchnorm se introdujo originalmente para aliviar los problemas de explosión o desaparición de gradientes , una red de batchnorm profunda sufre de hecho una explosión de gradiente en el momento de la inicialización, sin importar lo que utilice para la no linealidad. Por lo tanto, el panorama de la optimización está muy lejos de ser sencillo para una red por lotes profunda inicializada aleatoriamente. Más precisamente, si la red tiene ${\ Displaystyle L}$ capas, entonces el gradiente de los pesos de la primera capa tiene la norma ${\ Displaystyle> c \ lambda ^ {L}}$ para algunos ${\ Displaystyle \ lambda> 1, c> 0}$ dependiendo solo de la no linealidad. Para cualquier no linealidad fija, ${\ Displaystyle \ lambda}$ disminuye a medida que aumenta el tamaño del lote. Por ejemplo, para ReLU, ${\ Displaystyle \ lambda}$ disminuye a ${\ Displaystyle \ pi / (\ pi -1) \ approx 1.467}$ ya que el tamaño del lote tiende a infinito. En la práctica, esto significa que las redes profundas por lotes son intransitables. Esto solo se alivia saltando conexiones a la manera de redes residuales. ^[4]

Esta explosión de gradiente en la superficie contradice la propiedad de suavidad explicada en la sección anterior, pero de hecho son consistentes. La sección anterior estudia el efecto de insertar un solo batchnorm en una red, mientras que la explosión del gradiente depende de apilar los batchnorms típicos de las redes neuronales profundas modernas.

Desacoplamiento longitud-dirección

Se argumenta que el éxito de la normalización de lotes podría atribuirse, al menos en parte, al efecto de desacoplamiento de la dirección longitudinal que proporciona el método.

Al interpretar el procedimiento de normalización por lotes como la reparametrización del espacio de peso, se pudo demostrar que la longitud y la dirección de los pesos se separan después del procedimiento y, por lo tanto, se pueden entrenar por separado. Para una unidad de red neuronal particular con entrada ${\ Displaystyle x}$ y vector de peso ${\ Displaystyle w}$ , denotar su salida como ${\ Displaystyle f (w) = E_ {x} [\ phi (x ^ {T} w)]}$ , dónde ${\ Displaystyle \ phi}$ es la función de activación, y denota ${\ Displaystyle S = E [xx ^ {T}]}$ . Asumir que ${\ Displaystyle E [x] = 0}$ , y que el espectro de la matriz ${\ Displaystyle S}$ está delimitado como ${\ Displaystyle 0 <\ mu = \ lambda _ {min} (S)}$ , ${\ Displaystyle L = \ lambda _ {max} (S) <\ infty}$ , tal que ${\ Displaystyle S}$ es simétrico positivo definido. Agregar la normalización de lotes a esta unidad da como resultado

${\ Displaystyle f_ {BN} (w, \ gamma, \ beta) = E_ {x} [\ phi (BN (x ^ {T} w))] = E_ {x} {\ bigg [} \ phi {\ bigg (} \ gamma ({\ frac {x ^ {T} w-E_ {x} [x ^ {T} w]} {var_ {x} [x ^ {T} w] ^ {1/2}} }) + \ beta {\ bigg)} {\ bigg]}}$ , por definición.

El término de varianza se puede simplificar de modo que ${\ Displaystyle var_ {x} [x ^ {T} w] = w ^ {T} Sw}$ . Asumir que ${\ Displaystyle x}$ tiene media cero y ${\ Displaystyle \ beta}$ puede omitirse, entonces se sigue que

${\ Displaystyle f_ {BN} (w, \ gamma) = E_ {x} {\ bigg [} \ phi {\ bigg (} \ gamma {\ frac {x ^ {T} w} {(w ^ {T}) Sw) ^ {1/2}}} {\ bigg)} {\ bigg]}}$ , dónde ${\ Displaystyle (w ^ {T} Sw) ^ {\ frac {1} {2}}}$ es la norma inducida de ${\ Displaystyle S}$ , ${\ Displaystyle || w || _ {s}}$ .

Por tanto, se podría concluir que ${\ Displaystyle f_ {BN} (w, \ gamma) = E_ {x} [\ phi (x ^ {T} {\ tilde {w}})]}$ , dónde ${\ Displaystyle {\ tilde {w}} = \ gamma {\ frac {w} {|| w || _ {s}}}}$ , y ${\ Displaystyle \ gamma}$ y ${\ Displaystyle w}$ explica su longitud y dirección por separado. Esta propiedad podría usarse para probar la convergencia más rápida de los problemas con la normalización por lotes.

Convergencia lineal del problema de mínimos cuadrados con normalización por lotes

Con la interpretación de la reparametrización, se pudo demostrar que la aplicación de la normalización por lotes al problema de mínimos cuadrados ordinarios logra una tasa de convergencia lineal en el descenso del gradiente, que es más rápida que el descenso del gradiente regular con solo convergencia sublineal.

Denote el objetivo de minimizar un problema de mínimos cuadrados ordinarios como

${\ Displaystyle min _ {{\ tilde {w}} \ in R ^ {d}} f_ {OLS} ({\ tilde {w}}) = min _ {{\ tilde {w}} \ in R ^ {d} } (E_ {x, y} [(yx ^ {T} {\ tilde {w}}) ^ {2}]) = min _ {{\ tilde {w}} \ in R ^ {d}} (2u ^ {T} {\ tilde {w}} + {\ tilde {w}} ^ {T} S {\ tilde {w}})}$ , dónde ${\ Displaystyle u = E [-yx]}$ .

Desde ${\ Displaystyle {\ tilde {w}} = \ gamma {\ frac {w} {|| w || _ {s}}}}$ , el objetivo se convierte así

${\ Displaystyle min_ {w \ in R ^ {d} \ backslash \ {0 \}, \ gamma \ in R} f_ {OLS} (w, \ gamma) = min_ {w \ in R ^ {d} \ backslash \ {0 \}, \ gamma \ in R} {\ bigg (} 2 \ gamma {\ frac {u ^ {T} w} {|| w || _ {S} + \ gamma ^ {2}}} {\ bigg)}}$ , donde se excluye 0 para evitar 0 en el denominador.

Dado que el objetivo es convexo con respecto a ${\ Displaystyle \ gamma}$ , su valor óptimo podría calcularse estableciendo la derivada parcial del objetivo contra ${\ Displaystyle \ gamma}$ a 0. El objetivo podría simplificarse aún más para ser

${\ Displaystyle min_ {w \ in R ^ {d} \ backslash \ {0 \}} \ rho (w) = min_ {w \ in R ^ {d} \ backslash \ {0 \}} {\ bigg (} - {\ frac {w ^ {T} uu ^ {T} w} {w ^ {T} Sw}} {\ bigg)}}$ .

Tenga en cuenta que este objetivo es una forma del cociente de Rayleigh generalizado

${\ Displaystyle {\ tilde {\ rho}} (w) = {\ frac {w ^ {T} Bw} {w ^ {T} Aw}}}$ , dónde ${\ Displaystyle B \ en R ^ {d \ times d}}$ es una matriz simétrica y ${\ Displaystyle A \ en R ^ {d \ times d}}$ es una matriz definida positiva simétrica .

Está comprobado que la tasa de convergencia de descenso de gradiente del cociente de Rayleigh generalizado es

${\ Displaystyle {\ frac {\ lambda _ {1} - \ rho (w_ {t + 1})} {\ rho (w_ {t + 1} - \ lambda _ {2})}} \ leq {\ bigg (} 1 - {\ frac {\ lambda _ {1} - \ lambda _ {2}} {\ lambda _ {1} - \ lambda _ {min}}} {\ bigg)} ^ {2t} {\ frac {\ lambda _ {1} - \ rho (w_ {t})} {\ rho (w_ {t}) - \ lambda _ {2}}}}$ , dónde ${\ Displaystyle \ lambda _ {1}}$ es el valor propio más grande de ${\ Displaystyle B}$ , ${\ Displaystyle \ lambda _ {2}}$ es el segundo valor propio más grande de ${\ Displaystyle B}$ , y ${\ Displaystyle \ lambda _ {min}}$ es el valor propio más pequeño de ${\ Displaystyle B}$ . ^[6]

En nuestro caso, ${\ Displaystyle B = uu ^ {T}}$ es una matriz de rango uno, y el resultado de convergencia se puede simplificar en consecuencia. Específicamente, considere los pasos de descenso de gradiente del formulario ${\ Displaystyle w_ {t + 1} = w_ {t} - \ eta _ {t} \ triangledown \ rho (w_ {t})}$ con tamaño de paso ${\ Displaystyle \ eta _ {t} = {\ frac {w_ {t} ^ {T} Sw_ {t}} {2L | \ rho (w_ {t}) |}}}$ , y a partir de ${\ Displaystyle \ rho (w_ {0}) \ neq 0}$ , luego

${\ Displaystyle \ rho (w_ {t}) - \ rho (w ^ {*}) \ leq {\ bigg (} 1 - {\ frac {\ mu} {L}} {\ bigg)} ^ {2t} (\ rho (w_ {0}) - \ rho (w ^ {*}))}$ .

Convergencia lineal del problema de semiespacio de aprendizaje con normalización por lotes

El problema de aprender medios espacios se refiere al entrenamiento del Perceptron , que es la forma más simple de red neuronal. El problema de optimización en este caso es

${\ Displaystyle min _ {{\ tilde {w}} \ in R ^ {d}} f_ {LH} ({\ tilde {w}}) = E_ {y, x} [\ phi (z ^ {T} { \ tilde {w}})]}$ , dónde ${\ Displaystyle z = -yx}$ y ${\ Displaystyle \ phi}$ es una función de pérdida arbitraria.

Suponer que ${\ Displaystyle \ phi}$ es infinitamente diferenciable y tiene una derivada acotada. Suponga que la función objetivo ${\ Displaystyle f_ {LH}}$ es ${\ Displaystyle \ zeta}$ - suave , y que una solución ${\ Displaystyle \ alpha ^ {*} = argmin _ {\ alpha} || \ triangledown f (\ alpha w) || ^ {2}}$ existe y está limitado de tal manera que ${\ Displaystyle - \ infty <\ alpha ^ {*} <\ infty}$ . También asume ${\ Displaystyle z}$ es una variable aleatoria normal multivariante . Con el supuesto de Gauss, se puede demostrar que todos los puntos críticos se encuentran en la misma línea, para cualquier elección de función de pérdida ${\ Displaystyle \ phi}$ . Específicamente, el gradiente de ${\ Displaystyle f_ {LH}}$ podría representarse como

${\ Displaystyle \ triangledown _ {\ tilde {w}} f_ {LH} ({\ tilde {w}}) = c_ {1} ({\ tilde {w}}) u + c_ {2} ({\ tilde {w}}) S {\ tilde {w}}}$ , dónde ${\ Displaystyle c_ {1} ({\ tilde {w}}) = E_ {z} [\ phi ^ {(1)} (z ^ {T} {\ tilde {w}})] - E_ {z} [\ phi ^ {(2)} (z ^ {T} {\ tilde {w}})] (u ^ {T} {\ tilde {w}})}$ , ${\ Displaystyle c_ {2} ({\ tilde {w}}) = E_ {z} [\ phi ^ {(2)} (z ^ {T} {\ tilde {w}})]}$ , y ${\ Displaystyle \ phi ^ {(i)}}$ es el ${\ Displaystyle i}$ -ésima derivada de ${\ Displaystyle \ phi}$ .

Al establecer el gradiente en 0, se deduce que los puntos críticos acotados ${\ Displaystyle {\ tilde {w}} _ {*}}$ se puede expresar como ${\ Displaystyle {\ tilde {w}} _ {*} = g _ {*} S ^ {- 1} u}$ , dónde ${\ Displaystyle g _ {*}}$ depende de ${\ Displaystyle {\ tilde {w}} _ {*}}$ y ${\ Displaystyle \ phi}$ . Combinando esta propiedad global con el desacoplamiento longitud-dirección, se pudo demostrar que este problema de optimización converge linealmente.

Primero, una variación del descenso de gradiente con normalización por lotes, descenso de gradiente en parametrización normalizada (GDNP), está diseñada para la función objetivo ${\ Displaystyle min_ {w \ in R ^ {d} \ backslash \ {0 \}, \ gamma \ in R} f_ {LH} (w, \ gamma)}$ , de modo que la dirección y la longitud de los pesos se actualizan por separado. Denote el criterio de detención de GDNP como

${\ Displaystyle h (w_ {t}, \ gamma _ {t}) = E_ {z} [\ phi '(z ^ {T} {\ tilde {w}} _ {t})] (u ^ {T } w_ {t}) - E_ {z} [\ phi '' (z ^ {T} {\ tilde {w}} _ {t})] (u ^ {T} w_ {t}) ^ {2} }$ .

Deje que el tamaño del paso sea

${\ Displaystyle s_ {t} = s (w_ {t}, \ gamma _ {t}) = - {\ frac {|| w_ {t} || _ {S} ^ {3}} {Lg_ {t} h (w_ {t}, \ gamma _ {t})}}}$ .

Para cada paso, si ${\ Displaystyle h (w_ {t}, \ gamma _ {t}) \ neq 0}$ , luego actualice la dirección como

${\ Displaystyle w_ {t + 1} = w_ {t} -s_ {t} \ triangledown _ {w} f (w_ {t}, \ gamma _ {t})}$ .

Luego actualice la longitud de acuerdo con

${\ Displaystyle \ gamma _ {t} = Bisección (T_ {s}, f, w_ {t})}$ , dónde ${\ Displaystyle Bisección ()}$ es el algoritmo de bisección clásico , y ${\ Displaystyle T_ {s}}$ es el total de iteraciones ejecutadas en el paso de bisección.

Denote el número total de iteraciones como ${\ Displaystyle T_ {d}}$ , el resultado final de GDNP es

${\ Displaystyle {\ tilde {w}} _ {T_ {d}} = \ gamma _ {T_ {d}} {\ frac {w_ {T_ {d}}} {|| w_ {T_ {d}} | | _ {S}}}}$ .

Por tanto, el algoritmo GDNP modifica ligeramente el paso de normalización por lotes para facilitar el análisis matemático.

Se puede demostrar que en GDNP, la derivada parcial de ${\ Displaystyle f_ {LH}}$ contra el componente de longitud converge a cero a una tasa lineal, de modo que

${\ Displaystyle (\ partial _ {\ gamma} f_ {LH} (w_ {t}, a_ {t} ^ {(T_ {s})}) ^ {2} \ leq {\ frac {2 ^ {- T_ {s}} \ zeta | b_ {t} ^ {(0)} - a_ {t} ^ {(0)} |} {\ mu ^ {2}}}}$ , dónde ${\ Displaystyle a_ {t} ^ {(0)}}$ y ${\ Displaystyle b_ {t} ^ {0}}$ son los dos puntos de partida del algoritmo de bisección a la izquierda y a la derecha, correspondientemente.

Además, para cada iteración, la norma del gradiente de ${\ Displaystyle f_ {LH}}$ con respecto a ${\ Displaystyle w}$ converge linealmente, de modo que

${\ Displaystyle || w_ {t} || _ {S} ^ {2} || \ triangledown f_ {LH} (w_ {t}, g_ {t}) || _ {S ^ {- 1}} ^ {2} \ leq {\ bigg (} 1 - {\ frac {\ mu} {L}} {\ bigg)} ^ {2t} \ Phi ^ {2} \ gamma _ {t} ^ {2} (\ rho (w_ {0}) - \ rho ^ {*})}$ .

Combinando estas dos desigualdades, podría obtenerse un límite para el gradiente con respecto a ${\ Displaystyle {\ tilde {w}} _ {T_ {d}}}$ :

${\ Displaystyle || \ triangledown _ {\ tilde {w}} f ({\ tilde {w}} _ {T_ {d}}) || ^ {2} \ leq {\ bigg (} 1 - {\ frac {\ mu} {L}} {\ bigg)} ^ {2T_ {d}} \ Phi ^ {2} (\ rho (w_ {0}) - \ rho ^ {*}) + {\ frac {2 ^ {-T_ {s}} \ zeta | b_ {t} ^ {(0)} - a_ {t} ^ {(0)} |} {\ mu ^ {2}}}}$ , de modo que se garantiza que el algoritmo convergerá linealmente.

Aunque la prueba se basa en el supuesto de entrada gaussiana, también se muestra en experimentos que GDNP podría acelerar la optimización sin esta restricción.

Convergencia lineal de redes neuronales con normalización por lotes

Considere un perceptrón multicapa (MLP) con una capa oculta y ${\ Displaystyle m}$ unidades ocultas con mapeo de entrada ${\ Displaystyle x \ en R ^ {d}}$ a una salida escalar descrita como

${\ Displaystyle F_ {x} ({\ tilde {W}}, \ Theta) = \ sum _ {i = 1} ^ {m} \ theta _ {i} \ phi (x ^ {T} {\ tilde { w}} ^ {(i)})}$ , dónde ${\ Displaystyle {\ tilde {w}} ^ {(i)}}$ y ${\ Displaystyle \ theta _ {i}}$ son los pesos de entrada y salida de la unidad ${\ Displaystyle i}$ correspondientemente, y ${\ Displaystyle \ phi}$ es la función de activación y se supone que es una función tanh .

Los pesos de entrada y salida podrían optimizarse con

${\ Displaystyle min _ {{\ tilde {W}}, \ Theta} (f_ {NN} ({\ tilde {W}}, \ Theta) = E_ {y, x} [l (-yF_ {x} ({ \ tilde {W}}, \ Theta))])}$ , dónde ${\ Displaystyle l}$ es una función de pérdida, ${\ Displaystyle {\ tilde {W}} = \ {{\ tilde {w}} ^ {(1)}, ..., {\ tilde {w}} ^ {(m)} \}}$ , y ${\ Displaystyle \ Theta = \ {\ theta ^ {(1)}, ..., \ theta ^ {(m)} \}}$ .

Considere fijo ${\ Displaystyle \ Theta}$ y optimizando solo ${\ Displaystyle {\ tilde {W}}}$ , se puede demostrar que los puntos críticos de ${\ Displaystyle f_ {NN} ({\ tilde {W}})}$ de una unidad oculta en particular ${\ Displaystyle i}$ , ${\ Displaystyle {\ hat {w}} ^ {(i)}}$ , todos se alinean a lo largo de una línea dependiendo de la información entrante en la capa oculta, de modo que

${\ Displaystyle {\ hat {w}} ^ {(i)} = {\ hat {c}} ^ {(i)} S ^ {- 1} u}$ , dónde ${\ Displaystyle {\ hat {c}} ^ {(i)} \ in R}$ es un escalar, ${\ Displaystyle i = 1, ..., m}$ .

Este resultado podría probarse estableciendo el gradiente de ${\ Displaystyle f_ {NN}}$ a cero y resolviendo el sistema de ecuaciones.

Aplique el algoritmo GDNP a este problema de optimización alternando la optimización sobre las diferentes unidades ocultas. Específicamente, para cada unidad oculta, ejecute GDNP para encontrar la ${\ Displaystyle W}$ y ${\ Displaystyle \ gamma}$ . Con la misma elección de criterio de parada y tamaño de paso, se sigue que

${\ Displaystyle || \ triangledown _ {{\ tilde {w}} ^ {(i)}} f ({\ tilde {w}} _ {t} ^ {(i)}) || _ {S ^ { -1}} ^ {2} \ leq {\ bigg (} 1 - {\ frac {\ mu} {L}} {\ bigg)} ^ {2t} C (\ rho (w_ {0}) - \ rho ^ {*}) + {\ frac {2 ^ {- T_ {s} ^ {(i)}} \ zeta | b_ {t} ^ {(0)} - a_ {t} ^ {(0)} | } {\ mu ^ {2}}}}$ .

Dado que los parámetros de cada unidad oculta convergen linealmente, todo el problema de optimización tiene una tasa de convergencia lineal.

^[5]

Referencias

^ "Glosario de aprendizaje profundo: normalización por lotes" . medium.com . 27 de junio de 2017 . Consultado el 24 de abril de 2018 .
^ a b c d Ioffe, Sergey; Szegedy, Christian (2015). "Normalización por lotes: acelerar el entrenamiento de la red profunda reduciendo el cambio de covariables interno". arXiv : 1502.03167 [ cs.LG ].
^ a b c d e Santurkar, Shibani; Tsipras, Dimitris; Ilyas, Andrew; Madry, Aleksander (29 de mayo de 2018). "¿Cómo ayuda la normalización por lotes a la optimización?". arXiv : 1805.11604 [ stat.ML ].
^ a b Yang, Greg; Pennington, Jeffrey; Rao, Vinay; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019). "Una teoría de campo medio de la normalización por lotes". arXiv : 1902.08129 [ cs.NE ].
^ a b c d Kohler, Jonas; Daneshmand, Hadi; Lucchi, Aurelien; Zhou, Ming; Neymeyr, Klaus; Hofmann, Thomas (27 de mayo de 2018). "Tasas de convergencia exponencial para la normalización por lotes: el poder del desacoplamiento de la dirección de longitud en la optimización no convexa". arXiv : 1805.10694 [ stat.ML ].
^ Knyazev, Neymeyr, AV, K. (2003). "Una teoría geométrica para la iteración inversa precondicionada III: una estimación de convergencia corta y aguda para problemas de valores propios generalizados" . Álgebra lineal y sus aplicaciones . 358 (1-3): 95-114. doi : 10.1016 / S0024-3795 (01) 00461-X .

Ioffe, Sergey; Szegedy, Christian (2015). "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift", ICML'15: Actas de la 32ª Conferencia Internacional sobre la Conferencia Internacional sobre Aprendizaje Automático - Volumen 37, julio de 2015 Páginas 448–456

[1] "Glosario de aprendizaje profundo: normalización por lotes" . medium.com . 27 de junio de 2017 . Consultado el 24 de abril de 2018 .

[:0-2] Ioffe, Sergey; Szegedy, Christian (2015). "Normalización por lotes: acelerar el entrenamiento de la red profunda reduciendo el cambio de covariables interno". arXiv : 1502.03167 [ cs.LG ].

[:1-3] Santurkar, Shibani; Tsipras, Dimitris; Ilyas, Andrew; Madry, Aleksander (29 de mayo de 2018). "¿Cómo ayuda la normalización por lotes a la optimización?". arXiv : 1805.11604 [ stat.ML ].

[:7-4] Yang, Greg; Pennington, Jeffrey; Rao, Vinay; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019). "Una teoría de campo medio de la normalización por lotes". arXiv : 1902.08129 [ cs.NE ].

[:2-5] Kohler, Jonas; Daneshmand, Hadi; Lucchi, Aurelien; Zhou, Ming; Neymeyr, Klaus; Hofmann, Thomas (27 de mayo de 2018). "Tasas de convergencia exponencial para la normalización por lotes: el poder del desacoplamiento de la dirección de longitud en la optimización no convexa". arXiv : 1805.10694 [ stat.ML ].

[6] Knyazev, Neymeyr, AV, K. (2003). "Una teoría geométrica para la iteración inversa precondicionada III: una estimación de convergencia corta y aguda para problemas de valores propios generalizados" . Álgebra lineal y sus aplicaciones . 358 (1-3): 95-114. doi : 10.1016 / S0024-3795 (01) 00461-X .

[1]