Minimización de riesgos estructurales

La minimización de riesgos estructurales (SRM) es un principio inductivo de uso en el aprendizaje automático . Por lo general, en el aprendizaje automático, se debe seleccionar un modelo generalizado de un conjunto de datos finito, con el consiguiente problema de sobreajuste : el modelo se adapta demasiado a las particularidades del conjunto de entrenamiento y se generaliza deficientemente a nuevos datos. El principio SRM aborda este problema al equilibrar la complejidad del modelo con su éxito en el ajuste de los datos de entrenamiento. Este principio fue establecido por primera vez en un artículo de 1974 por Vladimir Vapnik y Alexey Chervonenkis y utiliza la dimensión VC .

En términos prácticos, la minimización de riesgos estructurales se implementa minimizando ${\ Displaystyle E_ {tren} + \ beta H (W)}$ , dónde ${\ displaystyle E_ {tren}}$ es el error del tren, la función ${\ Displaystyle H (W)}$ se llama función de regularización, y ${\ Displaystyle \ beta}$ es una constante. ${\ Displaystyle H (W)}$ se elige de modo que tome valores grandes en los parámetros ${\ Displaystyle W}$ que pertenecen a subconjuntos de alta capacidad del espacio de parámetros. Minimizar ${\ Displaystyle H (W)}$ en efecto, limita la capacidad de los subconjuntos accesibles del espacio de parámetros, controlando así el compromiso entre minimizar el error de entrenamiento y minimizar la brecha esperada entre el error de entrenamiento y el error de prueba. ^[1]

El problema de SRM se puede formular en términos de datos. Dados n puntos de datos que constan de datos xy etiquetas y, el objetivo ${\ Displaystyle J (\ theta)}$ a menudo se expresa de la siguiente manera:

${\ Displaystyle J (\ theta) = {\ frac {1} {2n}} \ sum _ {i = 1} ^ {n} (h _ {\ theta} (x ^ {i}) - y ^ {i} ) ^ {2} + {\ frac {\ lambda} {2}} \ sum _ {j = 1} ^ {d} \ theta _ {j} ^ {2}}$

El primer término es el término del error cuadrático medio (MSE) entre el valor del modelo aprendido, ${\ Displaystyle h _ {\ theta}}$ , y las etiquetas dadas ${\ Displaystyle y}$ . Este término es el error de entrenamiento, ${\ displaystyle E_ {tren}}$ , que se discutió anteriormente. El segundo término, coloca a priori sobre los pesos, para favorecer la escasez y penalizar pesos mayores. El coeficiente de compensación, ${\ Displaystyle \ lambda}$ , es un hiperparámetro que otorga mayor o menor importancia al término de regularización. Más grande ${\ Displaystyle \ lambda}$ fomenta pesos más dispersos a expensas de un MSE más óptimo y más pequeño ${\ Displaystyle \ lambda}$ relaja la regularización permitiendo que el modelo se ajuste a los datos. Tenga en cuenta que como ${\ Displaystyle \ lambda \ to \ infty}$ los pesos se vuelven cero, y a medida que ${\ Displaystyle \ lambda \ to 0}$ , el modelo suele sufrir un sobreajuste.

Ver también

Referencias

^ LeCun, Yann. "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos" (PDF) .

enlaces externos

Minimización de riesgos estructurales en el sitio web de máquinas de vectores de soporte.

Este artículo de ciencias de la computación es un fragmento . Puedes ayudar a Wikipedia expandiéndolo .

[1] LeCun, Yann. "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos" (PDF) .

[1]