Aumento de gradiente


El aumento de gradiente es una técnica de aprendizaje automático utilizada en tareas de regresión y clasificación , entre otras. Proporciona un modelo de predicción en forma de conjunto de modelos de predicción débiles, que suelen ser árboles de decisión . [1] [2] Cuando un árbol de decisión es el aprendiz débil, el algoritmo resultante se llama árboles potenciados por gradiente; por lo general, supera al bosque aleatorio . [1] [2] [3] Un modelo de árboles potenciados por gradiente se construye por etapas como en otros métodos de potenciación , pero generaliza los otros métodos al permitir la optimización de un valor arbitrario. función de pérdida diferenciable .

La idea del impulso de gradiente se originó en la observación de Leo Breiman de que el impulso se puede interpretar como un algoritmo de optimización en una función de costo adecuada. [4] Posteriormente, Jerome H. Friedman desarrolló algoritmos de aumento de gradiente de regresión explícitos , [5] [6] simultáneamente con la perspectiva de aumento de gradiente funcional más general de Llew Mason, Jonathan Baxter, Peter Bartlett y Marcus Frean. [7] [8] Los dos últimos documentos introdujeron la visión de impulsar algoritmos como descenso de gradiente funcional iterativoalgoritmos Es decir, algoritmos que optimizan una función de costo sobre el espacio de funciones eligiendo iterativamente una función (hipótesis débil) que apunta en la dirección del gradiente negativo. Esta vista de gradiente funcional de impulso ha llevado al desarrollo de algoritmos de impulso en muchas áreas de aprendizaje automático y estadísticas más allá de la regresión y la clasificación.

Al igual que otros métodos de impulso, el impulso de gradiente combina "aprendices" débiles en un solo alumno fuerte de manera iterativa. Es más fácil de explicar en la configuración de regresión de mínimos cuadrados , donde el objetivo es "enseñar" a un modelo a predecir valores de la forma minimizando el error cuadrático medio , donde los índices sobre algún conjunto de entrenamiento del tamaño de los valores reales de la salida variables :