AdaBoost

AdaBoost , abreviatura de Adaptive Boosting , es un meta-algoritmo de clasificación estadística formulado por Yoav Freund y Robert Schapire , quienes ganaron el Premio Gödel 2003 por su trabajo. Se puede utilizar junto con muchos otros tipos de algoritmos de aprendizaje para mejorar el rendimiento. La salida de los otros algoritmos de aprendizaje ("estudiantes débiles") se combina en una suma ponderada que representa la salida final del clasificador reforzado. AdaBoost es adaptativo en el sentido de que los aprendices débiles posteriores se modifican a favor de aquellas instancias mal clasificadas por clasificadores anteriores. En algunos problemas, puede ser menos susceptible al sobreajuste.problema que otros algoritmos de aprendizaje. Los alumnos individuales pueden ser débiles, pero siempre que el rendimiento de cada uno sea un poco mejor que la adivinación aleatoria, se puede demostrar que el modelo final converge en un alumno fuerte.

Cada algoritmo de aprendizaje tiende a adaptarse mejor a algunos tipos de problemas que a otros y, por lo general, tiene muchos parámetros y configuraciones diferentes para ajustar antes de lograr un rendimiento óptimo en un conjunto de datos. AdaBoost (con árboles de decisión como los aprendices débiles) a menudo se conoce como el mejor clasificador listo para usar. ^[1]^[2] Cuando se utiliza con el aprendizaje del árbol de decisiones, la información recopilada en cada etapa del algoritmo AdaBoost sobre la 'dureza' relativa de cada muestra de entrenamiento se introduce en el algoritmo de crecimiento de árboles de modo que los árboles posteriores tienden a enfocarse en los más difíciles de -clasificar ejemplos.

Descripción general

Los problemas en el aprendizaje automático a menudo sufren la maldición de la dimensionalidad : cada muestra puede constar de una gran cantidad de características potenciales (por ejemplo, puede haber 162,336 características de Haar , tal como las usa el marco de detección de objetos Viola-Jones , en un formato 24 × 24 ventana de imagen de píxeles), y la evaluación de cada característica puede reducir no solo la velocidad de entrenamiento y ejecución del clasificador, sino que de hecho reduce el poder predictivo . ^[3] A diferencia de las redes neuronales y las SVM , el proceso de entrenamiento de AdaBoost selecciona solo aquellas características conocidas para mejorar el poder predictivo del modelo, reduciendo la dimensionalidad y potencialmente mejorando el tiempo de ejecución ya que las características irrelevantes no necesitan ser computadas.

Capacitación

AdaBoost se refiere a un método particular de entrenamiento de un clasificador mejorado. Un clasificador de impulso es un clasificador en la forma

{\ Displaystyle F_ {T} (x) = \ sum _ {t = 1} ^ {T} f_ {t} (x) \, \!}

donde cada ${\ Displaystyle f_ {t}}$ es un aprendiz débil que toma un objeto ${\ Displaystyle x}$ como entrada y devuelve un valor que indica la clase del objeto. Por ejemplo, en el problema de dos clases, el signo de la salida del alumno débil identifica la clase de objeto predicha y el valor absoluto da la confianza en esa clasificación. Del mismo modo, el ${\ Displaystyle T}$ El clasificador es positivo si la muestra está en una clase positiva y negativa en caso contrario.

Cada alumno débil produce una hipótesis de salida, ${\ Displaystyle h (x_ {i})}$ , para cada muestra del conjunto de formación. En cada iteración ${\ Displaystyle t}$ , se selecciona un alumno débil y se le asigna un coeficiente ${\ Displaystyle \ alpha _ {t}}$ tal que la suma del error de entrenamiento ${\ Displaystyle E_ {t}}$ de la resultante ${\ Displaystyle t}$ -se minimiza el clasificador de impulso de etapa.

{\ Displaystyle E_ {t} = \ sum _ {i} E [F_ {t-1} (x_ {i}) + \ alpha _ {t} h (x_ {i})]}

Aquí ${\ Displaystyle F_ {t-1} (x)}$ es el clasificador potenciado que se ha construido para la etapa anterior de entrenamiento, ${\ Displaystyle E (F)}$ es alguna función de error y ${\ Displaystyle f_ {t} (x) = \ alpha _ {t} h (x)}$ es el alumno débil que se está considerando para agregar al clasificador final.

Ponderación

En cada iteración del proceso de entrenamiento, un peso ${\ Displaystyle w_ {i, t}}$ se asigna a cada muestra en el conjunto de entrenamiento igual al error actual ${\ Displaystyle E (F_ {t-1} (x_ {i}))}$ en esa muestra. Estos pesos se pueden utilizar para informar la formación del alumno débil, por ejemplo, se pueden cultivar árboles de decisión que favorezcan la división de conjuntos de muestras con pesos altos.

Derivación

Esta derivación sigue a Rojas (2009): ^[4]

Supongamos que tenemos un conjunto de datos ${\ Displaystyle \ {(x_ {1}, y_ {1}), \ ldots, (x_ {N}, y_ {N}) \}}$ donde cada elemento ${\ Displaystyle x_ {i}}$ tiene una clase asociada ${\ Displaystyle y_ {i} \ in \ {- 1,1 \}}$ y un conjunto de clasificadores débiles ${\ Displaystyle \ {k_ {1}, \ ldots, k_ {L} \}}$ cada uno de los cuales genera una clasificación ${\ Displaystyle k_ {j} (x_ {i}) \ in \ {- 1,1 \}}$ para cada artículo. Después de la ${\ Displaystyle (m-1)}$ -th iteración nuestro clasificador reforzado es una combinación lineal de los clasificadores débiles de la forma:

{\ Displaystyle C _ {(m-1)} (x_ {i}) = \ alpha _ {1} k_ {1} (x_ {i}) + \ cdots + \ alpha _ {m-1} k_ {m- 1} (x_ {i})}

Donde la clase será el signo de ${\ Displaystyle C _ {(m-1)} (x_ {i})}$ . En el ${\ Displaystyle m}$ -th iteración queremos extender esto a un clasificador mejor reforzado agregando otro clasificador débil ${\ Displaystyle k_ {m}}$ , con otro peso ${\ Displaystyle \ alpha _ {m}}$ :

{\ Displaystyle C_ {m} (x_ {i}) = C _ {(m-1)} (x_ {i}) + \ alpha _ {m} k_ {m} (x_ {i})}

Por lo que queda por determinar qué clasificador débil es la mejor opción para ${\ Displaystyle k_ {m}}$ , y cual es su peso ${\ Displaystyle \ alpha _ {m}}$ debiera ser. Definimos el error total ${\ Displaystyle E}$ de ${\ Displaystyle C_ {m}}$ como la suma de su pérdida exponencial en cada punto de datos, dado de la siguiente manera:

{\ Displaystyle E = \ sum _ {i = 1} ^ {N} e ^ {- y_ {i} C_ {m} (x_ {i})} = \ sum _ {i = 1} ^ {N} e ^ {- y_ {i} C _ {(m-1)} (x_ {i})} e ^ {- y_ {i} \ alpha _ {m} k_ {m} (x_ {i})}}

Dejando ${\ Displaystyle w_ {i} ^ {(1)} = 1}$ y ${\ Displaystyle w_ {i} ^ {(m)} = e ^ {- y_ {i} C_ {m-1} (x_ {i})}}$ por ${\ Displaystyle m> 1}$ , tenemos:

{\ Displaystyle E = \ sum _ {i = 1} ^ {N} w_ {i} ^ {(m)} e ^ {- y_ {i} \ alpha _ {m} k_ {m} (x_ {i} )}}

Podemos dividir esta suma entre los puntos de datos que están correctamente clasificados por ${\ Displaystyle k_ {m}}$ (entonces ${\ Displaystyle y_ {i} k_ {m} (x_ {i}) = 1}$ ) y aquellos que están mal clasificados (por lo que ${\ Displaystyle y_ {i} k_ {m} (x_ {i}) = - 1}$ ):

{\ Displaystyle E = \ sum _ {y_ {i} = k_ {m} (x_ {i})} w_ {i} ^ {(m)} e ^ {- \ alpha _ {m}} + \ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)} e ^ {\ alpha _ {m}}}

{\ Displaystyle = \ sum _ {i = 1} ^ {N} w_ {i} ^ {(m)} e ^ {- \ alpha _ {m}} + \ sum _ {y_ {i} \ neq k_ { m} (x_ {i})} w_ {i} ^ {(m)} (e ^ {\ alpha _ {m}} - e ^ {- \ alpha _ {m}})}

Dado que la única parte del lado derecho de esta ecuación que depende de ${\ Displaystyle k_ {m}}$ es ${\ Displaystyle \ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)}}$ , vemos que el ${\ Displaystyle k_ {m}}$ que minimiza ${\ Displaystyle E}$ es el que minimiza ${\ Displaystyle \ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)}}$ [asumiendo que ${\ Displaystyle \ alpha _ {m}> 0}$ ], es decir, el clasificador débil con el error ponderado más bajo (con pesos ${\ Displaystyle w_ {i} ^ {(m)} = e ^ {- y_ {i} C_ {m-1} (x_ {i})}}$ ).

Para determinar el peso deseado ${\ Displaystyle \ alpha _ {m}}$ que minimiza ${\ Displaystyle E}$ con el ${\ Displaystyle k_ {m}}$ que acabamos de determinar, diferenciamos:

{\ Displaystyle {\ frac {dE} {d \ alpha _ {m}}} = {\ frac {d (\ sum _ {y_ {i} = k_ {m} (x_ {i})} w_ {i} ^ {(m)} e ^ {- \ alpha _ {m}} + \ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)} e ^ {\ alpha _ {m}})} {d \ alpha _ {m}}}}

Poniendo esto a cero y resolviendo para ${\ Displaystyle \ alpha _ {m}}$ rinde:

{\ Displaystyle \ alpha _ {m} = {\ frac {1} {2}} \ ln \ left ({\ frac {\ sum _ {y_ {i} = k_ {m} (x_ {i})} w_ {i} ^ {(m)}} {\ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)}}} \ right)}

Prueba -

{\ Displaystyle {\ frac {dE} {d \ alpha _ {m}}} = - \ sum _ {y_ {i} = k_ {m} (x_ {i})} w_ {i} ^ {(m) } e ^ {- \ alpha _ {m}} + \ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)} e ^ {\ alpha _ {m}} = 0}

porque ${\ Displaystyle e ^ {- \ alpha _ {m}}}$ no depende de ${\ Displaystyle i}$

{\ Displaystyle e ^ {- \ alpha _ {m}} \ sum _ {y_ {i} = k_ {m} (x_ {i})} w_ {i} ^ {(m)} = e ^ {\ alpha _ {m}} \ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)}}

{\ Displaystyle - \ alpha _ {m} + \ log \ left (\ sum _ {y_ {i} = k_ {m} (x_ {i})} w_ {i} ^ {(m)} \ right) = \ alpha _ {m} + \ log \ left (\ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)} \ right)}

{\ Displaystyle -2 \ alpha _ {m} = \ log \ left ({\ dfrac {\ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m )}} {\ sum _ {y_ {i} = k_ {m} (x_ {i})} w_ {i} ^ {(m)}}} \ right)}

{\ Displaystyle \ alpha _ {m} = - {\ dfrac {1} {2}} \ log \ left ({\ dfrac {\ sum _ {y_ {i} \ neq k_ {m} (x_ {i}) " } w_ {i} ^ {(m)}} {\ sum _ {y_ {i} = k_ {m} (x_ {i})} w_ {i} ^ {(m)}}} \ right)}

{\ Displaystyle \ alpha _ {m} = {\ dfrac {1} {2}} \ log \ left ({\ dfrac {\ sum _ {y_ {i} = k_ {m} (x_ {i})} w_ {i} ^ {(m)}} {\ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)}}} \ right)}

Calculamos la tasa de error ponderada del clasificador débil para que sea ${\ Displaystyle \ epsilon _ {m} = \ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)} / \ sum _ {i = 1} ^ {N} w_ {i} ^ {(m)}}$ , por lo que se deduce que:

{\ Displaystyle \ alpha _ {m} = {\ frac {1} {2}} \ ln \ left ({\ frac {1- \ epsilon _ {m}} {\ epsilon _ {m}}} \ right) }

que es la función logit negativa multiplicada por 0,5.

Por lo tanto, hemos derivado el algoritmo AdaBoost: en cada iteración, elija el clasificador ${\ Displaystyle k_ {m}}$ , que minimiza el error ponderado total ${\ Displaystyle \ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)}}$ , use esto para calcular la tasa de error ${\ Displaystyle \ epsilon _ {m} = \ sum _ {y_ {i} \ neq k_ {m} (x_ {i})} w_ {i} ^ {(m)} / \ sum _ {i = 1} ^ {N} w_ {i} ^ {(m)}}$ , usa esto para calcular el peso ${\ Displaystyle \ alpha _ {m} = {\ frac {1} {2}} \ ln \ left ({\ frac {1- \ epsilon _ {m}} {\ epsilon _ {m}}} \ right) }$ , y finalmente use esto para mejorar el clasificador impulsado ${\ Displaystyle C_ {m-1}}$ a ${\ Displaystyle C_ {m} = C _ {(m-1)} + \ alpha _ {m} k_ {m}}$ .

Comprensión estadística del impulso

El impulso es una forma de regresión lineal en la que las características de cada muestra ${\ Displaystyle x_ {i}}$ son los resultados de algún alumno débil ${\ Displaystyle h}$ aplicado a ${\ Displaystyle x_ {i}}$ .

Mientras la regresión intenta encajar ${\ Displaystyle F (x)}$ a ${\ Displaystyle y (x)}$ con la mayor precisión posible sin pérdida de generalización, normalmente utilizando el error de mínimos cuadrados ${\ Displaystyle E (f) = (y (x) -f (x)) ^ {2}}$ , la función de error AdaBoost ${\ Displaystyle E (f) = e ^ {- y (x) f (x)}}$ tiene en cuenta el hecho de que solo se utiliza el signo del resultado final, por lo que ${\ Displaystyle | F (x) |}$ puede ser mucho mayor que 1 sin aumentar el error. Sin embargo, el aumento exponencial del error para la muestra ${\ Displaystyle x_ {i}}$ como ${\ Displaystyle -y (x_ {i}) f (x_ {i})}$ los aumentos dan como resultado la asignación de un peso excesivo a los valores atípicos.

Una característica de la elección de la función de error exponencial es que el error del modelo aditivo final es el producto del error de cada etapa, es decir, ${\ Displaystyle e ^ {\ sum _ {i} -y_ {i} f (x_ {i})} = \ prod _ {i} e ^ {- y_ {i} f (x_ {i})}}$ . Por lo tanto, se puede ver que la actualización de peso en el algoritmo AdaBoost es equivalente a volver a calcular el error en ${\ Displaystyle F_ {t} (x)}$ después de cada etapa.

Se permite mucha flexibilidad en la elección de la función de pérdida. Siempre que la función de pérdida sea monótona y continuamente diferenciable , el clasificador siempre se orienta hacia soluciones más puras. ^[5] Zhang (2004) proporciona una función de pérdida basada en mínimos cuadrados, una función de pérdida de Huber modificada :

{\ Displaystyle \ phi (y, f (x)) = {\ begin {cases} -4yf (x) & {\ mbox {if}} yf (x) <- 1, \\ (yf (x) -1 ) ^ {2} & {\ mbox {if}} - 1 \ leq yf (x) \ leq 1, \\ 0 & {\ mbox {if}} yf (x)> 1 \ end {cases}}}

Esta función se comporta mejor que LogitBoost para ${\ Displaystyle f (x)}$ cerca de 1 o -1, no penaliza las predicciones de 'exceso de confianza' ( ${\ Displaystyle yf (x)> 1}$ ), a diferencia de los mínimos cuadrados no modificados, y solo penaliza las muestras mal clasificadas con una confianza mayor que 1 linealmente, en contraposición a cuadráticamente o exponencialmente, y por lo tanto es menos susceptible a los efectos de valores atípicos.

Impulso como descenso de gradiente

El impulso puede verse como la minimización de una función de pérdida convexa sobre un conjunto de funciones convexas . ^[6] Específicamente, la pérdida que AdaBoost minimiza es la pérdida exponencial ${\ Displaystyle \ sum _ {i} \ phi (i, y, f) = \ sum _ {i} e ^ {- y_ {i} f (x_ {i})}}$ , mientras que LogitBoost realiza regresión logística, minimizando ${\ Displaystyle \ sum _ {i} \ phi (i, y, f) = \ sum _ {i} \ ln \ left (1 + e ^ {- y_ {i} f (x_ {i})} \ right )}$ .

En la analogía del descenso de gradiente, la salida del clasificador para cada punto de entrenamiento se considera un punto ${\ Displaystyle \ left (F_ {t} (x_ {1}), \ dots, F_ {t} (x_ {n}) \ right)}$ en el espacio n-dimensional, donde cada eje corresponde a una muestra de entrenamiento, cada alumno débil ${\ Displaystyle h (x)}$ corresponde a un vector de orientación y longitud fijas, y el objetivo es alcanzar el punto objetivo ${\ Displaystyle (y_ {1}, \ dots, y_ {n})}$ (o cualquier región donde el valor de la función de pérdida ${\ Displaystyle E_ {T} (x_ {1}, \ dots, x_ {n})}$ es menor que el valor en ese punto), en el menor número de pasos. Por lo tanto, los algoritmos AdaBoost realizan Cauchy (encuentre ${\ Displaystyle h (x)}$ con la pendiente más pronunciada, elija ${\ Displaystyle \ alpha}$ para minimizar el error de prueba) o Newton (elija un punto objetivo, busque ${\ Displaystyle \ alpha h (x)}$ eso trae ${\ Displaystyle F_ {t}}$ más cercano a ese punto) optimización del error de entrenamiento.

Algoritmo de ejemplo (AdaBoost discreto)

Con:

Muestras ${\ Displaystyle x_ {1} \ dots x_ {n}}$
Salidas deseadas ${\ Displaystyle y_ {1} \ dots y_ {n}, y \ in \ {- 1,1 \}}$
Pesos iniciales ${\ Displaystyle w_ {1,1} \ dots w_ {n, 1}}$ ajustado a ${\ Displaystyle {\ frac {1} {n}}}$
Función de error ${\ Displaystyle E (f (x), y, i) = e ^ {- y_ {i} f (x_ {i})}}$
Estudiantes débiles ${\ Displaystyle h \ colon x \ rightarrow \ {- 1,1 \}}$

Para ${\ Displaystyle t}$ en ${\ Displaystyle 1 \ dots T}$ :

Escoger ${\ Displaystyle h_ {t} (x)}$ :
- Encuentra aprendiz débil ${\ Displaystyle h_ {t} (x)}$ que minimiza ${\ Displaystyle \ epsilon _ {t}}$ , el error de suma ponderado para puntos clasificados erróneamente ${\ Displaystyle \ epsilon _ {t} = \ sum _ {\ stackrel {i = 1} {h_ {t} (x_ {i}) \ neq y_ {i}}} ^ {n} w_ {i, t} }$
- Escoger ${\ Displaystyle \ alpha _ {t} = {\ frac {1} {2}} \ ln \ left ({\ frac {1- \ epsilon _ {t}} {\ epsilon _ {t}}} \ right) }$
Agregar al conjunto:
- ${\ Displaystyle F_ {t} (x) = F_ {t-1} (x) + \ alpha _ {t} h_ {t} (x)}$
Actualizar pesos:
- ${\ Displaystyle w_ {i, t + 1} = w_ {i, t} e ^ {- y_ {i} \ alpha _ {t} h_ {t} (x_ {i})}}$ por ${\ Displaystyle i}$ en ${\ Displaystyle 1 \ dots n}$
- Renormalizar ${\ Displaystyle w_ {i, t + 1}}$ tal que ${\ Displaystyle \ sum _ {i} w_ {i, t + 1} = 1}$
- (Nota: se puede demostrar que ${\ Displaystyle {\ frac {\ sum _ {h_ {t + 1} (x_ {i}) = y_ {i}} w_ {i, t + 1}} {\ sum _ {h_ {t + 1} ( x_ {i}) \ neq y_ {i}} w_ {i, t + 1}}} = {\ frac {\ sum _ {h_ {t} (x_ {i}) = y_ {i}} w_ {i , t}} {\ sum _ {h_ {t} (x_ {i}) \ neq y_ {i}} w_ {i, t}}}}$ en cada paso, lo que puede simplificar el cálculo de los nuevos pesos).

Elegir $α t$

${\ Displaystyle \ alpha _ {t}}$ se elige ya que se puede demostrar analíticamente que es el minimizador de la función de error exponencial para Discrete AdaBoost. ^[7]

Minimizar:

${\ Displaystyle \ sum _ {i} w_ {i} e ^ {- y_ {i} h_ {i} \ alpha _ {t}}}$

Usando la convexidad de la función exponencial y asumiendo que ${\ Displaystyle \ forall i, h_ {i} \ in \ {- 1,1 \}}$ tenemos:

${\ Displaystyle {\ begin {alineado} \ sum _ {i} w_ {i} e ^ {- y_ {i} h_ {i} \ alpha _ {t}} & \ leq \ sum _ {i} \ left ( {\ frac {1-y_ {i} h_ {i}} {2}} \ right) w_ {i} e ^ {\ alpha _ {t}} + \ sum _ {i} \ left ({\ frac { 1 + y_ {i} h_ {i}} {2}} \ right) w_ {i} e ^ {- \ alpha _ {t}} \\ & = \ left (\ epsilon _ {t} \ right) e ^ {\ alpha _ {t}} + \ left (1- \ epsilon _ {t} \ right) e ^ {- \ alpha _ {t}} \ end {alineado}}}$

Luego diferenciamos esa expresión con respecto a ${\ Displaystyle \ alpha _ {t}}$ y ajústelo a cero para encontrar el mínimo del límite superior:

${\ Displaystyle {\ begin {alineado} \ left (\ epsilon _ {t} \ right) e ^ {\ alpha _ {t}} - \ left (1- \ epsilon _ {t} \ right) e ^ {- \ alpha _ {t}} & = 0 \\\ alpha _ {t} & = {\ frac {1} {2}} \ ln \ left ({\ frac {1- \ epsilon _ {t}} {\ épsilon _ {t}}} \ derecha) \ end {alineado}}}$

Tenga en cuenta que esto solo se aplica cuando ${\ Displaystyle h_ {i} \ in \ {- 1,1 \}}$ , aunque puede ser una buena suposición inicial en otros casos, como cuando el alumno débil está sesgado ( ${\ Displaystyle h (x) \ in \ {a, b \}, a \ neq -b}$ ), tiene varias hojas ( ${\ Displaystyle h (x) \ in \ {a, b, \ dots, n \}}$ ) o es alguna otra función ${\ Displaystyle h (x) \ in \ mathbb {R}}$ . En tales casos, la elección del alumno débil y el coeficiente se puede condensar en un solo paso en el que ${\ Displaystyle f_ {t} = \ alpha _ {t} h_ {t} (x)}$ es elegido entre todos los posibles ${\ Displaystyle \ alpha, h}$ como minimizador de ${\ Displaystyle \ sum _ {i} w_ {i, t} e ^ {- y_ {i} f_ {t} (x_ {i})}}$ por alguna rutina de búsqueda numérica.

Variantes

Real AdaBoost

La salida de los árboles de decisión es una estimación de probabilidad de clase ${\ Displaystyle p (x) = P (y = 1 | x)}$ , la probabilidad de que ${\ Displaystyle x}$ está en la clase positiva. ^[5] Friedman, Hastie y Tibshirani obtienen un minimizador analítico para ${\ Displaystyle e ^ {- y \ left (F_ {t-1} (x) + f_ {t} (p (x)) \ right)}}$ para algunos arreglados ${\ Displaystyle p (x)}$ (normalmente elegido usando el error de mínimos cuadrados ponderados):

{\ Displaystyle f_ {t} (x) = {\ frac {1} {2}} \ ln \ left ({\ frac {x} {1-x}} \ right)}

.

Por lo tanto, en lugar de multiplicar la salida de todo el árbol por algún valor fijo, cada nodo hoja se cambia para generar la mitad de la transformada logit de su valor anterior.

LogitBoost

LogitBoost representa una aplicación de técnicas de regresión logística establecidas al método AdaBoost. En lugar de minimizar el error con respecto ay, se eligen estudiantes débiles para minimizar el error (mínimos cuadrados ponderados) de ${\ Displaystyle f_ {t} (x)}$ con respecto a

{\ Displaystyle z_ {t} = {\ frac {y ^ {*} - p_ {t} (x)} {2p_ {t} (x) (1-p_ {t} (x))}},}

dónde

{\ Displaystyle p_ {t} (x) = {\ frac {e ^ {F_ {t-1} (x)}} {e ^ {F_ {t-1} (x)} + e ^ {- F_ { t-1} (x)}}},}

{\ Displaystyle w_ {t} = p_ {t} (x) (1-p_ {t} (x))}

{\ Displaystyle y ^ {*} = {\ frac {y + 1} {2}}.}

Es decir ${\ Displaystyle z_ {t}}$ es la aproximación de Newton-Raphson del minimizador del error logarítmico de verosimilitud en la etapa ${\ Displaystyle t}$ y el aprendiz débil ${\ Displaystyle f_ {t}}$ es elegido como el alumno que mejor se aproxima ${\ Displaystyle z_ {t}}$ por mínimos cuadrados ponderados.

Cuando p se acerca a 1 o 0, el valor de ${\ Displaystyle p_ {t} (x_ {i}) (1-p_ {t} (x_ {i}))}$ se vuelve muy pequeño y el término z , que es grande para muestras mal clasificadas, puede volverse numéricamente inestable , debido a errores de redondeo de precisión de la máquina. Esto se puede superar imponiendo algún límite en el valor absoluto de z y el valor mínimo de w

AdaBoost suave

Mientras que los algoritmos de impulso anteriores eligen ${\ Displaystyle f_ {t}}$ Con avidez, minimizando el error de prueba general tanto como sea posible en cada paso, GentleBoost presenta un tamaño de paso limitado. ${\ Displaystyle f_ {t}}$ se elige para minimizar ${\ Displaystyle \ sum _ {i} w_ {t, i} (y_ {i} -f_ {t} (x_ {i})) ^ {2}}$ y no se aplica ningún otro coeficiente. Por lo tanto, en el caso de que un alumno débil muestre un rendimiento de clasificación perfecto, GentleBoost elige ${\ Displaystyle f_ {t} (x) = \ alpha _ {t} h_ {t} (x)}$ exactamente igual a ${\ Displaystyle y}$ , mientras que los algoritmos de descenso más pronunciados intentan establecer ${\ Displaystyle \ alpha _ {t} = \ infty}$ . Las observaciones empíricas sobre el buen desempeño de GentleBoost parecen respaldar la observación de Schapire y Singer de que permitir valores excesivamente grandes de ${\ Displaystyle \ alpha}$ puede conducir a un rendimiento deficiente de generalización ^[7]^[8]

Terminación anticipada

Una técnica para acelerar el procesamiento de clasificadores reforzados, la terminación anticipada se refiere a probar solo cada objeto potencial con tantas capas del clasificador final necesarias para cumplir con algún umbral de confianza, acelerando el cálculo para los casos en los que la clase del objeto se puede determinar fácilmente. Uno de estos esquemas es el marco de detección de objetos introducido por Viola y Jones: ^[9] en una aplicación con muestras significativamente más negativas que positivas, se entrena una cascada de clasificadores de refuerzo separados, la salida de cada etapa sesgada de tal manera que una fracción aceptablemente pequeña de las muestras positivas están mal etiquetadas como negativas y todas las muestras marcadas como negativas después de cada etapa se descartan. Si el 50% de las muestras negativas se filtran en cada etapa, solo una pequeña cantidad de objetos pasarían por todo el clasificador, lo que reduciría el esfuerzo de cálculo. Desde entonces, este método se ha generalizado, con una fórmula proporcionada para elegir umbrales óptimos en cada etapa para lograr una tasa deseada de falsos positivos y falsos negativos. ^[10]

En el campo de la estadística, donde AdaBoost se aplica más comúnmente a problemas de dimensionalidad moderada, la parada anticipada se utiliza como estrategia para reducir el sobreajuste . ^[11] Un conjunto de muestras de validación se separa del conjunto de entrenamiento, el rendimiento del clasificador en las muestras utilizadas para el entrenamiento se compara con el rendimiento en las muestras de validación, y el entrenamiento se termina si el rendimiento en la muestra de validación disminuye incluso cuando el rendimiento en el conjunto de entrenamiento sigue mejorando.

Algoritmos totalmente correctivos

Para las versiones de descenso más pronunciado de AdaBoost, donde ${\ Displaystyle \ alpha _ {t}}$ se elige en cada capa t para minimizar el error de prueba, se dice que la siguiente capa agregada es máximamente independiente de la capa t : ^[12] es poco probable que se elija un alumno débil t + 1 que sea similar al alumno t . Sin embargo, existe la posibilidad de que t + 1 produzca información similar a alguna otra capa anterior. Los algoritmos totalmente correctivos, como LPBoost , optimizan el valor de cada coeficiente después de cada paso, de modo que las nuevas capas agregadas siempre son máximamente independientes de cada capa anterior. Esto se puede lograr mediante retroajuste, programación lineal o algún otro método.

Poda

La poda es el proceso de eliminar clasificadores débiles de bajo rendimiento para mejorar la memoria y el costo del tiempo de ejecución del clasificador mejorado. Los métodos más simples, que pueden ser particularmente efectivos junto con un entrenamiento totalmente correctivo, son el recorte de peso o margen: cuando el coeficiente, o la contribución al error total de la prueba, de algún clasificador débil cae por debajo de un cierto umbral, ese clasificador es caído. Margineantu y Dietterich ^[13] sugirieron un criterio alternativo para el recorte: los clasificadores débiles deben seleccionarse de manera que se maximice la diversidad del conjunto. Si dos alumnos débiles producen resultados muy similares, se puede mejorar la eficiencia eliminando uno de ellos y aumentando el coeficiente del alumno débil restante. ^[14]

Ver también

Bootstrap agregando
CoBoosting
BrownBoost
Aumento de gradiente
Método de actualización de peso multiplicativo § Algoritmo AdaBoost

Referencias

^ Kégl, Balázs (20 de diciembre de 2013). "El regreso de AdaBoost.MH: árboles Hamming de clases múltiples". arXiv : 1312.6086 [ cs.LG ].
^ Joglekar, Sachin. "adaboost - blog de Sachin Joglekar" . codesachin.wordpress.com . Consultado el 3 de agosto de 2016 .
^ Hughes, GF (enero de 1968). "Sobre la precisión media de los reconocedores de patrones estadísticos". Transacciones IEEE sobre teoría de la información . 14 (1): 55–63. doi : 10.1109 / TIT.1968.1054102 . S2CID 206729491 .
^ Rojas, R. (2009). AdaBoost y el super bowl de clasificadores un tutorial de introducción al impulso adaptativo. Universidad Freie, Berlín, Tech. Reps.
^ a b Friedman, Jerome; Hastie, Trevor; Tibshirani, Robert (1998). "Regresión logística aditiva: una visión estadística del impulso". CiteSeerX 10.1.1.51.9525 . Cite journal requiere |journal=( ayuda )
^ Zhang, T. (2004). "Comportamiento estadístico y coherencia de los métodos de clasificación basados en la minimización del riesgo convexo" . Annals of Statistics . 32 (1): 56–85. doi : 10.1214 / aos / 1079120130 . JSTOR 3448494 .
^ a b Schapire, Robert; Cantante, Yoram (1999). "Mejora de los algoritmos de impulso mediante predicciones de confianza". CiteSeerX 10.1.1.33.4002 . Cite journal requiere |journal=( ayuda )
^ Freund; Schapire (1999). "Una breve introducción al impulso" (PDF) :
^ Viola, Paul; Jones, Robert (2001). "Detección rápida de objetos mediante una cascada mejorada de funciones simples". CiteSeerX 10.1.1.10.6807 . Cite journal requiere |journal=( ayuda )
^ McCane, Brendan; Novins, Kevin; Albert, Michael (2005). "Optimización de clasificadores en cascada". Cite journal requiere |journal=( ayuda )
^ Trevor Hastie; Robert Tibshirani; Jerome Friedman (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (2ª ed.). Nueva York: Springer. ISBN 978-0-387-84858-7.
^ Šochman, Jan; Matas, Jiří (2004). Adaboost con actualizaciones totalmente correctivas para una detección rápida de rostros . ISBN 978-0-7695-2122-0.
^ Margineantu, Dragos; Dietterich, Thomas (1997). "Impulso Adaptativo de Poda". CiteSeerX 10.1.1.38.7017 . Cite journal requiere |journal=( ayuda )
^ Tamon, Christino; Xiang, Jie (2000). "Sobre el problema de la poda de impulso". Cite journal requiere |journal=( ayuda )

Otras lecturas

Freund, Yoav; Schapire, Robert E (1997). "Una generalización de la teoría de la decisión del aprendizaje en línea y una aplicación al impulso". Revista de Ciencias de la Computación y Sistemas . 55 : 119-139. CiteSeerX 10.1.1.32.8918 . doi : 10.1006 / jcss.1997.1504 : artículo original de Yoav Freund y Robert E.Schapire donde se presenta por primera vez AdaBoost.
Zhou, Zhihua (2008). "Explicación al margen del algoritmo de impulso" (PDF) . En: Actas de la 21ª Conferencia Anual sobre Teoría del Aprendizaje (COLT'08) : 479–490. Al margen de la explicación del algoritmo de impulso.
Zhou, Zhihua (2013). "Sobre la duda sobre el margen de explicación del impulso" (PDF) . Inteligencia artificial . 203 (2013): 1–18. arXiv : 1009,3613 . Código bibliográfico : 2010arXiv1009.3613G . doi : 10.1016 / j.artint.2013.07.002 . S2CID 2828847 . Sobre la duda sobre la explicación marginal del impulso.

[1] Kégl, Balázs (20 de diciembre de 2013). "El regreso de AdaBoost.MH: árboles Hamming de clases múltiples". arXiv : 1312.6086 [ cs.LG ].

[2] Joglekar, Sachin. "adaboost - blog de Sachin Joglekar" . codesachin.wordpress.com . Consultado el 3 de agosto de 2016 .

[3] Hughes, GF (enero de 1968). "Sobre la precisión media de los reconocedores de patrones estadísticos". Transacciones IEEE sobre teoría de la información . 14 (1): 55–63. doi : 10.1109 / TIT.1968.1054102 . S2CID 206729491 .

[4] Rojas, R. (2009). AdaBoost y el super bowl de clasificadores un tutorial de introducción al impulso adaptativo. Universidad Freie, Berlín, Tech. Reps.

[fht-5] Friedman, Jerome; Hastie, Trevor; Tibshirani, Robert (1998). "Regresión logística aditiva: una visión estadística del impulso". CiteSeerX 10.1.1.51.9525 . Cite journal requiere |journal=( ayuda )

[6] Zhang, T. (2004). "Comportamiento estadístico y coherencia de los métodos de clasificación basados en la minimización del riesgo convexo" . Annals of Statistics . 32 (1): 56–85. doi : 10.1214 / aos / 1079120130 . JSTOR 3448494 .

[ss-7] Schapire, Robert; Cantante, Yoram (1999). "Mejora de los algoritmos de impulso mediante predicciones de confianza". CiteSeerX 10.1.1.33.4002 . Cite journal requiere |journal=( ayuda )

[fs-8] Freund; Schapire (1999). "Una breve introducción al impulso" (PDF) :

[9] Viola, Paul; Jones, Robert (2001). "Detección rápida de objetos mediante una cascada mejorada de funciones simples". CiteSeerX 10.1.1.10.6807 . Cite journal requiere |journal=( ayuda )

[10] McCane, Brendan; Novins, Kevin; Albert, Michael (2005). "Optimización de clasificadores en cascada". Cite journal requiere |journal=( ayuda )

[11] Trevor Hastie; Robert Tibshirani; Jerome Friedman (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (2ª ed.). Nueva York: Springer. ISBN 978-0-387-84858-7.

[12] Šochman, Jan; Matas, Jiří (2004). Adaboost con actualizaciones totalmente correctivas para una detección rápida de rostros . ISBN 978-0-7695-2122-0.

[13] Margineantu, Dragos; Dietterich, Thomas (1997). "Impulso Adaptativo de Poda". CiteSeerX 10.1.1.38.7017 . Cite journal requiere |journal=( ayuda )

[14] Tamon, Christino; Xiang, Jie (2000). "Sobre el problema de la poda de impulso". Cite journal requiere |journal=( ayuda )

[1]