Clasificador de margen

En el aprendizaje automático , un clasificador de márgenes es un clasificador que puede dar una distancia asociada desde el límite de decisión para cada ejemplo. Por ejemplo, si se usa un clasificador lineal (por ejemplo, perceptrón o análisis discriminante lineal ), la distancia (típicamente la distancia euclidiana , aunque se pueden usar otros) de un ejemplo del hiperplano de separación es el margen de ese ejemplo.

La noción de margen es importante en varios algoritmos de clasificación de aprendizaje automático, ya que se puede utilizar para limitar el error de generalización del clasificador. Estos límites se muestran con frecuencia utilizando la dimensión VC . De particular importancia es el error de generalización vinculado a los algoritmos de impulso y las máquinas de vectores de soporte .

Definición de margen de máquina de vectores de soporte

Consulte máquinas de vectores de soporte e hiperplano de margen máximo para obtener más detalles.

Margen para impulsar algoritmos

El margen para un algoritmo de refuerzo iterativo dado un conjunto de ejemplos con dos clases se puede definir de la siguiente manera. Al clasificador se le da un par de ejemplo ${\ Displaystyle (x, y)}$ dónde ${\ Displaystyle x \ in X}$ es un espacio de dominio y ${\ Displaystyle y \ in Y = \ {- 1, + 1 \}}$ es la etiqueta del ejemplo. El algoritmo de impulso iterativo luego selecciona un clasificador ${\ Displaystyle h_ {j} \ in C}$ en cada iteración ${\ Displaystyle j}$ dónde ${\ Displaystyle C}$ es un espacio de posibles clasificadores que predicen valores reales. Esta hipótesis es luego ponderada por ${\ Displaystyle \ alpha _ {j} \ in R}$ según lo seleccionado por el algoritmo de impulso. En iteración ${\ Displaystyle t}$ , el margen de un ejemplo ${\ Displaystyle x}$ por tanto, puede definirse como

{\ Displaystyle {\ frac {y \ sum _ {j} ^ {t} \ alpha _ {j} h_ {j} (x)} {\ sum | \ alpha _ {j} |}}.}

Según esta definición, el margen es positivo si el ejemplo está etiquetado correctamente y negativo si el ejemplo está etiquetado incorrectamente.

Esta definición puede modificarse y no es la única forma de definir el margen para impulsar algoritmos. Sin embargo, existen razones por las que esta definición puede resultar atractiva. ^[1]

Ejemplos de algoritmos basados en márgenes

Muchos clasificadores pueden dar un margen asociado para cada ejemplo. Sin embargo, solo algunos clasificadores utilizan información del margen mientras aprenden de un conjunto de datos.

Muchos algoritmos de impulso se basan en la noción de margen para dar peso a los ejemplos. Si se utiliza una pérdida convexa (como en AdaBoost , LogitBoost y todos los miembros de la familia de algoritmos AnyBoost ), un ejemplo con un margen más alto recibirá un peso menor (o igual) que un ejemplo con un margen más bajo. Esto lleva al algoritmo de impulso a centrar la ponderación en ejemplos de margen bajo. En los algoritmos no convexos (por ejemplo, BrownBoost ), el margen aún dicta la ponderación de un ejemplo, aunque la ponderación no es monótona con respecto al margen. Existen algoritmos de impulso que probablemente maximizan el margen mínimo (por ejemplo, ver ^[2] ).

Las máquinas de vectores de soporte probablemente maximizan el margen del hiperplano de separación. Las máquinas vectoriales de soporte que se entrenan con datos ruidosos (no existe una separación perfecta de los datos en el espacio dado) maximizan el margen suave. Se puede encontrar más discusión sobre esto en el artículo de la máquina de vectores de soporte .

El algoritmo de perceptrón votado es un algoritmo de maximización de márgenes basado en una aplicación iterativa del algoritmo de perceptrón clásico .

Límites de error de generalización

Una motivación teórica detrás de los clasificadores de margen es que su error de generalización puede estar limitado por parámetros del algoritmo y un término de margen. Un ejemplo de tal límite es para el algoritmo AdaBoost. ^[1] Deja ${\ Displaystyle S}$ ser un conjunto de ${\ Displaystyle m}$ ejemplos muestreados independientemente al azar de una distribución ${\ Displaystyle D}$ . Suponga que la dimensión VC del clasificador base subyacente es ${\ Displaystyle d}$ y ${\ Displaystyle m \ geq d \ geq 1}$ . Entonces con probabilidad ${\ Displaystyle 1- \ delta}$ tenemos el límite

{\ Displaystyle P_ {D} \ left ({\ frac {y \ sum _ {j} ^ {t} \ alpha _ {j} h_ {j} (x)} {\ sum | \ alpha _ {j} | }} \ leq 0 \ right) \ leq P_ {S} \ left ({\ frac {y \ sum _ {j} ^ {t} \ alpha _ {j} h_ {j} (x)} {\ sum | \ alpha _ {j} |}} \ leq \ theta \ right) + O \ left ({\ frac {1} {\ sqrt {m}}} {\ sqrt {d \ log ^ {2} (m / d ) / \ theta ^ {2} + \ log (1 / \ delta)}} \ right)}

para todos ${\ Displaystyle \ theta> 0}$ .

Referencias

^ ^a ^b Robert E. Schapire, Yoav Freund, Peter Bartlett y Wee Sun Lee. (1998) " Impulsar el margen: una nueva explicación de la eficacia de los métodos de votación ", The Annals of Statistics , 26 (5): 1651-1686
^ Manfred Warmuth y Karen Glocer y Gunnar Rätsch. Aumento de algoritmos para maximizar el margen blando. En Proceedings of Advances in Neural Information Processing Systems 20, 2007, págs. 1585-1592.

[Statistics_1686-1] Robert E. Schapire, Yoav Freund, Peter Bartlett y Wee Sun Lee. (1998) " Impulsar el margen: una nueva explicación de la eficacia de los métodos de votación ", The Annals of Statistics , 26 (5): 1651-1686

[2] Manfred Warmuth y Karen Glocer y Gunnar Rätsch. Aumento de algoritmos para maximizar el margen blando. En Proceedings of Advances in Neural Information Processing Systems 20, 2007, págs. 1585-1592.

[1]