Agregación de bootstrap , también llamado de ensacado (de b ootstrap agg regat ing ), es una máquina de aprendizaje conjunto meta-algoritmo diseñado para mejorar la estabilidad y la precisión de la máquina de aprendizaje algoritmos utilizados en clasificación estadística y regresión . También reduce la variación y ayuda a evitar el sobreajuste . Aunque normalmente se aplica a métodos de árbol de decisión , se puede utilizar con cualquier tipo de método. El ensacado es un caso especial del enfoque de promediado del modelo .
Descripción de la técnica
Dado un conjunto de entrenamiento estándar de talla n , el ensacado genera m nuevos conjuntos de entrenamiento, cada uno de tamaño n ′ , mediante muestreo de D uniformemente y con reemplazo . Al muestrear con reemplazo, algunas observaciones pueden repetirse en cada. Si n ′ = n , entonces para n grande el conjuntose espera que tenga la fracción (1 - 1 / e ) (≈63,2%) de los ejemplos únicos de D , siendo el resto duplicados. [1] Este tipo de muestra se conoce como muestra de arranque . El muestreo con reemplazo asegura que cada bootstrap sea independiente de sus pares, ya que no depende de muestras elegidas previamente al momento del muestreo. Luego, m modelos se ajustan utilizando las m muestras de arranque anteriores y se combinan promediando la salida (para regresión) o votando (para clasificación).
El ensacado conduce a "mejoras para procedimientos inestables", [2] que incluyen, por ejemplo, redes neuronales artificiales , árboles de clasificación y regresión y selección de subconjuntos en regresión lineal . [3] Se demostró que el embolsado mejora el aprendizaje previo a la imagen. [4] [5] Por otro lado, puede degradar levemente el rendimiento de métodos estables como K vecinos más cercanos. [2]
Proceso del algoritmo
Conjunto de datos original
El conjunto de datos original contiene varias entradas de muestras de s1 a s5. Cada muestra tiene cinco características (Gene 1 a Gene 5). Todas las muestras están etiquetadas como Sí o No para un problema de clasificación.
Creación de conjuntos de datos bootstrap
Dada la tabla anterior para clasificar una nueva muestra, primero se debe crear un conjunto de datos de arranque utilizando los datos del conjunto de datos original. Este conjunto de datos de arranque suele tener el tamaño del conjunto de datos original o más pequeño.
En este ejemplo, el tamaño es cinco (s1 a s5). El conjunto de datos de arranque se crea mediante la selección aleatoria de muestras del conjunto de datos original. Se permiten selecciones repetidas. Todas las muestras que no se eligen para el conjunto de datos de arranque se colocan en un conjunto de datos separado llamado conjunto de datos listo para usar.
Vea un ejemplo de conjunto de datos de arranque a continuación. Tiene cinco entradas (del mismo tamaño que el conjunto de datos original). Hay entradas duplicadas, como dos s3, ya que las entradas se seleccionan al azar con reemplazo.
Este paso se repetirá para generar m conjuntos de datos de arranque.
Creación de árboles de decisión
Se crea un árbol de decisión para cada conjunto de datos de arranque utilizando valores de columna seleccionados al azar para dividir los nodos.
Predecir usando múltiples árboles de decisión
Cuando se agrega una nueva muestra a la tabla, el conjunto de datos de arranque se usa para determinar el valor del clasificador de la nueva entrada.
La nueva muestra se prueba en el bosque aleatorio creado por cada conjunto de datos de arranque y cada árbol produce un valor de clasificador para la nueva muestra. Para la clasificación, se utiliza un proceso llamado votación para determinar el resultado final, donde el resultado producido con mayor frecuencia por el bosque aleatorio es el resultado dado para la muestra. Para la regresión, a la muestra se le asigna el valor de clasificador promedio producido por los árboles.
Una vez que la muestra se prueba en el bosque aleatorio, se asigna un valor de clasificador a la muestra y se agrega a la tabla.
Algoritmo (clasificación)
Para la clasificación, use un conjunto de entrenamiento , Inductor y la cantidad de muestras de bootstrap como entrada. Genera un clasificadorcomo salida [6]
- Crear nuevos conjuntos de entrenamiento , de con reemplazo
- Clasificador se construye a partir de cada conjunto utilizando para determinar la clasificación del conjunto
- Finalmente clasificador se genera mediante el uso del conjunto de clasificadores creado previamente en el conjunto de datos original , la clasificación predicha con mayor frecuencia por los subclasificadores es la clasificación final
para i = 1 am { D '= muestra de arranque de D (muestra con reemplazo) Ci = I (D ')}C * (x) = argmax Σ 1 (etiqueta y más frecuentemente predicha) y∈Y i: Ci (x) = y
Ejemplo: datos de ozono
Para ilustrar los principios básicos del ensacado, a continuación se muestra un análisis sobre la relación entre el ozono y la temperatura (datos de Rousseeuw y Leroy [ aclaración necesaria ] (1986), análisis realizado en R ).
La relación entre la temperatura y el ozono parece no ser lineal en este conjunto de datos, según el gráfico de dispersión. Para describir matemáticamente esta relación, se utilizan suavizadores LOESS (con ancho de banda 0.5). En lugar de construir un solo suavizador para el conjunto de datos completo, se extrajeron 100 muestras de bootstrap . Cada muestra se compone de un subconjunto aleatorio de los datos originales y mantiene una apariencia de la distribución y variabilidad del conjunto maestro. Para cada muestra de bootstrap, se ajustó un suavizador LOESS. A continuación, se realizaron predicciones a partir de estos 100 suavizadores en todo el rango de datos. Las líneas negras representan estas predicciones iniciales. Las líneas carecen de concordancia en sus predicciones y tienden a sobreajustarse a sus puntos de datos: evidente por el flujo tambaleante de las líneas.
Al tomar el promedio de 100 suavizadores, cada uno correspondiente a un subconjunto del conjunto de datos original, llegamos a un predictor empaquetado (línea roja). El flujo de la línea roja es estable y no se ajusta demasiado a ningún punto (s) de datos.
Ventajas y desventajas
Ventajas:
- Muchos estudiantes débiles agregados generalmente superan a un solo estudiante en todo el conjunto y tienen menos sobreajuste
- Elimina la varianza en conjuntos de datos de alta varianza y bajo sesgo [7]
- Se puede realizar en paralelo , ya que cada bootstrap por separado se puede procesar por sí solo antes de la combinación [8]
Desventajas:
- En un conjunto de datos con alto sesgo, el ensacado también tendrá un alto sesgo en su conjunto [7]
- Pérdida de interpretabilidad de un modelo.
- Puede ser computacionalmente costoso dependiendo del conjunto de datos
Historia
El concepto de agregación de bootstrap se deriva del concepto de bootstrap que fue desarrollado por Bradley Efron. [9] La agregación Bootstrap fue propuesta por Leo Breiman, quien también acuñó el término abreviado "ensacado" ( b ootstrap agg regat ing ). Breiman desarrolló el concepto de ensacado en 1994 para mejorar la clasificación mediante la combinación de clasificaciones de conjuntos de entrenamiento generados aleatoriamente. Argumentó, "si perturbar el conjunto de aprendizaje puede causar cambios significativos en el predictor construido, entonces el embolsado puede mejorar la precisión". [3]
Ver también
Referencias
- ^ Aslam, Javed A .; Popa, Raluca A .; y Rivest, Ronald L. (2007); Sobre la estimación del tamaño y la confianza de una auditoría estadística , Actas del Taller de tecnología de votación electrónica (EVT '07), Boston, MA, 6 de agosto de 2007. De manera más general, cuando se extraenvalores n ′ de reemplazode un conjunto de n ( diferente e igualmente probable), el número esperado de sorteos únicos es.
- ↑ a b Breiman, Leo (1996). "Predictores de embolsado". Aprendizaje automático . 24 (2): 123–140. CiteSeerX 10.1.1.32.9399 . doi : 10.1007 / BF00058655 . S2CID 47328136 .
- ^ a b Breiman, Leo (septiembre de 1994). "Predictores de embolsado" (PDF) . Informe técnico . Departamento de Estadística, Universidad de California Berkeley (421) . Consultado el 28 de julio de 2019 .
- ^ Sahu, A., Runger, G., Apley, D., Eliminación de ruido de imágenes con un enfoque de componente principal de kernel multifase y una versión de conjunto , IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.
- ^ Shinde, Amit, Anshuman Sahu, Daniel Apley y George Runger. " Imágenes previas para patrones de variación de Kernel PCA y ensacado ". Transacciones IIE, Vol.46, Edición 5, 2014
- ^ Bauer, Eric; Kohavi, Ron (1999). "Una comparación empírica de algoritmos de clasificación de votación: ensacado, impulso y variantes" . Aprendizaje automático . 36 : 108-109. doi : 10.1023 / A: 1007515423169 . S2CID 1088806 . Consultado el 6 de diciembre de 2020 .
- ^ a b "¿Qué es el embolsado (agregación Bootstrap)?" . CFI . Instituto de Finanzas Corporativas . Consultado el 5 de diciembre de 2020 .
- ^ Zoghni, Raouf (5 de septiembre de 2020). "Embolsado (Bootstrap Aggregating), descripción general" . La puesta en marcha - a través de Medium.
- ^ Efron, B. (1979). "Métodos Bootstrap: otra mirada a la navaja" . The Annals of Statistics . 7 (1): 1–26. doi : 10.1214 / aos / 1176344552 .
Otras lecturas
- Breiman, Leo (1996). "Predictores de embolsado". Aprendizaje automático . 24 (2): 123–140. CiteSeerX 10.1.1.32.9399 . doi : 10.1007 / BF00058655 . S2CID 47328136 .
- Alfaro, E., Gámez, M. y García, N. (2012). "adabag: Un paquete R para clasificación con AdaBoost.M1, AdaBoost-SAMME y Bagging" . Cite journal requiere
|journal=
( ayuda ) - Kotsiantis, Sotiris (2014). "Variantes de ensacado y refuerzo para el manejo de problemas de clasificación: una encuesta". Conocimiento Ing. Revisión . 29 (1): 78–100. doi : 10.1017 / S0269888913000313 .
- Boehmke, Bradley; Greenwell, Brandon (2019). "Harpillera". El aprendizaje práctico de la máquina con R . Chapman y Hall. págs. 191–202. ISBN 978-1-138-49568-5.