Promedio de conjuntos (aprendizaje automático)

En el aprendizaje automático , particularmente en la creación de redes neuronales artificiales , el promedio de conjunto es el proceso de crear múltiples modelos y combinarlos para producir un resultado deseado, en lugar de crear solo un modelo. Con frecuencia, un conjunto de modelos funciona mejor que cualquier modelo individual, porque los diversos errores de los modelos se "promedian".

El promedio de conjunto es uno de los tipos más simples de máquinas de comité . Junto con boosting , es uno de los dos tipos principales de máquinas de comité estático. ^[1] A diferencia del diseño de red estándar en el que se generan muchas redes pero solo se mantiene una, el promedio de conjunto mantiene las redes menos satisfactorias, pero con menos peso. ^[2] La teoría del promedio de conjuntos se basa en dos propiedades de las redes neuronales artificiales: ^[3]

El promedio de conjunto crea un grupo de redes, cada una con un sesgo bajo y una varianza alta, luego las combina en una nueva red con (con suerte) un sesgo bajo y una varianza baja. Por lo tanto, es una resolución del dilema sesgo-varianza . ^[4] La idea de combinar expertos se remonta a Pierre-Simon Laplace . ^[5]

La teoría mencionada anteriormente brinda una estrategia obvia: crear un conjunto de expertos con un sesgo bajo y una varianza alta, y luego promediarlos. Generalmente, lo que esto significa es crear un conjunto de expertos con diferentes parámetros; con frecuencia, estos son los pesos sinápticos iniciales, aunque también pueden variar otros factores (como la tasa de aprendizaje, el impulso, etc.). Algunos autores recomiendan no variar el decaimiento de peso y detenerse antes de tiempo. ^[3] Por lo tanto, los pasos son:

Alternativamente, el conocimiento del dominio puede usarse para generar varias clases de expertos. Un experto de cada clase es entrenado y luego combinado.

Una versión más compleja del promedio conjunto considera el resultado final no como un mero promedio de todos los expertos, sino como una suma ponderada. Si cada experto es , entonces el resultado general se puede definir como: $y_{yo}$ ${\tilde {y}}$