Aprendizaje supervisado

El aprendizaje supervisado (SL) es la tarea de aprendizaje automático de aprender una función que asigna una entrada a una salida en función de pares de entrada-salida de ejemplo. ^[1] Se infiere una función dedatos de entrenamiento etiquetados que consisten en un conjunto deejemplos de entrenamiento. ^[2] En el aprendizaje supervisado, cada ejemplo es unparque consta de un objeto de entrada (típicamente un vector) y un valor de salida deseado (también llamadoseñal de supervisión). Un algoritmo de aprendizaje supervisado analiza los datos de entrenamiento y produce una función inferida, que puede usarse para mapear nuevos ejemplos. Un escenario óptimo permitirá que el algoritmo determine correctamente las etiquetas de clase para instancias no vistas. Esto requiere que el algoritmo de aprendizaje generalice a partir de los datos de entrenamiento a situaciones no vistas de una manera "razonable" (versesgo inductivo). Esta calidad estadística de un algoritmo se mide a través del llamado error de generalización .

Hay disponible una amplia gama de algoritmos de aprendizaje supervisado, cada uno con sus puntos fuertes y débiles. No existe un único algoritmo de aprendizaje que funcione mejor en todos los problemas de aprendizaje supervisado (consulte el teorema No hay almuerzo gratis ).

Una primera cuestión es la compensación entre sesgo y varianza . ^[3] Imagine que tenemos disponibles varios conjuntos de datos de entrenamiento diferentes, pero igualmente buenos. Un algoritmo de aprendizaje está sesgado para una entrada en particular si, cuando se entrena en cada uno de estos conjuntos de datos, es sistemáticamente incorrecto al predecir la salida correcta para . Un algoritmo de aprendizaje tiene una varianza alta para una entrada en particular si predice diferentes valores de salida cuando se entrena en diferentes conjuntos de entrenamiento. El error de predicción de un clasificador aprendido está relacionado con la suma del sesgo y la varianza del algoritmo de aprendizaje. ^[4] ${\ estilo de visualización x}$ ${\ estilo de visualización x}$ ${\ estilo de visualización x}$ En general, existe una compensación entre el sesgo y la varianza. Un algoritmo de aprendizaje con bajo sesgo debe ser "flexible" para que pueda ajustarse bien a los datos. Pero si el algoritmo de aprendizaje es demasiado flexible, se ajustará a cada conjunto de datos de entrenamiento de manera diferente y, por lo tanto, tendrá una gran variación. Un aspecto clave de muchos métodos de aprendizaje supervisado es que pueden ajustar este compromiso entre sesgo y varianza (ya sea automáticamente o proporcionando un parámetro de sesgo/varianza que el usuario puede ajustar).

El segundo problema es la cantidad de datos de entrenamiento disponibles en relación con la complejidad de la función "verdadera" (clasificador o función de regresión). Si la verdadera función es simple, entonces un algoritmo de aprendizaje "inflexible" con alto sesgo y baja varianza podrá aprenderla a partir de una pequeña cantidad de datos. Pero si la verdadera función es muy compleja (por ejemplo, porque involucra interacciones complejas entre muchas características de entrada diferentes y se comporta de manera diferente en diferentes partes del espacio de entrada), entonces la función solo podrá aprender de una gran cantidad de datos de entrenamiento. y usando un algoritmo de aprendizaje "flexible" con bajo sesgo y alta varianza. Hay una demarcación clara entre la entrada y la salida deseada.