Este artículo tiene varios problemas. Ayude a mejorarlo o discuta estos problemas en la página de discusión . ( Obtenga información sobre cómo y cuándo eliminar estos mensajes de plantilla )
|
En el aprendizaje automático (supervisado) , específicamente cuando se aprende de los datos, hay situaciones en las que los valores de los datos no se pueden modelar. Esto puede surgir si hay fluctuaciones aleatorias o errores de medición en los datos que no están modelados y que pueden llamarse apropiadamente ruido estocástico ; o, cuando el fenómeno que se modela (o se aprende) es demasiado complejo y, por lo tanto, los datos contienen esta complejidad adicional que no se modela. Esta complejidad adicional en los datos se ha denominado ruido determinista . [1]Aunque estos dos tipos de ruido surgen de diferentes causas, su efecto adverso sobre el aprendizaje es similar. El sobreajuste se produce porque el modelo intenta ajustar el ruido (estocástico o determinista) (esa parte de los datos que no puede modelar) a expensas de ajustar esa parte de los datos que puede modelar. Cuando está presente cualquier tipo de ruido, generalmente es aconsejable regularizar el algoritmo de aprendizaje para evitar sobreajustar el modelo a los datos y obtener un rendimiento inferior. La regularización generalmente da como resultado un modelo de varianza más baja a expensas del sesgo .
También se puede intentar aliviar los efectos del ruido detectando y eliminando los ejemplos de entrenamiento ruidosos antes de entrenar el algoritmo de aprendizaje supervisado. Hay varios algoritmos que identifican ejemplos de entrenamiento ruidosos, y la eliminación de los ejemplos de entrenamiento ruidosos sospechosos antes del entrenamiento generalmente mejorará el rendimiento. [2] [3]