Para las aplicaciones de aprendizaje supervisado en el aprendizaje automático y la teoría del aprendizaje estadístico , el error de generalización [1] (también conocido como error fuera de muestra [2] o riesgo ) es una medida de la precisión con la que un algoritmo puede predecir los valores de resultado datos nunca antes vistos. Debido a que los algoritmos de aprendizaje se evalúan en muestras finitas, la evaluación de un algoritmo de aprendizaje puede ser sensible al error de muestreo . Como resultado, las mediciones del error de predicción en los datos actuales pueden no proporcionar mucha información sobre la capacidad de predicción de los datos nuevos. El error de generalización se puede minimizar evitando el sobreajusteen el algoritmo de aprendizaje. El rendimiento de un algoritmo de aprendizaje automático se visualiza mediante gráficos que muestran valores de estimaciones del error de generalización a través del proceso de aprendizaje, que se denominan curvas de aprendizaje .
Definición
En un problema de aprendizaje, el objetivo es desarrollar una función que predice valores de salida para cada dato de entrada . El subíndice indica que la función se desarrolla en base a un conjunto de datos de puntos de datos. El error de generalización o la pérdida o el riesgo esperados , de una función particular sobre todos los valores posibles de y es: [3]
dónde denota una función de pérdida yes la distribución de probabilidad conjunta desconocida para y .
Sin conocer la distribución de probabilidad conjunta , es imposible calcular . En cambio, podemos calcular el error en datos de muestra, lo que se denomina error empírico (o riesgo empírico ). Dado puntos de datos, el error empírico de una función candidata es:
Se dice que un algoritmo se generaliza si:
De particular importancia es el error de generalización de la función dependiente de datos que se encuentra mediante un algoritmo de aprendizaje basado en la muestra. Nuevamente, para una distribución de probabilidad desconocida,no se puede calcular. En cambio, el objetivo de muchos problemas en la teoría del aprendizaje estadístico es acotar o caracterizar la diferencia del error de generalización y el error empírico en la probabilidad:
Es decir, el objetivo es caracterizar la probabilidad que el error de generalización es menor que el error empírico más algún límite de error (generalmente depende de y ). Para muchos tipos de algoritmos, se ha demostrado que un algoritmo tiene límites de generalización si cumple con ciertos criterios de estabilidad . Específicamente, si un algoritmo es simétrico (el orden de las entradas no afecta el resultado), tiene una pérdida limitada y cumple dos condiciones de estabilidad, se generalizará. La primera condición de estabilidad, la estabilidad de validación cruzada de dejar uno fuera , dice que para ser estable, el error de predicción para cada punto de datos cuando se usa la validación cruzada de dejar uno fuera debe converger a cero como. La segunda condición, estabilidad de error esperado para dejar uno fuera (también conocida como estabilidad de hipótesis si se opera en elnorma ) se cumple si la predicción en un punto de datos omitido no cambia cuando se elimina un solo punto de datos del conjunto de datos de entrenamiento. [4]
Estas condiciones se pueden formalizar como:
Estabilidad de validación cruzada de exclusión
Un algoritmo posee estabilidad si para cada , existe un y tal que:
y y ir a cero como va al infinito. [4]
Estabilidad de error esperado de dejar uno fuera
Un algoritmo posee estabilidad si para cada existe un y un tal que:
con y yendo a cero para .
Para una estabilidad de dejar uno fuera en el norma, esto es lo mismo que la estabilidad de hipótesis:
con yendo a cero como va al infinito. [4]
Algoritmos con estabilidad probada
Se ha demostrado que varios algoritmos son estables y, como resultado, tienen límites en su error de generalización. Una lista de estos algoritmos y los artículos que demostraron estabilidad está disponible aquí .
Relación con el sobreajuste
Los conceptos de error de generalización y sobreajuste están estrechamente relacionados. El sobreajuste ocurre cuando la función aprendidase vuelve sensible al ruido en la muestra. Como resultado, la función funcionará bien en el conjunto de entrenamiento, pero no funcionará bien en otros datos de la distribución de probabilidad conjunta de y . Por tanto, cuanto más sobreajuste se produce, mayor es el error de generalización.
La cantidad de sobreajuste se puede probar utilizando métodos de validación cruzada , que dividen la muestra en muestras de entrenamiento simuladas y muestras de prueba. Luego, el modelo se entrena en una muestra de entrenamiento y se evalúa en la muestra de prueba. La muestra de prueba no ha sido vista previamente por el algoritmo y, por lo tanto, representa una muestra aleatoria de la distribución de probabilidad conjunta de y . Esta muestra de prueba nos permite aproximar el error esperado y, como resultado, aproximar una forma particular del error de generalización.
Existen muchos algoritmos para evitar el sobreajuste. El algoritmo de minimización puede penalizar funciones más complejas (conocido como regularización de Tikhonov ), o el espacio de hipótesis se puede restringir, ya sea explícitamente en la forma de las funciones o agregando restricciones a la función de minimización (regularización de Ivanov).
El enfoque para encontrar una función que no se sobreajuste está en desacuerdo con el objetivo de encontrar una función que sea lo suficientemente compleja para capturar las características particulares de los datos. Esto se conoce como compensación entre sesgo y varianza . Mantener una función simple para evitar el sobreajuste puede introducir un sesgo en las predicciones resultantes, mientras que permitir que sea más compleja conduce a un sobreajuste y una mayor variación en las predicciones. Es imposible minimizar ambos simultáneamente.
Referencias
- ^ Mohri, M., Rostamizadeh A., Talwakar A., (2018) Fundamentos del aprendizaje automático , 2a ed., Boston: MIT Press
- ^ Y S. Abu-Mostafa, M.Magdon-Ismail y H.-T. Lin (2012) Aprendiendo de los datos, AMLBook Press. ISBN 978-1600490064
- ^ Mohri, M., Rostamizadeh A., Talwakar A., (2018) Fundamentos del aprendizaje automático , 2a ed., Boston: MIT Press
- ^ a b c Mukherjee, S .; Niyogi, P .; Poggio, T .; Rifkin., RM (2006). "Teoría del aprendizaje: la estabilidad es suficiente para la generalización y necesaria y suficiente para la coherencia de la minimización del riesgo empírico" (PDF) . Adv. Computación. Matemáticas . 25 (1-3): 161-193. doi : 10.1007 / s10444-004-7634-z . S2CID 2240256 .
Otras lecturas
- Bousquet, O., S. Boucheron y G. Lugosi. Introducción a la teoría del aprendizaje estadístico . Conferencias avanzadas sobre aprendizaje automático Notas de conferencias en inteligencia artificial 3176, 169-207. (Eds.) Bousquet, O., U. von Luxburg y G. Ratsch, Springer, Heidelberg, Alemania (2004)
- Bousquet, O. y A. Elisseef (2002), Estabilidad y generalización, Journal of Machine Learning Research, 499-526.
- Devroye L., L. Gyorfi y G. Lugosi (1996). Una teoría probabilística del reconocimiento de patrones. Springer-Verlag. ISBN 978-0387946184 .
- Poggio T. y S. Smale. Las matemáticas del aprendizaje: manejo de datos . Avisos de la AMS, 2003
- Vapnik, V. (2000). La naturaleza de la teoría del aprendizaje estadístico. Ciencias de la información y estadística. Springer-Verlag. ISBN 978-0-387-98780-4 .
- Bishop, CM (1995), Redes neuronales para el reconocimiento de patrones , Oxford: Oxford University Press, especialmente la sección 6.4.
- Finke, M. y Müller, K.-R. (1994), " Estimación de probabilidades a posteriori utilizando modelos de red estocásticos ", en Mozer, Smolensky, Touretzky, Elman y Weigend, eds., Proceedings of the 1993 Connectionist Models Summer School , Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates, págs. 324–331.
- Geman, S., Bienenstock, E. y Doursat, R. (1992), " Redes neuronales y el dilema de sesgo / varianza ", Computación neuronal , 4, 1-58.
- Husmeier, D. (1999), Redes neuronales para la estimación de probabilidad condicional: Pronóstico más allá de las predicciones puntuales , Berlín: Springer Verlag, ISBN 1-85233-095-3 .
- McCullagh, P. y Nelder, JA (1989) Generalized Linear Models , 2ª ed., Londres: Chapman & Hall.
- Mohri, M., Rostamizadeh A., Talwakar A., (2018) Fundamentos del aprendizaje automático , 2a ed., Boston: MIT Press.
- Moody, JE (1992), " The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems ", en Moody, JE, Hanson, SJ y Lippmann, RP, Advances in Neural Information Processing Systems 4, 847- 854.
- Ripley, BD (1996) Reconocimiento de patrones y redes neuronales , Cambridge: Cambridge University Press.
- Rohwer, R. y van der Rest, JC (1996), " Longitud mínima de descripción, regularización y datos multimodales " , Computación neuronal , 8, 595-609.
- Rojas, R. (1996), " Una breve prueba de la propiedad de probabilidad posterior de las redes neuronales clasificadoras " , Computación neuronal , 8, 41-43.
- White, H. (1990), " Regresión no paramétrica conexionista: las redes de alimentación directa multicapa pueden aprender asignaciones arbitrarias " , Redes neuronales , 3, 535-550. Reimpreso en blanco (1992).
- White, H. (1992a), " Estimación no paramétrica de cuantiles condicionales mediante redes neuronales ", en Page, C. y Le Page, R. (eds.), Proceedings of the 23rd Sympsium on the Interface: Computing Science and Statistics , Alejandría , VA: Asociación Estadounidense de Estadística, págs. 190–199. Reimpreso en blanco (1992b).
- White, H. (1992b), Redes neuronales artificiales: teoría de aproximación y aprendizaje , Blackwell.