En estadística y aprendizaje automático , el equilibrio entre sesgo y varianza es la propiedad de un modelo de que la varianza de las estimaciones de los parámetros entre muestras se puede reducir aumentando el sesgo en los parámetros estimados . El dilema de sesgo y la varianza o el sesgo y la varianza problema es el conflicto para tratar de minimizar simultáneamente estas dos fuentes de error que impiden aprendizaje supervisado algoritmos de generalizar más allá de su conjunto de entrenamiento : [1] [2]
- El error de sesgo es un error de suposiciones erróneas en el algoritmo de aprendizaje . Un sesgo alto puede hacer que un algoritmo pierda las relaciones relevantes entre las características y los resultados de destino (desajuste).
- La varianza es un error de sensibilidad a pequeñas fluctuaciones en el conjunto de entrenamiento. Una gran variación puede resultar de un algoritmo que modela el ruido aleatorio en los datos de entrenamiento ( sobreajuste ).
La descomposición de sesgo-varianza es una forma de analizar el error de generalización esperado de un algoritmo de aprendizaje con respecto a un problema particular como una suma de tres términos, el sesgo, la varianza y una cantidad llamada error irreducible , que resulta del ruido en el problema mismo.
Motivación
sesgo alto,
varianza baja:
precisión altasesgo bajo,
varianza alta:
precisión bajasesgo alto,
varianza alta:
precisión baja
La compensación de sesgo-varianza es un problema central en el aprendizaje supervisado. Idealmente, uno quiere elegir un modelo que capture con precisión las regularidades en sus datos de entrenamiento, pero que también generalice bien a los datos invisibles. Desafortunadamente, normalmente es imposible hacer ambas cosas simultáneamente. Los métodos de aprendizaje de alta varianza pueden representar bien su conjunto de entrenamiento, pero corren el riesgo de sobreajustarse a datos de entrenamiento ruidosos o poco representativos. Por el contrario, los algoritmos con alto sesgo suelen producir modelos más simples que pueden no captar regularidades importantes (es decir, no ajustadas) en los datos.
Es una falacia frecuente [3] [4] suponer que los modelos complejos deben tener una alta varianza; Los modelos de alta varianza son "complejos" en cierto sentido, pero lo contrario no tiene por qué ser cierto [se necesita aclaración ] . Además, hay que tener cuidado al definir la complejidad: en particular, el número de parámetros utilizados para describir el modelo es una medida deficiente de la complejidad. Esto se ilustra con un ejemplo adaptado de: [5] El modelo tiene solo dos parámetros () pero puede interpolar cualquier número de puntos oscilando con una frecuencia lo suficientemente alta, lo que da como resultado tanto un sesgo alto como una varianza alta.
Intuitivamente, el sesgo se reduce al usar solo información local, mientras que la varianza solo se puede reducir promediando múltiples observaciones, lo que inherentemente significa usar información de una región más grande. Para obtener un ejemplo esclarecedor, consulte la sección sobre k vecinos más cercanos o la figura de la derecha. Para equilibrar la cantidad de información que se utiliza de las observaciones vecinas, un modelo se puede suavizar mediante una regularización explícita , como la reducción .
Descomposición por sesgo-varianza del error cuadrático medio
Supongamos que tenemos un conjunto de entrenamiento que consta de un conjunto de puntos y valores reales asociado con cada punto . Suponemos que hay una función con ruido, donde el ruido, , tiene media y varianza cero .
Queremos encontrar una función , que se aproxima a la función verdadera lo mejor posible, mediante algún algoritmo de aprendizaje basado en un conjunto de datos de entrenamiento (muestra) . Hacemos "lo mejor posible" precisos midiendo el error cuadrático medio entre y : queremos ser mínimo, tanto para y para puntos fuera de nuestra muestra . Por supuesto, no podemos esperar hacerlo a la perfección, ya que el contener ruido ; esto significa que debemos estar preparados para aceptar un error irreductible en cualquier función que se nos ocurra.
Encontrar un que se generaliza a puntos fuera del conjunto de entrenamiento se puede hacer con cualquiera de los innumerables algoritmos utilizados para el aprendizaje supervisado. Resulta que cualquiera que sea la funciónque seleccionamos, podemos descomponer su error esperado en una muestra invisiblede la siguiente manera: [6] : 34 [7] : 223
dónde
y
La expectativa varía según las diferentes opciones del conjunto de entrenamiento. , todos muestreados de la misma distribución conjunta . Los tres términos representan:
- el cuadrado del sesgo del método de aprendizaje, que se puede considerar como el error causado por los supuestos simplificadores incorporados en el método. Por ejemplo, al aproximar una función no linealutilizando un método de aprendizaje para modelos lineales , habrá error en las estimaciones debido a esta suposición;
- la varianza del método de aprendizaje o, intuitivamente, cuánto el método de aprendizaje se moverá alrededor de su medio;
- el error irreductible .
Dado que los tres términos no son negativos, el error irreductible forma un límite inferior en el error esperado en muestras invisibles. [6] : 34
Cuanto más complejo es el modelo es decir, más puntos de datos capturará y menor será el sesgo. Sin embargo, la complejidad hará que el modelo se "mueva" más para capturar los puntos de datos y, por lo tanto, su varianza será mayor.
Derivación
La derivación de la descomposición de sesgo-varianza para el error al cuadrado procede de la siguiente manera. [8] [9] Para facilitar la notación, abreviamos, y dejamos caer el subíndice en nuestros operadores de expectativa. Primero, recuerde que, por definición, para cualquier variable aleatoria, tenemos
Reorganizando, obtenemos:
Desde es determinista , es decir, independiente de,
Por lo tanto, dado y (porque es ruido), implica
Además, desde
Por lo tanto, dado que y son independientes, podemos escribir
Finalmente, la función de pérdida de MSE (o probabilidad logarítmica negativa) se obtiene tomando el valor esperado sobre :
Enfoques
La reducción de la dimensionalidad y la selección de características pueden disminuir la variación al simplificar los modelos. De manera similar, un conjunto de entrenamiento más grande tiende a disminuir la varianza. Agregar características (predictores) tiende a disminuir el sesgo, a expensas de introducir una variación adicional. Los algoritmos de aprendizaje suelen tener algunos parámetros ajustables que controlan el sesgo y la varianza; por ejemplo,
- Los modelos lineales y lineales generalizados se pueden regularizar para disminuir su varianza a costa de aumentar su sesgo. [10]
- En las redes neuronales artificiales , la varianza aumenta y el sesgo disminuye a medida que aumenta el número de unidades ocultas, [11] aunque este supuesto clásico ha sido objeto de un debate reciente. [4] Al igual que en los GLM, normalmente se aplica la regularización.
- En los modelos del vecino más cercano k , un valor alto de k conduce a un sesgo alto y una varianza baja (ver más abajo).
- En el aprendizaje basado en instancias , la regularización se puede lograr variando la mezcla de prototipos y ejemplares. [12]
- En los árboles de decisión , la profundidad del árbol determina la varianza. Los árboles de decisión se podan comúnmente para controlar la variación. [6] : 307
Una forma de resolver la disyuntiva es utilizar modelos mixtos y aprendizaje por conjuntos . [13] [14] Por ejemplo, el refuerzo combina muchos modelos "débiles" (alto sesgo) en un conjunto que tiene un sesgo más bajo que los modelos individuales, mientras que el embolsado combina a los aprendices "fuertes" de una manera que reduce su varianza.
Los métodos de validación de modelos , como la validación cruzada (estadísticas), se pueden utilizar para ajustar los modelos a fin de optimizar la compensación.
k -los vecinos más cercanos
En el caso de la regresión de k -vecinos más cercanos , cuando la expectativa se toma sobre el posible etiquetado de un conjunto de entrenamiento fijo, existe una expresión de forma cerrada que relaciona la descomposición de la varianza-sesgo con el parámetro k : [7] : 37, 223
dónde son los k vecinos más cercanos de x en el conjunto de entrenamiento. El sesgo (primer término) es una función creciente monótona de k , mientras que la varianza (segundo término) disminuye a medida que aumenta k . De hecho, bajo "suposiciones razonables", el sesgo del estimador del primer vecino más cercano (1-NN) desaparece por completo cuando el tamaño del conjunto de entrenamiento se acerca al infinito. [11]
Aplicaciones
En regresión
La descomposición de sesgo-varianza forma la base conceptual de los métodos de regularización de regresión , como la regresión de Lasso y la cresta . Los métodos de regularización introducen sesgos en la solución de regresión que pueden reducir la varianza considerablemente en relación con la solución de mínimos cuadrados ordinarios (MCO) . Aunque la solución OLS proporciona estimaciones de regresión no sesgadas, las soluciones de menor varianza producidas por las técnicas de regularización proporcionan un rendimiento de MSE superior.
En clasificación
La descomposición de sesgo-varianza se formuló originalmente para la regresión de mínimos cuadrados. Para el caso de clasificación bajo la pérdida 0-1 (tasa de clasificación errónea), es posible encontrar una descomposición similar. [15] [16] Alternativamente, si el problema de clasificación puede expresarse como clasificación probabilística , entonces el error al cuadrado esperado de las probabilidades predichas con respecto a las probabilidades verdaderas se puede descomponer como antes. [17]
En el aprendizaje por refuerzo
Aunque la descomposición sesgo-varianza no se aplica directamente en el aprendizaje por refuerzo , una compensación similar también puede caracterizar la generalización. Cuando un agente tiene información limitada sobre su entorno, la subóptimaidad de un algoritmo RL se puede descomponer en la suma de dos términos: un término relacionado con un sesgo asintótico y un término debido a un sobreajuste. El sesgo asintótico está directamente relacionado con el algoritmo de aprendizaje (independientemente de la cantidad de datos), mientras que el término de sobreajuste proviene del hecho de que la cantidad de datos es limitada. [18]
En el aprendizaje humano
Si bien se discutió ampliamente en el contexto del aprendizaje automático, el dilema de sesgo-varianza ha sido examinado en el contexto de la cognición humana , sobre todo por Gerd Gigerenzer y sus colaboradores en el contexto de heurística aprendida. Han argumentado (véanse las referencias a continuación) que el cerebro humano resuelve el dilema en el caso de los conjuntos de entrenamiento típicamente escasos y mal caracterizados proporcionados por la experiencia mediante la adopción de heurísticas de alto sesgo / baja varianza. Esto refleja el hecho de que un enfoque de sesgo cero tiene poca capacidad de generalización a nuevas situaciones, y también presume de manera irrazonable un conocimiento preciso del verdadero estado del mundo. Las heurísticas resultantes son relativamente simples, pero producen mejores inferencias en una variedad más amplia de situaciones. [19]
Geman y col. [11] argumentan que el dilema de sesgo-varianza implica que habilidades como el reconocimiento de objetos genéricos no se pueden aprender desde cero, sino que requieren un cierto grado de "cableado" que luego se ajusta mediante la experiencia. Esto se debe a que los enfoques de inferencia sin modelos requieren conjuntos de entrenamiento impracticablemente grandes para evitar una gran variación.
Ver también
- Exactitud y precisión
- Sesgo de un estimador
- Teorema de Gauss-Markov
- Optimización de hiperparámetros
- Estimador insesgado de varianza mínima
- Selección de modelo
- Validación del modelo de regresión
- Aprendizaje supervisado
Referencias
- ^ Kohavi, Ron; Wolpert, David H. (1996). "Descomposición de variación de sesgo más para funciones de pérdida cero-uno". ICML . 96 .
- ^ Luxburg, Ulrike V .; Schölkopf, B. (2011). "Teoría del aprendizaje estadístico: modelos, conceptos y resultados". Manual de Historia de la Lógica . 10 : Sección 2.4.
- ^ Neal, Brady (2019). "En la compensación de sesgo-varianza: los libros de texto necesitan una actualización". arXiv : 1912.08286 [ cs.LG ].
- ^ a b Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2018). "Una versión moderna de la compensación de sesgo-varianza en redes neuronales". arXiv : 1810.08591 [ cs.LG ].
- ^ Vapnik, Vladimir (2000). La naturaleza de la teoría del aprendizaje estadístico . Nueva York: Springer-Verlag. ISBN 978-1-4757-3264-1.
- ^ a b c James, Gareth; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert (2013). Introducción al aprendizaje estadístico . Saltador.
- ^ a b Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico . Archivado desde el original el 26 de enero de 2015 . Consultado el 20 de agosto de 2014 .
- ^ Vijayakumar, Sethu (2007). "La compensación entre sesgo y varianza" (PDF) . Universidad de Edimburgo . Consultado el 19 de agosto de 2014 .
- ^ Shakhnarovich, Greg (2011). "Notas sobre la derivación de la descomposición de la varianza de sesgo en regresión lineal" (PDF) . Archivado desde el original (PDF) el 21 de agosto de 2014 . Consultado el 20 de agosto de 2014 .
- ^ Belsley, David (1991). Diagnóstico de condicionamiento: colinealidad y datos débiles en regresión . Nueva York (NY): Wiley. ISBN 978-0471528890.
- ^ a b c Geman, Stuart ; Bienenstock, Élie; Doursat, René (1992). "Redes neuronales y el dilema de sesgo / varianza" (PDF) . Computación neuronal . 4 : 1-58. doi : 10.1162 / neco.1992.4.1.1 .
- ^ Gagliardi, Francesco (mayo de 2011). "Clasificadores basados en instancias aplicados a bases de datos médicas: diagnóstico y extracción de conocimiento" . Inteligencia artificial en Medicina . 52 (3): 123-139. doi : 10.1016 / j.artmed.2011.04.002 . PMID 21621400 .
- ^ Ting, Jo-Anne; Vijaykumar, Sethu; Schaal, Stefan (2011). "Regresión ponderada localmente para el control". En Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia de aprendizaje automático (PDF) . Saltador. pag. 615. bibcode : 2010eoml.book ..... S .
- ^ Fortmann-Roe, Scott (2012). "Comprensión de la compensación entre sesgo y varianza" .
- ^ Domingos, Pedro (2000). Una descomposición unificada de sesgo-varianza (PDF) . ICML.
- ^ Valentini, Giorgio; Dietterich, Thomas G. (2004). "Análisis de sesgo-varianza de máquinas de vectores de soporte para el desarrollo de métodos conjuntos basados en SVM" (PDF) . Revista de investigación sobre aprendizaje automático . 5 : 725–775.
- ^ Manning, Christopher D .; Raghavan, Prabhakar; Schütze, Hinrich (2008). Introducción a la recuperación de información . Prensa de la Universidad de Cambridge. págs. 308–314.
- ^ Francois-Lavet, Vincent; Rabusseau, Guillaume; Pineau, Joelle; Ernst, Damien; Fonteneau, Raphael (2019). "Sobre el sobreajuste y el sesgo asintótico en el aprendizaje por refuerzo por lotes con observabilidad parcial" . Revista de investigación de IA . 65 : 1–30. doi : 10.1613 / jair.1.11478 .
- ^ Gigerenzer, Gerd ; Brighton, Henry (2009). "Homo heuristicus: por qué las mentes sesgadas hacen mejores inferencias". Temas en Ciencias Cognitivas . 1 (1): 107–143. doi : 10.1111 / j.1756-8765.2008.01006.x . hdl : 11858 / 00-001M-0000-0024-F678-0 . PMID 25164802 .