Optimización de hiperparámetros

En el aprendizaje automático , la optimización o el ajuste de hiperparámetros es el problema de elegir un conjunto de hiperparámetros óptimos para un algoritmo de aprendizaje. Un hiperparámetro es un parámetro cuyo valor se utiliza para controlar el proceso de aprendizaje. Por el contrario, se aprenden los valores de otros parámetros (normalmente ponderaciones de los nodos).

El mismo tipo de modelo de aprendizaje automático puede requerir diferentes restricciones, pesos o tasas de aprendizaje para generalizar diferentes patrones de datos. Estas medidas se denominan hiperparámetros y deben ajustarse para que el modelo pueda resolver de manera óptima el problema del aprendizaje automático. La optimización de hiperparámetros encuentra una tupla de hiperparámetros que produce un modelo óptimo que minimiza una función de pérdida predefinida en datos independientes dados. ^[1] La función objetivo toma una tupla de hiperparámetros y devuelve la pérdida asociada. ^[1] La validación cruzada se utiliza a menudo para estimar este rendimiento de generalización. ^[2]

Enfoques

Búsqueda de cuadrícula en diferentes valores de dos hiperparámetros. Para cada hiperparámetro, se consideran 10 valores diferentes, por lo que se evalúan y comparan un total de 100 combinaciones diferentes. Los contornos azules indican regiones con buenos resultados, mientras que los rojos muestran regiones con malos resultados.

Búsqueda de cuadrícula

La forma tradicional de realizar la optimización de hiperparámetros ha sido la búsqueda en cuadrícula , o un barrido de parámetros , que es simplemente una búsqueda exhaustiva a través de un subconjunto especificado manualmente del espacio de hiperparámetros de un algoritmo de aprendizaje. Un algoritmo de búsqueda de cuadrícula debe estar guiado por alguna métrica de rendimiento, generalmente medida por validación cruzada en el conjunto de entrenamiento ^[3] o evaluación en un conjunto de validación retenido. ^[4]

Dado que el espacio de parámetros de un aprendiz automático puede incluir espacios de valores de valor real o ilimitados para ciertos parámetros, es posible que sea necesario establecer límites y discretización manualmente antes de aplicar la búsqueda de cuadrícula.

Por ejemplo, un clasificador SVM de margen suave típico equipado con un kernel RBF tiene al menos dos hiperparámetros que deben ajustarse para un buen rendimiento en datos no vistos: una constante de regularización C y un hiperparámetro del kernel γ. Ambos parámetros son continuos, por lo que para realizar una búsqueda en la cuadrícula, se selecciona un conjunto finito de valores "razonables" para cada uno, digamos

{\ Displaystyle C \ in \ {10,100,1000 \}}

{\ Displaystyle \ gamma \ in \ {0.1,0.2,0.5,1.0 \}}

La búsqueda de cuadrícula luego entrena una SVM con cada par ( C , γ) en el producto cartesiano de estos dos conjuntos y evalúa su desempeño en un conjunto de validación retenido (o mediante validación cruzada interna en el conjunto de entrenamiento, en cuyo caso múltiples SVM están entrenados por pareja). Finalmente, el algoritmo de búsqueda de cuadrícula genera la configuración que logró la puntuación más alta en el procedimiento de validación.

La búsqueda de cuadrícula sufre la maldición de la dimensionalidad , pero a menudo es vergonzosamente paralela porque los ajustes de hiperparámetros que evalúa suelen ser independientes entre sí. ^[2]

Búsqueda aleatoria en diferentes combinaciones de valores para dos hiperparámetros. En este ejemplo, se evalúan 100 opciones aleatorias diferentes. Las barras verdes muestran que se consideran más valores individuales para cada hiperparámetro en comparación con una búsqueda de cuadrícula.

Búsqueda aleatoria

La búsqueda aleatoria reemplaza la enumeración exhaustiva de todas las combinaciones seleccionándolas al azar. Esto se puede aplicar simplemente a la configuración discreta descrita anteriormente, pero también se generaliza a espacios continuos y mixtos. Puede superar la búsqueda de Grid, especialmente cuando solo una pequeña cantidad de hiperparámetros afecta el rendimiento final del algoritmo de aprendizaje automático. ^[2] En este caso, se dice que el problema de optimización tiene una dimensionalidad intrínseca baja. ^[5] La búsqueda aleatoria también es vergonzosamente paralela y, además, permite la inclusión de conocimientos previos al especificar la distribución a partir de la cual tomar la muestra.

Métodos como la optimización bayesiana exploran inteligentemente el espacio de posibles opciones de hiperparámetros al decidir qué combinación explorar a continuación basándose en observaciones anteriores.

Optimización bayesiana

La optimización bayesiana es un método de optimización global para funciones ruidosas de caja negra. Aplicada a la optimización de hiperparámetros, la optimización bayesiana construye un modelo probabilístico del mapeo de funciones desde los valores de los hiperparámetros hasta el objetivo evaluado en un conjunto de validación. Al evaluar iterativamente una configuración de hiperparámetros prometedora basada en el modelo actual y luego actualizarla, la optimización bayesiana tiene como objetivo recopilar observaciones que revelen la mayor cantidad de información posible sobre esta función y, en particular, la ubicación del óptimo. Intenta equilibrar la exploración (hiperparámetros para los que el resultado es más incierto) y la explotación (hiperparámetros que se esperan cerca del óptimo). En la práctica, se ha demostrado que la optimización bayesiana ^[6]^[7]^[8]^[9] obtiene mejores resultados en menos evaluaciones en comparación con la búsqueda en cuadrícula y la búsqueda aleatoria, debido a la capacidad de razonar sobre la calidad de los experimentos antes de ejecutarlos .

Optimización basada en gradientes

Para algoritmos de aprendizaje específicos, es posible calcular el gradiente con respecto a los hiperparámetros y luego optimizar los hiperparámetros mediante el descenso del gradiente. El primer uso de estas técnicas se centró en las redes neuronales. ^[10] Desde entonces, estos métodos se han extendido a otros modelos como máquinas de vectores de soporte ^[11] o regresión logística. ^[12]

Un enfoque diferente para obtener un gradiente con respecto a los hiperparámetros consiste en diferenciar los pasos de un algoritmo de optimización iterativo mediante la diferenciación automática . ^[13]^[14] ^[15]

Optimización evolutiva

La optimización evolutiva es una metodología para la optimización global de funciones ruidosas de caja negra. En la optimización de hiperparámetros, la optimización evolutiva utiliza algoritmos evolutivos para buscar el espacio de hiperparámetros para un algoritmo dado. ^[7] La optimización de hiperparámetros evolutivos sigue un proceso inspirado en el concepto biológico de evolución :

Cree una población inicial de soluciones aleatorias (es decir, genere al azar tuplas de hiperparámetros, por lo general más de 100)
Evaluar las tuplas de hiperparámetros y adquirir su función de aptitud (p. Ej., Precisión de validación cruzada de 10 veces del algoritmo de aprendizaje automático con esos hiperparámetros)
Clasifique las tuplas de hiperparámetros por su adecuación relativa
Reemplace las tuplas de hiperparámetros de peor rendimiento con nuevas tuplas de hiperparámetros generadas a través del cruce y la mutación
Repita los pasos 2 a 4 hasta que se alcance un rendimiento satisfactorio del algoritmo o que el rendimiento del algoritmo ya no mejore

La optimización evolutiva se ha utilizado en la optimización de hiperparámetros para algoritmos estadísticos de aprendizaje automático, ^[7] aprendizaje automático automatizado , redes neuronales típicas ^[16] y búsqueda de arquitectura de redes neuronales profundas , ^[17]^[18] , así como el entrenamiento de los pesos en redes neuronales profundas. redes. ^[19]

Basado en la población

El entrenamiento basado en la población (PBT) aprende tanto los valores de los hiperparámetros como los pesos de la red. Varios procesos de aprendizaje operan de forma independiente, utilizando diferentes hiperparámetros. Al igual que con los métodos evolutivos, los modelos de bajo rendimiento se reemplazan iterativamente con modelos que adoptan valores y pesos de hiperparámetros modificados basados en los mejores. Este modelo de reemplazo de arranque en caliente es el principal diferenciador entre PBT y otros métodos evolutivos. Así, PBT permite que los hiperparámetros evolucionen y elimina la necesidad de un hipertuning manual. El proceso no hace suposiciones con respecto a la arquitectura del modelo, las funciones de pérdida o los procedimientos de capacitación. ^[20]

Basada en la parada anticipada

Una clase de algoritmos de optimización de hiperparámetros basados en la detención temprana está diseñada específicamente para grandes espacios de búsqueda de hiperparámetros continuos y discretos, particularmente cuando el costo computacional para evaluar el rendimiento de un conjunto de hiperparámetros es alto. Irace implementa el algoritmo de carreras iterado, que centra la búsqueda en las configuraciones más prometedoras, utilizando pruebas estadísticas para descartar las que funcionan mal. ^[21]^[22] Otro algoritmo de optimización de hiperparámetros de detención temprana es el halving sucesivo (SHA), ^[23] que comienza como una búsqueda aleatoria pero periódicamente poda los modelos de bajo rendimiento, por lo que concentra los recursos computacionales en modelos más prometedores. La reducción a la mitad sucesiva asíncrona (ASHA) ^[24] mejora aún más el perfil de utilización de recursos de SHA al eliminar la necesidad de evaluar y podar de forma síncrona los modelos de bajo rendimiento. Hyperband ^[25] es un algoritmo de alto nivel basado en la detención temprana que invoca a SHA o ASHA varias veces con diferentes niveles de agresividad de poda, con el fin de ser más ampliamente aplicable y con menos entradas requeridas.

Otros

También se han desarrollado enfoques RBF ^[26] y espectral ^[27] .

Software de código abierto

Búsqueda de cuadrícula

Determinado , una plataforma de entrenamiento DL incluye búsqueda en cuadrícula para modelos PyTorch y TensorFlow (Keras y Estimator).
H2O AutoML proporciona búsqueda en cuadrícula sobre algoritmos en la biblioteca de aprendizaje automático de código abierto H2O.
Katib es un sistema nativo de Kubernetes que incluye búsqueda en cuadrícula.
scikit-learn es un paquete de Python que incluye búsqueda en cuadrícula .
Talos incluye búsqueda de cuadrícula para Keras .
Tune es una biblioteca de Python para el ajuste de hiperparámetros distribuidos y admite la búsqueda de cuadrícula.

Búsqueda aleatoria

Determined es una plataforma de entrenamiento DL que admite la búsqueda aleatoria de modelos de PyTorch y TensorFlow (Keras y Estimator).
hyperopt , también a través de hyperas y hyperopt-sklearn , son paquetes de Python que incluyen búsqueda aleatoria.
Katib es un sistema nativo de Kubernetes que incluye búsqueda aleatoria.
scikit-learn es un paquete de Python que incluye búsqueda aleatoria .
caret es un paquete R que incluye cuadrícula y búsqueda aleatoria .
Talos incluye una búsqueda aleatoria personalizable de Keras .
Tune es una biblioteca de Python para el ajuste de hiperparámetros distribuidos y admite búsquedas aleatorias sobre distribuciones de parámetros arbitrarias.

Bayesiano

Auto-sklearn ^[28] es una capa de optimización de hiperparámetros bayesianos sobre scikit-learn .
Axe ^[29] es una plataforma de experimentación basada en Python que admite la optimización bayesiana y la optimización de bandidos como estrategias de exploración.
BOCS es un paquete de Matlab que utiliza programación semidefinida para minimizar una función de caja negra sobre entradas discretas. ^[30] También se incluye una implementación de Python 3.
HpBandSter es un paquete de Python que combina la optimización bayesiana con métodos basados en bandidos. ^[31]
Katib es un sistema nativo de Kubernetes que incluye optimización bayesiana.
mlrMBO , también con mlr , es un paquete R para la optimización basada en modelos / bayesiana de funciones de caja negra.
optuna es un paquete de Python para la optimización de caja negra, compatible con funciones arbitrarias que necesitan optimizarse.
scikit-Optimize es un paquete de Python o una optimización basada en modelos secuenciales con una interfaz scipy.optimize. ^[32]
SMAC SMAC es una biblioteca de Python / Java que implementa la optimización bayesiana. ^[33]
tuneRanger es un paquete R para ajustar bosques aleatorios mediante la optimización basada en modelos.

Optimización basada en gradientes

FAR-HO es un paquete de Python que contiene implementaciones y envoltorios de Tensorflow para la optimización del hiperparaméter basada en gradientes con diferenciación algorítmica de modo directo e inverso.
XGBoost es una biblioteca de software de código abierto que proporciona un marco de mejora de gradientes para C ++, Java, Python, R y Julia.

Evolutivo

deap es un marco de Python para la computación evolutiva general que es flexible y se integra con paquetes de paralelización como scoop y pyspark , y otros marcos de Python como sklearn a través de sklearn-deap .
Determined es una plataforma de entrenamiento DL que admite PBT para optimizar los modelos PyTorch y TensorFlow (Keras y Estimator).
devol es un paquete de Python que realiza búsquedas de arquitectura de redes neuronales profundas mediante programación genética .
nevergrad ^[34] es un paquete de Python que incluye Differential_evolution , Evolution_strategy , Bayesian_optimization , métodos de control de población para el caso ruidoso y Particle_swarm_optimization . ^[35]
Tune es una biblioteca de Python para el ajuste de hiperparámetros distribuidos y aprovecha Nevergrad para el soporte de algoritmos evolutivos.

Parada anticipada

Determined es una plataforma de entrenamiento DL que admite Hyperband para modelos PyTorch y TensorFlow (Keras y Estimator).
irace es un paquete R que implementa el algoritmo de carreras iterado. ^[21]^[22]
Katib es un sistema nativo de Kubernetes que incluye hiperbanda.

Otro

Determined es una plataforma de entrenamiento DL que admite enfoques aleatorios, de cuadrícula, PBT, hiperbanda y NAS para la optimización de hiperparámetros para modelos PyTorch y TensorFlow (Keras y Estimator).
dlib ^[36] es un paquete de C ++ con una API de Python que tiene un optimizador sin parámetros basado en LIPO y optimizadores de regiones de confianza trabajando en conjunto. ^[37]
Harmonica es un paquete de Python para la optimización de hiperparámetros espectrales. ^[27]
hyperopt , también a través de hyperas y hyperopt-sklearn , son paquetes de Python que incluyen la optimización de hiperparámetros distribuida basada en estimadores de Tree of Parzen .
Katib es un sistema nativo de Kubernetes que incluye cuadrícula, búsqueda aleatoria, optimización bayesiana, hiperbanda y NAS basado en aprendizaje por refuerzo.
nevergrad ^[34] es un paquete de Python para optimización sin gradientes que utiliza técnicas como evolución diferencial, programación cuadrática secuencial, fastGA, adaptación de matriz de covarianza, métodos de control de población y optimización de enjambres de partículas. ^[35]
Neural Network Intelligence (NNI) es un paquete de Python que incluye el ajuste de hiperparámetros para redes neuronales en entornos locales y distribuidos. Sus técnicas incluyen TPE, random, anneal, evolution, SMAC, batch, grid e hiperbanda.
parameter-sherpa es un paquete de Python similar que incluye varias técnicas de búsqueda de cuadrícula, optimización bayesiana y genética
photonai es una API de Python de alto nivel para diseñar y optimizar tuberías de aprendizaje automático basadas en cuadrícula, búsqueda aleatoria y optimización bayesiana.
pycma es una implementación de Python de la estrategia de evolución de adaptación de matriz de covarianza .
rbfopt es un paquete de Python que usa un modelo de función de base radial ^[26]
Tune es una biblioteca de Python para la ejecución del ajuste de hiperparámetros y se integra con / escala muchas bibliotecas de optimización de hiperparámetros existentes, como hyperopt , nevergrad y scikit-Optimize .

Servicios comerciales

Amazon Sagemaker utiliza procesos gaussianos para ajustar los hiperparámetros.
BigML OptiML admite dominios de búsqueda mixtos
Google HyperTune admite dominios de búsqueda mixtos
Indie Solver admite optimización multiobjetivo, multifidelidad y de restricciones
Mind Foundry OPTaaS admite dominios de búsqueda mixtos, multiobjetivo, restricciones, optimización paralela y modelos sustitutos.
SigOpt admite dominios de búsqueda mixtos, multiobjetivo, multisolución, multifidelidad, restricción (lineal y caja negra) y optimización paralela.

Ver también

Aprendizaje automático automatizado
Búsqueda de arquitectura neuronal
Meta-optimización
Selección de modelo
Autoajuste
XGBoost

Referencias

^ a b Claesen, Marc; Bart De Moor (2015). "Búsqueda de hiperparámetros en Machine Learning". arXiv : 1502.02127 [ cs.LG ].
^ a b c Bergstra, James; Bengio, Yoshua (2012). "Búsqueda aleatoria para la optimización de hiperparámetros" (PDF) . Revista de investigación sobre aprendizaje automático . 13 : 281-305.
^ Chin-Wei Hsu, Chih-Chung Chang y Chih-Jen Lin (2010). Una guía práctica para apoyar la clasificación de vectores . Informe técnico, Universidad Nacional de Taiwán .
^ Chicco D (diciembre de 2017). "Diez consejos rápidos para el aprendizaje automático en biología computacional" . Minería de Biodatos . 10 (35): 35. doi : 10.1186 / s13040-017-0155-3 . PMC 5721660 . PMID 29234465 .
^ Ziyu, Wang; Frank, Hutter; Masrour, Zoghi; David, Matheson; Nando, de Feitas (2016). "Optimización bayesiana en mil millones de dimensiones mediante incrustaciones aleatorias". Revista de Investigación en Inteligencia Artificial . 55 : 361–387. arXiv : 1301.1942 . doi : 10.1613 / jair.4806 .
^ Hutter, Frank; Hoos, Holger; Leyton-Brown, Kevin (2011), "Optimización basada en modelos secuenciales para la configuración de algoritmos generales" (PDF) , Aprendizaje y optimización inteligente , Lecture Notes in Computer Science, 6683 : 507–523, CiteSeerX 10.1.1.307.8813 , doi : 10.1007 / 978-3-642-25566-3_40 , ISBN 978-3-642-25565-6
^ a b c Bergstra, James; Bardenet, Remi; Bengio, Yoshua; Kegl, Balazs (2011), "Algoritmos para la optimización de hiperparámetros " (PDF) , Avances en los sistemas de procesamiento de información neuronal
^ Snoek, Jasper; Larochelle, Hugo; Adams, Ryan (2012). "Práctica optimización bayesiana de algoritmos de aprendizaje automático" (PDF) . Avances en sistemas de procesamiento de información neuronal . arXiv : 1206.2944 . Código bibliográfico : 2012arXiv1206.2944S .
^ Thornton, Chris; Hutter, Frank; Hoos, Holger; Leyton-Brown, Kevin (2013). "Auto-WEKA: Selección combinada y optimización de hiperparámetros de algoritmos de clasificación" (PDF) . Descubrimiento de conocimiento y minería de datos . arXiv : 1208.3719 . Código bibliográfico : 2012arXiv1208.3719T .
^ Larsen, Jan; Hansen, Lars Kai; Svarer, Claus; Ohlsson, M (1996). "Diseño y regularización de redes neuronales: el uso óptimo de un conjunto de validación" (PDF) . Actas del taller de 1996 de la sociedad de procesamiento de señales IEEE : 62–71. CiteSeerX 10.1.1.415.3266 . doi : 10.1109 / NNSP.1996.548336 . ISBN 0-7803-3550-3.
^ Olivier Chapelle; Vladimir Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "Elección de múltiples parámetros para máquinas de vectores de soporte" (PDF) . Aprendizaje automático . 46 : 131-159. doi : 10.1023 / a: 1012450327387 .
^ Chuong B; Chuan-Sheng Foo; Andrew Y Ng (2008). "Aprendizaje eficiente de múltiples hiperparámetros para modelos log-lineales" (PDF) . Avances en los sistemas de procesamiento de información neuronal 20 .
^ Domke, Justin (2012). "Métodos genéricos para el modelado basado en optimización" (PDF) . Aistats . 22 .
^ Maclaurin, Douglas; Duvenaud, David; Adams, Ryan P. (2015). "Optimización de hiperparámetros basada en gradientes mediante aprendizaje reversible". arXiv : 1502.03492 [ stat.ML ].
^ Franceschi, Luca; Donini, Michele; Frasconi, Paolo; Pontil, Massimiliano (2017). "Optimización de hiperparámetros basada en gradientes hacia adelante y hacia atrás" (PDF) . Actas de la 34a Conferencia Internacional sobre Aprendizaje Automático . arXiv : 1703.01785 . Código Bib : 2017arXiv170301785F .
^ Kousiouris G, Cuccinotta T, Varvarigou T (2011). "Los efectos de la programación, el tipo de carga de trabajo y los escenarios de consolidación sobre el rendimiento de la máquina virtual y su predicción a través de redes neuronales artificiales optimizadas" . Revista de sistemas y software . 84 (8): 1270-1291.
^ Miikkulainen R, Liang J, Meyerson E, Rawal A, Fink D, Francon O, Raju B, Shahrzad H, Navruzyan A, Duffy N, Hodjat B (2017). "Evolución de las redes neuronales profundas". arXiv : 1703,00548 [ cs.NE ].
^ Jaderberg M, Dalibard V, Osindero S, Czarnecki WM, Donahue J, Razavi A, Vinyals O, Green T, Dunning I, Simonyan K, Fernando C, Kavukcuoglu K (2017). "Entrenamiento poblacional de redes neuronales". arXiv : 1711.09846 [ cs.LG ].
^ Tal FP, Madhavan V, Conti E, Lehman J, Stanley KO, Clune J (2017). "Neuroevolución profunda: los algoritmos genéticos son una alternativa competitiva para el entrenamiento de redes neuronales profundas para el aprendizaje por refuerzo". arXiv : 1712.06567 [ cs.NE ].
^ Li, Ang; Spyra, Ola; Perel, Sagi; Dalibard, Valentin; Jaderberg, Max; Gu, Chenjie; Budden, David; Harley, Tim; Gupta, Pramod (5 de febrero de 2019). "Un marco generalizado para la formación basada en la población". arXiv : 1902.01894 [ cs.AI ].
^ a b López-Ibáñez, Manuel; Dubois-Lacoste, Jérémie; Pérez Cáceres, Leslie; Stützle, Thomas; Birattari, Mauro (2016). "El paquete irace: carreras iteradas para configuración automática de algoritmos" . Perspectiva de la investigación de operaciones (3): 43–58. doi : 10.1016 / j.orp.2016.09.002 .
^ a b Birattari, Mauro; Stützle, Thomas; Paquete, Luis; Varrentrapp, Klaus (2002). "Un algoritmo de carreras para configurar metaheurísticas". GECCO 2002 : 11–18.
^ Jamieson, Kevin; Talwalkar, Ameet (27 de febrero de 2015). "Mejor identificación de brazo no estocástico y optimización de hiperparámetros". arXiv : 1502.07943 [ cs.LG ].
^ Li, Liam; Jamieson, Kevin; Rostamizadeh, Afshin; Gonina, Ekaterina; Hardt, Moritz; Recht, Benjamin; Talwalkar, Ameet (16 de marzo de 2020). "Un sistema para el ajuste de hiperparámetros masivamente paralelo". arXiv : 1810.05934v5 .
^ Li, Lisha; Jamieson, Kevin; DeSalvo, Giulia; Rostamizadeh, Afshin; Talwalkar, Ameet (16 de marzo de 2020). "Hiperbanda: un enfoque novedoso basado en bandidos para la optimización de hiperparámetros". arXiv : 1603.06560v4 .
^ a b Díaz, Gonzalo; Fokoue, Achille; Nannicini, Giacomo; Samulowitz, Horst (2017). "Un algoritmo eficaz para la optimización de hiperparámetros de redes neuronales". arXiv : 1705.08520 [ cs.AI ].
^ a b Hazan, Elad; Klivans, Adam; Yuan, Yang (2017). "Optimización de hiperparámetros: un enfoque espectral". arXiv : 1706.00764 [ cs.LG ].
^ Feurer M, Klein A, Eggensperger K, Springenberg J, Blum M, Hutter F (2015). "Aprendizaje automático automatizado eficiente y robusto" . Avances en los sistemas de procesamiento de información neuronal 28 (NIPS 2015) : 2962–2970.
^ "Axe y BoTorch de código abierto: nuevas herramientas de inteligencia artificial para la experimentación adaptativa" . 2019.
^ Baptista, Ricardo; Poloczek, Matthias (2018). "Optimización bayesiana de estructuras combinatorias". arXiv : 1806.08838 [ stat.ML ].
^ Falkner, Stefan; Klein, Aaron; Hutter, Frank (2018). "BOHB: Optimización de hiperparámetros robusta y eficiente a escala". arXiv : 1807.01774 [ stat.ML ].
^ "documentación de la API de skopt" . scikit-optimize.github.io .
^ Hutter F, Hoos HH, Leyton-Brown K. "Optimización basada en modelos secuenciales para la configuración de algoritmos generales" (PDF) . Actas de la Conferencia sobre Aprendizaje y Optimización Inteligente (LION 5) .
^ a b "[PREGUNTA] Cómo utilizar para optimizar los hiperparámetros NN · Problema # 1 · facebookresearch / nevergrad” . GitHub .
^ a b "Nevergrad: una herramienta de código abierto para la optimización sin derivados" . 20 de diciembre de 2018.
^ "Un conjunto de herramientas para hacer aplicaciones de análisis de datos y aprendizaje automático en el mundo real en C ++: davisking / dlib" . 25 de febrero de 2019 - a través de GitHub.
^ King, Davis. "Un algoritmo de optimización global que vale la pena usar" .

[abs1502.02127-1] Claesen, Marc; Bart De Moor (2015). "Búsqueda de hiperparámetros en Machine Learning". arXiv : 1502.02127 [ cs.LG ].

[bergstra-2] Bergstra, James; Bengio, Yoshua (2012). "Búsqueda aleatoria para la optimización de hiperparámetros" (PDF) . Revista de investigación sobre aprendizaje automático . 13 : 281-305.

[3] Chin-Wei Hsu, Chih-Chung Chang y Chih-Jen Lin (2010). Una guía práctica para apoyar la clasificación de vectores . Informe técnico, Universidad Nacional de Taiwán .

[4] Chicco D (diciembre de 2017). "Diez consejos rápidos para el aprendizaje automático en biología computacional" . Minería de Biodatos . 10 (35): 35. doi : 10.1186 / s13040-017-0155-3 . PMC 5721660 . PMID 29234465 .

[5] Ziyu, Wang; Frank, Hutter; Masrour, Zoghi; David, Matheson; Nando, de Feitas (2016). "Optimización bayesiana en mil millones de dimensiones mediante incrustaciones aleatorias". Revista de Investigación en Inteligencia Artificial . 55 : 361–387. arXiv : 1301.1942 . doi : 10.1613 / jair.4806 .

[hutter-6] Hutter, Frank; Hoos, Holger; Leyton-Brown, Kevin (2011), "Optimización basada en modelos secuenciales para la configuración de algoritmos generales" (PDF) , Aprendizaje y optimización inteligente , Lecture Notes in Computer Science, 6683 : 507–523, CiteSeerX 10.1.1.307.8813 , doi : 10.1007 / 978-3-642-25566-3_40 , ISBN 978-3-642-25565-6

[bergstra11-7] Bergstra, James; Bardenet, Remi; Bengio, Yoshua; Kegl, Balazs (2011), "Algoritmos para la optimización de hiperparámetros " (PDF) , Avances en los sistemas de procesamiento de información neuronal

[snoek-8] Snoek, Jasper; Larochelle, Hugo; Adams, Ryan (2012). "Práctica optimización bayesiana de algoritmos de aprendizaje automático" (PDF) . Avances en sistemas de procesamiento de información neuronal . arXiv : 1206.2944 . Código bibliográfico : 2012arXiv1206.2944S .

[thornton-9] Thornton, Chris; Hutter, Frank; Hoos, Holger; Leyton-Brown, Kevin (2013). "Auto-WEKA: Selección combinada y optimización de hiperparámetros de algoritmos de clasificación" (PDF) . Descubrimiento de conocimiento y minería de datos . arXiv : 1208.3719 . Código bibliográfico : 2012arXiv1208.3719T .

[10] Larsen, Jan; Hansen, Lars Kai; Svarer, Claus; Ohlsson, M (1996). "Diseño y regularización de redes neuronales: el uso óptimo de un conjunto de validación" (PDF) . Actas del taller de 1996 de la sociedad de procesamiento de señales IEEE : 62–71. CiteSeerX 10.1.1.415.3266 . doi : 10.1109 / NNSP.1996.548336 . ISBN 0-7803-3550-3.

[11] Olivier Chapelle; Vladimir Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "Elección de múltiples parámetros para máquinas de vectores de soporte" (PDF) . Aprendizaje automático . 46 : 131-159. doi : 10.1023 / a: 1012450327387 .

[12] Chuong B; Chuan-Sheng Foo; Andrew Y Ng (2008). "Aprendizaje eficiente de múltiples hiperparámetros para modelos log-lineales" (PDF) . Avances en los sistemas de procesamiento de información neuronal 20 .

[13] Domke, Justin (2012). "Métodos genéricos para el modelado basado en optimización" (PDF) . Aistats . 22 .

[abs1502.03492-14] Maclaurin, Douglas; Duvenaud, David; Adams, Ryan P. (2015). "Optimización de hiperparámetros basada en gradientes mediante aprendizaje reversible". arXiv : 1502.03492 [ stat.ML ].

[15] Franceschi, Luca; Donini, Michele; Frasconi, Paolo; Pontil, Massimiliano (2017). "Optimización de hiperparámetros basada en gradientes hacia adelante y hacia atrás" (PDF) . Actas de la 34a Conferencia Internacional sobre Aprendizaje Automático . arXiv : 1703.01785 . Código Bib : 2017arXiv170301785F .

[kousiouris1-16] Kousiouris G, Cuccinotta T, Varvarigou T (2011). "Los efectos de la programación, el tipo de carga de trabajo y los escenarios de consolidación sobre el rendimiento de la máquina virtual y su predicción a través de redes neuronales artificiales optimizadas" . Revista de sistemas y software . 84 (8): 1270-1291.

[miikkulainen1-17] Miikkulainen R, Liang J, Meyerson E, Rawal A, Fink D, Francon O, Raju B, Shahrzad H, Navruzyan A, Duffy N, Hodjat B (2017). "Evolución de las redes neuronales profundas". arXiv : 1703,00548 [ cs.NE ].

[jaderberg1-18] Jaderberg M, Dalibard V, Osindero S, Czarnecki WM, Donahue J, Razavi A, Vinyals O, Green T, Dunning I, Simonyan K, Fernando C, Kavukcuoglu K (2017). "Entrenamiento poblacional de redes neuronales". arXiv : 1711.09846 [ cs.LG ].

[such1-19] Tal FP, Madhavan V, Conti E, Lehman J, Stanley KO, Clune J (2017). "Neuroevolución profunda: los algoritmos genéticos son una alternativa competitiva para el entrenamiento de redes neuronales profundas para el aprendizaje por refuerzo". arXiv : 1712.06567 [ cs.NE ].

[20] Li, Ang; Spyra, Ola; Perel, Sagi; Dalibard, Valentin; Jaderberg, Max; Gu, Chenjie; Budden, David; Harley, Tim; Gupta, Pramod (5 de febrero de 2019). "Un marco generalizado para la formación basada en la población". arXiv : 1902.01894 [ cs.AI ].

[irace-21] López-Ibáñez, Manuel; Dubois-Lacoste, Jérémie; Pérez Cáceres, Leslie; Stützle, Thomas; Birattari, Mauro (2016). "El paquete irace: carreras iteradas para configuración automática de algoritmos" . Perspectiva de la investigación de operaciones (3): 43–58. doi : 10.1016 / j.orp.2016.09.002 .

[race-22] Birattari, Mauro; Stützle, Thomas; Paquete, Luis; Varrentrapp, Klaus (2002). "Un algoritmo de carreras para configurar metaheurísticas". GECCO 2002 : 11–18.

[23] Jamieson, Kevin; Talwalkar, Ameet (27 de febrero de 2015). "Mejor identificación de brazo no estocástico y optimización de hiperparámetros". arXiv : 1502.07943 [ cs.LG ].

[24] Li, Liam; Jamieson, Kevin; Rostamizadeh, Afshin; Gonina, Ekaterina; Hardt, Moritz; Recht, Benjamin; Talwalkar, Ameet (16 de marzo de 2020). "Un sistema para el ajuste de hiperparámetros masivamente paralelo". arXiv : 1810.05934v5 .

[25] Li, Lisha; Jamieson, Kevin; DeSalvo, Giulia; Rostamizadeh, Afshin; Talwalkar, Ameet (16 de marzo de 2020). "Hiperbanda: un enfoque novedoso basado en bandidos para la optimización de hiperparámetros". arXiv : 1603.06560v4 .

[abs1705.08520-26] Díaz, Gonzalo; Fokoue, Achille; Nannicini, Giacomo; Samulowitz, Horst (2017). "Un algoritmo eficaz para la optimización de hiperparámetros de redes neuronales". arXiv : 1705.08520 [ cs.AI ].

[abs1706.00764-27] Hazan, Elad; Klivans, Adam; Yuan, Yang (2017). "Optimización de hiperparámetros: un enfoque espectral". arXiv : 1706.00764 [ cs.LG ].

[autosklearn-28] Feurer M, Klein A, Eggensperger K, Springenberg J, Blum M, Hutter F (2015). "Aprendizaje automático automatizado eficiente y robusto" . Avances en los sistemas de procesamiento de información neuronal 28 (NIPS 2015) : 2962–2970.

[AxBoTorch-29] "Axe y BoTorch de código abierto: nuevas herramientas de inteligencia artificial para la experimentación adaptativa" . 2019.

[arXiv:1806.08838-30] Baptista, Ricardo; Poloczek, Matthias (2018). "Optimización bayesiana de estructuras combinatorias". arXiv : 1806.08838 [ stat.ML ].

[arXiv:1807.01774-31] Falkner, Stefan; Klein, Aaron; Hutter, Frank (2018). "BOHB: Optimización de hiperparámetros robusta y eficiente a escala". arXiv : 1807.01774 [ stat.ML ].

[skopt-32] "documentación de la API de skopt" . scikit-optimize.github.io .

[SMAC-33] Hutter F, Hoos HH, Leyton-Brown K. "Optimización basada en modelos secuenciales para la configuración de algoritmos generales" (PDF) . Actas de la Conferencia sobre Aprendizaje y Optimización Inteligente (LION 5) .

[nevergrad_issue1-34] "[PREGUNTA] Cómo utilizar para optimizar los hiperparámetros NN · Problema # 1 · facebookresearch / nevergrad” . GitHub .

[nevergrad-35] "Nevergrad: una herramienta de código abierto para la optimización sin derivados" . 20 de diciembre de 2018.

[dlib_github-36] "Un conjunto de herramientas para hacer aplicaciones de análisis de datos y aprendizaje automático en el mundo real en C ++: davisking / dlib" . 25 de febrero de 2019 - a través de GitHub.

[dlib_blog-37] King, Davis. "Un algoritmo de optimización global que vale la pena usar" .

[1]