Un modelo basado en energía (MBE) es una forma de modelo generativo (GM) importado directamente de la física estadística al aprendizaje. Los GM aprenden una distribución de datos subyacente al analizar un conjunto de datos de muestra. Una vez entrenado, un DJ puede producir otros conjuntos de datos que también coincidan con la distribución de datos. [1] Las MBE proporcionan un marco unificado para muchos enfoques probabilísticos y no probabilísticos de dicho aprendizaje, en particular para el entrenamiento de modelos gráficos y otros modelos estructurados. [2]
Un EBM aprende las características de un conjunto de datos de destino y genera un conjunto de datos similar pero más grande. Los MBE detectan las variables latentes de un conjunto de datos y generan nuevos conjuntos de datos con una distribución similar. [2]
Las aplicaciones de destino incluyen procesamiento del lenguaje natural , robótica y visión por computadora . [2]
Historia
Los primeros trabajos sobre MBE propusieron modelos que representaban la energía como una composición de variables latentes y observables. Las MBE aparecieron en 2003. [3]
Acercarse
Los MBE capturan dependencias asociando un escalar de probabilidad no normalizado ( energía ) a cada configuración de la combinación de variables observadas y latentes. La inferencia consiste en encontrar (valores de) variables latentes que minimizan la energía dado un conjunto de (valores de) las variables observadas. De manera similar, el modelo aprende una función que asocia energías bajas a valores correctos de las variables latentes y energías más altas a valores incorrectos. [2]
Los EBM tradicionales se basan en métodos de optimización de descenso de gradiente estocástico (SGD) que suelen ser difíciles de aplicar a conjuntos de datos de gran dimensión. En 2019, OpenAI publicó una variante que en su lugar utilizaba dinámica de Langevin (LD). LD es un algoritmo de optimización iterativo que introduce ruido en el estimador como parte del aprendizaje de una función objetivo . Se puede utilizar para escenarios de aprendizaje bayesiano produciendo muestras a partir de una distribución posterior. [2]
Las EBM no requieren que las energías se normalicen como probabilidades. En otras palabras, las energías no necesitan sumar 1. Dado que no hay necesidad de estimar la constante de normalización como lo hacen los modelos probabilísticos, ciertas formas de inferencia y aprendizaje con MBE son más manejables y flexibles. [2]
Las muestras se generan implícitamente mediante un enfoque de Monte Carlo de cadena de Markov . [4] Se utiliza un búfer de reproducción de imágenes pasadas con LD para inicializar el módulo de optimización. [2]
Caracteristicas
Los MBE demuestran propiedades útiles: [2]
- Sencillez y estabilidad: el EBM es el único objeto que debe diseñarse y entrenarse. No es necesario entrenar redes separadas para garantizar el equilibrio.
- Tiempo de cálculo adaptable: una EBM puede generar muestras nítidas y diversas o (más rápidamente) muestras menos diversas y poco diversas. Dado un tiempo infinito, este procedimiento produce muestras verdaderas. [1]
- Flexibilidad: en los codificadores automáticos variacionales (VAE) y los modelos basados en flujo, el generador aprende un mapa de un espacio continuo a un espacio (posiblemente) discontinuo que contiene diferentes modos de datos. Los EBM pueden aprender a asignar bajas energías a regiones inconexas (modos múltiples).
- Generación adaptativa: los generadores de EBM se definen implícitamente por la distribución de probabilidad y se adaptan automáticamente a medida que cambia la distribución (sin entrenamiento), lo que permite a los EBM abordar dominios donde el entrenamiento del generador no es práctico, así como minimizar el colapso de modo y evitar modos espurios de -muestras de distribución. [4]
- Composicionalidad: los modelos individuales son distribuciones de probabilidad no normalizadas, lo que permite que los modelos se combinen mediante el producto de expertos u otras técnicas jerárquicas.
Resultados experimentales
En conjuntos de datos de imágenes como CIFAR-10 e ImageNet 32x32, un modelo EBM generó imágenes de alta calidad con relativa rapidez. Admitía la combinación de funciones aprendidas de un tipo de imagen para generar otros tipos de imágenes. Pudo generalizar utilizando conjuntos de datos fuera de distribución, superando los modelos basados en flujo y autorregresivos . La MBE fue relativamente resistente a las perturbaciones adversas y se comportó mejor que los modelos entrenados explícitamente contra ellas con entrenamiento para la clasificación. [2]
Alternativas
Los MBE compiten con técnicas como los VAE o las redes neuronales generativas adversarias (GAN). [2]
Ver también
Referencias
- ^ a b "Métodos implícitos de generación y generalización para modelos basados en energía" . OpenAI . 2019-03-21 . Consultado el 27 de diciembre de 2019 .
- ^ a b c d e f g h yo j Rodríguez, Jesús (1 de abril de 2019). "Generación de conjuntos de datos de entrenamiento utilizando modelos basados en energía que realmente escalan" . Medio . Consultado el 27 de diciembre de 2019 .
- ^ LeCun, Yann (septiembre de 2003). "CBLL, Proyectos de investigación, Laboratorio de aprendizaje biológico y computacional, Instituto Courant, NYU" . cs.nyu.edu . Consultado el 27 de diciembre de 2019 .
- ^ a b Du, Yilun; Mordatch, Igor (20 de marzo de 2019). "Generación implícita y generalización en modelos basados en energía". arXiv : 1903.08689 [ cs.LG ].
enlaces externos
- "Escuela de Verano CIAR NCAP" . www.cs.toronto.edu . Consultado el 27 de diciembre de 2019 .
- Dayan, Peter; Hinton, Geoffrey; Neal, Radford; Zemel, Richard S. (1999), "Helmholtz Machine", Aprendizaje no supervisado , The MIT Press, doi : 10.7551 / mitpress / 7011.003.0017 , ISBN 978-0-262-28803-3
- Hinton, Geoffrey E. (agosto de 2002). "Productos de formación de expertos minimizando la divergencia contrastiva". Computación neuronal . 14 (8): 1771-1800. doi : 10.1162 / 089976602760128018 . ISSN 0899-7667 . PMID 12180402 .
- Salakhutdinov, Ruslan; Hinton, Geoffrey (15 de abril de 2009). "Máquinas profundas de Boltzmann" . Inteligencia artificial y estadística : 448–455.