MuZero es un programa informático desarrollado por la empresa de investigación de inteligencia artificial DeepMind para dominar los juegos sin conocer sus reglas. [1] [2] [3] Su lanzamiento en 2019 incluyó puntos de referencia de su desempeño en go , ajedrez , shogi y una suite estándar de juegos de Atari . El algoritmo utiliza un enfoque similar a AlphaZero . Coincidió con el rendimiento de AlphaZero en ajedrez y shogi, mejoró su rendimiento en Go (estableciendo un nuevo récord mundial) y mejorando el estado del arte en el dominio de un conjunto de 57 juegos de Atari (el Entorno de aprendizaje de Arcade), un dominio visualmente complejo.
MuZero fue entrenado a través del juego automático y el juego contra AlphaZero, sin acceso a reglas, libros de apertura o tablas de finales. El algoritmo entrenado utilizó los mismos algoritmos convolucionales y residuales que AlphaZero, pero con un 20% menos de pasos de cálculo por nodo en el árbol de búsqueda. [4]
Historia
MuZero realmente está descubriendo por sí mismo cómo construir un modelo y entenderlo desde los primeros principios.
- David Silver, DeepMind, Wired [5]
El 19 de noviembre de 2019, el equipo de DeepMind lanzó una preimpresión que presenta a MuZero.
Derivación de AlphaZero
MuZero (MZ) es una combinación de la planificación de alto rendimiento del algoritmo AlphaZero (AZ) con enfoques para el aprendizaje por refuerzo sin modelos. La combinación permite un entrenamiento más eficiente en regímenes de planificación clásicos, como Go, al mismo tiempo que maneja dominios con entradas mucho más complejas en cada etapa, como los videojuegos visuales.
MuZero se derivó directamente del código AZ, compartiendo sus reglas para establecer hiperparámetros . Las diferencias entre los enfoques incluyen: [6]
- El proceso de planificación de AZ utiliza un simulador . El simulador conoce las reglas del juego. Tiene que estar programado explícitamente. Una red neuronal entonces predice la política y el valor de una posición futura. El conocimiento perfecto de las reglas del juego se utiliza para modelar las transiciones de estado en el árbol de búsqueda, las acciones disponibles en cada nodo y la terminación de una rama del árbol. MZ no tiene acceso a las reglas y, en cambio, aprende una con redes neuronales.
- AZ tiene un modelo único para el juego (desde el estado del tablero hasta las predicciones); MZ tiene modelos separados para la representación del estado actual (desde el estado de la junta hasta su incrustación interna), la dinámica de los estados (cómo las acciones cambian las representaciones de los estados de la junta) y la predicción de la política y el valor de una posición futura (dada la representación de un estado).
- El modelo oculto de MZ puede ser complejo y puede resultar que pueda albergar computación; explorar los detalles del modelo oculto en una instancia entrenada de MZ es un tema de exploración futura.
- MZ no espera un juego de dos jugadores en el que los ganadores se lo lleven todo. Funciona con escenarios estándar de aprendizaje por refuerzo, incluidos entornos de agente único con recompensas intermedias continuas, posiblemente de magnitud arbitraria y con descuento de tiempo. AZ fue diseñado para juegos de dos jugadores que se pueden ganar, empatar o perder.
Comparación con R2D2
La técnica anterior de última generación para aprender a jugar con la suite de juegos de Atari era R2D2, el DQN distribuido de repetición recurrente. [7]
MuZero superó el rendimiento medio y medio de R2D2 en todo el conjunto de juegos, aunque no lo hizo mejor en todos los juegos.
Formación y resultados
MuZero usó 16 unidades de procesamiento tensorial (TPU) de tercera generación para el entrenamiento y 1000 TPU para el juego automático (para juegos de mesa, con 800 simulaciones por paso) y 8 TPU para el entrenamiento y 32 TPU para el juego personal (para juegos Atari, con 50 simulaciones por paso).
AlphaZero usó 64 TPU de primera generación para el entrenamiento y 5000 TPU de segunda generación para el juego. A medida que el diseño de TPU ha mejorado (los chips de tercera generación son 2 veces más potentes individualmente que los de segunda generación, con más avances en el ancho de banda y la conexión en red a través de chips en un módulo), estas son configuraciones de entrenamiento comparables.
R2D2 fue entrenado durante 5 días a través de 2M pasos de entrenamiento.
Resultados iniciales
MuZero igualó el desempeño de AlphaZero en ajedrez y Shogi después de aproximadamente 1 millón de pasos de entrenamiento. Coincidió con el rendimiento de AZ en Go después de 500 mil pasos de entrenamiento y lo superó en 1 millón de pasos. [6] Coincidió con el rendimiento medio y medio de R2D2 en la suite de juegos Atari después de 500 mil pasos de entrenamiento, y lo superó en 1 millón de pasos; aunque nunca funcionó bien en 6 juegos de la suite.
MuZero fue visto como un avance significativo sobre AlphaZero, [8] y un paso adelante generalizable en técnicas de aprendizaje sin supervisión. [9] [10] El trabajo fue visto como un avance en la comprensión de cómo componer sistemas a partir de componentes más pequeños, un desarrollo a nivel de sistemas más que un desarrollo de aprendizaje automático puro. [11]
Si bien el equipo de desarrollo solo lanzó un pseudocódigo, Werner Duvaud produjo una implementación de código abierto basada en eso. [12]
MuZero se ha utilizado como implementación de referencia en otros trabajos, por ejemplo, como una forma de generar un comportamiento basado en modelos. [13]
Ver también
Referencias
- ^ Peluquerías, Kyle. "MuZero de DeepMind se enseña a sí mismo a ganar en Atari, ajedrez, shogi y Go" . VentureBeat . Consultado el 22 de julio de 2020 .
- ^ Friedel, Frederic. "MuZero descubre el ajedrez, las reglas y todo" . ChessBase GmbH . Consultado el 22 de julio de 2020 .
- ^ Rodríguez, Jesús. "DeepMind presenta MuZero, un nuevo agente que dominó el ajedrez, el shogi, el Atari y no conocía las reglas" . KDnuggets . Consultado el 22 de julio de 2020 .
- ^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis; Graepel, Thore; Lillicrap, Timothy (2020). "Dominar Atari, Go, ajedrez y shogi mediante la planificación con un modelo aprendido". Naturaleza . 588 (7839): 604–609. arXiv : 1911.08265 . Código Bib : 2020Natur.588..604S . doi : 10.1038 / s41586-020-03051-4 . PMID 33361790 . S2CID 208158225 .
- ^ "Lo que AlphaGo puede enseñarnos sobre cómo aprenden las personas" . Cableado . ISSN 1059-1028 . Consultado el 25 de diciembre de 2020 .
- ^ a b Silver, David ; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan ; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 de diciembre de 2017). "Dominar el ajedrez y el shogi por auto-juego con un algoritmo de aprendizaje de refuerzo general". arXiv : 1712.01815 [ cs.AI ].
- ^ Kapturowski, Steven; Ostrovski, Georg; Quan, John; Munos, Remi; Dabney, Will. REPRODUCCIÓN DE EXPERIENCIA RECURRENTE EN APRENDIZAJE DE REFUERZO DISTRIBUIDO . ICLR 2019 - a través de Open Review.
- ^ Acortar, Connor (18 de enero de 2020). "La evolución de AlphaGo a MuZero" . Medio . Consultado el 7 de junio de 2020 .
- ^ "[AN # 75]: Resolviendo Atari and Go con modelos de juegos aprendidos y pensamientos de un empleado de MIRI - LessWrong 2.0" . www.lesswrong.com . Consultado el 7 de junio de 2020 .
- ^ Wu, junio. "Aprendizaje por refuerzo, socio del aprendizaje profundo" . Forbes . Consultado el 15 de julio de 2020 .
- ^ "Machine Learning & Robotics: My (parcial) 2019 State of the Field" . cachestocaches.com . Consultado el 15 de julio de 2020 .
- ^ Duvaud, Werner (2020-07-15), werner-duvaud / muzero-general , consultado el 2020-07-15
- ^ van Seijen, Harm; Nekoei, Hadi; Racah, Evan; Chandar, Sarath (6 de julio de 2020). "El arrepentimiento de LoCA: una métrica coherente para evaluar el comportamiento basado en modelos en el aprendizaje por refuerzo". arXiv : 2007.03158 [ cs.stat ].
enlaces externos
- Preimpresión inicial de MuZero .
- Implementaciones de código abierto