AlphaGo Zero es una versión del software Go de DeepMind , AlphaGo . El equipo de AlphaGo publicó un artículo en la revista Nature el 19 de octubre de 2017, presentando AlphaGo Zero, una versión creada sin usar datos de juegos humanos y más fuerte que cualquier versión anterior. [1] Al jugar contra sí mismo, AlphaGo Zero superó la fuerza de AlphaGo Lee en tres días al ganar 100 juegos a 0, alcanzó el nivel de AlphaGo Master en 21 días y superó todas las versiones antiguas en 40 días. [2]
El entrenamiento de inteligencia artificial (IA) sin conjuntos de datos derivados de expertos humanos tiene implicaciones significativas para el desarrollo de IA con habilidades sobrehumanas porque los datos de expertos son "a menudo costosos, poco confiables o simplemente no disponibles". [3] Demis Hassabis , cofundador y CEO de DeepMind, dijo que AlphaGo Zero era tan poderoso porque "ya no estaba limitado por los límites del conocimiento humano". [4] David Silver , uno de los primeros autores de los artículos de DeepMind publicados en Nature en AlphaGo, dijo que es posible tener algoritmos de IA generalizados eliminando la necesidad de aprender de los humanos. [5]
Más tarde, Google desarrolló AlphaZero , una versión generalizada de AlphaGo Zero que podía jugar ajedrez y Shōgi además de Go. En diciembre de 2017, AlphaZero venció a la versión de 3 días de AlphaGo Zero al ganar 60 juegos a 40, y con 8 horas de entrenamiento superó a AlphaGo Lee en una escala Elo . AlphaZero también derrotó a uno de los mejores programas de ajedrez ( Stockfish ) y a uno de los mejores programas de Shōgi ( Elmo ). [6] [7]
Capacitación
La red neuronal de AlphaGo Zero se entrenó con TensorFlow , con 64 trabajadores de GPU y 19 servidores de parámetros de CPU. Solo se utilizaron cuatro TPU para la inferencia. La red neuronal inicialmente no sabía nada sobre Ir más allá de las reglas . A diferencia de las versiones anteriores de AlphaGo, Zero solo percibía las piedras del tablero, en lugar de tener algunos casos de borde raros programados por humanos para ayudar a reconocer las posiciones inusuales del tablero Go. La IA participó en el aprendizaje por refuerzo , jugando contra sí misma hasta que pudo anticipar sus propios movimientos y cómo esos movimientos afectarían el resultado del juego. [8] En los primeros tres días AlphaGo Zero jugó 4.9 millones de juegos contra sí mismo en rápida sucesión. [9] Parecía desarrollar las habilidades necesarias para vencer a los mejores humanos en unos pocos días, mientras que el AlphaGo anterior requería meses de entrenamiento para alcanzar el mismo nivel. [10]
A modo de comparación, los investigadores también entrenaron una versión de AlphaGo Zero usando juegos humanos, AlphaGo Master, y descubrieron que aprendía más rápido, pero en realidad se desempeñaba peor a largo plazo. [11] DeepMind presentó sus hallazgos iniciales en un artículo a Nature en abril de 2017, que luego se publicó en octubre de 2017. [1]
Costo de hardware
El costo de hardware para un solo sistema AlphaGo Zero en 2017, incluidas las cuatro TPU, se ha estimado en alrededor de $ 25 millones. [12]
Aplicaciones
Según Hassabis, es probable que los algoritmos de AlphaGo sean los más beneficiosos para los dominios que requieren una búsqueda inteligente a través de un enorme espacio de posibilidades, como el plegamiento de proteínas (ver AlphaFold ) o la simulación precisa de reacciones químicas. [13] Las técnicas de AlphaGo son probablemente menos útiles en dominios que son difíciles de simular, como aprender a conducir un automóvil. [14] DeepMind declaró en octubre de 2017 que ya había comenzado a trabajar activamente para intentar utilizar la tecnología AlphaGo Zero para el plegamiento de proteínas, y declaró que pronto publicaría nuevos hallazgos. [15] [16]
Recepción
AlphaGo Zero fue ampliamente considerado como un avance significativo, incluso en comparación con su innovador predecesor, AlphaGo. Oren Etzioni, del Instituto Allen de Inteligencia Artificial, calificó a AlphaGo Zero como "un resultado técnico muy impresionante" en "tanto su capacidad para hacerlo como su capacidad para entrenar el sistema en 40 días, en cuatro TPU". [8] The Guardian lo calificó como un "gran avance para la inteligencia artificial", citando a Eleni Vasilaki de la Universidad de Sheffield y Tom Mitchell de la Universidad Carnegie Mellon , quienes lo calificaron como una hazaña impresionante y un "logro de ingeniería sobresaliente" respectivamente. [14] Mark Pesce de la Universidad de Sydney llamó AlphaGo Zero "un gran avance tecnológico" que nos lleva a un "territorio por descubrir". [17]
Gary Marcus , psicólogo de la Universidad de Nueva York , advirtió que, por lo que sabemos, AlphaGo puede contener "conocimiento implícito que los programadores tienen sobre cómo construir máquinas para reproducir problemas como Go" y deberá probarse en otros dominios antes de ser seguro que su arquitectura base es efectiva en mucho más que jugar a Go. Por el contrario, DeepMind está "seguro de que este enfoque se puede generalizar a una gran cantidad de dominios". [9]
En respuesta a los informes, el profesional surcoreano de Go, Lee Sedol , dijo: "La versión anterior de AlphaGo no era perfecta, y creo que por eso se hizo AlphaGo Zero". Sobre el potencial para el desarrollo de AlphaGo, Lee dijo que tendrá que esperar y ver, pero también dijo que afectará a los jugadores jóvenes de Go. Mok Jin-seok , quien dirige el equipo nacional de Go de Corea del Sur, dijo que el mundo de Go ya ha estado imitando los estilos de juego de versiones anteriores de AlphaGo y creando nuevas ideas a partir de ellos, y tiene la esperanza de que surjan nuevas ideas de AlphaGo Zero. . Mok también agregó que las tendencias generales en el mundo de Go ahora están siendo influenciadas por el estilo de juego de AlphaGo. "Al principio, era difícil de entender y casi sentí que estaba jugando contra un extraterrestre. Sin embargo, habiendo tenido una gran cantidad de experiencia, me he acostumbrado", dijo Mok. "Ahora hemos pasado el punto en el que debatimos la brecha entre la capacidad de AlphaGo y los humanos. Ahora es entre computadoras". Según los informes, Mok ya ha comenzado a analizar el estilo de juego de AlphaGo Zero junto con los jugadores del equipo nacional. "A pesar de haber visto solo unos pocos partidos, tuvimos la impresión de que AlphaGo Zero juega más como un humano que sus predecesores", dijo Mok. [18] Profesional de Chinese Go, Ke Jie comentó sobre los logros notables del nuevo programa: "Un AlphaGo de autoaprendizaje puro es el más fuerte. Los humanos parecen redundantes frente a su superación personal". [19]
Comparación con predecesores
Versiones | Reproducción de hardware [21] | Calificación Elo | Partidos |
---|---|---|---|
Ventilador AlphaGo | 176 GPU , [2] distribuidas | 3,144 [1] | 5: 0 contra Fan Hui |
AlphaGo Lee | 48 TPU , [2] distribuidas | 3.739 [1] | 4: 1 contra Lee Sedol |
Maestro AlphaGo | 4 TPU, [2] una sola máquina | 4.858 [1] | 60: 0 contra jugadores profesionales; Cumbre Future of Go |
AlphaGo Zero (40 días) | 4 TPU, [2] una sola máquina | 5.185 [1] | 100: 0 contra AlphaGo Lee 89:11 contra AlphaGo Master |
AlphaZero (34 horas) | 4 TPU, una sola máquina [6] | 4.430 (estimado) [6] | 60:40 contra un AlphaGo Zero de 3 días |
AlphaZero
El 5 de diciembre de 2017, el equipo de DeepMind publicó una versión preliminar de arXiv , presentando AlphaZero, un programa que utiliza el enfoque generalizado de AlphaGo Zero, que logró en 24 horas un nivel de juego sobrehumano en ajedrez , shogi y Go , derrotando a los programas de campeones mundiales, Stockfish , Elmo y la versión de 3 días de AlphaGo Zero en cada caso. [6]
AlphaZero (AZ) es una variante más generalizada del algoritmo AlphaGo Zero (AGZ) , y puede jugar shogi y ajedrez además de Go. Las diferencias entre AZ y AGZ incluyen: [6]
- AZ tiene reglas codificadas para establecer hiperparámetros de búsqueda .
- La red neuronal ahora se actualiza continuamente.
- El ajedrez (a diferencia del Go) puede terminar en empate; por tanto, AZ puede tener en cuenta la posibilidad de un empate.
Está disponible un programa de código abierto , Leela Zero , basado en las ideas de los artículos de AlphaGo. Utiliza una GPU en lugar de las TPU en las que se basan las versiones recientes de AlphaGo.
Referencias
- ^ a b c d e f Silver, David ; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja ; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian ; Lillicrap, Timothy; Fan, Hui ; Sifre, Laurent; Driessche, George van den; Graepel, Thore; Hassabis, Demis (19 de octubre de 2017). "Dominar el juego de Go sin conocimiento humano" (PDF) . Naturaleza . 550 (7676): 354–359. Código Bib : 2017Natur.550..354S . doi : 10.1038 / nature24270 . ISSN 0028-0836 . PMID 29052630 . S2CID 205261034 .
- ^ a b c d e Hassabis, Demis ; Siver, David (18 de octubre de 2017). "AlphaGo Zero: Aprendiendo desde cero" . Sitio web oficial de DeepMind . Consultado el 19 de octubre de 2017 .
- ^ "El nuevo avance AlphaGo de Google podría llevar algoritmos donde ningún humano ha ido" . Yahoo! Finanzas . 19 de octubre de 2017 . Consultado el 19 de octubre de 2017 .
- ^ Knapton, Sarah (18 de octubre de 2017). "AlphaGo Zero: superordenador Google DeepMind aprende 3.000 años de conocimiento humano en 40 días" . El telégrafo . Consultado el 19 de octubre de 2017 .
- ^ "DeepMind AlphaGo Zero aprende por sí solo sin la intervención de la bolsa de carne" . ZDNet . 19 de octubre de 2017 . Consultado el 20 de octubre de 2017 .
- ^ a b c d e Silver, David ; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan ; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5 de diciembre de 2017). "Dominar el ajedrez y el shogi por auto-juego con un algoritmo de aprendizaje de refuerzo general". arXiv : 1712.01815 [ cs.AI ].
- ^ Knapton, Sarah; Watson, León (6 de diciembre de 2017). "Todo el conocimiento del ajedrez humano aprendido y superado por AlphaZero de DeepMind en cuatro horas" . El telégrafo .
- ^ a b Greenemeier, Larry. "AI versus AI: AlphaGo Zero autodidacta vence a su predecesor" . Scientific American . Consultado el 20 de octubre de 2017 .
- ^ a b "La computadora aprende a jugar a ir a niveles sobrehumanos 'sin conocimiento humano ' " . NPR . 18 de octubre de 2017 . Consultado el 20 de octubre de 2017 .
- ^ "El nuevo avance AlphaGo de Google podría llevar algoritmos donde ningún humano ha ido" . Fortuna . 19 de octubre de 2017 . Consultado el 20 de octubre de 2017 .
- ^ "Este programa de computadora puede vencer a los humanos en Go, sin instrucción humana" . Ciencia | AAAS . 18 de octubre de 2017 . Consultado el 20 de octubre de 2017 .
- ^ Gibney, Elizabeth (18 de octubre de 2017). "La IA autodidacta es la mejor en el juego de estrategia Go" . Nature News . doi : 10.1038 / nature.2017.22858 . Consultado el 10 de mayo de 2020 .
- ^ "La inteligencia artificial más reciente puede resolver las cosas sin que se les enseñe" . The Economist . Consultado el 20 de octubre de 2017 .
- ^ a b Sample, Ian (18 de octubre de 2017). " ' Es capaz de crear conocimiento por sí mismo': Google presenta IA que aprende por sí misma" . The Guardian . Consultado el 20 de octubre de 2017 .
- ^ " ' Es capaz de crear conocimiento por sí mismo': Google presenta IA que aprende por sí misma" . The Guardian . 18 de octubre de 2017 . Consultado el 26 de diciembre de 2017 .
- ^ Knapton, Sarah (18 de octubre de 2017). "AlphaGo Zero: superordenador Google DeepMind aprende 3.000 años de conocimiento humano en 40 días" . El telégrafo . Consultado el 26 de diciembre de 2017 .
- ^ "Cómo la nueva IA de Google puede aprender a ganarle en los juegos más complejos" . Corporación Australiana de Radiodifusión . 19 de octubre de 2017 . Consultado el 20 de octubre de 2017 .
- ^ "Go jugadores entusiasmados con AlphaGo Zero 'más humano'" . Korea Bizwire . 19 de octubre de 2017 . Consultado el 21 de octubre de 2017 .
- ^ "La nueva versión de AlphaGo puede dominar a Weiqi sin ayuda humana" . Servicio de Noticias de China . 19 de octubre de 2017 . Consultado el 21 de octubre de 2017 .
- ^ "【柯 洁 战败 解密】 AlphaGo Master 最新 架构 和 算法 , 谷 歌 云 与 TPU 拆解" (en chino). Sohu . 24 de mayo de 2017 . Consultado el 1 de junio de 2017 .
- ^ El hardware utilizado durante el entrenamiento puede ser sustancialmente más poderoso
Enlaces externos y lectura adicional
- Blog de AlphaGo
- Singh, S .; Okun, A .; Jackson, A. (2017). "AOP" . Naturaleza . 550 (7676): 336–337. Código Bib : 2017Natur.550..336S . doi : 10.1038 / 550336a . PMID 29052631 . S2CID 4447445 .
- Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian; Lillicrap, Timothy; Hui, Fan; Sifre, Laurent; Van Den Driessche, George; Graepel, Thore; Hassabis, Demis (2017). "Dominar el juego de Go sin conocimiento humano" (PDF) . Naturaleza . 550 (7676): 354–359. Código Bib : 2017Natur.550..354S . doi : 10.1038 / nature24270 . PMID 29052630 . S2CID 205261034 .
- Juegos AlphaGo Zero
- AMA en Reddit