TD-Gammon es un equipo de backgammon programa desarrollado en 1992 por Gerald Tesauro en IBM 's Thomas J. Watson Research Center . Su nombre proviene del hecho de que es una red neuronal artificial entrenada por una forma de aprendizaje de diferencia temporal , específicamente TD-lambda .
TD-Gammon logró un nivel de juego ligeramente por debajo del de los mejores jugadores humanos de backgammon de la época. Exploró estrategias que los humanos no habían seguido y condujo a avances en la teoría del juego correcto de backgammon.
Algoritmo para jugar y aprender
Durante la reproducción, examina TD-Gammon en cada turno todos los posibles movimientos legales y todas sus posibles respuestas (dos capas de búsqueda hacia delante ), que se alimentan una posición en el tablero resultante en su función de evaluación , y elige el movimiento que conduce a la posición del tablero que tiene el más alto puntaje. En este sentido, TD-Gammon no es diferente a casi cualquier otro programa de juegos de mesa para computadora. La innovación de TD-Gammon fue cómo aprendió su función de evaluación.
El algoritmo de aprendizaje de TD-Gammon consiste en actualizar los pesos en su red neuronal después de cada turno para reducir la diferencia entre su evaluación de las posiciones del tablero de turnos anteriores y su evaluación de la posición del tablero del turno actual, de ahí " aprendizaje de diferencia temporal ". La puntuación de cualquier posición en el tablero es un conjunto de cuatro números que reflejan la estimación del programa de la probabilidad de cada posible resultado del juego: las blancas ganan normalmente, las negras ganan normalmente, las blancas ganan un gammon, las negras ganan un gammon. Para la posición final del tablero del juego, el algoritmo se compara con el resultado real del juego en lugar de su propia evaluación de la posición del tablero. [1]
Después de cada turno, el algoritmo de aprendizaje actualiza cada peso en la red neuronal de acuerdo con la siguiente regla:
dónde:
es la cantidad para cambiar el peso de su valor en el turno anterior. es la diferencia entre las evaluaciones de la junta del turno actual y el anterior. es un parámetro de " tasa de aprendizaje ". es un parámetro que afecta en qué medida la diferencia actual en las evaluaciones de la junta debería retroalimentar las estimaciones anteriores. hace que el programa solo corrija la estimación del turno anterior; hace que el programa intente corregir las estimaciones en todos los turnos anteriores; y valores de entre 0 y 1 especifican diferentes velocidades a las que la importancia de las estimaciones más antiguas debería "decaer" con el tiempo. es el gradiente de la salida de la red neuronal con respecto a los pesos: es decir, cuánto afecta el cambio de peso a la salida. [1]
Experimentos y etapas de formación
A diferencia de los programas anteriores de backgammon de red neuronal como Neurogammon (también escrito por Tesauro), donde un experto capacitó al programa proporcionando la evaluación "correcta" de cada puesto, TD-Gammon se programó al principio "sin conocimientos". [1] En la experimentación temprana, usando solo una codificación de tablero sin formato sin características diseñadas por humanos, TD-Gammon alcanzó un nivel de juego comparable al Neurogammon: el de un jugador de backgammon humano de nivel intermedio.
Aunque TD-Gammon descubrió características interesantes por sí solo, Tesauro se preguntó si su juego podría mejorarse utilizando características diseñadas a mano como las de Neurogammon. De hecho, el TD-Gammon de autoformación con funciones diseñadas por expertos pronto superó a todos los programas de backgammon informáticos anteriores. Dejó de mejorar después de aproximadamente 1,500,000 juegos (auto-juego) usando 80 unidades ocultas. [2]
Avances en la teoría del backgammon
El entrenamiento exclusivo de TD-Gammon a través del autojuego (en lugar de la tutela) le permitió explorar estrategias que los humanos no habían considerado previamente o habían descartado erróneamente. Su éxito con estrategias poco ortodoxas tuvo un impacto significativo en la comunidad de backgammon. [1]
Por ejemplo, en la jugada de apertura, la sabiduría convencional era que, dada una tirada de 2-1, 4-1 o 5-1, las blancas deberían mover una sola ficha del punto 6 al punto 5. Conocido como "slotting", esto La técnica cambia el riesgo de un golpe por la oportunidad de desarrollar una posición agresiva. TD-Gammon encontró que el juego más conservador de 24-23 fue superior. Los jugadores del torneo comenzaron a experimentar con el movimiento de TD-Gammon y encontraron el éxito. En unos pocos años, el tragamonedas había desaparecido de los torneos. (Sin embargo, ahora está reapareciendo para 2-1. [3] )
El experto en backgammon Kit Woolsey descubrió que el juicio posicional de TD-Gammon, especialmente su ponderación del riesgo contra la seguridad, era superior al suyo o al de cualquier humano. [1]
El excelente juego posicional de TD-Gammon se vio socavado por un juego final deficiente ocasional. El final del juego requiere un enfoque más analítico, a veces con una amplia anticipación. La limitación de TD-Gammon a la anticipación de dos capas puso un techo a lo que podría lograr en esta parte del juego. Las fortalezas y debilidades de TD-Gammon eran lo opuesto a los programas simbólicos de inteligencia artificial y la mayoría de los programas informáticos en general: era bueno en asuntos que requieren una "sensación" intuitiva pero malo en el análisis sistemático.
Referencias
- ↑ a b c d e Tesauro, Gerald (marzo de 1995). "Aprendizaje de la diferencia temporal y TD-Gammon" . Comunicaciones de la ACM . 38 (3). doi : 10.1145 / 203330.203343 . Consultado el 1 de noviembre de 2013 .
- ^ Sutton, Richard S .; Andrew G. Barto (1998). Aprendizaje por refuerzo: una introducción . MIT Press. págs. Tabla 11.1.
- ^ "Backgammon: cómo jugar los rollos de apertura" .