Autómata de aprendizaje

Un autómata de aprendizaje es un tipo de algoritmo de aprendizaje automático estudiado desde la década de 1970. Los autómatas de aprendizaje seleccionan su acción actual basándose en experiencias pasadas del entorno. Caerá en el rango de aprendizaje por refuerzo si el entorno es estocástico y se utiliza un proceso de decisión de Markov (MDP).

Historia

La investigación sobre el aprendizaje de los autómatas se remonta al trabajo de Michael Lvovitch Tsetlin a principios de la década de 1960 en la Unión Soviética. Junto con algunos colegas, publicó una colección de artículos sobre cómo usar matrices para describir funciones de autómatas. Además, Tsetlin trabajó en el comportamiento de los autómatas colectivos y razonables , y en los juegos de autómatas . Los autómatas de aprendizaje también fueron investigados por investigaciones en los Estados Unidos en la década de 1960. Sin embargo, el término autómata de aprendizaje no se utilizó hasta que Narendra y Thathachar lo introdujeron en un estudio en 1974.

Definición

Un autómata de aprendizaje es una unidad adaptativa de toma de decisiones situada en un entorno aleatorio que aprende la acción óptima a través de interacciones repetidas con su entorno. Las acciones se eligen de acuerdo con una distribución de probabilidad específica que se actualiza en función de la respuesta del entorno que obtiene el autómata al realizar una acción en particular.

Con respecto al campo del aprendizaje por refuerzo , los autómatas de aprendizaje se caracterizan como iteradores de políticas . A diferencia de otros aprendices de refuerzo, los iteradores de políticas manipulan directamente la política π. Otro ejemplo de iteradores de políticas son los algoritmos evolutivos .

Formalmente, Narendra y Thathachar definen un autómata estocástico que consiste en:

un conjunto X de posibles entradas,
un conjunto Φ = {Φ ₁ , ..., Φ _s } de posibles estados internos,
un conjunto α = {α ₁ , ..., α _r } de posibles salidas o acciones, con r ≤ s ,
un vector de probabilidad de estado inicial p (0) = ≪ p ₁ (0), ..., p _s (0) ≫,
una función computable A que después de cada paso de tiempo t genera p ( t +1) a partir de p ( t ), la entrada actual y el estado actual, y
una función G : Φ → α que genera la salida en cada paso de tiempo.

En su artículo, que investigan solamente autómatas estocástico con r = s y G es biyectiva , lo que les permite confunden acciones y estados. Los estados de tal autómata corresponden a los estados de un " proceso de Markov de parámetros discretos de estado discreto ". ^[1] En cada paso de tiempo t = 0,1,2,3, ..., el autómata lee una entrada de su entorno, actualiza p ( t ) ap ( t +1) por A , elige aleatoriamente un estado sucesor de acuerdo con las probabilidades p ( t +1) y produce la acción correspondiente. El entorno del autómata, a su vez, lee la acción y envía la siguiente entrada al autómata. Con frecuencia, el conjunto de entrada X = {0,1} se utiliza, con 0 y 1 que corresponde a un nonpenalty y una pena de respuesta del medio ambiente, respectivamente; en este caso, el autómata debería aprender a minimizar el número de respuestas de penalización , y el ciclo de retroalimentación del autómata y el entorno se denomina "modelo P". Más en general, un "Q-modelo" permite a un arbitrario finito conjunto de entrada X , y una "S-modelo" utiliza el intervalo [0,1] de los números reales como X . ^[2]

El grupo de investigación µSystems (microSystems) de la Universidad de Newcastle desarrolló una demostración visualizada ^[3] ^[4] / Obra de arte de un solo autómata de aprendizaje.

Autómatas de aprendizaje de conjunto de acciones finitas

Los autómatas de aprendizaje de conjuntos de acciones finitos (FALA) son una clase de autómatas de aprendizaje para los que el número de acciones posibles es finito o, en términos más matemáticos, para los que el tamaño del conjunto de acciones es finito. ^[5]

Ver también

Literatura

Philip Aranzulla y John Mellor ( página de inicio ):
- Mellor J y Aranzulla P (2000): "Uso de un entorno de respuesta de modelo S con esquemas de enrutamiento basados en autómatas de Learnng [sic] para redes IP", Proc. Octavo taller del IFIP sobre modelización y evaluación del rendimiento de redes ATM e IP, págs. 56 / 1-56 / 12, Ilkley, Reino Unido.
- Aranzulla P y Mellor J (1997): "Comparación de dos algoritmos de enrutamiento que requieren señalización reducida cuando se aplican a redes ATM", Proc. Decimocuarto Simposio de Teletrafico del Reino Unido sobre Ingeniería de Desempeño en Sistemas de Información, págs. 20 / 1-20 / 4, UMIST, Manchester, Reino Unido.
Narendra K., Thathachar MAL (julio de 1974). "Aprendizaje de autómatas: una encuesta" (PDF) . Transacciones IEEE sobre sistemas, hombre y cibernética . SMC-4 (4): 323–334. CiteSeerX 10.1.1.295.2280 . doi : 10.1109 / tsmc.1974.5408453 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
Tsetlin ML Teoría de la automatización y modelado de sistemas biológicos. Prensa académica; 1973. ^{[ enlace muerto permanente ]}

Referencias

↑ (Narendra, Thathachar, 1974) p.325 izquierda
^ (Narendra, Thathachar, 1974) p.325 derecha
^ JieGH (2019-11-11), JieGH / The-Ruler-of-Tsetlin-Automaton , consultado el 22 de julio de 2020
^ "El-gobernante-de-Tsetlin-Autómata" . www.youtube.com . Consultado el 22 de julio de 2020 .
^ Thathachar, MAL; Sastry, PS (diciembre de 2002). "Variedades de autómatas de aprendizaje: una descripción general" (PDF) . Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 32 (6): 711–722. doi : 10.1109 / TSMCB.2002.1049606 . PMID 18244878 .

[1] (Narendra, Thathachar, 1974) p.325 izquierda

[2] (Narendra, Thathachar, 1974) p.325 derecha

[3] JieGH (2019-11-11), JieGH / The-Ruler-of-Tsetlin-Automaton , consultado el 22 de julio de 2020

[4] "El-gobernante-de-Tsetlin-Autómata" . www.youtube.com . Consultado el 22 de julio de 2020 .

[Thathachar2002-5] Thathachar, MAL; Sastry, PS (diciembre de 2002). "Variedades de autómatas de aprendizaje: una descripción general" (PDF) . Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 32 (6): 711–722. doi : 10.1109 / TSMCB.2002.1049606 . PMID 18244878 .

[1]