Aprendizaje del modelo de acción

El aprendizaje del modelo de acción (a veces abreviado aprendizaje de la acción ) es un área del aprendizaje automático que se ocupa de la creación y modificación del conocimiento del agente de software sobre los efectos y las condiciones previas de las acciones que se pueden ejecutar en su entorno . Este conocimiento generalmente se representa en un lenguaje de descripción de acciones basado en la lógica y se utiliza como entrada para los planificadores automatizados .

Aprender modelos de acción es importante cuando cambian las metas. Cuando un agente actuó durante un tiempo, puede utilizar su conocimiento acumulado sobre acciones en el dominio para tomar mejores decisiones. Por tanto, los modelos de acción de aprendizaje difieren del aprendizaje por refuerzo . Permite razonar sobre acciones en lugar de costosas pruebas en el mundo. ^[1] El aprendizaje del modelo de acción es una forma de razonamiento inductivo , donde se genera nuevo conocimiento basado en las observaciones del agente . Se diferencia del aprendizaje supervisado estándar en que nunca se presentan pares correctos de entrada / salida, ni se corrigen explícitamente modelos de acción imprecisos.

La motivación habitual para el aprendizaje de modelos de acción es el hecho de que la especificación manual de modelos de acción para los planificadores es a menudo una tarea difícil, que requiere mucho tiempo y es propensa a errores (especialmente en entornos complejos).

Modelos de acción

Dado un conjunto de entrenamiento ${\ Displaystyle E}$ que consta de ejemplos ${\ Displaystyle e = (s, a, s ')}$ , dónde ${\ Displaystyle s, s '}$ son observaciones de un estado mundial de dos pasos de tiempo consecutivos ${\ Displaystyle t, t '}$ y ${\ Displaystyle a}$ es una instancia de acción observada en el paso de tiempo ${\ Displaystyle t}$ , el objetivo del aprendizaje del modelo de acción en general es construir un modelo de acción ${\ Displaystyle \ langle D, P \ rangle}$ , dónde ${\ Displaystyle D}$ es una descripción de la dinámica de dominio en el formalismo de descripción de acciones como STRIPS , ADL o PDDL y ${\ Displaystyle P}$ es una función de probabilidad definida sobre los elementos de ${\ Displaystyle D}$ . ^[2] Sin embargo, muchos métodos de aprendizaje activo de última generación asumen determinismo y no inducen ${\ Displaystyle P}$ . Además del determinismo, los métodos individuales difieren en cómo tratan otros atributos del dominio (por ejemplo, observabilidad parcial o ruido sensorial).

Métodos de aprendizaje activo

Lo último

Los métodos recientes de aprendizaje activo adoptan varios enfoques y emplean una amplia variedad de herramientas de diferentes áreas de la inteligencia artificial y la lógica computacional . Como ejemplo de un método basado en la lógica proposicional, podemos mencionar el algoritmo SLAF (Aprendizaje y filtrado simultáneos), ^[1] que usa las observaciones del agente para construir una fórmula proposicional larga en el tiempo y posteriormente la interpreta usando un solucionador de satisfacibilidad (SAT) . Otra técnica, en la que el aprendizaje se convierte en un problema de satisfacibilidad ( MAX-SAT ponderado en este caso) y se utilizan solucionadores de SAT, se implementa en ARMS (Action-Relation Modeling System). ^[3] Dos enfoques completamente declarativos y mutuamente similares para el aprendizaje activo se basaron en el paradigma de programación lógica Programación de conjuntos de respuestas (ASP) ^[4] y su extensión, ASP reactivo. ^[5] En otro ejemplo, se empleó un enfoque de programación lógica inductiva ascendente . ^[6] Varias soluciones diferentes no se basan directamente en la lógica. Por ejemplo, el aprendizaje del modelo de acción mediante un algoritmo de perceptrón ^[7] o la búsqueda codiciosa multinivel sobre el espacio de posibles modelos de acción. ^[8] En el artículo anterior de 1992, ^[9] se estudió el aprendizaje del modelo de acción como una extensión del aprendizaje reforzado .

Literatura

La mayoría de los artículos de investigación sobre aprendizaje activo se publican en revistas y conferencias centradas en la inteligencia artificial en general (por ejemplo, Journal of Artificial Intelligence Research (JAIR), Inteligencia Artificial, Inteligencia Artificial Aplicada (AAI) o conferencias AAAI). A pesar de la relevancia mutua de los temas, el aprendizaje del modelo de acción generalmente no se aborda en conferencias de planificación como ICAPS.

Ver también

Referencias

^ ^a ^b Amir, Eyal; Chang, Allen (2008). "Aprendizaje de modelos de acción deterministas parcialmente observables" . Revista de Investigación en Inteligencia Artificial . 33 : 349–402. arXiv : 1401,3437 . doi : 10.1613 / jair.2575 .
^ Čertický, Michal (2014). "Aprendizaje de modelos de acción en tiempo real con algoritmo online 3SG". Inteligencia artificial aplicada . 28 (7): 690–711. doi : 10.1080 / 08839514.2014.927692 .
^ Yang, Qiang; Kangheng, Wu; Yunfei, Jiang (2007). "Modelos de acción de aprendizaje a partir de ejemplos de planes utilizando MAX-SAT ponderado" . Inteligencia artificial . 171 (2-3): 107-143. doi : 10.1016 / j.artint.2006.11.005 .
^ Balduccini, Marcelo (2007). "Descripciones de acciones de aprendizaje con A-Prolog: Action Language C" . Simposio de primavera de AAAI: Formalizaciones lógicas del razonamiento con sentido común : 13-18.
^ Čertický, Michal (2012). Aprendizaje activo con programación de conjuntos de respuestas reactivas: Informe preliminar . ICAS 2012, VIII Congreso Internacional de Sistemas Autonómicos y Autonómicos . págs. 107-111. ISBN 9781612081878.
^ Benson, Scott (1995). "Aprendizaje inductivo de modelos de acción reactiva". Aprendizaje automático: Actas de la Duodécima Conferencia Internacional (ICML) .
^ Mourao, Kira; Petrick, Ronald; Steedman, Mark (2010). "Efectos de la acción de aprendizaje en dominios parcialmente observables" . Fronteras en Inteligencia Artificial y Aplicaciones . 215 (ECAI 2010): 973–974. doi : 10.3233 / 978-1-60750-606-5-973 .
^ Zettlemoyer, Luke; Pasula, Hanna; Kaelblin, Leslie Pack (2005). "Aprendizaje de reglas de planificación en mundos estocásticos ruidosos" . AAAI : 911–918.
^ Lin, Long-Ji (1992). "Agentes reactivos auto-mejorantes basados en el aprendizaje, la planificación y la enseñanza por refuerzo" . Aprendizaje automático . 8 (3–4): 293–321. doi : 10.1023 / A: 1022628806385 .

[amir2008-1] Amir, Eyal; Chang, Allen (2008). "Aprendizaje de modelos de acción deterministas parcialmente observables" . Revista de Investigación en Inteligencia Artificial . 33 : 349–402. arXiv : 1401,3437 . doi : 10.1613 / jair.2575 .

[certicky2013-2] Čertický, Michal (2014). "Aprendizaje de modelos de acción en tiempo real con algoritmo online 3SG". Inteligencia artificial aplicada . 28 (7): 690–711. doi : 10.1080 / 08839514.2014.927692 .

[yang2007-3] Yang, Qiang; Kangheng, Wu; Yunfei, Jiang (2007). "Modelos de acción de aprendizaje a partir de ejemplos de planes utilizando MAX-SAT ponderado" . Inteligencia artificial . 171 (2-3): 107-143. doi : 10.1016 / j.artint.2006.11.005 .

[4] Balduccini, Marcelo (2007). "Descripciones de acciones de aprendizaje con A-Prolog: Action Language C" . Simposio de primavera de AAAI: Formalizaciones lógicas del razonamiento con sentido común : 13-18.

[5] Čertický, Michal (2012). Aprendizaje activo con programación de conjuntos de respuestas reactivas: Informe preliminar . ICAS 2012, VIII Congreso Internacional de Sistemas Autonómicos y Autonómicos . págs. 107-111. ISBN 9781612081878.

[6] Benson, Scott (1995). "Aprendizaje inductivo de modelos de acción reactiva". Aprendizaje automático: Actas de la Duodécima Conferencia Internacional (ICML) .

[7] Mourao, Kira; Petrick, Ronald; Steedman, Mark (2010). "Efectos de la acción de aprendizaje en dominios parcialmente observables" . Fronteras en Inteligencia Artificial y Aplicaciones . 215 (ECAI 2010): 973–974. doi : 10.3233 / 978-1-60750-606-5-973 .

[8] Zettlemoyer, Luke; Pasula, Hanna; Kaelblin, Leslie Pack (2005). "Aprendizaje de reglas de planificación en mundos estocásticos ruidosos" . AAAI : 911–918.

[9] Lin, Long-Ji (1992). "Agentes reactivos auto-mejorantes basados en el aprendizaje, la planificación y la enseñanza por refuerzo" . Aprendizaje automático . 8 (3–4): 293–321. doi : 10.1023 / A: 1022628806385 .

[1]