Motivación intrínseca (inteligencia artificial)

La motivación intrínseca en el estudio de la inteligencia artificial y la robótica es un mecanismo que permite a los agentes artificiales (incluidos los robots ) exhibir comportamientos inherentemente gratificantes como la exploración y la curiosidad, agrupados bajo el mismo término en el estudio de la psicología . Los psicólogos consideran que la motivación intrínseca en los seres humanos es el impulso para realizar una actividad para obtener una satisfacción inherente, solo por diversión o desafío. ^[1]

Definición

Un agente inteligente está intrínsecamente motivado para actuar si solo el contenido de la información, de la experiencia resultante de la acción, es el factor motivador.

El contenido de la información en este contexto se mide en el sentido teórico de la información de cuantificar la incertidumbre. Una motivación intrínseca típica es la búsqueda de situaciones inusuales y sorprendentes (exploración), en contraste con una motivación extrínseca típica como la búsqueda de alimentos (homeostasis). ^[2] Las motivaciones extrínsecas se describen típicamente en la inteligencia artificial como dependientes de la tarea o dirigidas a un objetivo .

Orígenes en psicología

El estudio de la motivación intrínseca en psicología y neurociencia comenzó en la década de 1950 con algunos psicólogos explicando la exploración a través de impulsos para manipular y explorar, sin embargo, esta visión homeostática fue criticada por White. ^[3] Una explicación alternativa de Berlyne en 1960 fue la búsqueda de un equilibrio óptimo entre novedad y familiaridad. ^[4] Festinger describió la diferencia entre la visión interna y externa del mundo como una disonancia que los organismos están motivados a reducir. ^[5] Kagan expresó una opinión similar en los años 70 como el deseo de reducir la incompatibilidad entre la estructura cognitiva y la experiencia. ^[6] En contraste con la idea de la incongruencia óptima, Deci y Ryan identificaron a mediados de los 80 una motivación intrínseca basada en la competencia y la autodeterminación. ^[7]

Modelos computacionales

Un influyente enfoque computacional temprano para implementar la curiosidad artificial a principios de la década de 1990 por Schmidhuber , se ha desarrollado desde entonces en una "teoría formal de la creatividad, la diversión y la motivación intrínseca". ^[8]

La motivación intrínseca a menudo se estudia en el marco del aprendizaje por refuerzo computacional ^[9]^[10] (introducido por Sutton y Barto ), donde las recompensas que impulsan el comportamiento del agente se derivan intrínsecamente en lugar de imponerse externamente y deben aprenderse del entorno. ^[11] El aprendizaje por refuerzo es independiente de cómo se genera la recompensa: un agente aprenderá una política (estrategia de acción) a partir de la distribución de recompensas otorgadas por las acciones y el entorno. Cada enfoque de la motivación intrínseca en este esquema es esencialmente una forma diferente de generar la función de recompensa para el agente.

Curiosidad vs exploración

Los agentes artificiales intrínsecamente motivados exhiben un comportamiento que se asemeja a la curiosidad o la exploración . La exploración en inteligencia artificial y robótica se ha estudiado ampliamente en modelos de aprendizaje por refuerzo, ^[12] generalmente alentando al agente a explorar tanto del entorno como sea posible, para reducir la incertidumbre sobre la dinámica del entorno (aprender la función de transición) y cómo mejor para lograr sus objetivos (aprender la función de recompensa). La motivación intrínseca, por el contrario, anima al agente a explorar primero aspectos del entorno que le confieren más información, para buscar novedades. Un trabajo reciente que unifica la exploración del recuento de visitas de estado y la motivación intrínseca ha demostrado un aprendizaje más rápido en un entorno de videojuegos. ^[13]

Tipos de modelos

Ouedeyer y Kaplan han hecho una contribución sustancial al estudio de la motivación intrínseca. ^[14]^[2]^[15] Definen la motivación intrínseca basada en la teoría de Berlyne, ^[4] y dividen los enfoques para la implementación de la motivación intrínseca en tres categorías que siguen ampliamente las raíces de la psicología: "modelos basados en el conocimiento", "competencia -modelos basados en "y" modelos morfológicos ". ^[2] Los modelos basados en el conocimiento se subdividen en "teórico de la información" y "predictivo". ^[15] Baldassare y Mirolli presentan una tipología similar, diferenciando los modelos basados en el conocimiento entre los basados en predicciones y los basados en novedades. ^[dieciséis]

Motivación intrínseca de la teoría de la información

La cuantificación de la predicción y la novedad para impulsar el comportamiento generalmente se habilita a través de la aplicación de modelos teóricos de la información, donde el estado del agente y la estrategia (política) a lo largo del tiempo están representados por distribuciones de probabilidad que describen un proceso de decisión de Markov y el ciclo de percepción y acción tratado como un canal de información. ^[17]^[18] Estos enfoques afirman la viabilidad biológica como parte de una familia de enfoques bayesianos de la función cerebral . La principal crítica y dificultad de estos modelos es la intratabilidad de calcular distribuciones de probabilidad sobre grandes espacios de estados discretos o continuos. ^[2] No obstante, se ha acumulado un cuerpo considerable de trabajo modelando el flujo de información alrededor del ciclo sensoriomotor, lo que ha llevado a funciones de recompensa de facto derivadas de la reducción de la incertidumbre, incluida la inferencia más notablemente activa , ^[19] pero también la infotaxis , ^{[20 ]} información predictiva , ^[21]^[22] empoderamiento . ^[23]

Modelos basados en competencias

El principio autotélico de Steels ^[24] es un intento de formalizar el flujo (psicología) . ^[25]

Aprendizaje intrínsecamente motivado

El aprendizaje intrínsecamente motivado (o impulsado por la curiosidad) es un tema de investigación emergente en inteligencia artificial y robótica del desarrollo ^[26] que tiene como objetivo desarrollar agentes que puedan aprender habilidades o comportamientos generales, que se pueden implementar para mejorar el rendimiento en tareas extrínsecas, como adquirir recursos. ^[27] El aprendizaje intrínsecamente motivado se ha estudiado como un enfoque del aprendizaje autónomo de por vida en máquinas. ^[28]^[29] A pesar del impresionante éxito del aprendizaje profundo en dominios específicos (por ejemplo, AlphaGo ), muchos en el campo (por ejemplo, Gary Marcus ) han señalado que la capacidad de generalizar sigue siendo un desafío fundamental en la inteligencia artificial. El aprendizaje intrínsecamente motivado, aunque prometedor en términos de poder generar metas a partir de la estructura del entorno sin tareas impuestas externamente, enfrenta el mismo desafío de generalización: cómo reutilizar políticas o secuencias de acción, cómo comprimir y representar espacios estatales continuos o complejos. y conservar y reutilizar las características destacadas que se han aprendido. ^[27]

Ver también

aprendizaje reforzado
proceso de decisión de Markov
motivación
codificación predictiva
teoría del control perceptivo

Referencias

^ Ryan, Richard M; Deci, Edward L (2000). "Motivaciones intrínsecas y extrínsecas: definiciones clásicas y nuevas direcciones". Psicología Educativa Contemporánea . 25 (1): 54–67. doi : 10.1006 / ceps.1999.1020 . PMID 10620381 .
^ a b c d Oudeyer, Pierre-Yves; Kaplan, Frederic (2008). "¿Cómo podemos definir la motivación intrínseca?". Proc. de la 8ª Conf. sobre robótica epigenética . 5 . págs. 29–31.
^ White, R. (1959). "Motivación reconsiderada: el concepto de competencia". Revisión psicológica . 66 (5): 297–333. doi : 10.1037 / h0040934 . PMID 13844397 .
^ a b Berlyne, D .: Conflicto, excitación y curiosidad. McGraw-Hill, Nueva York (1960)
^ Festinger, L .: Una teoría de la disonancia cognitiva. Evanston, Row, Peterson (1957)
^ Kagan, J .: Motivos y desarrollo. Revista de personalidad y psicología social 22, 51–66
^ Deci, EL, Ryan, RM: Motivación intrínseca y autodeterminación en el comportamiento humano. Plenum, Nueva York (1985)
^ Schmidhuber, J (2010). "Teoría formal de la creatividad, la diversión y la motivación intrínseca (1990-2010)". IEEE Trans. Auton. Desarrollo mental . 2 (3): 230–247. doi : 10.1109 / TAMD.2010.2056368 .
^ Barto, A., Singh, S., Chentanez, N .: aprendizaje intrínsecamente motivado de conjuntos jerárquicos de habilidades. En: ICDL 2004. Actas de la 3ª Conferencia Internacional sobre Desarrollo y Aprendizaje, Salk Institute, San Diego (2004)
^ Singh, S., Barto, AG y Chentanez, N. (2005). Aprendizaje por refuerzo intrínsecamente motivado. En Actas de la 18ª Conferencia Anual sobre Sistemas de Procesamiento de Información Neural (NIPS), Vancouver, BC, Canadá.
^ Barto, AG: Motivación intrínseca y aprendizaje por refuerzo. En: Baldassarre, G., Mirolli, M. (eds.) Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales. Springer, Berlín (2012)
^ Thrun, SB (1992). Exploración eficiente en el aprendizaje por refuerzo. https://doi.org/10.1007/978-1-4899-7687-1_244
^ Bellemare, MG, Srinivasan, S., Ostrovski, G., Schaul, T., Saxton, D. y Munos, R. (2016). Unificando la exploración basada en conteo y la motivación intrínseca. Avances en los sistemas de procesamiento de información neuronal, 1479-1487.
^ Kaplan, F. y Oudeyer, P. (2004). Maximizar el progreso del aprendizaje: un sistema de recompensa interno para el desarrollo. Inteligencia artificial incorporada, páginas 629–629.
↑ a b Oudeyer, PY y Kaplan, F. (2009). ¿Qué es la motivación intrínseca? Una tipología de enfoques computacionales. Frontiers in Neurorobotics, 3 (NOV). https://doi.org/10.3389/neuro.12.006.2007
^ Baldassarre, Gianluca; Mirolli, Marco (2013). "Sistemas de aprendizaje con motivación intrínseca: una descripción general". Aprendizaje intrínsecamente motivado en sistemas naturales 1 y artificiales . Roma, Italia: Springer. págs. 1-14.
^ Klyubin, A., Polani, D. y Nehaniv, C. (2008). Mantenga sus opciones abiertas: un principio de conducción basado en información para sistemas sensoriomotores. PLOS ONE, 3 (12): e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018
^ Biehl, Martin; Guckelsberger, Christian; Salge, Christoph; Smith, Simón C .; Polani, Daniel (2018). "Expandiendo el panorama de la inferencia activa: más motivaciones intrínsecas en el bucle de percepción-acción" . Fronteras en Neurorobótica . 12 : 45. arXiv : 1806.08083 . doi : 10.3389 / fnbot.2018.00045 . ISSN 1662-5218 . PMC 6125413 . PMID 30214404 .
^ Friston, Karl; Kilner, James; Harrison, Lee (2006). "Un principio de energía libre para el cerebro" (PDF) . Revista de fisiología-París . Elsevier BV. 100 (1-3): 70-87. doi : 10.1016 / j.jphysparis.2006.10.001 . ISSN 0928-4257 . PMID 17097864 .
^ Vergassola, M., Villermaux, E. y Shraiman, BI (2007). 'Infotaxis' como estrategia de búsqueda sin gradientes. Nature, 445 (7126), 406–409. https://doi.org/10.1038/nature05464
^ Ay, N., Bertschinger, N., Der, R., Güttler, F. y Olbrich, E. (2008), 'Información predictiva y comportamiento exploratorio de robots autónomos', The European Physical Journal B 63 (3), 329–339.
^ Martius, G., Der, R. y Ay, N. (2013). Autoorganización impulsada por la información de comportamientos robóticos complejos. PLOS ONE 8: e63400. doi: 10.1371 / journal.pone.0063400
^ Salge, C; Glackin, C; Polani, D (2014). "Empoderamiento - Introducción". En Prokopenko, M (ed.). Autoorganización guiada: inicio. Emergencia, Complejidad y Computación . 9 . Saltador. págs. 67-114. arXiv : 1310.1863 . doi : 10.1007 / 978-3-642-53734-9_4 . ISBN 978-3-642-53733-2.
^ Aceros, Luc: El principio autotélico. En: Iida, F., Pfeifer, R., Steels, L., Kuniyoshi, Y. (eds.) Embodied Artificial Intelligence. LNCS (LNAI), vol. 3139, págs. 231–242. Springer, Heidelberg (2004)
^ Csikszentmihalyi, M. (2000). Más allá del aburrimiento y la ansiedad. Jossey-Bass.
^ Lungarella, M., Metta, G., Pfeifer, R. y Sandini, G. (2003). Robótica del desarrollo: una encuesta. Conectar. Sci. 15, 151-190. doi: 10.1080 / 09540090310001655110
↑ a b Santucci, VG, Oudeyer, PY, Barto, A. y Baldassarre, G. (2020). Editorial: Aprendizaje abierto intrínsecamente motivado en robots autónomos. Frontiers in Neurorobotics, 13 (enero), 2019-2021. https://doi.org/10.3389/fnbot.2019.00115
^ Barto, AG (2013). “Motivación intrínseca y aprendizaje por refuerzo”, en Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales (Berlín; Heidelberg: Springer), 17–47
^ Mirolli, M. y Baldassarre, G. (2013). "Funciones y mecanismos de motivaciones intrínsecas", en Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales, eds G. Baldassarre y M. Mirolli (Berlín; Heidelberg: Springer), 49-72

[ryan2000-1] Ryan, Richard M; Deci, Edward L (2000). "Motivaciones intrínsecas y extrínsecas: definiciones clásicas y nuevas direcciones". Psicología Educativa Contemporánea . 25 (1): 54–67. doi : 10.1006 / ceps.1999.1020 . PMID 10620381 .

[oudeyer2008-2] Oudeyer, Pierre-Yves; Kaplan, Frederic (2008). "¿Cómo podemos definir la motivación intrínseca?". Proc. de la 8ª Conf. sobre robótica epigenética . 5 . págs. 29–31.

[white1959-3] White, R. (1959). "Motivación reconsiderada: el concepto de competencia". Revisión psicológica . 66 (5): 297–333. doi : 10.1037 / h0040934 . PMID 13844397 .

[Berlyne1960-4] Berlyne, D .: Conflicto, excitación y curiosidad. McGraw-Hill, Nueva York (1960)

[festinger1957-5] Festinger, L .: Una teoría de la disonancia cognitiva. Evanston, Row, Peterson (1957)

[kagan1972-6] Kagan, J .: Motivos y desarrollo. Revista de personalidad y psicología social 22, 51–66

[deci1985-7] Deci, EL, Ryan, RM: Motivación intrínseca y autodeterminación en el comportamiento humano. Plenum, Nueva York (1985)

[schmidhuber2010-8] Schmidhuber, J (2010). "Teoría formal de la creatividad, la diversión y la motivación intrínseca (1990-2010)". IEEE Trans. Auton. Desarrollo mental . 2 (3): 230–247. doi : 10.1109 / TAMD.2010.2056368 .

[barto2004-9] Barto, A., Singh, S., Chentanez, N .: aprendizaje intrínsecamente motivado de conjuntos jerárquicos de habilidades. En: ICDL 2004. Actas de la 3ª Conferencia Internacional sobre Desarrollo y Aprendizaje, Salk Institute, San Diego (2004)

[singh2005-10] Singh, S., Barto, AG y Chentanez, N. (2005). Aprendizaje por refuerzo intrínsecamente motivado. En Actas de la 18ª Conferencia Anual sobre Sistemas de Procesamiento de Información Neural (NIPS), Vancouver, BC, Canadá.

[barto2012-11] Barto, AG: Motivación intrínseca y aprendizaje por refuerzo. En: Baldassarre, G., Mirolli, M. (eds.) Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales. Springer, Berlín (2012)

[thrun1992-12] Thrun, SB (1992). Exploración eficiente en el aprendizaje por refuerzo. https://doi.org/10.1007/978-1-4899-7687-1_244

[bellemare2016-13] Bellemare, MG, Srinivasan, S., Ostrovski, G., Schaul, T., Saxton, D. y Munos, R. (2016). Unificando la exploración basada en conteo y la motivación intrínseca. Avances en los sistemas de procesamiento de información neuronal, 1479-1487.

[kaplan2004-14] Kaplan, F. y Oudeyer, P. (2004). Maximizar el progreso del aprendizaje: un sistema de recompensa interno para el desarrollo. Inteligencia artificial incorporada, páginas 629–629.

[oudeyer2009-15] Oudeyer, PY y Kaplan, F. (2009). ¿Qué es la motivación intrínseca? Una tipología de enfoques computacionales. Frontiers in Neurorobotics, 3 (NOV). https://doi.org/10.3389/neuro.12.006.2007

[baldassarre2013-16] Baldassarre, Gianluca; Mirolli, Marco (2013). "Sistemas de aprendizaje con motivación intrínseca: una descripción general". Aprendizaje intrínsecamente motivado en sistemas naturales 1 y artificiales . Roma, Italia: Springer. págs. 1-14.

[klyubin2008-17] Klyubin, A., Polani, D. y Nehaniv, C. (2008). Mantenga sus opciones abiertas: un principio de conducción basado en información para sistemas sensoriomotores. PLOS ONE, 3 (12): e4018. https://dx.doi.org/10.1371%2Fjournal.pone.0004018

[biehl2018-18] Biehl, Martin; Guckelsberger, Christian; Salge, Christoph; Smith, Simón C .; Polani, Daniel (2018). "Expandiendo el panorama de la inferencia activa: más motivaciones intrínsecas en el bucle de percepción-acción" . Fronteras en Neurorobótica . 12 : 45. arXiv : 1806.08083 . doi : 10.3389 / fnbot.2018.00045 . ISSN 1662-5218 . PMC 6125413 . PMID 30214404 .

[friston2006-19] Friston, Karl; Kilner, James; Harrison, Lee (2006). "Un principio de energía libre para el cerebro" (PDF) . Revista de fisiología-París . Elsevier BV. 100 (1-3): 70-87. doi : 10.1016 / j.jphysparis.2006.10.001 . ISSN 0928-4257 . PMID 17097864 .

[vergassola-20] Vergassola, M., Villermaux, E. y Shraiman, BI (2007). 'Infotaxis' como estrategia de búsqueda sin gradientes. Nature, 445 (7126), 406–409. https://doi.org/10.1038/nature05464

[ay2008-21] Ay, N., Bertschinger, N., Der, R., Güttler, F. y Olbrich, E. (2008), 'Información predictiva y comportamiento exploratorio de robots autónomos', The European Physical Journal B 63 (3), 329–339.

[martius2013-22] Martius, G., Der, R. y Ay, N. (2013). Autoorganización impulsada por la información de comportamientos robóticos complejos. PLOS ONE 8: e63400. doi: 10.1371 / journal.pone.0063400

[salge2014-23] Salge, C; Glackin, C; Polani, D (2014). "Empoderamiento - Introducción". En Prokopenko, M (ed.). Autoorganización guiada: inicio. Emergencia, Complejidad y Computación . 9 . Saltador. págs. 67-114. arXiv : 1310.1863 . doi : 10.1007 / 978-3-642-53734-9_4 . ISBN 978-3-642-53733-2.

[steels2004-24] Aceros, Luc: El principio autotélico. En: Iida, F., Pfeifer, R., Steels, L., Kuniyoshi, Y. (eds.) Embodied Artificial Intelligence. LNCS (LNAI), vol. 3139, págs. 231–242. Springer, Heidelberg (2004)

[csik2000-25] Csikszentmihalyi, M. (2000). Más allá del aburrimiento y la ansiedad. Jossey-Bass.

[lungarella2003-26] Lungarella, M., Metta, G., Pfeifer, R. y Sandini, G. (2003). Robótica del desarrollo: una encuesta. Conectar. Sci. 15, 151-190. doi: 10.1080 / 09540090310001655110

[santucci2020-27] Santucci, VG, Oudeyer, PY, Barto, A. y Baldassarre, G. (2020). Editorial: Aprendizaje abierto intrínsecamente motivado en robots autónomos. Frontiers in Neurorobotics, 13 (enero), 2019-2021. https://doi.org/10.3389/fnbot.2019.00115

[barto2013-28] Barto, AG (2013). “Motivación intrínseca y aprendizaje por refuerzo”, en Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales (Berlín; Heidelberg: Springer), 17–47

[mirolli2013-29] Mirolli, M. y Baldassarre, G. (2013). "Funciones y mecanismos de motivaciones intrínsecas", en Aprendizaje intrínsecamente motivado en sistemas naturales y artificiales, eds G. Baldassarre y M. Mirolli (Berlín; Heidelberg: Springer), 49-72

[1]