La selección de acciones es una forma de caracterizar el problema más básico de los sistemas inteligentes: qué hacer a continuación. En la inteligencia artificial y la ciencia cognitiva computacional , "el problema de la selección de acciones" se asocia típicamente con agentes inteligentes y animales, sistemas artificiales que exhiben un comportamiento complejo en un entorno de agentes . El término también se usa a veces en etología o comportamiento animal.
Un problema para comprender la selección de acciones es determinar el nivel de abstracción utilizado para especificar un "acto". En el nivel más básico de abstracción, un acto atómico podría ser cualquier cosa, desde contraer una célula muscular hasta provocar una guerra . Normalmente, para cualquier mecanismo de selección de acciones, el conjunto de acciones posibles está predefinido y fijo.
La mayoría de los investigadores que trabajan en este campo imponen grandes exigencias a sus agentes:
Por estas razones, la selección de acciones no es trivial y atrae mucha investigación.
El principal problema para la selección de acciones es la complejidad . Dado que todos los cálculos toman tiempo y espacio (en la memoria), los agentes no pueden considerar todas las opciones disponibles en cada instante. En consecuencia, deben estar sesgados y restringir su búsqueda de alguna manera. Para la IA, la cuestión de la selección de acciones es ¿cuál es la mejor manera de restringir esta búsqueda ? Para la biología y la etología, la pregunta es ¿cómo los distintos tipos de animales limitan su búsqueda? ¿Todos los animales utilizan los mismos enfoques? ¿Por qué usan los que usan?
Una cuestión fundamental sobre la selección de acciones es si realmente es un problema para un agente o si es simplemente una descripción de una propiedad emergente del comportamiento de un agente inteligente. Sin embargo, si consideramos cómo vamos a construir un agente inteligente, entonces resulta evidente que debe haber algún mecanismo para la selección de acciones. Este mecanismo puede estar muy distribuido (como en el caso de organismos distribuidos como colonias de insectos sociales o moho de lodo ) o puede ser un módulo de propósito especial.
El mecanismo de selección de acciones (ASM) determina no solo las acciones del agente en términos de impacto en el mundo, sino que también dirige su atención perceptiva y actualiza su memoria . Este tipo de acciones egocéntricas pueden, a su vez, resultar en la modificación de las capacidades conductuales básicas del agente, particularmente porque la actualización de la memoria implica que es posible alguna forma de aprendizaje automático . Idealmente, la selección de acciones en sí también debería ser capaz de aprender y adaptarse, pero existen muchos problemas de complejidad combinatoria y manejabilidad computacional que pueden requerir restringir el espacio de búsqueda para el aprendizaje.
En IA, a veces también se hace referencia a un ASM como una arquitectura de agente o se considera una parte sustancial de uno.
Generalmente, los mecanismos de selección de acciones artificiales se pueden dividir en varias categorías: sistemas basados en símbolos a veces conocidos como planificación clásica, soluciones distribuidas y planificación reactiva o dinámica . Algunos enfoques no se incluyen claramente en ninguna de estas categorías. Otros se centran más en proporcionar modelos científicos que en un control práctico de la IA; estos últimos se describen con más detalle en la siguiente sección.
Al principio de la historia de la inteligencia artificial , se asumió que la mejor manera de que un agente eligiera qué hacer a continuación sería calcular un plan probablemente óptimo y luego ejecutar ese plan. Esto llevó a la hipótesis del sistema de símbolos físicos , que un agente físico que puede manipular símbolos es necesario y suficiente para la inteligencia. Muchos agentes de software todavía utilizan este enfoque para la selección de acciones. Normalmente requiere describir todas las lecturas de los sensores, el mundo, todas las acciones de uno y todos los objetivos de uno en alguna forma de lógica de predicados.. Los críticos de este enfoque se quejan de que es demasiado lento para la planificación en tiempo real y que, a pesar de las pruebas, es poco probable que produzca planes óptimos porque reducir las descripciones de la realidad a la lógica es un proceso propenso a errores.
Satisfactorio es una estrategia de toma de decisiones que intenta cumplir con los criterios de adecuación, en lugar de identificar una solución óptima. Una estrategia satisfactoria a menudo, de hecho, puede ser (casi) óptima si los costos del proceso de toma de decisiones en sí, como el costo de obtener información completa, se consideran en el cálculo de resultados.
Arquitecturas impulsadas por objetivos : en estas arquitecturas simbólicas , el comportamiento del agente se describe normalmente mediante un conjunto de objetivos. Cada objetivo puede lograrse mediante un proceso o una actividad, que se describe mediante un plan prescrito. El agente solo debe decidir qué proceso llevar a cabo para lograr un objetivo determinado. El plan puede expandirse a subobjetivos, lo que hace que el proceso sea ligeramente recursivo. Técnicamente, más o menos, los planes explotan las condiciones-reglas. Estas arquitecturas son reactivas o híbridas. Los ejemplos clásicos de arquitecturas impulsadas por objetivos son refinamientos implementables de la arquitectura creencia-deseo-intención como JAM o IVE .
En contraste con el enfoque simbólico, los sistemas distribuidos de selección de acciones en realidad no tienen una "casilla" en el agente que decida la siguiente acción. Al menos en su forma idealizada, los sistemas distribuidos tienen muchos módulos que se ejecutan en paralelo y determinan la mejor acción en función de la experiencia local. En estos sistemas idealizados, se espera que surja la coherencia general de alguna manera, posiblemente a través del diseño cuidadoso de los componentes que interactúan. Este enfoque a menudo se inspira en la investigación de redes neuronales artificiales . En la práctica, casi siempre existe algún sistema centralizado que determina qué módulo es "el más activo" o tiene más relevancia. Hay evidencia de que los cerebros biológicos reales también tienen tales sistemas de decisión ejecutiva.que evalúan cuál de los sistemas en competencia merece la mayor atención , o más adecuadamente, tiene sus acciones deseadas desinhibidas .
Debido a que los sistemas puramente distribuidos son difíciles de construir, muchos investigadores han recurrido al uso de planes explícitos codificados para determinar las prioridades de su sistema.
Los métodos de planificación dinámica o reactiva calculan solo una acción siguiente en cada instante en función del contexto actual y los planes preestablecidos. A diferencia de los métodos de planificación clásicos, los enfoques reactivos o dinámicos no sufren una explosión combinatoria . Por otro lado, a veces se los considera demasiado rígidos para ser considerados una IA fuerte , ya que los planes están codificados de antemano. Al mismo tiempo, la inteligencia natural puede ser rígida en algunos contextos aunque es fluida y capaz de adaptarse en otros.
Los ejemplos de mecanismos de planificación dinámica incluyen:
A veces, para intentar abordar la inflexibilidad percibida de la planificación dinámica, se utilizan técnicas híbridas. En estos, un sistema de planificación de IA más convencional busca nuevos planes cuando el agente tiene tiempo libre y actualiza la biblioteca de planes dinámicos cuando encuentra buenas soluciones. El aspecto importante de cualquier sistema de este tipo es que cuando el agente necesita seleccionar una acción, existe alguna solución que se puede utilizar de inmediato (consulte el algoritmo en cualquier momento ).
Muchos modelos dinámicos de selección de acciones artificiales se inspiraron originalmente en la investigación en etología . En particular, Konrad Lorenz y Nikolaas Tinbergen proporcionaron la idea de un mecanismo de liberación innato para explicar los comportamientos instintivos ( patrones de acción fijos ). Influenciado por las ideas de William McDougall , Lorenz desarrolló esto en un modelo " psicohidráulico " de la motivación del comportamiento. En etología, estas ideas fueron influyentes en la década de 1960, pero ahora se las considera obsoletas debido al uso de una metáfora del flujo de energía ; el sistema nerviosoy el control del comportamiento ahora se trata normalmente como una transmisión de información en lugar de un flujo de energía. Los planes dinámicos y las redes neuronales son más similares a la transmisión de información, mientras que la activación de propagación es más similar al control difuso de los sistemas emocionales / hormonales.
Stan Franklin ha propuesto que la selección de acciones es la perspectiva correcta para comprender el papel y la evolución de la mente . Vea su página sobre el paradigma de selección de acciones . Archivado el 9 de octubre de 2006 en la Wayback Machine.
Algunos investigadores crean modelos elaborados de selección de acciones neuronales. Ver por ejemplo: