AIXI ['ai̯k͡siː] es un formalismo matemático teóricopara la inteligencia artificial general . Combina la inducción de Solomonoff con la teoría de decisiones secuenciales . AIXI fue propuesto por primera vez por Marcus Hutter en 2000 [1] y varios resultados con respecto a AIXI se prueban en el libro de 2005 de Hutter Universal Artificial Intelligence . [2]
AIXI es un agente de aprendizaje reforzado . Maximiza las recompensas totales esperadas recibidas del medio ambiente. Intuitivamente, considera simultáneamente todas las hipótesis (o entornos) computables. En cada paso de tiempo, analiza todos los programas posibles y evalúa cuántas recompensas genera ese programa en función de la siguiente acción realizada. Las recompensas prometidas son entonces ponderadas por la creencia subjetiva de que este programa constituye el verdadero entorno. Esta creencia se calcula a partir de la duración del programa: los programas más largos se consideran menos probables, en línea con la navaja de Occam . Luego, AIXI selecciona la acción que tiene la recompensa total esperada más alta en la suma ponderada de todos estos programas.
Definición
AIXI es un agente de aprendizaje reforzado que interactúa con un entorno estocástico y desconocido pero computable. . La interacción procede en pasos de tiempo, desde a , dónde es la vida útil del agente AIXI. En el paso de tiempo t , el agente elige una acción (por ejemplo, un movimiento de una extremidad) y lo ejecuta en el entorno, y el entorno responde con una "percepción" , que consiste en una "observación" (p. ej., una imagen de la cámara) y una recompensa , distribuida según la probabilidad condicional , dónde es la "historia" de acciones, observaciones y recompensas. El entornopor lo tanto, se representa matemáticamente como una distribución de probabilidad sobre "percepciones" (observaciones y recompensas) que dependen de la historia completa , por lo que no hay suposición de Markov (a diferencia de otros algoritmos RL). Tenga en cuenta nuevamente que esta distribución de probabilidad es desconocida para el agente AIXI. Además, tenga en cuenta de nuevo que es computable, es decir, las observaciones y recompensas que recibe el agente del entorno puede ser calculado por algún programa (que se ejecuta en una máquina de Turing ), dadas las acciones pasadas del agente AIXI. [3]
El único objetivo del agente AIXI es maximizar, es decir, la suma de las recompensas del paso de tiempo 1 al m.
El agente AIXI está asociado a una política estocástica , que es la función que utiliza para elegir acciones en cada paso de tiempo, donde es el espacio de todas las acciones posibles que AIXI puede tomar y es el espacio de todas las "percepciones" posibles que puede producir el entorno. El medio ambiente (o distribución de probabilidad) también se puede considerar como una política estocástica (que es una función): , donde el es la operación estrella de Kleene .
En general, en el paso de tiempo (que va de 1 am), AIXI, habiendo ejecutado acciones previamente (que a menudo se abrevia en la literatura como ) y habiendo observado la historia de las percepciones (que se puede abreviar como ), elige y ejecuta en el entorno la acción, , definido de la siguiente manera [4]
o, usando paréntesis, para eliminar la ambigüedad de las precedencias
Intuitivamente, en la definición anterior, AIXI considera la suma de la recompensa total sobre todos los posibles "futuros" hasta el tiempo se adelanta (es decir, desde a ), pondera cada uno de ellos por la complejidad de los programas (es decir, por ) coherente con el pasado del agente (es decir, las acciones ejecutadas previamente, , y recibió percepciones, ) que puede generar ese futuro, y luego elige la acción que maximiza las recompensas futuras esperadas. [3]
Analicemos esta definición para intentar comprenderla plenamente.
es la "percepción" (que consiste en la observación y recompensa ) recibido por el agente AIXI en el paso de tiempo del entorno (que es desconocido y estocástico). Similar, es la percepción recibida por AIXI en el paso de tiempo (el último paso de tiempo en el que AIXI está activo).
es la suma de las recompensas del paso de tiempo al paso del tiempo , por lo que AIXI necesita mirar hacia el futuro para elegir su acción en el paso del tiempo .
denota una máquina de Turing universal monótona , y rangos en todos los programas (deterministas) en la máquina universal , que recibe como entrada el programa y la secuencia de acciones (es decir, todas las acciones), y produce la secuencia de percepciones . La máquina de Turing universal por lo tanto, se utiliza para "simular" o calcular las respuestas o percepciones del entorno, dado el programa (que "modela" el entorno) y todas las acciones del agente AIXI: en este sentido, el entorno es "computable" (como se indicó anteriormente). Tenga en cuenta que, en general, el programa que "modela" el entorno actual y real (donde AIXI necesita actuar) es desconocido porque el entorno actual también es desconocido.
es la duración del programa (que está codificado como una cadena de bits). Tenga en cuenta que. Por lo tanto, en la definición anterior,debe interpretarse como una mezcla (en este caso, una suma) de todos los entornos computables (que son consistentes con el pasado del agente), cada uno ponderado por su complejidad. Tenga en cuenta que también se puede escribir como , y es la secuencia de acciones ya ejecutadas en el entorno por el agente AIXI. Similar,, y es la secuencia de percepciones producidas por el entorno hasta el momento.
Juntemos ahora todos estos componentes para comprender esta ecuación o definición.
En el paso de tiempo t, AIXI elige la acción donde la funcion alcanza su máximo.
Parámetros
Los parámetros para AIXI son la máquina de Turing universal U y la vida útil del agente m , que deben elegirse. El último parámetro puede eliminarse mediante el uso de descuentos .
El significado de la palabra AIXI
Según Hutter, la palabra "AIXI" puede tener varias interpretaciones. AIXI puede significar AI basado en la distribución de Solomonoff, denotado por(que es la letra griega xi), o por ejemplo, puede representar AI "cruzado" (X) con inducción (I). Hay otras interpretaciones.
Optimalidad
El desempeño de AIXI se mide por el número total esperado de recompensas que recibe. Se ha demostrado que AIXI es óptimo de las siguientes formas. [2]
- Optimismo de Pareto : no existe ningún otro agente que se desempeñe al menos tan bien como AIXI en todos los entornos mientras se desempeña estrictamente mejor en al menos un entorno. [ cita requerida ]
- Optimidad de Pareto equilibrada: como la optimalidad de Pareto, pero considerando una suma ponderada de entornos.
- Autooptimización: una política p se denomina autooptimización para un entornosi el rendimiento de p se acerca al máximo teórico paracuando la duración de la vida del agente (no el tiempo) llega al infinito. Para las clases de entorno donde existen políticas de optimización automática, AIXI se optimiza automáticamente.
Más tarde, Hutter y Jan Leike demostraron que la optimización de Pareto equilibrada es subjetiva y que cualquier política puede considerarse óptima de Pareto, lo que describen como socavando todas las afirmaciones de optimización anteriores de AIXI. [5]
Sin embargo, AIXI tiene limitaciones. Está restringido a maximizar las recompensas basadas en percepciones en contraposición a estados externos. También asume que interactúa con el entorno únicamente a través de canales de acción y percepción, evitando que considere la posibilidad de ser dañado o modificado. Coloquialmente, esto significa que no se considera contenido por el entorno con el que interactúa. También asume que el entorno es computable. [6] Dado que AIXI es incomputable (ver más abajo), asigna probabilidad cero a su propia existencia [ cita requerida ] .
Aspectos computacionales
Como la inducción de Solomonoff , AIXI es incomputable . Sin embargo, existen aproximaciones computables de la misma. Una de estas aproximaciones es AIXI tl , que se comporta al menos tan bien como el mejor agente limitado en tiempo ty espacio l . [2] Otra aproximación a Aixi con una clase de entorno restringido es MC-Aixi (FAC-CTW) (que significa Monte Carlo Aixi fac- Contexto-Tree ponderación ), que ha tenido cierto éxito jugando juegos simples como parcialmente observable Pac- Hombre . [3] [7]
Ver también
Referencias
- ^ Marcus Hutter (2000). Una teoría de la inteligencia artificial universal basada en la complejidad algorítmica . arXiv : cs.AI/0004001 . Código Bibliográfico : 2000cs ........ 4001H .
- ^ a b c - (2004). Inteligencia artificial universal: decisiones secuenciales basadas en la probabilidad algorítmica . Textos en Informática Teórica y Serie EATCS. Saltador. doi : 10.1007 / b138233 . ISBN 978-3-540-22139-5. S2CID 33352850 .
- ^ a b c Veness, Joel; Kee Siong Ng; Hutter, Marcus; Uther, William; Plata, David (2009). "Una aproximación de Monte Carlo AIXI". arXiv : 0909.0801 [ cs.AI ].
- ^ Inteligencia artificial universal
- ^ Leike, Jan; Hutter, Marcus (2015). Malos antecedentes universales y nociones de optimización (PDF) . Actas de la 28ª Conferencia sobre Teoría del Aprendizaje.
- ^ Soares, Nate. "Formalización de dos problemas de modelos de mundo realistas" (PDF) . Intelligence.org . Consultado el 19 de julio de 2015 .
- ^ Jugando Pacman usando Aproximación AIXI - YouTube
- "Inteligencia algorítmica universal: un enfoque matemático de arriba a abajo", Marcus Hutter, arXiv : cs / 0701125 ; también en Artificial General Intelligence , eds. B. Goertzel y C. Pennachin, Springer, 2007, ISBN 9783540237334 , págs. 227–290, doi : 10.1007 / 978-3-540-68677-4_8 .