bandido de múltiples brazos

En la teoría de la probabilidad y el aprendizaje automático , el problema del bandido con múltiples brazos ( a veces llamado problema del bandido con brazos K ^[1] o N ^[2] ) es un problema en el que se debe asignar un conjunto limitado fijo de recursos entre competidores (alternativos). ) opciones de una manera que maximiza su ganancia esperada, cuando las propiedades de cada opción se conocen solo parcialmente en el momento de la asignación, y pueden comprenderse mejor con el paso del tiempo o mediante la asignación de recursos a la opción. ^[3]^[4] Este es un aprendizaje de refuerzo clásicoproblema que ejemplifica el dilema de intercambio entre exploración y explotación. El nombre proviene de imaginar a un jugador en una fila de máquinas tragamonedas (a veces conocido como " bandidos de un solo brazo "), que tiene que decidir en qué máquinas jugar, cuántas veces jugar en cada máquina y en qué orden jugarlas, y si desea continuar con la máquina actual o probar una máquina diferente. ^[5] El problema del bandido con múltiples brazos también se incluye en la amplia categoría de programación estocástica .

En el problema, cada máquina proporciona una recompensa aleatoria a partir de una distribución de probabilidad específica de esa máquina, que no se conoce a priori. El objetivo del jugador es maximizar la suma de las recompensas obtenidas a través de una secuencia de tirones de palanca. ^[3]^[4] La compensación crucial que enfrenta el jugador en cada prueba es entre la "explotación" de la máquina que tiene el pago esperado más alto y la "exploración" para obtener más información sobre los pagos esperados de las otras máquinas. La compensación entre exploración y explotación también se enfrenta en el aprendizaje automático . En la práctica, los bandidos con múltiples brazos se han utilizado para modelar problemas como la gestión de proyectos de investigación en una gran organización, como una fundación científica o unacompañía farmacéutica . ^[3]^[4] En las primeras versiones del problema, el jugador comienza sin conocimientos iniciales sobre las máquinas.

Herbert Robbins en 1952, al darse cuenta de la importancia del problema, construyó estrategias de selección de población convergentes en "algunos aspectos del diseño secuencial de experimentos". ^[6] Un teorema, el índice de Gittins , publicado por primera vez por John C. Gittins , brinda una política óptima para maximizar la recompensa descontada esperada. ^[7]

El problema del bandido con múltiples brazos modela un agente que simultáneamente intenta adquirir nuevos conocimientos (llamado "exploración") y optimizar sus decisiones basándose en el conocimiento existente (llamado "explotación"). El agente intenta equilibrar estas tareas en competencia para maximizar su valor total durante el período de tiempo considerado. Hay muchas aplicaciones prácticas del modelo bandido, por ejemplo:

En estos ejemplos prácticos, el problema requiere equilibrar la maximización de la recompensa basada en el conocimiento ya adquirido con el intento de nuevas acciones para aumentar aún más el conocimiento. Esto se conoce como la compensación entre explotación y exploración en el aprendizaje automático .

El modelo también se ha utilizado para controlar la asignación dinámica de recursos a diferentes proyectos, respondiendo a la pregunta de en qué proyecto trabajar, dada la incertidumbre sobre la dificultad y la rentabilidad de cada posibilidad. ^[12]

Una fila de máquinas tragamonedas en Las Vegas

¿Cómo debe distribuirse un presupuesto determinado entre estos departamentos de investigación para maximizar los resultados?

Marco de UCB-ALP para bandidos contextuales restringidos