Los profesionales de TI a menudo enfrentan problemas con escenarios del mundo real. Por ejemplo, los “problemas de agentes múltiples”, una categoría caracterizada por la toma de decisiones en varios pasos por parte de varios responsables o “agentes”, tiene aplicaciones importantes en misiones de búsqueda y rescate, extinción de incendios y respuesta a emergencias.
Los problemas de múltiples agentes a menudo se resuelven mediante una técnica de aprendizaje automático conocida como aprendizaje por refuerzo (RL), que se ocupa de cómo los agentes inteligentes toman decisiones en un entorno desconocido. El enfoque habitual en tales esfuerzos es la iteración de políticas (PI), que comienza con una “política base” y luego la ajusta para generar una “política de implementación” (con un proceso de generación llamado implementación). La implementación es simple, confiable y muy adecuada para la implementación en línea sin modelos.
Sin embargo, existe un problema grave. “En un algoritmo de implementación estándar, el número total de cálculos aumenta exponencialmente con el número de agentes. Esto puede hacer que los cálculos sean demasiado costosos incluso para un número reducido de agentes “, explica el Prof. Dimitri Bertsekas del Instituto de Tecnología de Massachusetts y la Universidad Estatal de Arizona, EE. UU., Se ocupa de la informática a gran escala y la optimización de la comunicación y el control.
En esencia, PI es simplemente una aplicación de implementación repetida donde la política de implementación en cada iteración se convierte en la política base para la siguiente iteración. Normalmente, en una política de implementación de múltiples agentes estándar, todos los agentes pueden influir simultáneamente en el algoritmo de implementación (principio de “todos los agentes a la vez”). Ahora, en un nuevo estudio publicado en IEEE / CAA Journal of Automatica Sinica, Prof. Bertsekas propuso un enfoque que podría cambiar las reglas del juego.
En su artículo, el prof. Bertsekas se centró en aplicar PI a problemas de control de componentes múltiples, cada uno seleccionado por un agente diferente. Supuso que todos los agentes tenían información de estado excelente y la compartieron entre ellos. Luego reformuló el problema, reemplazando la complejidad del espacio de control con la del espacio estatal. Además, en lugar del principio de “todos los agentes a la vez”, adoptó un principio de agente por agente en el que solo un agente podía ejecutar el algoritmo de implementación a la vez, mientras coordinaba la información proporcionada por otros agentes.
El resultado fue impresionante. En lugar de aumentar exponencialmente la complejidad, el Prof. Bertsekas encontró solo un aumento lineal en el cálculo con el número de agentes, lo que llevó a una reducción drástica en los costos de cálculo. Además, la simplificación computacional no ha sacrificado la calidad de la política mejorada, actuando a la par con el algoritmo de implementación estándar.
Profe. Bertsekas luego investigó los algoritmos de PI exactos y aproximados utilizando la nueva versión agente por agente política mejora y uso múltiple del despliegue. Demasiado problemas complejos, investigó el uso de redes neuronales para codificar reglas de implementación sucesivas y precalcular las reglas de señalización que coordinan el cálculo paralelo de varios agentes.
En general, el prof. Bertsekas es optimista sobre sus descubrimientos y sobre las perspectivas futuras de su enfoque. “La idea de implementación agente por agente se puede aplicar a problemas difíciles de control multidimensional, así como a problemas deterministas de optimización discreta / combinatoria que involucran restricciones que conectan controles en diferentes etapas”, señala. Ha publicado dos libros sobre RL, uno de los cuales, “Rollout, Policy Iteration, and Distributed Reinforcement Learning”, que pronto será publicado por Tsinghua Press en China, detalla su investigación en detalle.
Un nuevo enfoque de los sistemas multiagente puede revolucionar la forma de resolver problemas de decisiones complejos y secuenciales.
Dimitri Bertsekas. Aprendizaje por refuerzo de agentes múltiples: implementación e iteración de políticas, IEEE / CAA Journal of Automatica Sinica (2021). DOI: 10.1109 / JAS.2021.1003814
Proporcionado por la Asociación China de Automatización