多智能體係統(multi-agent system,MAS) 是一種全新的分布式計算技術。自20 世紀70年代出現以來得到迅速發展,目前已經成為一種進行複雜係統分析與模擬的思想方法與工具。

VIP內容

多智能體深度強化學習中的Q值路徑分解

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

作者:

楊耀東 郝建業 陳廣勇 湯宏垚 陳贏峰 胡裕靖 範長傑 魏忠鈺

簡介:

近年來,由於許多現實世界中的問題可以建模為多智能體係統,因此多智能體深度強化學習(MARL)已成為一個非常活躍的研究領域。一類特別有趣且廣泛適用的問題可以被抽象為部分可觀察的合作式多智能體環境,在這種環境中,一組智能體根據自己的局部觀察和共享的全局獎勵信號來學習協調其行為。一種自然的解決方案是求助於集中式訓練、分布式執行範式。在集中式訓練期間,一項關鍵挑戰是多智能體信度分配:如何為單個智能體的策略分配屬於它自身的貢獻,從而更好地協調以最大化全局獎勵。在本文中,我們提出了一種稱為Q值路徑分解(QPD)的新方法,可以將係統的全局Q值分解為單個智能體的Q值。和以前的工作限製單個Q值和全局Q值的表示關係不同,我們將累積梯度歸因技術運用到深度MARL中,沿著軌跡路徑直接分解全局Q值來為智能體進行信度分配。我們在具有挑戰性的《星際爭霸II》微觀管理任務上評估了QPD,表明其與現有的MARL算法相比,QPD在同質和異質的多智能體場景中均達到了先進的性能。

方法:

  • 在集中式訓練、分布式執行的範式下,智能體會依據自身的曆史軌跡和當前觀察選擇執行動作與環境交互,使用集中式的critic網絡學習基於智能體聯合觀察和動作的全局Q值函數。

  • 在獲得當前軌跡後,通過累積梯度技術沿著狀態動作軌跡將全局Q值歸因到每個智能體的特征上,將屬於每個智能體的特征的歸因信度疊加作為當前狀態下智能體的個體Q值信度。

  • 使用個體Q值信度作為底層智能體策略網絡的監督信號對智能體策略進行訓練。

效果: 該算法在挑戰性的星際爭霸遊戲平台進行了測試,實驗顯示QPD能夠在同質和異質場景中學習到協調的策略,取得先進的性能。

成為VIP會員查看完整內容
0
14
2
Top