VIP內容

MIT科學家Dimitri P. Bertsekas今日發布了一份2022即將出版的《Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control》書稿及講義,該專著為強化學習進階,目的在於通過從AlphaZero獲取經驗教訓,涵蓋最優模型預測與自適應控製。

Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

人工智能和強化學習領域中一些最令人興奮的成功故事都發生在遊戲領域。主要的例子是最近的AlphaZero程序(它下國際象棋),以及早期(1990年代)結構類似的TD-Gammon程序(它下西洋雙陸棋)。這些程序經過離線的廣泛訓練,使用複雜的自演化/近似策略迭代算法和神經網絡。然而,在離線情況下獲得的AlphaZero玩家並不會在在線遊戲中直接使用(由於離線神經網絡訓練固有的近似錯誤,它太不準確了)。取而代之的是一個單獨的在線玩家,它是基於多步預測和一個經過離線訓練的終端位置評估器,在線玩家執行一種形式的策略改進,這與離線玩家不同,它不會因神經網絡近似而退化。因此,它大大提高了性能。

類似地,TD-Gammon使用沒有被神經網絡近似退化的前瞻最小化在線執行一個策略改進步驟。為此,它使用了一個經過離線神經網絡訓練的終端位置評估器,重要的是,它還通過rollout擴展了其在線前向(使用基於位置評估器的一步前向播放器進行仿真)。AlphaZero和TD-Gammon的一個重要教訓是,離線訓練的控製器的性能可以通過在線遊戲、長時間的前瞻性(包括最小化或推出離線獲得的策略,或兩者都有)和離線獲得的終端成本近似大大提高。這種性能的提高通常是戲劇性的,這是由於一個簡單的事實,這是我們工作的中心:在線遊戲相當於求解Bellman方程的牛頓方法的一個步驟,而牛頓步驟的起點是基於離線訓練的結果,並可能通過更長的前瞻性和在線推出得到增強。這個過程可以用動態規劃的抽象模型和簡單的幾何結構來理解。它在一定程度上體現在模型預測控製中,但它似乎還沒有在決策和控製社區中得到充分的認識。

在這項工作中,我們的目標是提供洞察力(通常基於可視化),解釋在線決策對離線訓練的有益影響。雖然我們將不再強調數學證明,但有相當多的相關分析,支持我們的結論,可以在作者最近的RL書籍[Ber19a], [Ber20a]中找到。我們的主要目標之一是通過抽象DP的統一原則表明,AlphaZero/TD-Gammon逼近值空間和rollout的思想非常廣泛地應用於確定性和隨機最優控製問題,包括離散和連續搜索空間。此外,這些思想可以有效地與模型預測控製、自適應控製、分散控製、離散和貝葉斯優化、基於神經網絡的值和策略逼近、啟發式算法等其他重要方法相結合。

http://web.mit.edu/dimitrib/www/abstractdp_MIT.html

成為VIP會員查看完整內容
0
87
2

最新論文

We consider the task of building strong but human-like policies in multi-agent decision-making problems, given examples of human behavior. Imitation learning is effective at predicting human actions but may not match the strength of expert humans, while self-play learning and search techniques (e.g. AlphaZero) lead to strong performance but may produce policies that are difficult for humans to understand and coordinate with. We show in chess and Go that regularizing search policies based on the KL divergence from an imitation-learned policy by applying Monte Carlo tree search produces policies that have higher human prediction accuracy and are stronger than the imitation policy. We then introduce a novel regret minimization algorithm that is regularized based on the KL divergence from an imitation-learned policy, and show that applying this algorithm to no-press Diplomacy yields a policy that maintains the same human prediction accuracy as imitation learning while being substantially stronger.

0
0
0
下載
預覽
參考鏈接
Top
微信掃碼谘詢專知VIP會員
Top