美國工程院院士MIT教授Dimitri2022新書《AlphaZero最優模型預測與自適應控製》,(附書稿PDF&講義)

1 月 3 日 專知
美國工程院院士MIT教授Dimitri2022新書《AlphaZero最優模型預測與自適應控製》,(附書稿PDF&講義)

MIT科學家Dimitri P. Bertsekas今日發布了一份2022即將出版的《Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control》書稿及講義,該專著為強化學習進階,目的在於通過從AlphaZero獲取經驗教訓,涵蓋最優模型預測與自適應控製。






作者Dimitri P. Bertsekas教授,1942年出生於希臘雅典,美國工程院院士,麻省理工大學電子工程及計算機科學教授。Bertsekas教授因其在算法優化與控製方麵以及應用概率論方麵編寫了多達16本專著而聞名於世。他也是CiteSeer搜索引擎學術數據庫中被引用率最高的100位計算機科學作者之一。Bertsekas教授還是Athena Scientific出版社的聯合創始人。


http://web.mit.edu/dimitrib



Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control




人工智能和強化學習領域中一些最令人興奮的成功故事都發生在遊戲領域。主要的例子是最近的AlphaZero程序(它下國際象棋),以及早期(1990年代)結構類似的TD-Gammon程序(它下西洋雙陸棋)。這些程序經過離線的廣泛訓練,使用複雜的自演化/近似策略迭代算法和神經網絡。然而,在離線情況下獲得的AlphaZero玩家並不會在在線遊戲中直接使用(由於離線神經網絡訓練固有的近似錯誤,它太不準確了)。取而代之的是一個單獨的在線玩家,它是基於多步預測和一個經過離線訓練的終端位置評估器,在線玩家執行一種形式的策略改進,這與離線玩家不同,它不會因神經網絡近似而退化。因此,它大大提高了性能。


類似地,TD-Gammon使用沒有被神經網絡近似退化的前瞻最小化在線執行一個策略改進步驟。為此,它使用了一個經過離線神經網絡訓練的終端位置評估器,重要的是,它還通過rollout擴展了其在線前向(使用基於位置評估器的一步前向播放器進行仿真)。AlphaZero和TD-Gammon的一個重要教訓是,離線訓練的控製器的性能可以通過在線遊戲、長時間的前瞻性(包括最小化或推出離線獲得的策略,或兩者都有)和離線獲得的終端成本近似大大提高。這種性能的提高通常是戲劇性的,這是由於一個簡單的事實,這是我們工作的中心:在線遊戲相當於求解Bellman方程的牛頓方法的一個步驟,而牛頓步驟的起點是基於離線訓練的結果,並可能通過更長的前瞻性和在線推出得到增強。這個過程可以用動態規劃的抽象模型和簡單的幾何結構來理解。它在一定程度上體現在模型預測控製中,但它似乎還沒有在決策和控製社區中得到充分的認識。


在這項工作中,我們的目標是提供洞察力(通常基於可視化),解釋在線決策對離線訓練的有益影響。雖然我們將不再強調數學證明,但有相當多的相關分析,支持我們的結論,可以在作者最近的RL書籍[Ber19a], [Ber20a]中找到。我們的主要目標之一是通過抽象DP的統一原則表明,AlphaZero/TD-Gammon逼近值空間和rollout的思想非常廣泛地應用於確定性和隨機最優控製問題,包括離散和連續搜索空間。此外,這些思想可以有效地與模型預測控製、自適應控製、分散控製、離散和貝葉斯優化、基於神經網絡的值和策略逼近、啟發式算法等其他重要方法相結合。


http://web.mit.edu/dimitrib/www/abstractdp_MIT.html





專知便捷查看

便捷下載,請關注專知公眾號(點擊上方藍色專知關注)

  • 後台回複“A151” 就可以獲取美國工程院院士MIT教授Dimitri《AlphaZero最優模型預測與自適應控製》2022新書,151頁pdf》專知下載鏈接

專知,專業可信的人工智能知識分發 ,讓認知協作更快更好!歡迎注冊登錄專知www.webtourguide.com,獲取5000+AI主題幹貨知識資料!


歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業幹貨知識教程資料和與專家交流谘詢
點擊“ 閱讀原文 ”,了解使用 專知 ,查看獲取5000+AI主題知識資源
登錄查看更多
0
1

相關內容

【新書】分布式強化學習,280頁pdf
專知會員服務
65+閱讀 · 2021年12月19日
【經典書】凸優化理論,MIT-Dimitri P. Bertsekas教授,257頁pdf
專知會員服務
54+閱讀 · 2021年8月28日
【斯坦福幹貨書】強化學習基金融領域應用,312頁pdf
專知會員服務
98+閱讀 · 2020年12月22日
MIT新書《強化學習與最優控製》
專知會員服務
188+閱讀 · 2019年10月9日
【新書】分布式強化學習,280頁pdf
專知
4+閱讀 · 2021年12月19日
臘月廿八 | 強化學習-TRPO和PPO背後的數學
AI研習社
13+閱讀 · 2019年2月2日
深度強化學習入門,這一篇就夠了!
機器學習算法與Python學習
19+閱讀 · 2018年8月17日
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
國家自然科學基金
0+閱讀 · 2008年12月31日
Arxiv
0+閱讀 · 4月15日
Arxiv
14+閱讀 · 2021年11月27日
小貼士
相關基金
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
國家自然科學基金
0+閱讀 · 2008年12月31日
Top
微信掃碼谘詢專知VIP會員
Top