Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

人工智能和強化學習領域中一些最令人興奮的成功故事都發生在遊戲領域。主要的例子是最近的AlphaZero程序(它下國際象棋),以及早期(1990年代)結構類似的TD-Gammon程序(它下西洋雙陸棋)。這些程序經過離線的廣泛訓練,使用複雜的自演化/近似策略迭代算法和神經網絡。然而,在離線情況下獲得的AlphaZero玩家並不會在在線遊戲中直接使用(由於離線神經網絡訓練固有的近似錯誤,它太不準確了)。取而代之的是一個單獨的在線玩家,它是基於多步預測和一個經過離線訓練的終端位置評估器,在線玩家執行一種形式的策略改進,這與離線玩家不同,它不會因神經網絡近似而退化。因此,它大大提高了性能。

類似地,TD-Gammon使用沒有被神經網絡近似退化的前瞻最小化在線執行一個策略改進步驟。為此,它使用了一個經過離線神經網絡訓練的終端位置評估器,重要的是,它還通過rollout擴展了其在線前向(使用基於位置評估器的一步前向播放器進行仿真)。AlphaZero和TD-Gammon的一個重要教訓是,離線訓練的控製器的性能可以通過在線遊戲、長時間的前瞻性(包括最小化或推出離線獲得的策略,或兩者都有)和離線獲得的終端成本近似大大提高。這種性能的提高通常是戲劇性的,這是由於一個簡單的事實,這是我們工作的中心:在線遊戲相當於求解Bellman方程的牛頓方法的一個步驟,而牛頓步驟的起點是基於離線訓練的結果,並可能通過更長的前瞻性和在線推出得到增強。這個過程可以用動態規劃的抽象模型和簡單的幾何結構來理解。它在一定程度上體現在模型預測控製中,但它似乎還沒有在決策和控製社區中得到充分的認識。

在這項工作中,我們的目標是提供洞察力(通常基於可視化),解釋在線決策對離線訓練的有益影響。雖然我們將不再強調數學證明,但有相當多的相關分析,支持我們的結論,可以在作者最近的RL書籍[Ber19a], [Ber20a]中找到。我們的主要目標之一是通過抽象DP的統一原則表明,AlphaZero/TD-Gammon逼近值空間和rollout的思想非常廣泛地應用於確定性和隨機最優控製問題,包括離散和連續搜索空間。此外,這些思想可以有效地與模型預測控製、自適應控製、分散控製、離散和貝葉斯優化、基於神經網絡的值和策略逼近、啟發式算法等其他重要方法相結合。

http://web.mit.edu/dimitrib/www/abstractdp_MIT.html

"> 美國工程院院士MIT教授Dimitri《AlphaZero最優模型預測與自適應控製》2022新書,(附書稿PDF&講義) - 專知VIP

MIT科學家Dimitri P. Bertsekas今日發布了一份2022即將出版的《Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control》書稿及講義,該專著為強化學習進階,目的在於通過從AlphaZero獲取經驗教訓,涵蓋最優模型預測與自適應控製。

Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

人工智能和強化學習領域中一些最令人興奮的成功故事都發生在遊戲領域。主要的例子是最近的AlphaZero程序(它下國際象棋),以及早期(1990年代)結構類似的TD-Gammon程序(它下西洋雙陸棋)。這些程序經過離線的廣泛訓練,使用複雜的自演化/近似策略迭代算法和神經網絡。然而,在離線情況下獲得的AlphaZero玩家並不會在在線遊戲中直接使用(由於離線神經網絡訓練固有的近似錯誤,它太不準確了)。取而代之的是一個單獨的在線玩家,它是基於多步預測和一個經過離線訓練的終端位置評估器,在線玩家執行一種形式的策略改進,這與離線玩家不同,它不會因神經網絡近似而退化。因此,它大大提高了性能。

類似地,TD-Gammon使用沒有被神經網絡近似退化的前瞻最小化在線執行一個策略改進步驟。為此,它使用了一個經過離線神經網絡訓練的終端位置評估器,重要的是,它還通過rollout擴展了其在線前向(使用基於位置評估器的一步前向播放器進行仿真)。AlphaZero和TD-Gammon的一個重要教訓是,離線訓練的控製器的性能可以通過在線遊戲、長時間的前瞻性(包括最小化或推出離線獲得的策略,或兩者都有)和離線獲得的終端成本近似大大提高。這種性能的提高通常是戲劇性的,這是由於一個簡單的事實,這是我們工作的中心:在線遊戲相當於求解Bellman方程的牛頓方法的一個步驟,而牛頓步驟的起點是基於離線訓練的結果,並可能通過更長的前瞻性和在線推出得到增強。這個過程可以用動態規劃的抽象模型和簡單的幾何結構來理解。它在一定程度上體現在模型預測控製中,但它似乎還沒有在決策和控製社區中得到充分的認識。

在這項工作中,我們的目標是提供洞察力(通常基於可視化),解釋在線決策對離線訓練的有益影響。雖然我們將不再強調數學證明,但有相當多的相關分析,支持我們的結論,可以在作者最近的RL書籍[Ber19a], [Ber20a]中找到。我們的主要目標之一是通過抽象DP的統一原則表明,AlphaZero/TD-Gammon逼近值空間和rollout的思想非常廣泛地應用於確定性和隨機最優控製問題,包括離散和連續搜索空間。此外,這些思想可以有效地與模型預測控製、自適應控製、分散控製、離散和貝葉斯優化、基於神經網絡的值和策略逼近、啟發式算法等其他重要方法相結合。

http://web.mit.edu/dimitrib/www/abstractdp_MIT.html

成為VIP會員查看完整內容
0
87
2

相關內容

該係列課程由DeepMind研究人員教授,與倫敦大學學院(UCL)合作創建,為學生提供現代強化學習的全麵介紹。

本課程包括13個講座,該係列涵蓋了基礎的強化學習和規劃的序列決策問題,在進入更高級的主題和現代深度RL算法之前。它讓學生詳細了解各種主題,包括馬爾可夫決策過程,基於樣本的學習算法(如(雙)Q-learning, SARSA),深度強化學習,等等。它還探索了更高級的主題,如非策略學習、多步驟更新和資格跟蹤,以及在實現深度強化學習算法(如彩虹DQN)時的概念和實際考慮。

DeepMind研究科學家和工程師Hado van Hasselt, Diana Borsa和Matteo Hessel領導了一份針對碩士以上學生的關於RL和深度RL的13部分獨立介紹。

第1講: 強化學習的介紹

研究科學家Hado van Hasselt介紹了強化學習課程,並解釋了強化學習與人工智能的關係。

第二講: 探索與控製

研究科學家哈多·範·哈塞爾特(Hado van Hasselt)探討了為什麼學習主體同時平衡探索和利用已獲得的知識很重要。

第三講: MDPs與動態規劃

研究科學家Diana Borsa解釋了如何用動態規劃解決MDPs,以提取準確的預測和良好的控製策略。

第4講: 動態規劃算法的理論基礎

研究科學家Diana Borsa將動態規劃算法作為收縮映射進行研究,觀察它們何時以及如何收斂到正確的解。

第五講:無模型預測

研究科學家Hado van Hasselt對無模型預測及其與蒙特卡羅和時域差分算法的關係進行了更深入的研究。

第6講:無模型控製

研究科學家Hado van Hasselt研究了策略改進的預測算法,從而產生了可以從抽樣經驗中學習良好行為策略的算法。

第7講:函數近似

研究科學家Hado van Hasselt解釋了如何將深度學習與強化學習相結合,以實現“深度強化學習”。

第8講: 規劃與模型

研究工程師Matteo Hessel解釋了如何學習和使用模型,包括像Dyna和蒙特卡羅樹搜索(MCTS)這樣的算法。

第9講: 策略梯度和Actor-Critic方法

研究科學家Hado van Hasselt涵蓋了可以直接學習策略的策略算法和結合價值預測以更有效學習的Actor-Critic算法。

第10講: 近似動態規劃

研究科學家Diana Borsa介紹了近似動態規劃,探討了我們可以從理論上說的近似算法的性能。

第11講: 多步驟和間歇策略

研究科學家Hado van Hasselt討論了多步和離線策略算法,包括各種減少方差的技術。

第12講: 深度強化學習#1

研究工程師Matteo Hessel討論了深度RL的實際考慮和算法,包括如何使用自區分(即Jax)實現這些。

第13講: 深度強化學習#2

研究工程師Matteo Hessel介紹了作為輔助任務的一般值函數和GVFs,並解釋了如何處理算法中的可擴展問題。

成為VIP會員查看完整內容
0
43
6

《凸優化理論》力圖以簡潔的篇幅,介紹凸優化的一個完整理論分析框架。凸優化理論的基石在於對偶。作者選取了相交點的幾何框架(簡稱MC/MC框架)作為凸優化問題的對偶性分析的基礎框架。相比於基於函數共軛性的代數框架,MC/MC框架更適用於直觀地分析和理解各種重要的優化問題,也更適合初學者學習和理解凸優化理論。《凸優化理論/信息技術和電氣工程學科國際知名教材中譯本係列》可以作為高年級本科生、研究生運籌學優化類課程的教材或相關研究人員的參考書。

http://www.athenasc.com/convexduality.html

Dimitri P.Bertsekas,畢業於希臘雅典國立技術大學,主修機械與電氣工程專業,在麻省理工學院係統科學專業獲得博士學位,他曾經在斯坦福大學工程與經濟係統係、伊利諾伊大學香檳分校電氣工程係任教.從1979年起,他在麻省理工學院電氣工程與計算機科學係任教,目前是McAfee工程講座教授。   他的教學科研領域包括:確定性優化、動態規劃與隨機控製、大規模及分布式計算以及數據通信網絡.他發表和合著了大量研究論文,出版專著14本,其中部分專著被麻省理工學院作為教材使用,包括《非線性規劃》、《數據網絡》、《概率論入門》以及該書,他經常為企業進行谘詢,並為若幹學術期刊做編輯工作。   由於在他的著作《神經元動態規劃》(與John Tsitsiklis合著)中反映出的在運籌學與計算機科學結合方麵的出色研究成果,Bertsekas教授獲得了1997年的INFORMS獎,他還因運籌學研究獲得過2000年度希臘國家獎章和2001年ACC John R.Ragazzini教育獎.2001年,他當選為美國工程院院士。

成為VIP會員查看完整內容
0
39
0

【導讀】佛羅裏達大學電子與計算機工程係教授Sean Meyn撰寫的新書稿《強化學習與控製係統》,重點講述了與強化學習最相關的控製基礎,以及基於這些基礎的RL算法設計的大量工具。

Sean Meyn,佛羅裏達大學電子與計算機工程係教授兼Robert C. Pittman傑出學者主席,認知與控製實驗室主任,佛羅裏達可持續能源研究所所長。Sean於1982年獲得加利福尼亞大學洛杉磯分校數學學士學位,於1987年獲得麥吉爾大學電子工程博士學位。他的學術研究興趣包括決策和控製的理論與應用,隨機過程和優化。他在這些主題上的研究獲得了許多獎項,並且是IEEE會士。

http://www.meyn.ece.ufl.edu/

為了定義強化學習(RL),首先需要定義自動控製。例如,在你的日常生活中,可能包括你的汽車巡航控製,你的空調恒溫器,冰箱和熱水器,以及現代的衣物烘幹機的決策規則。有收集數據的傳感器,有收集數據以了解世界狀態的計算機”(汽車以正確的速度行駛嗎?毛巾還濕嗎?),根據這些測量結果,由計算機驅動的算法會發出命令來調整需要調整的東西:油門、風扇速度、加熱盤管電流,或者……更令人興奮的例子包括太空火箭、人造器官和微型機器人來進行手術。RL的目標是真正自動的自動控製:沒有任何物理學或生物學或醫學知識,RL算法調整自己成為一個超級控製器: 最平穩的飛行進入太空,和最專業的微型外科醫生! 這個夢想在大多數應用中肯定是遙不可及的,但最近的成功故事鼓舞了工業界、科學家和新一代學生。繼2015年擊敗歐洲圍棋冠軍樊麾之後,DeepMind的AlphaGo再次刷新了世界紀錄。不久之後的新聞是令人震驚的AlphaZero續集,它在“沒有任何專家幫助的情況下”自學下國際象棋和圍棋。這在現在看來已經不是什麼新鮮事了,似乎每個月都會有新的突破。

今天的強化學習有兩個同等重要的基礎: 1. 最優控製:兩個最著名的RL算法,TD-和q -學習,都是關於逼近最優控製的核心價值函數。2. 統計和信息理論。RL中的loration是本書的一大焦點,它強調了最優控製的幾何性質,以及為什麼創建可靠的學習算法並不困難。我們不會忽視第二個基礎: 動機和成功的啟發式將在不深入研究理論的情況下進行解釋。讀者將學到足夠的知識,開始嚐試自製的計算機代碼,並擁有一個大的算法設計選擇庫。在完成這本書的一半之前,我希望學生能對為什麼這些算法被期望是有用的以及為什麼它們有時會失敗有一個紮實的理解。

本書的重點是與強化學習最相關的控製基礎,以及基於這些基礎的RL算法設計的大量工具。

成為VIP會員查看完整內容
0
106
1

本書的目的是考慮大型和具有挑戰性的多階段決策問題,這些問題可以通過動態規劃和最優控製從原則上解決,但它們的精確解在計算上是難以解決的。我們討論了依靠近似來產生性能良好的次優策略(suboptimal policies)的求解方法。這些方法統稱為強化學習(reinforcement learning),也包括近似動態規劃(approximate dynamic programming)和神經動態規劃( neuro-dynamic programming)等替代名稱。

我們的學科從最優控製和人工智能的思想相互作用中獲益良多。本專著的目的之一是探索這兩個領域之間的共同邊界,並形成一個可以在任一領域具有背景的人員都可以訪問的橋梁。

這本書的數學風格與作者的動態規劃書和神經動態規劃專著略有不同。我們更多地依賴於直觀的解釋,而不是基於證據的洞察力。在附錄中,我們還對有限和無限視野動態規劃理論和一些基本的近似方法作了嚴格的簡要介紹。為此,我們需要一個適度的數學背景:微積分、初等概率和矩陣向量代數等。

實踐證明這本書中的方法是有效的,最近在國際象棋和圍棋中取得的驚人成就就是一個很好的證明。然而,在廣泛的問題中,它們的性能可能不太可靠。這反映了該領域的技術現狀:沒有任何方法能夠保證對所有甚至大多數問題都有效,但有足夠的方法來嚐試某個具有挑戰性的問題,並有合理的機會使其中一個或多個問題最終獲得成功。因此,我們的目標是提供一係列基於合理原則的方法,並為其屬性提供直覺,即使這些屬性不包括可靠的性能保證。希望通過對這些方法及其變體的充分探索,讀者將能夠充分解決他/她自己的問題。

成為VIP會員查看完整內容
0
58
3

雖然機器學習已被廣泛應用於各個領域,但有一個領域顯然未被觸及,那就是為機器學習本身提供動力的工具的設計。在這項工作中,我們要問以下問題:機器學習中使用的算法的設計是否可能實現自動化?我們介紹了自動學習通用迭代優化算法的第一個框架。其關鍵思想是將優化算法的設計視為一個強化學習/最優控製問題,並將一個特定的更新公式(因此一個特定的優化算法)視為一個特定的策略。尋找最優策略對應於尋找最優優化算法。我們使用神經網絡參數化更新公式,並使用強化學習訓練它以避免複合誤差問題。這激發了後續各種關於元學習的工作。

地址:

https://www.math.ias.edu/~ke.li/

成為VIP會員查看完整內容
0
36
3

線性模型預測控製的工業部署需要一個凸二次規劃(QP)的實時解。QP的顯式解刻畫了MPC控製律的特征,即狀態的分段仿射函數和一些無偏移量控製的穩態目標的計算。眾所周知,顯式控製律的複雜性隨著問題規模的增加呈指數級增長,使得離線描述和在線部署使用顯式控製律對任何合理規模的工業工廠都是難以處理的。最近的觀察表明,以修正線性單元(ReLU)為激活函數的深度神經網絡也代表一個分段仿射函數,這使得它們成為獲得精確逼近顯式MPC控製律的有吸引力的候選對象。通過大型化工實例的數值實驗,驗證了該方法的可擴展性。

成為VIP會員查看完整內容
0
31
1

本書的目的是考慮大型和具有挑戰性的多階段決策問題,這些問題可以通過動態規劃和最優控製從原則上解決,但它們的精確解在計算上是難以解決的。我們討論了依靠近似來產生性能良好的次優策略(suboptimal policies)的求解方法。這些方法統稱為強化學習(reinforcement learning),也包括近似動態規劃(approximate dynamic programming)和神經動態規劃( neuro-dynamic programming)等替代名稱。

我們的學科從最優控製和人工智能的思想相互作用中獲益良多。本專著的目的之一是探索這兩個領域之間的共同邊界,並形成一個可以在任一領域具有背景的人員都可以訪問的橋梁。

這本書的數學風格與作者的動態規劃書和神經動態規劃專著略有不同。我們更多地依賴於直觀的解釋,而不是基於證據的洞察力。在附錄中,我們還對有限和無限視野動態規劃理論和一些基本的近似方法作了嚴格的簡要介紹。為此,我們需要一個適度的數學背景:微積分、初等概率和矩陣向量代數等。

實踐證明這本書中的方法是有效的,最近在國際象棋和圍棋中取得的驚人成就就是一個很好的證明。然而,在廣泛的問題中,它們的性能可能不太可靠。這反映了該領域的技術現狀:沒有任何方法能夠保證對所有甚至大多數問題都有效,但有足夠的方法來嚐試某個具有挑戰性的問題,並有合理的機會使其中一個或多個問題最終獲得成功。因此,我們的目標是提供一係列基於合理原則的方法,並為其屬性提供直覺,即使這些屬性不包括可靠的性能保證。 希望通過對這些方法及其變體的充分探索,讀者將能夠充分解決他/她自己的問題。

成為VIP會員查看完整內容
0
61
1
小貼士
相關論文
Zaynah Javed,Daniel S. Brown,Satvik Sharma,Jerry Zhu,Ashwin Balakrishna,Marek Petrik,Anca D. Dragan,Ken Goldberg
5+閱讀 · 2021年6月11日
Multi-Task Learning for Dense Prediction Tasks: A Survey
Simon Vandenhende,Stamatios Georgoulis,Wouter Van Gansbeke,Marc Proesmans,Dengxin Dai,Luc Van Gool
5+閱讀 · 2020年9月16日
Xiangde Luo,Jieneng Chen,Tao Song,Yinan Chen,Guotai Wang,Shaoting Zhang
9+閱讀 · 2020年9月9日
MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning
Simon Vandenhende,Stamatios Georgoulis,Luc Van Gool
4+閱讀 · 2020年3月19日
Learning to Weight for Text Classification
Alejandro Moreo Fernández,Andrea Esuli,Fabrizio Sebastiani
8+閱讀 · 2019年3月28日
Ayush Tewari,Florian Bernard,Pablo Garrido,Gaurav Bharaj,Mohamed Elgharib,Hans-Peter Seidel,Patrick Pérez,Michael Zollhöfer,Christian Theobalt
5+閱讀 · 2018年12月18日
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation
Xin Wang,Qiuyuan Huang,Asli Celikyilmaz,Jianfeng Gao,Dinghan Shen,Yuan-Fang Wang,William Yang Wang,Lei Zhang
7+閱讀 · 2018年11月25日
Andrzej Stanisław Kucik,Konstantin Korovin
3+閱讀 · 2018年7月26日
Michael Thoreau,Navinda Kottege
7+閱讀 · 2018年6月20日
Abdulaziz M. Alayba,Vasile Palade,Matthew England,Rahat Iqbal
3+閱讀 · 2018年2月28日
Top
微信掃碼谘詢專知VIP會員
Top