VIP內容

【導讀】佛羅裏達大學電子與計算機工程係教授Sean Meyn撰寫的新書稿《強化學習與控製係統》,重點講述了與強化學習最相關的控製基礎,以及基於這些基礎的RL算法設計的大量工具。

Sean Meyn,佛羅裏達大學電子與計算機工程係教授兼Robert C. Pittman傑出學者主席,認知與控製實驗室主任,佛羅裏達可持續能源研究所所長。Sean於1982年獲得加利福尼亞大學洛杉磯分校數學學士學位,於1987年獲得麥吉爾大學電子工程博士學位。他的學術研究興趣包括決策和控製的理論與應用,隨機過程和優化。他在這些主題上的研究獲得了許多獎項,並且是IEEE會士。

http://www.meyn.ece.ufl.edu/

為了定義強化學習(RL),首先需要定義自動控製。例如,在你的日常生活中,可能包括你的汽車巡航控製,你的空調恒溫器,冰箱和熱水器,以及現代的衣物烘幹機的決策規則。有收集數據的傳感器,有收集數據以了解世界狀態的計算機”(汽車以正確的速度行駛嗎?毛巾還濕嗎?),根據這些測量結果,由計算機驅動的算法會發出命令來調整需要調整的東西:油門、風扇速度、加熱盤管電流,或者……更令人興奮的例子包括太空火箭、人造器官和微型機器人來進行手術。RL的目標是真正自動的自動控製:沒有任何物理學或生物學或醫學知識,RL算法調整自己成為一個超級控製器: 最平穩的飛行進入太空,和最專業的微型外科醫生! 這個夢想在大多數應用中肯定是遙不可及的,但最近的成功故事鼓舞了工業界、科學家和新一代學生。繼2015年擊敗歐洲圍棋冠軍樊麾之後,DeepMind的AlphaGo再次刷新了世界紀錄。不久之後的新聞是令人震驚的AlphaZero續集,它在“沒有任何專家幫助的情況下”自學下國際象棋和圍棋。這在現在看來已經不是什麼新鮮事了,似乎每個月都會有新的突破。

今天的強化學習有兩個同等重要的基礎: 1. 最優控製:兩個最著名的RL算法,TD-和q -學習,都是關於逼近最優控製的核心價值函數。2. 統計和信息理論。RL中的loration是本書的一大焦點,它強調了最優控製的幾何性質,以及為什麼創建可靠的學習算法並不困難。我們不會忽視第二個基礎: 動機和成功的啟發式將在不深入研究理論的情況下進行解釋。讀者將學到足夠的知識,開始嚐試自製的計算機代碼,並擁有一個大的算法設計選擇庫。在完成這本書的一半之前,我希望學生能對為什麼這些算法被期望是有用的以及為什麼它們有時會失敗有一個紮實的理解。

本書的重點是與強化學習最相關的控製基礎,以及基於這些基礎的RL算法設計的大量工具。

成為VIP會員查看完整內容
0
75
1
父主題
Top