深度強化學習近年來備受關注。在自動駕駛、遊戲、分子重組和機器人等各種活動中,他們都取得了令人印象深刻的成果。在所有這些領域,計算機程序已經學會了解決困難的問題。他們學會了飛行模型直升機和表演特技動作,如回旋和翻滾。在某些應用中,他們甚至比最優秀的人類還要優秀,比如Atari、Go、撲克和星際爭霸。深度強化學習探索複雜環境的方式提醒我們,孩子們是如何學習的,通過開玩笑地嚐試東西,獲得反饋,然後再嚐試。計算機似乎真的擁有人類學習的各個方麵; 這是人工智能夢想的核心。教育工作者並沒有忽視研究方麵的成功,大學已經開始開設這方麵的課程。這本書的目的是提供深度強化學習領域的全麵概述。這本書是為人工智能的研究生寫的,並為希望更好地理解深度強化學習方法和他們的挑戰的研究人員和實踐者。我們假設學生具備本科水平的計算機科學和人工智能知識;本書的編程語言是Python。我們描述了深度強化學習的基礎、算法和應用。我們將介紹已建立的無模型和基於模型的方法,它們構成了該領域的基礎。發展很快,我們還涵蓋了一些高級主題: 深度多智能體強化學習、深度層次強化學習和深度元學習。

https://deep-reinforcement-learning.net/

這本書的目的是呈現在一個單一的深度強化學習的最新見解,適合教學一個研究生水平一個學期的課程。除了涵蓋最先進的算法,我們涵蓋經典強化學習和深度學習的必要背景。我們還涵蓋了自我遊戲、多主體、層次和元學習方麵的先進的、前瞻性的發展。

深度強化學習建立在深度監督學習和表格強化學習的基礎上

在這些章節中有很多材料,既有基礎的,也有先進的,有很多文獻。一種選擇是講授一門關於書中所有主題的課程。另一種選擇是慢一些、深入一些,在基礎知識上花足夠的時間,創建關於Chaps. 2-5的課程,以涵蓋基本主題(基於值、基於策略和基於模型的學習),並創建關於Chaps. 6-9的單獨課程,以涵蓋多智能體、分層和元學習等更高級的主題。

在這一介紹性的章節之後,我們將繼續學習第二章,在第二章中,我們將詳細討論表格(非深度)強化學習的基本概念。我們從馬爾可夫決策過程開始,並詳細討論它們。第三章解釋了基於深度價值的強化學習。本章涵蓋了為尋找最優策略而設計的第一個深度算法。我們仍將在基於價值、無模型的範式中工作。在本章的最後,我們將分析一個自學如何玩上世紀80年代Atari電子遊戲的玩家。下一章,第四章,討論了一種不同的方法:基於深度策略的強化學習。下一章,第5章,介紹了基於深度模型的強化學習與學習模型,該方法首先建立環境的過渡模型,然後再建立策略。基於模型的強化學習有希望獲得更高的樣本效率,從而加快學習速度。

"> 要上手RL?406頁《深度強化學習》2022新書,Leiden大學Aske Plaat教授主講 - 專知VIP

Leiden大學Aske Plaat教授《深度強化學習》2022新書,值得關注!

深度強化學習近年來備受關注。在自動駕駛、遊戲、分子重組和機器人等各種活動中,他們都取得了令人印象深刻的成果。在所有這些領域,計算機程序已經學會了解決困難的問題。他們學會了飛行模型直升機和表演特技動作,如回旋和翻滾。在某些應用中,他們甚至比最優秀的人類還要優秀,比如Atari、Go、撲克和星際爭霸。深度強化學習探索複雜環境的方式提醒我們,孩子們是如何學習的,通過開玩笑地嚐試東西,獲得反饋,然後再嚐試。計算機似乎真的擁有人類學習的各個方麵; 這是人工智能夢想的核心。教育工作者並沒有忽視研究方麵的成功,大學已經開始開設這方麵的課程。這本書的目的是提供深度強化學習領域的全麵概述。這本書是為人工智能的研究生寫的,並為希望更好地理解深度強化學習方法和他們的挑戰的研究人員和實踐者。我們假設學生具備本科水平的計算機科學和人工智能知識;本書的編程語言是Python。我們描述了深度強化學習的基礎、算法和應用。我們將介紹已建立的無模型和基於模型的方法,它們構成了該領域的基礎。發展很快,我們還涵蓋了一些高級主題: 深度多智能體強化學習、深度層次強化學習和深度元學習。

https://deep-reinforcement-learning.net/

這本書的目的是呈現在一個單一的深度強化學習的最新見解,適合教學一個研究生水平一個學期的課程。除了涵蓋最先進的算法,我們涵蓋經典強化學習和深度學習的必要背景。我們還涵蓋了自我遊戲、多主體、層次和元學習方麵的先進的、前瞻性的發展。

深度強化學習建立在深度監督學習和表格強化學習的基礎上

在這些章節中有很多材料,既有基礎的,也有先進的,有很多文獻。一種選擇是講授一門關於書中所有主題的課程。另一種選擇是慢一些、深入一些,在基礎知識上花足夠的時間,創建關於Chaps. 2-5的課程,以涵蓋基本主題(基於值、基於策略和基於模型的學習),並創建關於Chaps. 6-9的單獨課程,以涵蓋多智能體、分層和元學習等更高級的主題。

在這一介紹性的章節之後,我們將繼續學習第二章,在第二章中,我們將詳細討論表格(非深度)強化學習的基本概念。我們從馬爾可夫決策過程開始,並詳細討論它們。第三章解釋了基於深度價值的強化學習。本章涵蓋了為尋找最優策略而設計的第一個深度算法。我們仍將在基於價值、無模型的範式中工作。在本章的最後,我們將分析一個自學如何玩上世紀80年代Atari電子遊戲的玩家。下一章,第四章,討論了一種不同的方法:基於深度策略的強化學習。下一章,第5章,介紹了基於深度模型的強化學習與學習模型,該方法首先建立環境的過渡模型,然後再建立策略。基於模型的強化學習有希望獲得更高的樣本效率,從而加快學習速度。

成為VIP會員查看完整內容
0
58
0

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習範式之一。 強化學習與監督學習的不同之處在於,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在於,後者不假設MDP的確切數學模型,並且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

本書分為三個部分。第一部分介紹了分布式強化學習的構建模塊。我們首先介紹了我們的基本研究對象,收益分布和分布Bellman方程(第二章)。第三章介紹了分類時間差分學習,一種簡單的學習收益分布的算法。在第三章結束時,讀者應該理解分布式強化學習的基本原則,並且應該能夠在簡單的實際設置中使用它。

第二部分是對分布式強化學習理論的發展。第4章介紹了一種用於測量返回分布之間距離的語言,以及與這些分布交互的操作符。第5章介紹了實現分布式強化學習所需的概率表示的概念;在此基礎上,研究了用這種表示來計算和近似收益分布的問題,並引入了分布動態規劃的框架。第6章研究了如何從樣本中以增量的方式學習返回分布,給出了類別時間差分學習的正式結構,以及其他算法,如分位數時間差異學習。第7章將這些思想擴展到最優決策的設置(也稱為控製設置)。最後,第8章介紹了基於統計泛函概念的分布強化學習的不同視角。在第二部分結束時,讀者應該理解在設計分布式強化學習算法時出現的挑戰,以及解決這些挑戰的可用工具。

第三部分和最後一部分為實際場景ios開發了分布式強化學習。第九章回顧了線性值函數逼近的原理,並將這些思想推廣到分布環境中。第10章討論了如何將分布方法與深度神經網絡相結合來獲得深度強化學習的算法,並提出了一個模型來研究這種結合所產生的現象。第11章討論了分布式強化學習在兩個進一步研究領域(多主體學習和神經科學)的新興應用,並得出結論。

https://www.distributional-rl.org/

成為VIP會員查看完整內容
0
43
0

該係列課程由DeepMind研究人員教授,與倫敦大學學院(UCL)合作創建,為學生提供現代強化學習的全麵介紹。

本課程包括13個講座,該係列涵蓋了基礎的強化學習和規劃的序列決策問題,在進入更高級的主題和現代深度RL算法之前。它讓學生詳細了解各種主題,包括馬爾可夫決策過程,基於樣本的學習算法(如(雙)Q-learning, SARSA),深度強化學習,等等。它還探索了更高級的主題,如非策略學習、多步驟更新和資格跟蹤,以及在實現深度強化學習算法(如彩虹DQN)時的概念和實際考慮。

DeepMind研究科學家和工程師Hado van Hasselt, Diana Borsa和Matteo Hessel領導了一份針對碩士以上學生的關於RL和深度RL的13部分獨立介紹。

第1講: 強化學習的介紹

研究科學家Hado van Hasselt介紹了強化學習課程,並解釋了強化學習與人工智能的關係。

第二講: 探索與控製

研究科學家哈多·範·哈塞爾特(Hado van Hasselt)探討了為什麼學習主體同時平衡探索和利用已獲得的知識很重要。

第三講: MDPs與動態規劃

研究科學家Diana Borsa解釋了如何用動態規劃解決MDPs,以提取準確的預測和良好的控製策略。

第4講: 動態規劃算法的理論基礎

研究科學家Diana Borsa將動態規劃算法作為收縮映射進行研究,觀察它們何時以及如何收斂到正確的解。

第五講:無模型預測

研究科學家Hado van Hasselt對無模型預測及其與蒙特卡羅和時域差分算法的關係進行了更深入的研究。

第6講:無模型控製

研究科學家Hado van Hasselt研究了策略改進的預測算法,從而產生了可以從抽樣經驗中學習良好行為策略的算法。

第7講:函數近似

研究科學家Hado van Hasselt解釋了如何將深度學習與強化學習相結合,以實現“深度強化學習”。

第8講: 規劃與模型

研究工程師Matteo Hessel解釋了如何學習和使用模型,包括像Dyna和蒙特卡羅樹搜索(MCTS)這樣的算法。

第9講: 策略梯度和Actor-Critic方法

研究科學家Hado van Hasselt涵蓋了可以直接學習策略的策略算法和結合價值預測以更有效學習的Actor-Critic算法。

第10講: 近似動態規劃

研究科學家Diana Borsa介紹了近似動態規劃,探討了我們可以從理論上說的近似算法的性能。

第11講: 多步驟和間歇策略

研究科學家Hado van Hasselt討論了多步和離線策略算法,包括各種減少方差的技術。

第12講: 深度強化學習#1

研究工程師Matteo Hessel討論了深度RL的實際考慮和算法,包括如何使用自區分(即Jax)實現這些。

第13講: 深度強化學習#2

研究工程師Matteo Hessel介紹了作為輔助任務的一般值函數和GVFs,並解釋了如何處理算法中的可擴展問題。

成為VIP會員查看完整內容
0
43
6

看到這些材料時,一個顯而易見的問題可能會出現:“為什麼還要一本深度學習和自然語言處理的書?”已有多篇優秀的論文發表,涵蓋了深度學習及其在語言處理中的應用的理論和實踐兩個方麵。然而,從我教授自然語言處理課程的經驗來看,我認為,盡管這些書的質量很好,但它們中的大多數並不是針對最有可能的讀者。這本書的目標讀者是那些在機器學習和自然語言處理之外的領域有技能的人,他們的工作至少部分依賴於對大量數據(尤其是文本數據)的自動分析。這些專家可能包括社會科學家、政治科學家、生物醫學科學家,甚至對機器學習了解有限的計算機科學家和計算語言學家。

現有的深度學習和自然語言處理書籍一般分為兩大陣營。第一個陣營側重於深度學習的理論基礎。這對前麵提到的讀者肯定是有用的,因為在使用工具之前應該了解它的理論方麵。然而,這些書往往假定了典型的機器學習研究者的背景,因此,我經常看到沒有這種背景的學生很快就會在這樣的材料中迷失。為了緩解這個問題,目前存在的第二種類型的書籍側重於機器學習從業者;也就是說,關於如何使用深度學習軟件,極少關注理論方麵。我認為,關注實際方麵同樣是必要的,但不是充分的。考慮到深度學習框架和庫已經變得相當複雜,由於理論上的誤解而誤用它們的幾率很高。我在我的課程中也經常看到這個問題。

因此,本書旨在為自然語言處理的深度學習的理論和實踐方麵架起橋梁。我介紹了必要的理論背景,並假設讀者有最少的機器學習背景。我的目標是讓任何上過線性代數和微積分課程的人都能理解這些理論材料。為了解決實際方麵的問題,本書包括用於討論的較簡單算法的偽代碼,以及用於更複雜體係結構的實際Python代碼。任何參加過Python編程課程的人都應該能夠理解這些代碼。讀完這本書後,我希望讀者能夠有必要的基礎,立即開始構建真實的、實用的自然語言處理係統,並通過閱讀有關這些主題的研究出版物來擴展他們的知識。

成為VIP會員查看完整內容
0
57
0

【導讀】佛羅裏達大學電子與計算機工程係教授Sean Meyn撰寫的新書稿《強化學習與控製係統》,重點講述了與強化學習最相關的控製基礎,以及基於這些基礎的RL算法設計的大量工具。

Sean Meyn,佛羅裏達大學電子與計算機工程係教授兼Robert C. Pittman傑出學者主席,認知與控製實驗室主任,佛羅裏達可持續能源研究所所長。Sean於1982年獲得加利福尼亞大學洛杉磯分校數學學士學位,於1987年獲得麥吉爾大學電子工程博士學位。他的學術研究興趣包括決策和控製的理論與應用,隨機過程和優化。他在這些主題上的研究獲得了許多獎項,並且是IEEE會士。

http://www.meyn.ece.ufl.edu/

為了定義強化學習(RL),首先需要定義自動控製。例如,在你的日常生活中,可能包括你的汽車巡航控製,你的空調恒溫器,冰箱和熱水器,以及現代的衣物烘幹機的決策規則。有收集數據的傳感器,有收集數據以了解世界狀態的計算機”(汽車以正確的速度行駛嗎?毛巾還濕嗎?),根據這些測量結果,由計算機驅動的算法會發出命令來調整需要調整的東西:油門、風扇速度、加熱盤管電流,或者……更令人興奮的例子包括太空火箭、人造器官和微型機器人來進行手術。RL的目標是真正自動的自動控製:沒有任何物理學或生物學或醫學知識,RL算法調整自己成為一個超級控製器: 最平穩的飛行進入太空,和最專業的微型外科醫生! 這個夢想在大多數應用中肯定是遙不可及的,但最近的成功故事鼓舞了工業界、科學家和新一代學生。繼2015年擊敗歐洲圍棋冠軍樊麾之後,DeepMind的AlphaGo再次刷新了世界紀錄。不久之後的新聞是令人震驚的AlphaZero續集,它在“沒有任何專家幫助的情況下”自學下國際象棋和圍棋。這在現在看來已經不是什麼新鮮事了,似乎每個月都會有新的突破。

今天的強化學習有兩個同等重要的基礎: 1. 最優控製:兩個最著名的RL算法,TD-和q -學習,都是關於逼近最優控製的核心價值函數。2. 統計和信息理論。RL中的loration是本書的一大焦點,它強調了最優控製的幾何性質,以及為什麼創建可靠的學習算法並不困難。我們不會忽視第二個基礎: 動機和成功的啟發式將在不深入研究理論的情況下進行解釋。讀者將學到足夠的知識,開始嚐試自製的計算機代碼,並擁有一個大的算法設計選擇庫。在完成這本書的一半之前,我希望學生能對為什麼這些算法被期望是有用的以及為什麼它們有時會失敗有一個紮實的理解。

本書的重點是與強化學習最相關的控製基礎,以及基於這些基礎的RL算法設計的大量工具。

成為VIP會員查看完整內容
0
106
1

https://deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver

這個經典的10部分課程,由強化學習(RL)的驅David Silver教授,雖然錄製於2015年,但仍然是任何想要學習RL基礎的同學所必需的資源。

強化學習已經成為現代機器學習中一項強大的技術,它允許係統通過反複試驗進行學習。它已成功應用於許多領域,包括AlphaZero等係統,學會了掌握國際象棋、圍棋和Shogi遊戲。

這門課程由DeepMind首席科學家、倫敦大學學院教授、AlphaZero的共同創始人David Silver教授共同向學生們介紹RL中使用的主要方法和技術。學生們還會發現薩頓和巴托的經典著作《強化學習:入門》(Reinforcement Learning: an Introduction)是一個很有幫助的書籍。

經典書《強化學習導論》

強化學習教父 Richard Sutton 的經典教材《Reinforcement Learning:An Introduction》第二版公布啦。本書分為三大部分,共十七章,機器之心對其簡介和框架做了扼要介紹,並附上了全書目錄、課程代碼與資料。下載《強化學習》PDF 請點擊文末「閱讀原文」。

原書籍地址:hhttp://incompleteideas.net/book/the-book.html

當我們思考學習的本質時,首先映入腦海的想法很可能是通過與環境的交互進行學習。當一個嬰兒玩耍時,揮舞手臂,左顧右盼,旁邊沒有老師指導他,他與環境卻有著一種直接的感知連接。通過這種連接,他懂得了因果關係,行動帶來的結果,以及為了達成目標所需做的一切。人的一生中,這樣的交互成了我們關於環境和自身知識的主要來源。不管學習駕駛汽車,還是進行一場交談,實際上我們自始至終觀察著環境如何回應我們的所為,並通過自身行為影響當下情景。交互式學習幾乎是所有學習與智能理論的基石。

本書中我們提出了一種通過計算實現交互式學習的方法。我們沒有直接理論化人類或動物的學習方式,而是探索理想的學習環境,評估不同學習方法的有效性。即,我們站在人工智能研究者或工程師的角度來解決問題。我們探討了在解決科學或經濟問題方麵表現突出的機器的設計,通過數學分析或計算實驗評估其設計。我們提出的這一方法稱之為強化學習。相較於其他機器學習方法,它更專注於交互之中的目標導向性學習。

成為VIP會員查看完整內容
0
43
6

當看到這些材料時,一個明顯的問題可能會出現:“為什麼還要寫一本深度學習和自然語言處理的書呢?”一些優秀的論文已經出版,涵蓋了深度學習的理論和實踐方麵,以及它在語言處理中的應用。然而,從我教授自然語言處理課程的經驗來看,我認為,盡管這些書的質量非常好,但大多數都不是針對最有可能的讀者。本書的目標讀者是那些在機器學習和自然語言處理之外的領域有經驗的人,並且他們的工作至少部分地依賴於對大量數據,特別是文本數據的自動化分析。這些專家可能包括社會科學家、政治科學家、生物醫學科學家,甚至是對機器學習接觸有限的計算機科學家和計算語言學家。

現有的深度學習和自然語言處理書籍通常分為兩大陣營。第一個陣營專注於深度學習的理論基礎。這對前麵提到的讀者肯定是有用的,因為在使用工具之前應該了解它的理論方麵。然而,這些書傾向於假設一個典型的機器學習研究者的背景,因此,我經常看到沒有這種背景的學生很快就迷失在這樣的材料中。為了緩解這個問題,目前存在的第二種類型的書集中在機器學習從業者;也就是說,如何使用深度學習軟件,而很少關注理論方麵。我認為,關注實際方麵同樣是必要的,但還不夠。考慮到深度學習框架和庫已經變得相當複雜,由於理論上的誤解而濫用它們的可能性很高。這個問題在我的課程中也很常見。

因此,本書旨在為自然語言處理的深度學習搭建理論和實踐的橋梁。我涵蓋了必要的理論背景,並假設讀者有最少的機器學習背景。我的目標是讓任何上過線性代數和微積分課程的人都能跟上理論材料。為了解決實際問題,本書包含了用於討論的較簡單算法的偽代碼,以及用於較複雜體係結構的實際Python代碼。任何上過Python編程課程的人都應該能夠理解這些代碼。讀完這本書後,我希望讀者能有必要的基礎,立即開始構建真實世界的、實用的自然語言處理係統,並通過閱讀有關這些主題的研究出版物來擴展他們的知識。

http://clulab.cs.arizona.edu/gentlenlp/gentlenlp-book-05172020.pdf

成為VIP會員查看完整內容
0
77
1

決策理論是現代人工智能和經濟學的基礎。本課程主要從統計學的角度,也從哲學的角度,為決策理論打下堅實的基礎。本課程有兩個目的:

  • 深入了解統計決策理論、實驗設計的自動化方法,並將其與人類決策聯係起來。
  • 通過開發算法和智能代理的實驗,將該理論應用到強化學習和人工智能的實際問題中。

課程可分為兩部分。

  • 第一部分,我們介紹了主觀概率和效用的概念,以及如何用它們來表示和解決決策問題。然後討論未知參數的估計和假設檢驗。最後,我們討論了順序抽樣、順序實驗,以及更一般的順序決策。

  • 第二部分是不確定性下的決策研究,特別是強化學習和專家谘詢學習。首先,我們研究幾個有代表性的統計模型。然後,我們給出了使用這些模型做出最優決策的算法的概述。最後,我們來看看學習如何根據專家的建議來行動的問題,這個領域最近在在線廣告、遊戲樹搜索和優化方麵有很多應用。

成為VIP會員查看完整內容
0
124
1
小貼士
相關VIP內容
相關論文
Francesco Malandrino,Carla Fabiana Chiasserini
0+閱讀 · 1月19日
Ian A. Kash,Michael Sullins,Katja Hofmann
0+閱讀 · 1月13日
Xingjiao Wu,Luwei Xiao,Yixuan Sun,Junhang Zhang,Tianlong Ma,Liang He
18+閱讀 · 2021年8月2日
Jiahui Li,Kun Kuang,Baoxiang Wang,Furui Liu,Long Chen,Fei Wu,Jun Xiao
6+閱讀 · 2021年6月22日
Tianyang Lin,Yuxin Wang,Xiangyang Liu,Xipeng Qiu
57+閱讀 · 2021年6月8日
Yi Tay,Mostafa Dehghani,Dara Bahri,Donald Metzler
14+閱讀 · 2020年9月16日
Few-shot Learning: A Survey
Yaqing Wang,Quanming Yao
334+閱讀 · 2019年4月10日
Akash Mittal,Anuj Dhawan,Sourav Medya,Sayan Ranu,Ambuj Singh
10+閱讀 · 2019年3月8日
Hierarchical Deep Multiagent Reinforcement Learning
Hongyao Tang,Jianye Hao,Tangjie Lv,Yingfeng Chen,Zongzhang Zhang,Hangtian Jia,Chunxu Ren,Yan Zheng,Changjie Fan,Li Wang
6+閱讀 · 2018年9月25日
Thomas Elsken,Jan Hendrik Metzen,Frank Hutter
10+閱讀 · 2018年9月5日
Top
微信掃碼谘詢專知VIP會員
Top