【開放新書】不確定性決策與強化學習,267頁pdf,瑞典查爾姆斯理工大學

4 月 28 日 專知
【開放新書】不確定性決策與強化學習,267頁pdf,瑞典查爾姆斯理工大學


決策理論是現代人工智能和經濟學的基礎。本課程主要從統計學的角度,也從哲學的角度,為決策理論打下堅實的基礎。本課程有兩個目的:


深入了解統計決策理論、實驗設計的自動化方法,並將其與人類決策聯係起來。

通過開發算法和智能代理的實驗,將該理論應用到強化學習和人工智能的實際問題中。


課程可分為兩部分。


在第一部分,我們介紹了主觀概率和效用的概念,以及如何用它們來表示和解決決策問題。然後討論未知參數的估計和假設檢驗。最後,我們討論了順序抽樣、順序實驗,以及更一般的順序決策。


第二部分是不確定性下的決策研究,特別是強化學習和專家谘詢學習。首先,我們研究幾個有代表性的統計模型。然後,我們給出了使用這些模型做出最優決策的算法的概述。最後,我們來看看學習如何根據專家的建議來行動的問題,這個領域最近在在線廣告、遊戲樹搜索和優化方麵有很多應用。


http://www.cse.chalmers.se/~chrdimi/teaching/optimal_decisions/index.html


專知便捷查看

便捷下載,請關注專知公眾號(點擊上方藍色專知關注)

  • 後台回複“DM267” 就可以獲取不確定性決策與強化學習,267頁pdf,瑞典查爾姆斯理工大學》專知下載鏈接

專知,專業可信的人工智能知識分發,讓認知協作更快更好!歡迎注冊登錄專知www.webtourguide.com,獲取5000+AI主題幹貨知識資料!
歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業幹貨知識教程資料和與專家交流谘詢
點擊“ 閱讀原文 ”,了解使用 專知 ,查看獲取5000+AI主題知識資源
登錄查看更多
1
0

相關內容

題目:Reinforcement Learning:Theory and Algorithms

簡介:

強化學習是近幾年研究的熱點,特別是伴隨DeepMind AlphaGo的出現名聲大噪。強化學習(RL)是一種機器學習範式,在這種範式中,agent從經驗中學習完成順序決策任務,RL在機器人、控製、對話係統、醫療等領域有廣泛的應用。《強化學習:理論與算法》這本書講述了強化學習最新進展,包括MDP、樣本複雜度、策略探索、PG、值函數等關鍵議題,是了解強化學習的材料。

章節:

  • 第一章:馬爾科夫決策過程MDP 預介紹
  • 第二章:生成模型的樣本複雜度
  • 第三章:強化學習的策略探索
  • 第四章:策略梯度方法
  • 第五章:值函數近似
  • 第六章:RL的戰略探索和豐富的觀測資料
  • 第七章:行為克隆和學徒學習

作者簡介:

Alekh Agarwal目前是微軟人工智能研究中心的研究員,領導強化學習研究小組。之前,在加州大學伯克利分校獲得計算機科學博士學位後,與彼得·巴特利特(Peter Bartlett)和馬丁·溫賴特(Martin Wainwright)一起在紐約微軟研究院(Microsoft Research)度過了六年美好的時光。

薑楠,UIUC助理教授,機器學習研究員。核心研究領域是強化學習(RL),關注於RL的樣本效率,並利用統計學習理論中的思想來分析和開發RL算法。

沙姆·卡卡德(Sham M. Kakade)是華盛頓研究基金會(Washington Research Foundation)數據科學主席,同時在華盛頓大學(University of Washington)艾倫學院(Allen School)和統計學係任職。他致力於機器學習的理論基礎,專注於設計(和實現)統計和計算效率的算法。

成為VIP會員查看完整內容
rl_monograph_AJK.pdf
0
57
3
小貼士
相關論文
Object-centric Forward Modeling for Model Predictive Control
Yufei Ye,Dhiraj Gandhi,Abhinav Gupta,Shubham Tulsiani
3+閱讀 · 2019年10月8日
Area Attention
Yang Li,Lukasz Kaiser,Samy Bengio,Si Si
4+閱讀 · 2019年2月5日
Yu Cheng,Mo Yu,Xiaoxiao Guo,Bowen Zhou
10+閱讀 · 2019年1月26日
Borja Ibarz,Jan Leike,Tobias Pohlen,Geoffrey Irving,Shane Legg,Dario Amodei
3+閱讀 · 2018年11月15日
Yutian Chen,Yannis Assael,Brendan Shillingford,David Budden,Scott Reed,Heiga Zen,Quan Wang,Luis C. Cobo,Andrew Trask,Ben Laurie,Caglar Gulcehre,Aäron van den Oord,Oriol Vinyals,Nando de Freitas
7+閱讀 · 2018年9月27日
Seq2Seq2Sentiment: Multimodal Sequence to Sequence Models for Sentiment Analysis
Hai Pham,Thomas Manzini,Paul Pu Liang,Barnabas Poczos
4+閱讀 · 2018年8月6日
Yong Wang,Xiao-Ming Wu,Qimai Li,Jiatao Gu,Wangmeng Xiang,Lei Zhang,Victor O. K. Li
7+閱讀 · 2018年7月8日
Babak Hosseini,Barbara Hammer
3+閱讀 · 2018年5月2日
Ermo Wei,Drew Wicke,David Freelan,Sean Luke
7+閱讀 · 2018年4月25日
Top