強化學習 ( Reinforcement learning ) 專知薈萃
更新時間2022年3月2日
入門教程/課程
- 【強化學習科普入門】作者-廖光明
●https://insights.thoughtworks.cn/reinforcement-learning/
- 【強化學習 入門教程】作者-周沫凡 Mofan Zhou
● 該課程較少涉及理論方麵的知識,而側重於強化學習算法的代碼實現,注重實際應用
● 含講解ppt、資料及講解視頻https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
- 【深度強化學習 入門教程】作者-李宏毅
● 是強化學習的入門課程,對於初學者來說比較友好,老師上課舉的例子很形象,很有趣,對於理解相關的概念知識非常有幫助。課程以講述理論知識為主,關於強化學習方麵的實際應用以及代碼實現較少,可以考慮完成該課程布置的作業,以加深對算法的理解。
● 含講解PPT、視頻:https://speech.ee.ntu.edu.tw/~hylee/mlds/2018-spring.php
● 課程視頻:https://www.bilibili.com/video/av24724071
- 【OpenAI強化學習教程】 量子位
● 教程簡介https://zhuanlan.zhihu.com/p/49087870,對新手極度友好,代碼簡約易懂。從一套重要概念,到一係列關鍵算法實現代碼,再到必讀論文列表,最後到熱身練習,每一步都以清晰簡明為上,全程站在初學者視角。
● 教程在線https://spinningup.openai.com/en/latest/
- 【強化學習從入門到精通係列】 Ailin( 公眾號AI與強化學習)
● 作者講解馬爾科夫決策過程、動態規劃、蒙特卡洛、時序差分及更多流行算法等內容,幫助大家從零開始理解強化學習的知識。
●https://mp.weixin.qq.com/s/BwaEAUbmeTrMyitZNHAdaQ
進階教程/課程
- 《強化學習導論》經典課程10講,DeepMind大神David Silver主講
● 經典的10部分課程,雖然錄製於2015年,但仍然是任何想要學習RL基礎的同學所必需的資源。
● 專知鏈接(含課程PPT)//www.webtourguide.com/vip/a1d4eeb867d14cf59d98cbbed6e8f0bb
● 課程原鏈接https://deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver
● PDF筆記鏈接(初稿)(作者 葉強)
https://zhuanlan.zhihu.com/p/37690204,https://pan.baidu.com/s/14Jxp3AGPJFgoFkHa4gXgxA#list/path=%2F
- 《強化學習基礎 2018》課程視頻,37講,北大張誌華教授
●https://resource.pku.edu.cn/index.php?r=course/detail&id=303
● 主要講支撐強化學習的數學基礎
● 該課程提供的強化學習算法軟件https://github.com/liber145/rlpack
- 【深度強化學習課程 2020年】UC Berkeley
● 含講解PPT、視頻:http://rail.eecs.berkeley.edu/deeprlcourse/,https://www.youtube.com/playlist?list=PL_iWQOsE6TfURIIhCrlt-wj9ByIVpbfGc
- 【斯坦福大學 強化學習2022課程】
● 講稿:http://web.stanford.edu/class/cs234/modules.html
- 【上海交通大學 多智能體強化學習課程】
● 本教程中首先介紹機器意識的主題,然後介紹了強化學習的基本原理——博弈論。最後,討論了先進的多智能體強化學習算法及其最新應用。
● 講稿http://wnzhang.net/tutorials/marl2018/index.html
- 【卡耐基梅隆大學 深度強化學習與控製】
● 講稿PPThttps://katefvision.github.io/
幹貨書
- 【新書稿】Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大師,“Reinforcement Learning: Theory and Algorithms(2022版)”(強化學習:理論與算法 2022版),205頁pdf
● 來源https://alekhagarwal.net/,https://rltheorybook.github.io/
● 電子書2022版https://rltheorybook.github.io/rltheorybook_AJKS.pdf
● 三位作者來自於強化學習研究團隊,是強化學習研究界“牛頓”級人物,成果斐然。本書采用深入淺出,引人入勝的方法,介紹了當前RL所取得的最新成果,對於剛從事RL的學者,可謂及時雨,神筆之作。
- 【幹貨書】王樹森 張誌華,《深度強化學習(初稿)》,289頁pdf
● 來源-張誌華教授主頁https://www.math.pku.edu.cn/teachers/zhzhang/
● 深度強化學習(初稿)https://www.math.pku.edu.cn/teachers/zhzhang/drl_v1.pdf
- 【幹貨書】強化學習教父 Richard Sutton 的經典教材《Reinforcement Learning:An Introduction》第二版,548頁pdf
● 來源http://incompleteideas.net/book/the-book-2nd.html
● 電子版http://incompleteideas.net/book/RLbook2020.pdf
● 中文翻譯https://zhuanlan.zhihu.com/studyRL
● 代碼http://incompleteideas.net/book/code/code2nd.html
● 基礎必讀,有助於理解強化學習精髓
● 本書分為三大部分,共十七章,機器之心對其簡介和框架做了扼要介紹,並附上了全書目錄、課程代碼與資料。
● 本書中我們提出了一種通過計算實現交互式學習的方法。沒有直接理論化人類或動物的學習方式,而是探索理想的學習環境,評估不同學習方法的有效性。即,站在人工智能研究者或工程師的角度來解決問題。探討了在解決科學或經濟問題方麵表現突出的機器的設計,通過數學分析或計算實驗評估其設計。我們提出的這一方法稱之為強化學習。相較於其他機器學習方法,它更專注於交互之中的目標導向性學習。
- 【幹貨書】亞利桑那大學Mihai Surdeanu,“A Gentle Introduction to Deep Learning for Natural Language Processing”深度學習自然語言處理簡明導論,69頁pdf
●http://clulab.cs.arizona.edu/gentlenlp/gentlenlp-book-05172020.pdf
● 本書旨在為自然語言處理的深度學習搭建理論和實踐的橋梁。涵蓋了必要的理論背景,並假設讀者有最少的機器學習背景。目標是讓任何上過線性代數和微積分課程的人都能跟上理論材料。為了解決實際問題,本書包含了用於討論的較簡單算法的偽代碼,以及用於較複雜體係結構的實際Python代碼。任何上過Python編程課程的人都應該能夠理解這些代碼。讀完這本書後,希望讀者能有必要的基礎,立即開始構建真實世界的、實用的自然語言處理係統,並通過閱讀有關這些主題的研究出版物來擴展他們的知識。
- 【幹貨書】O'REILLY,“Reinforcement Learning: Industrial Applications of Intelligent Agents”(強化學習工業應用),408頁pdf
●https://rl-book.com/● 涵蓋了從基本的模塊到最先進的實踐。您將探索RL的當前狀態,關注工業應用,學習許多算法,並從部署RL解決方案到生產的專門章節中受益。這不是一本教譜; 不回避數學,並希望熟悉ML。
● 了解RL是什麼,以及算法如何幫助解決問題,掌握RL的基本原理,包括馬爾可夫決策過程、動態規劃和時間差異學習,深入研究一係列的價值和策略梯度方法,運用先進的RL解決方案,如元學習、分層學習、多智能體和模仿學習,了解前沿的深度RL算法,包括Rainbow、PPO、TD3、SAC等,通過相應的網站獲得實際的例子
- 【幹貨書】Leiden大學Aske Plaat教授,“Deep Reinforcement Learning”(深度強化學習),406頁pdf
●https://deep-reinforcement-learning.net/
●https://arxiv.org/pdf/2201.02135.pdf
● 這本書的目的是呈現在一個單一的深度強化學習的最新見解,適合教學一個研究生水平一個學期的課程。除了涵蓋最先進的算法,我們涵蓋經典強化學習和深度學習的必要背景。我們還涵蓋了自我遊戲、多主體、層次和元學習方麵的先進的、前瞻性的發展。
- 【幹貨書】Abhishek Nandy,Manisha Biswas,“Reinforcement Learning With Open AI TensorFlow and Keras Using Python”(使用Python與Open AI TensorFlow和Keras進行強化學習),174頁pdf
● 電子版https://pan.baidu.com/s/1nQpNbhkI-3WucSD0Mk7Qcg(提取碼: av5p)
● 注重實戰
- 【幹貨書】“Algorithms for Reinforcement Learning”(強化學習算法)
● 原鏈接https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
● 較為精簡,重視數學邏輯和嚴格推導
綜述
中文
- 秦智慧, 李寧, 劉曉彤, 等.無模型強化學習研究綜述. 計算機科學, 2021, 48(3): 180-187.
- 餘力, 杜啟翰, 嶽博妍, 等.基於強化學習的推薦研究綜述. 計算機科學, 48(10): 1-18.
- 劉瀟, 劉書洋, 莊韞愷, 等.強化學習可解釋性基礎問題探索和方法綜述. 軟件學報, 2021: 0-0.
- 孫長銀, 穆朝絮.多智能體深度強化學習的若幹關鍵科學問題. 自動化學報, 2020, 46(7): 1301−1312
- 陳晉音, 章燕, 王雪柯, 蔡鴻斌, 王玨, 紀守領.深度強化學習的攻防與安全性分析綜述. 自動化學報, 2022, 48(1): 21−39
英文
- 【強化學習技術綜述:策略、近期發展及未來發展方向】Mondal A K, Jamali N.A survey of reinforcement learning techniques: strategies, recent development, and future directions. arXiv preprint arXiv:2001.06921, 2020.
- 【自動強化學習綜述】Parker-Holder J, Rajan R, Song X, et al.Automated Reinforcement Learning (AutoRL): A Survey and Open Problems. arXiv preprint arXiv:2201.03916, 2022.
- 【自動駕駛領域中的強化學習綜述】Kiran B R, Sobh I, Talpaert V, et al.Deep reinforcement learning for autonomous driving: A survey. IEEE Transactions on Intelligent Transportation Systems, 2021.
- 【深度強化學習中的泛化研究綜述】Kirk R, Zhang A, Grefenstette E, et al.A survey of generalisation in deep reinforcement learning. arXiv preprint arXiv:2111.09794, 2021.
- 【深度強化學習探索算法最新綜述,近200篇文獻揭示挑戰和未來方向】Yang T, Tang H, Bai C, et al.Exploration in deep reinforcement learning: a comprehensive survey. arXiv preprint arXiv:2109.06668, 2021.
- 【多智能體深度強化學習:綜述】Gronauer S, Diepold K.Multi-agent deep reinforcement learning: a survey. Artificial Intelligence Review, 2022, 55(2): 895-943.
- 【牛津大學發布60頁最新《強化學習金融應用進展》綜述論文】Hambly B, Xu R, Yang H.Recent Advances in Reinforcement Learning in Finance. arXiv preprint arXiv:2112.04553, 2021.
- 【UCL& UC Berkeley--深度強化學習中的泛化研究綜述】Kirk R, Zhang A, Grefenstette E, et al.A survey of generalisation in deep reinforcement learning. arXiv preprint arXiv:2111.09794, 2021.
經典論文
- Kaelbling L P, Littman M L, Moore A W.Reinforcement learning: A survey[J]. Journal of artificial intelligence research, 1996, 4: 237-285.
- Sutton R S, Barto A G.Reinforcement learning: An introduction[M]. MIT press, 2018.
- Wiering M A, Van Otterlo M.Reinforcement learning[J]. Adaptation, learning, and optimization, 2012, 12(3): 729.
- Li Y.Deep reinforcement learning: An overview[J]. arXiv preprint arXiv:1701.07274, 2017.
- Szepesvári C.Algorithms for reinforcement learning[J]. Synthesis lectures on artificial intelligence and machine learning, 2010, 4(1): 1-103.
- Mnih V, Kavukcuoglu K, Silver D, et al.Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
- Kober J, Bagnell J A, Peters J.Reinforcement learning in robotics: A survey[J]. The International Journal of Robotics Research, 2013, 32(11): 1238-1274.
- Henderson P, Islam R, Bachman P, et al.Deep reinforcement learning that matters[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).
- Lillicrap T P, Hunt J J, Pritzel A, et al.Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.
- Sutton R S, Barto A G.Introduction to reinforcement learning[J]. 1998.
- Mnih V, Kavukcuoglu K, Silver D, et al.Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
- Mnih, V., Kavukcuoglu, K., Silver, D. et al.Human-level control through deep reinforcement learning[J]. Nature, 2015, 529-533.
- Levine S, Finn C, Darrell T, et al.End-to-End Training of Deep Visuomotor Policies[J]. Journal of Machine Learning Research, 2015, 1-40.
- Silver D, Huang A, Maddison C J, et al.Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 484-489.
- Mnih V, Badia A, Mirza M, et al.Asynchronous methods for deep reinforcement learning[C]. In International Conference on Machine Learning, 2016, 1928-1937.
- Silver D, Schrittwieser J, Simonyan K, et al.Mastering the game of go without human knowledge[J]. Nature, 2017, 354-359.
- Silver D, Hubert T, Schrittwieser J, et al.Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arXiv: Artificial Intelligence, 2017.
- Hutson M.AI takes on video games in quest for common sense[J]. Science, 2018.
- Kalashnikov D, Irpan A, Pastor P, et al.Qt-opt: Scalable deep reinforcement learning for vision-based robotic manipulation[J]. arXiv preprint arXiv:1806.10293, 2018.
- Shi J C, Yu Y, Da Q, et al.Virtual-taobao: Virtualizing real-world online retail environment for reinforcement learning[C]. Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 4902-4909.
- Zeng A, Song S, Lee J, et al.TossingBot: Learning to Throw Arbitrary Objects with Residual Physics[J]. arXiv preprint arXiv:1903.11239, 2019.
- OpenAI,https://www.theverge.com/2019/10/15/20914575/openai-dactyl-robotic-hand-rubiks-cube-one-handed-solve-dexterity-ai
- Vinyals O, Babuschkin I, Czarnecki W M, et al.Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.
- Seita D, Florence P, Tompson J, et al.Learning to rearrange deformable cables, fabrics, and bags with goal-conditioned transporter networks[C]//2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021: 4568-4575.
進階論文
- 【TPAMI2022--基於圖神經網絡實現強化的、增量和跨語言社會事件檢測】Peng H, Zhang R, Li S, et al.Reinforced, Incremental and Cross-lingual Event Detection From Social Messages[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.
● 代碼:https://github.com/RingBDStack/FinEvent
- 【AAAI2022--一種基於隨機計劃者-執行者-評論家模型的無監督圖像柔性配準方法】Luo Z, Hu J, Wang X, et al.Stochastic Planner-Actor-Critic for Unsupervised Deformable Image Registration[J]. arXiv preprint arXiv:2112.07415, 2021.
- 【AAAI2022--一種基於狀態擾動的魯棒強化學習算法】Kuang Y, Lu M, Wang J, et al.Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization[J]. arXiv preprint arXiv:2112.10513, 2021.
- 【AAAI2022--一種基於狀態擾動的魯棒強化學習算法】Wang Z, Wang J, Zhou Q, et al.Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic[J]. arXiv preprint arXiv:2112.10504, 2021.
- 【NeurIPS2021--首次揭示強化學習記憶池最優利用方法】Liu X H, Xue Z, Pang J, et al.Regret Minimization Experience Replay in Off-Policy Reinforcement Learning[J]. Advances in Neural Information Processing Systems, 2021, 34.
- 【CIKM2021--強化學習推薦模型的知識蒸餾探索之路】Xie R, Zhang S, Wang R, et al.Explore, Filter and Distill: Distilled Reinforcement Learning in Recommendation[C]//Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021: 4243-4252.
- 【Open AI、Google Brain大作--從多智能體自動程序中使用緊急工具】Baker B, Kanitscheider I, Markov T, et al.Emergent tool use from multi-agent autocurricula. arXiv preprint arXiv:1909.07528, 2019.
● 代碼:https://github.com/openai/multi-agent-emergence-environments
- 【伯克利人工智能研究實驗室--基於概率上下文變量的高效非策略元強化學習】Rakelly K, Zhou A, Finn C, et al.Efficient off-policy meta-reinforcement learning via probabilistic context variables//International conference on machine learning. PMLR, 2019: 5331-5340.
● 代碼:https://github.com/katerakelly/oyster
- 【NeurIPS2019--探索在元學習階段提供監督信息】Mendonca R, Gupta A, Kralev R, et al.Guided meta-policy search. Advances in Neural Information Processing Systems, 2019, 32.
- 【在強化學習中使用對數映射使較低的折扣因子】Van Seijen H, Fatemi M, Tavakoli A.Using a logarithmic mapping to enable lower discount factors in reinforcement learning. Advances in Neural Information Processing Systems, 2019, 32.
● 代碼:https://github.com/microsoft/logrl
● 數據集:Arcade Learning Environment(https://github.com/mgbellemare/Arcade-Learning-Environment)
- 【分布式強化學習的有效探索】Mavrin B, Yao H, Kong L, et al.Distributional reinforcement learning for efficient exploration//International conference on machine learning. PMLR, 2019: 4424-4434.
● 數據集:CARLA(https://carla.org/)
- 【AAAI2019最佳論文獎--如何在強化學習中結合樹搜索方法】[Efroni Y, Dalal G, Scherrer B, et al.How to combine tree-search methods in reinforcement learning//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 3494-3501.
- 【NeurIPS2019--無模型的強化學習算法解決連續的控製任務】Ciosek K, Vuong Q, Loftin R, et al.Better exploration with optimistic actor critic. Advances in Neural Information Processing Systems, 2019, 32.
- 【算法輸出策略證書方法】Dann C, Li L, Wei W, et al.Policy certificates: Towards accountable reinforcement learning//International Conference on Machine Learning. PMLR, 2019: 1507-1516.
- 【EMNLP2016--強化學習在對話生成中的應用】Li J, Monroe W, Ritter A, et al.Deep reinforcement learning for dialogue generation. arXiv preprint arXiv:1606.01541, 2016.
● 代碼:https://github.com/liuyuemaicha/Deep-Reinforcement-Learning-for-Dialogue-Generation-in-tensorflow
- 【NeurIPS2017--隨機博弈中的在線強化學習】Wei C Y, Hong Y T, Lu C J.Online reinforcement learning in stochastic games. Advances in Neural Information Processing Systems, 2017, 30.
● 代碼:https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
- 【CVPR2017--圖像字幕的自我批判序列訓練】Rennie S J, Marcheret E, Mroueh Y, et al.Self-critical sequence training for image captioning//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7008-7024.
● 代碼:https://github.com/ruotianluo/neuraltalk2.pytorch
● 數據集:COCO (Microsoft Common Objects in Context)-https://cocodataset.org/
- 【ICCV2017--提出了基於強化學習的圖像標注方法】Liu S, Zhu Z, Ye N, et al.Improved image captioning via policy gradient optimization of spider//Proceedings of the IEEE international conference on computer vision. 2017: 873-881.
● 代碼:https://github.com/peteanderson80/SPICE
● 數據集:COCO (Microsoft Common Objects in Context)-https://cocodataset.org/
- 【NIPS2017--不完全信息博弈的安全嵌套子博弈求解】Brown N, Sandholm T.Safe and nested subgame solving for imperfect-information games. Advances in neural information processing systems, 2017, 30.
- 【WWW2018--學習協作:多智能體強化學習的多場景排序】Feng J, Li H, Huang M, et al.Learning to collaborate: Multi-scenario ranking via multi-agent reinforcement learning//Proceedings of the 2018 World Wide Web Conference. 2018: 1939-1948.
- 【SIGCOMM2017--使用強化學習的方法優化ABR(adaptive bitrate)算法】Mao H, Netravali R, Alizadeh M.Neural adaptive video streaming with pensieve//Proceedings of the Conference of the ACM Special Interest Group on Data Communication. 2017: 197-210.
● 代碼:https://github.com/thu-media/Comyco
- 【提出了一個機器理解模型ReasoNet】Shen Y, Huang P S, Gao J, et al.Reasonet: Learning to stop reading in machine comprehension//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017: 1047-1055.
- 【NIPS2016--機器翻譯的雙重學習】He D, Xia Y, Qin T, et al.Dual learning for machine translation. Advances in neural information processing systems, 2016, 29.
● 代碼:https://github.com/NonameAuPlatal/Dual_Learning
- 【IJCAI2017--強化機製設計】Tang P.Reinforcement mechanism design//IJCAI. 2017: 5146-5150.
- 【用強化學習調整循環神經網絡】Jaques N, Gu S, Turner R E, et al.Tuning recurrent neural networks with reinforcement learning. 2017.
- 【WSDM2018--基於深度強化學習的異構星型網絡嵌入課程學習】Qu M, Tang J, Han J.Curriculum learning for heterogeneous star network embedding via deep reinforcement learning//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. 2018: 468-476.
學位論文
- 【西南交通大學紀聖塨博士論文】城市資源智能優化方法及應用研究,//www.webtourguide.com/vip/bd3586a9b4f9d38ab10678db5f708485
- 【上海交通大學陳露博士論文】認知型口語交互係統中的對話管理技術,//www.webtourguide.com/vip/8d5844de744b4e287a61a80d72ee1190
框架/數據集
- 【OpenAI--Baselines】
●https://github.com/openai/baselines
● 複現眾多經典RL算法
- 【OpenAI--spinningup】
●https://spinningup.openai.com/en/latest/user/introduction.html
● 提供了經典Policy-based算法的複現,優點是寫的通俗易懂上手簡單,並且效果有保障,而且同時tf和Pytorch的支持;缺點是沒有value-based的算法,不能開發DQN係列。
- 【百度--PARL】
●https://github.com/paddlepaddle/parl
● 擴展性強,可複現性好,友好
- 【DeepMin-- OpenSpie】
●https://github.com/deepmind/open_spiel
● OpenSpiel是一個環境和算法的集合,用於研究一般的強化學習和搜索/遊戲規劃。
- 【Intel AI LAB--Coach】
●https://github.com/IntelLabs/coach
● Coach是一個python強化學習框架,包含許多最先進的算法的實現。對RL Framework的設計很模塊化,比如整體流程,算法模塊定義,網絡定義,探索策略定義等
- 【Google--dopamine】
●https://github.com/google/dopamine
● dopamine是強化學習算法快速原型化的研究框架。它的目的是滿足用戶對一個小型的、容易理解的代碼庫的需求,在這個代碼庫中,用戶可以自由地嚐試各種瘋狂的想法(投機研究)。
- 【Agent Learning Framework(ALF)】
●https://github.com/HorizonRobotics/alf
● Agent Learning Framework (ALF)是一種強化學習框架,強調實現涉及許多不同組件的複雜算法的靈活性和易用性。ALF建立在PyTorch上。
- 【清華大學人工智能研究院--Tianshou】
●https://github.com/thu-ml/tianshou
● Tianshou(天授)是一種基於純PyTorch強化學習平台。現有的強化學習庫主要基於TensorFlow,有許多嵌套類、不友好API或慢速,與之不同的是,Tianshou提供了一個快速模塊化框架和python API,用於用最少的代碼行數構建深度強化學習代理。
- 【MuJoCo】
●https://mujoco.org/
● 是一個物理引擎,旨在促進機器人、生物力學、圖形和動畫以及其他需要快速和精確模擬的領域的研究和開發。MuJoCo提供了速度、準確性和建模能力的獨特組合,但它不僅僅是一個更好的模擬器。相反,它是第一個為基於模型的優化(特別是通過聯係進行優化)而從頭設計的全功能模擬器。
- 【The Arcade Learning Environment (ALE)】
●https://github.com/mgbellemare/Arcade-Learning-Environment
● ALE是一個簡單的框架,允許研究人員和業餘愛好者為雅達利2600遊戲開發AI智能體。它建立在雅達利2600模擬器Stella之上,並將仿真的細節與代理設計分離開來。本視頻描述了ALE目前支持的50多個遊戲。
- 【CARLA】
●https://carla.org/
● 為了支持自動駕駛係統的開發、培訓和驗證,CARLA已經從頭開始開發。除了開源代碼和協議外,CARLA還提供開放的數字資產(城市布局、建築、車輛),這些資產是為此目的而創建的,可以自由使用。仿真平台支持傳感器套件的靈活規格、環境條件、所有靜態和動態參與者的完全控製、地圖生成等
報告/白皮書
- 2021.5,“Transforming healthcare with Reinforcement Learning(強化學習改變醫療保健)”,https://f.hubspotusercontent10.net/hubfs/1868764/EU%20Whitepapers_cases_reports/Transforming%20healthcare%20with%20Reinforcement%20Learning%20White%20Paper.pdf
- 2017.11,《穀歌 TPU 及強化學習》,http://pdf.dfcfw.com/pdf/H3_AP201712051062442205_1.PDF
領域專家
- 俞勇--上海交大[https://apex.sjtu.edu.cn/members/yyu]
- 俞揚--南京大學 [https://www.yuque.com/eyounx/home]
- 李飛飛--美國國家工程院院士[https://profiles.stanford.edu/fei-fei-li]
- Alekh Agarwal--穀歌 [https://alekhagarwal.net/]
- Sergey Levine--UC Berkeley[https://people.eecs.berkeley.edu/~svlevine/]
- Pieter Abbeel--UC Berkeley[https://people.eecs.berkeley.edu/~pabbeel/]
- David Silver--DeepMind/倫敦大學[https://www.davidsilver.uk/]
- Rémi Munos--DeepMind[http://researchers.lille.inria.fr/munos/]
- Chelsea Finn--斯坦福大學[https://ai.stanford.edu/~cbfinn/]
- 高劍峰--微軟[https://www.microsoft.com/en-us/research/people/jfgao/]
- timothy lillicrap--DeepMind/卡耐基梅隆大學[https://contrastiveconvergence.net/~timothylillicrap/index.php]
- Frank L. Lewis--德州大學阿靈頓分校[https://www.uta.edu/academics/faculty/profile?username=flewis]
- Jonathan P. How--麻省理工學院[https://www.mit.edu/~jhow/]
- Koray Kavukcuoglu--DeepMind[https://koray.kavukcuoglu.org/]
- Peter Herald Stone--德克薩斯大學[https://www.cs.utexas.edu/~pstone/]
資料彙編
- 【流行的強化學習算法的代碼、練習和解決方案】Denny Britz-穀歌,https://github.com/dennybritz/reinforcement-learning
- 【深度強化學習入門到精通-2020最全資料綜述】作者-嶽龍飛,深度強化學習實驗室(DeepRL-Lab),https://aijishu.com/a/1060000000091025
- 【Deep Reinforcement Learning(深度強化學習)倉庫】深度強化學習實驗室(DeepRL-Lab),https://github.com/neurondance/deeprl
- 【強化學習從入門到放棄——強化學習的學習資料彙總】更新至2019年,https://taospirit.github.io/2019/04/15/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%A5%E9%97%A8/
初步版本,水平有限,有錯誤或者不完善的地方,歡迎大家提建議和補充,會一直保持更新,本文為專知內容組原創內容,未經允許不得轉載,如需轉載請發送郵件至fangquanyi@gmail.com或 聯係微信專知小助手(Rancho_Fang)
敬請關注//www.webtourguide.com和關注專知公眾號,獲取第一手AI相關知識