強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習範式之一。 強化學習與監督學習的不同之處在於,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在於,後者不假設MDP的確切數學模型,並且針對無法采用精確方法的大型MDP。

強化學習 ( Reinforcement learning ) 專知薈萃

更新時間2022年3月2日

入門教程/課程

  1. 【強化學習科普入門】作者-廖光明
    https://insights.thoughtworks.cn/reinforcement-learning/
  2. 【強化學習 入門教程】作者-周沫凡 Mofan Zhou
    ● 該課程較少涉及理論方麵的知識,而側重於強化學習算法的代碼實現,注重實際應用
    ● 含講解ppt、資料及講解視頻https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
  3. 【深度強化學習 入門教程】作者-李宏毅
    ● 是強化學習的入門課程,對於初學者來說比較友好,老師上課舉的例子很形象,很有趣,對於理解相關的概念知識非常有幫助。課程以講述理論知識為主,關於強化學習方麵的實際應用以及代碼實現較少,可以考慮完成該課程布置的作業,以加深對算法的理解。
    ● 含講解PPT、視頻:https://speech.ee.ntu.edu.tw/~hylee/mlds/2018-spring.php
    ● 課程視頻:https://www.bilibili.com/video/av24724071
  4. 【OpenAI強化學習教程】 量子位
    ● 教程簡介https://zhuanlan.zhihu.com/p/49087870,對新手極度友好,代碼簡約易懂。從一套重要概念,到一係列關鍵算法實現代碼,再到必讀論文列表,最後到熱身練習,每一步都以清晰簡明為上,全程站在初學者視角。
    ● 教程在線https://spinningup.openai.com/en/latest/
  5. 【強化學習從入門到精通係列】 Ailin( 公眾號AI與強化學習)
    ● 作者講解馬爾科夫決策過程、動態規劃、蒙特卡洛、時序差分及更多流行算法等內容,幫助大家從零開始理解強化學習的知識。
    https://mp.weixin.qq.com/s/BwaEAUbmeTrMyitZNHAdaQ

進階教程/課程

  1. 《強化學習導論》經典課程10講,DeepMind大神David Silver主講
    ● 經典的10部分課程,雖然錄製於2015年,但仍然是任何想要學習RL基礎的同學所必需的資源。
    ● 專知鏈接(含課程PPT)//www.webtourguide.com/vip/a1d4eeb867d14cf59d98cbbed6e8f0bb
    ● 課程原鏈接https://deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver
    ● PDF筆記鏈接(初稿)(作者 葉強)
    https://zhuanlan.zhihu.com/p/37690204https://pan.baidu.com/s/14Jxp3AGPJFgoFkHa4gXgxA#list/path=%2F
  2. 《強化學習基礎 2018》課程視頻,37講,北大張誌華教授
    https://resource.pku.edu.cn/index.php?r=course/detail&id=303
    ● 主要講支撐強化學習的數學基礎
    ● 該課程提供的強化學習算法軟件https://github.com/liber145/rlpack
  3. 【深度強化學習課程 2020年】UC Berkeley
    ● 含講解PPT、視頻:http://rail.eecs.berkeley.edu/deeprlcourse/,https://www.youtube.com/playlist?list=PL_iWQOsE6TfURIIhCrlt-wj9ByIVpbfGc
  4. 【斯坦福大學 強化學習2022課程】
    ● 講稿:http://web.stanford.edu/class/cs234/modules.html
  5. 【上海交通大學 多智能體強化學習課程】
    ● 本教程中首先介紹機器意識的主題,然後介紹了強化學習的基本原理——博弈論。最後,討論了先進的多智能體強化學習算法及其最新應用。
    ● 講稿http://wnzhang.net/tutorials/marl2018/index.html
  6. 【卡耐基梅隆大學 深度強化學習與控製】
    ● 講稿PPThttps://katefvision.github.io/

幹貨書

  1. 【新書稿】Alekh Agarwal, Nan Jiang, Sham M. Kakade三位大師,“Reinforcement Learning: Theory and Algorithms(2022版)”(強化學習:理論與算法 2022版),205頁pdf
    ● 來源https://alekhagarwal.net/https://rltheorybook.github.io/
    ● 電子書2022版https://rltheorybook.github.io/rltheorybook_AJKS.pdf
    ● 三位作者來自於強化學習研究團隊,是強化學習研究界“牛頓”級人物,成果斐然。本書采用深入淺出,引人入勝的方法,介紹了當前RL所取得的最新成果,對於剛從事RL的學者,可謂及時雨,神筆之作。
  2. 【幹貨書】王樹森 張誌華,《深度強化學習(初稿)》,289頁pdf
    ● 來源-張誌華教授主頁https://www.math.pku.edu.cn/teachers/zhzhang/
    ● 深度強化學習(初稿)https://www.math.pku.edu.cn/teachers/zhzhang/drl_v1.pdf
  3. 【幹貨書】強化學習教父 Richard Sutton 的經典教材《Reinforcement Learning:An Introduction》第二版,548頁pdf
    ● 來源http://incompleteideas.net/book/the-book-2nd.html
    ● 電子版http://incompleteideas.net/book/RLbook2020.pdf
    ● 中文翻譯https://zhuanlan.zhihu.com/studyRL
    ● 代碼http://incompleteideas.net/book/code/code2nd.html
    ● 基礎必讀,有助於理解強化學習精髓
    ● 本書分為三大部分,共十七章,機器之心對其簡介和框架做了扼要介紹,並附上了全書目錄、課程代碼與資料。
    ● 本書中我們提出了一種通過計算實現交互式學習的方法。沒有直接理論化人類或動物的學習方式,而是探索理想的學習環境,評估不同學習方法的有效性。即,站在人工智能研究者或工程師的角度來解決問題。探討了在解決科學或經濟問題方麵表現突出的機器的設計,通過數學分析或計算實驗評估其設計。我們提出的這一方法稱之為強化學習。相較於其他機器學習方法,它更專注於交互之中的目標導向性學習。
  4. 【幹貨書】亞利桑那大學Mihai Surdeanu,“A Gentle Introduction to Deep Learning for Natural Language Processing”深度學習自然語言處理簡明導論,69頁pdf
    http://clulab.cs.arizona.edu/gentlenlp/gentlenlp-book-05172020.pdf
    ● 本書旨在為自然語言處理的深度學習搭建理論和實踐的橋梁。涵蓋了必要的理論背景,並假設讀者有最少的機器學習背景。目標是讓任何上過線性代數和微積分課程的人都能跟上理論材料。為了解決實際問題,本書包含了用於討論的較簡單算法的偽代碼,以及用於較複雜體係結構的實際Python代碼。任何上過Python編程課程的人都應該能夠理解這些代碼。讀完這本書後,希望讀者能有必要的基礎,立即開始構建真實世界的、實用的自然語言處理係統,並通過閱讀有關這些主題的研究出版物來擴展他們的知識。
  5. 【幹貨書】O'REILLY,“Reinforcement Learning: Industrial Applications of Intelligent Agents”(強化學習工業應用),408頁pdf
    https://rl-book.com/● 涵蓋了從基本的模塊到最先進的實踐。您將探索RL的當前狀態,關注工業應用,學習許多算法,並從部署RL解決方案到生產的專門章節中受益。這不是一本教譜; 不回避數學,並希望熟悉ML。
    ● 了解RL是什麼,以及算法如何幫助解決問題,掌握RL的基本原理,包括馬爾可夫決策過程、動態規劃和時間差異學習,深入研究一係列的價值和策略梯度方法,運用先進的RL解決方案,如元學習、分層學習、多智能體和模仿學習,了解前沿的深度RL算法,包括Rainbow、PPO、TD3、SAC等,通過相應的網站獲得實際的例子
  6. 【幹貨書】Leiden大學Aske Plaat教授,“Deep Reinforcement Learning”(深度強化學習),406頁pdf
    https://deep-reinforcement-learning.net/
    https://arxiv.org/pdf/2201.02135.pdf
    ● 這本書的目的是呈現在一個單一的深度強化學習的最新見解,適合教學一個研究生水平一個學期的課程。除了涵蓋最先進的算法,我們涵蓋經典強化學習和深度學習的必要背景。我們還涵蓋了自我遊戲、多主體、層次和元學習方麵的先進的、前瞻性的發展。
  7. 【幹貨書】Abhishek Nandy,Manisha Biswas,“Reinforcement Learning With Open AI TensorFlow and Keras Using Python”(使用Python與Open AI TensorFlow和Keras進行強化學習),174頁pdf
    ● 電子版https://pan.baidu.com/s/1nQpNbhkI-3WucSD0Mk7Qcg(提取碼: av5p)
    ● 注重實戰
  8. 【幹貨書】“Algorithms for Reinforcement Learning”(強化學習算法)
    ● 原鏈接https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
    ● 較為精簡,重視數學邏輯和嚴格推導

綜述

中文

  1. 秦智慧, 李寧, 劉曉彤, 等.無模型強化學習研究綜述. 計算機科學, 2021, 48(3): 180-187.
  2. 餘力, 杜啟翰, 嶽博妍, 等.基於強化學習的推薦研究綜述. 計算機科學, 48(10): 1-18.
  3. 劉瀟, 劉書洋, 莊韞愷, 等.強化學習可解釋性基礎問題探索和方法綜述. 軟件學報, 2021: 0-0.
  4. 孫長銀, 穆朝絮.多智能體深度強化學習的若幹關鍵科學問題. 自動化學報, 2020, 46(7): 1301−1312
  5. 陳晉音, 章燕, 王雪柯, 蔡鴻斌, 王玨, 紀守領.深度強化學習的攻防與安全性分析綜述. 自動化學報, 2022, 48(1): 21−39

英文

  1. 【強化學習技術綜述:策略、近期發展及未來發展方向】Mondal A K, Jamali N.A survey of reinforcement learning techniques: strategies, recent development, and future directions. arXiv preprint arXiv:2001.06921, 2020.
  2. 【自動強化學習綜述】Parker-Holder J, Rajan R, Song X, et al.Automated Reinforcement Learning (AutoRL): A Survey and Open Problems. arXiv preprint arXiv:2201.03916, 2022.
  3. 【自動駕駛領域中的強化學習綜述】Kiran B R, Sobh I, Talpaert V, et al.Deep reinforcement learning for autonomous driving: A survey. IEEE Transactions on Intelligent Transportation Systems, 2021.
  4. 【深度強化學習中的泛化研究綜述】Kirk R, Zhang A, Grefenstette E, et al.A survey of generalisation in deep reinforcement learning. arXiv preprint arXiv:2111.09794, 2021.
  5. 【深度強化學習探索算法最新綜述,近200篇文獻揭示挑戰和未來方向】Yang T, Tang H, Bai C, et al.Exploration in deep reinforcement learning: a comprehensive survey. arXiv preprint arXiv:2109.06668, 2021.
  6. 【多智能體深度強化學習:綜述】Gronauer S, Diepold K.Multi-agent deep reinforcement learning: a survey. Artificial Intelligence Review, 2022, 55(2): 895-943.
  7. 【牛津大學發布60頁最新《強化學習金融應用進展》綜述論文】Hambly B, Xu R, Yang H.Recent Advances in Reinforcement Learning in Finance. arXiv preprint arXiv:2112.04553, 2021.
  8. 【UCL& UC Berkeley--深度強化學習中的泛化研究綜述】Kirk R, Zhang A, Grefenstette E, et al.A survey of generalisation in deep reinforcement learning. arXiv preprint arXiv:2111.09794, 2021.

經典論文

  1. Kaelbling L P, Littman M L, Moore A W.Reinforcement learning: A survey[J]. Journal of artificial intelligence research, 1996, 4: 237-285.
  2. Sutton R S, Barto A G.Reinforcement learning: An introduction[M]. MIT press, 2018.
  3. Wiering M A, Van Otterlo M.Reinforcement learning[J]. Adaptation, learning, and optimization, 2012, 12(3): 729.
  4. Li Y.Deep reinforcement learning: An overview[J]. arXiv preprint arXiv:1701.07274, 2017.
  5. Szepesvári C.Algorithms for reinforcement learning[J]. Synthesis lectures on artificial intelligence and machine learning, 2010, 4(1): 1-103.
  6. Mnih V, Kavukcuoglu K, Silver D, et al.Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
  7. Kober J, Bagnell J A, Peters J.Reinforcement learning in robotics: A survey[J]. The International Journal of Robotics Research, 2013, 32(11): 1238-1274.
  8. Henderson P, Islam R, Bachman P, et al.Deep reinforcement learning that matters[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).
  9. Lillicrap T P, Hunt J J, Pritzel A, et al.Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.
  10. Sutton R S, Barto A G.Introduction to reinforcement learning[J]. 1998.
  11. Mnih V, Kavukcuoglu K, Silver D, et al.Playing atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
  12. Mnih, V., Kavukcuoglu, K., Silver, D. et al.Human-level control through deep reinforcement learning[J]. Nature, 2015, 529-533.
  13. Levine S, Finn C, Darrell T, et al.End-to-End Training of Deep Visuomotor Policies[J]. Journal of Machine Learning Research, 2015, 1-40.
  14. Silver D, Huang A, Maddison C J, et al.Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 484-489.
  15. Mnih V, Badia A, Mirza M, et al.Asynchronous methods for deep reinforcement learning[C]. In International Conference on Machine Learning, 2016, 1928-1937.
  16. Silver D, Schrittwieser J, Simonyan K, et al.Mastering the game of go without human knowledge[J]. Nature, 2017, 354-359.
  17. Silver D, Hubert T, Schrittwieser J, et al.Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arXiv: Artificial Intelligence, 2017.
  18. Hutson M.AI takes on video games in quest for common sense[J]. Science, 2018.
  19. Kalashnikov D, Irpan A, Pastor P, et al.Qt-opt: Scalable deep reinforcement learning for vision-based robotic manipulation[J]. arXiv preprint arXiv:1806.10293, 2018.
  20. Shi J C, Yu Y, Da Q, et al.Virtual-taobao: Virtualizing real-world online retail environment for reinforcement learning[C]. Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 4902-4909.
  21. Zeng A, Song S, Lee J, et al.TossingBot: Learning to Throw Arbitrary Objects with Residual Physics[J]. arXiv preprint arXiv:1903.11239, 2019.
  22. OpenAI,https://www.theverge.com/2019/10/15/20914575/openai-dactyl-robotic-hand-rubiks-cube-one-handed-solve-dexterity-ai
  23. Vinyals O, Babuschkin I, Czarnecki W M, et al.Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.
  24. Seita D, Florence P, Tompson J, et al.Learning to rearrange deformable cables, fabrics, and bags with goal-conditioned transporter networks[C]//2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021: 4568-4575.

進階論文

  1. 【TPAMI2022--基於圖神經網絡實現強化的、增量和跨語言社會事件檢測】Peng H, Zhang R, Li S, et al.Reinforced, Incremental and Cross-lingual Event Detection From Social Messages[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.
    ● 代碼:https://github.com/RingBDStack/FinEvent
  2. 【AAAI2022--一種基於隨機計劃者-執行者-評論家模型的無監督圖像柔性配準方法】Luo Z, Hu J, Wang X, et al.Stochastic Planner-Actor-Critic for Unsupervised Deformable Image Registration[J]. arXiv preprint arXiv:2112.07415, 2021.
  3. 【AAAI2022--一種基於狀態擾動的魯棒強化學習算法】Kuang Y, Lu M, Wang J, et al.Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization[J]. arXiv preprint arXiv:2112.10513, 2021.
  4. 【AAAI2022--一種基於狀態擾動的魯棒強化學習算法】Wang Z, Wang J, Zhou Q, et al.Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic[J]. arXiv preprint arXiv:2112.10504, 2021.
  5. 【NeurIPS2021--首次揭示強化學習記憶池最優利用方法】Liu X H, Xue Z, Pang J, et al.Regret Minimization Experience Replay in Off-Policy Reinforcement Learning[J]. Advances in Neural Information Processing Systems, 2021, 34.
  6. 【CIKM2021--強化學習推薦模型的知識蒸餾探索之路】Xie R, Zhang S, Wang R, et al.Explore, Filter and Distill: Distilled Reinforcement Learning in Recommendation[C]//Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021: 4243-4252.
  7. 【Open AI、Google Brain大作--從多智能體自動程序中使用緊急工具】Baker B, Kanitscheider I, Markov T, et al.Emergent tool use from multi-agent autocurricula. arXiv preprint arXiv:1909.07528, 2019.
    ● 代碼:https://github.com/openai/multi-agent-emergence-environments
  8. 【伯克利人工智能研究實驗室--基於概率上下文變量的高效非策略元強化學習】Rakelly K, Zhou A, Finn C, et al.Efficient off-policy meta-reinforcement learning via probabilistic context variables//International conference on machine learning. PMLR, 2019: 5331-5340.
    ● 代碼:https://github.com/katerakelly/oyster
  9. 【NeurIPS2019--探索在元學習階段提供監督信息】Mendonca R, Gupta A, Kralev R, et al.Guided meta-policy search. Advances in Neural Information Processing Systems, 2019, 32.
  10. 【在強化學習中使用對數映射使較低的折扣因子】Van Seijen H, Fatemi M, Tavakoli A.Using a logarithmic mapping to enable lower discount factors in reinforcement learning. Advances in Neural Information Processing Systems, 2019, 32.
    ● 代碼:https://github.com/microsoft/logrl
    ● 數據集:Arcade Learning Environment(https://github.com/mgbellemare/Arcade-Learning-Environment)
  11. 【分布式強化學習的有效探索】Mavrin B, Yao H, Kong L, et al.Distributional reinforcement learning for efficient exploration//International conference on machine learning. PMLR, 2019: 4424-4434.
    ● 數據集:CARLA(https://carla.org/)
  12. 【AAAI2019最佳論文獎--如何在強化學習中結合樹搜索方法】[Efroni Y, Dalal G, Scherrer B, et al.How to combine tree-search methods in reinforcement learning//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 3494-3501.
  13. 【NeurIPS2019--無模型的強化學習算法解決連續的控製任務】Ciosek K, Vuong Q, Loftin R, et al.Better exploration with optimistic actor critic. Advances in Neural Information Processing Systems, 2019, 32.
  14. 【算法輸出策略證書方法】Dann C, Li L, Wei W, et al.Policy certificates: Towards accountable reinforcement learning//International Conference on Machine Learning. PMLR, 2019: 1507-1516.
  15. 【EMNLP2016--強化學習在對話生成中的應用】Li J, Monroe W, Ritter A, et al.Deep reinforcement learning for dialogue generation. arXiv preprint arXiv:1606.01541, 2016.
    ● 代碼:https://github.com/liuyuemaicha/Deep-Reinforcement-Learning-for-Dialogue-Generation-in-tensorflow
  16. 【NeurIPS2017--隨機博弈中的在線強化學習】Wei C Y, Hong Y T, Lu C J.Online reinforcement learning in stochastic games. Advances in Neural Information Processing Systems, 2017, 30.
    ● 代碼:https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
  17. 【CVPR2017--圖像字幕的自我批判序列訓練】Rennie S J, Marcheret E, Mroueh Y, et al.Self-critical sequence training for image captioning//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7008-7024.
    ● 代碼:https://github.com/ruotianluo/neuraltalk2.pytorch
    ● 數據集:COCO (Microsoft Common Objects in Context)-https://cocodataset.org/
  18. 【ICCV2017--提出了基於強化學習的圖像標注方法】Liu S, Zhu Z, Ye N, et al.Improved image captioning via policy gradient optimization of spider//Proceedings of the IEEE international conference on computer vision. 2017: 873-881.
    ● 代碼:https://github.com/peteanderson80/SPICE
    ● 數據集:COCO (Microsoft Common Objects in Context)-https://cocodataset.org/
  19. 【NIPS2017--不完全信息博弈的安全嵌套子博弈求解】Brown N, Sandholm T.Safe and nested subgame solving for imperfect-information games. Advances in neural information processing systems, 2017, 30.
  20. 【WWW2018--學習協作:多智能體強化學習的多場景排序】Feng J, Li H, Huang M, et al.Learning to collaborate: Multi-scenario ranking via multi-agent reinforcement learning//Proceedings of the 2018 World Wide Web Conference. 2018: 1939-1948.
  21. 【SIGCOMM2017--使用強化學習的方法優化ABR(adaptive bitrate)算法】Mao H, Netravali R, Alizadeh M.Neural adaptive video streaming with pensieve//Proceedings of the Conference of the ACM Special Interest Group on Data Communication. 2017: 197-210.
    ● 代碼:https://github.com/thu-media/Comyco
  22. 【提出了一個機器理解模型ReasoNet】Shen Y, Huang P S, Gao J, et al.Reasonet: Learning to stop reading in machine comprehension//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017: 1047-1055.
  23. 【NIPS2016--機器翻譯的雙重學習】He D, Xia Y, Qin T, et al.Dual learning for machine translation. Advances in neural information processing systems, 2016, 29.
    ● 代碼:https://github.com/NonameAuPlatal/Dual_Learning
  24. 【IJCAI2017--強化機製設計】Tang P.Reinforcement mechanism design//IJCAI. 2017: 5146-5150.
  25. 【用強化學習調整循環神經網絡】Jaques N, Gu S, Turner R E, et al.Tuning recurrent neural networks with reinforcement learning. 2017.
  26. 【WSDM2018--基於深度強化學習的異構星型網絡嵌入課程學習】Qu M, Tang J, Han J.Curriculum learning for heterogeneous star network embedding via deep reinforcement learning//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. 2018: 468-476.

學位論文

  1. 【西南交通大學紀聖塨博士論文】城市資源智能優化方法及應用研究,//www.webtourguide.com/vip/bd3586a9b4f9d38ab10678db5f708485
  2. 【上海交通大學陳露博士論文】認知型口語交互係統中的對話管理技術,//www.webtourguide.com/vip/8d5844de744b4e287a61a80d72ee1190

框架/數據集

  1. 【OpenAI--Baselines】
    https://github.com/openai/baselines
    ● 複現眾多經典RL算法
  2. 【OpenAI--spinningup】
    https://spinningup.openai.com/en/latest/user/introduction.html
    ● 提供了經典Policy-based算法的複現,優點是寫的通俗易懂上手簡單,並且效果有保障,而且同時tf和Pytorch的支持;缺點是沒有value-based的算法,不能開發DQN係列。
  3. 【百度--PARL】
    https://github.com/paddlepaddle/parl
    ● 擴展性強,可複現性好,友好
  4. 【DeepMin-- OpenSpie】
    https://github.com/deepmind/open_spiel
    ● OpenSpiel是一個環境和算法的集合,用於研究一般的強化學習和搜索/遊戲規劃。
  5. 【Intel AI LAB--Coach】
    https://github.com/IntelLabs/coach
    ● Coach是一個python強化學習框架,包含許多最先進的算法的實現。對RL Framework的設計很模塊化,比如整體流程,算法模塊定義,網絡定義,探索策略定義等
  6. 【Google--dopamine】
    https://github.com/google/dopamine
    ● dopamine是強化學習算法快速原型化的研究框架。它的目的是滿足用戶對一個小型的、容易理解的代碼庫的需求,在這個代碼庫中,用戶可以自由地嚐試各種瘋狂的想法(投機研究)。
  7. 【Agent Learning Framework(ALF)】
    https://github.com/HorizonRobotics/alf
    ● Agent Learning Framework (ALF)是一種強化學習框架,強調實現涉及許多不同組件的複雜算法的靈活性和易用性。ALF建立在PyTorch上。
  8. 【清華大學人工智能研究院--Tianshou】
    https://github.com/thu-ml/tianshou
    ● Tianshou(天授)是一種基於純PyTorch強化學習平台。現有的強化學習庫主要基於TensorFlow,有許多嵌套類、不友好API或慢速,與之不同的是,Tianshou提供了一個快速模塊化框架和python API,用於用最少的代碼行數構建深度強化學習代理。
  9. 【MuJoCo】
    https://mujoco.org/
    ● 是一個物理引擎,旨在促進機器人、生物力學、圖形和動畫以及其他需要快速和精確模擬的領域的研究和開發。MuJoCo提供了速度、準確性和建模能力的獨特組合,但它不僅僅是一個更好的模擬器。相反,它是第一個為基於模型的優化(特別是通過聯係進行優化)而從頭設計的全功能模擬器。
  10. 【The Arcade Learning Environment (ALE)】
    https://github.com/mgbellemare/Arcade-Learning-Environment
    ● ALE是一個簡單的框架,允許研究人員和業餘愛好者為雅達利2600遊戲開發AI智能體。它建立在雅達利2600模擬器Stella之上,並將仿真的細節與代理設計分離開來。本視頻描述了ALE目前支持的50多個遊戲。
  11. 【CARLA】
    https://carla.org/
    ● 為了支持自動駕駛係統的開發、培訓和驗證,CARLA已經從頭開始開發。除了開源代碼和協議外,CARLA還提供開放的數字資產(城市布局、建築、車輛),這些資產是為此目的而創建的,可以自由使用。仿真平台支持傳感器套件的靈活規格、環境條件、所有靜態和動態參與者的完全控製、地圖生成等

報告/白皮書

  1. 2021.5,“Transforming healthcare with Reinforcement Learning(強化學習改變醫療保健)”,https://f.hubspotusercontent10.net/hubfs/1868764/EU%20Whitepapers_cases_reports/Transforming%20healthcare%20with%20Reinforcement%20Learning%20White%20Paper.pdf
  2. 2017.11,《穀歌 TPU 及強化學習》,http://pdf.dfcfw.com/pdf/H3_AP201712051062442205_1.PDF

領域專家

  1. 俞勇--上海交大[https://apex.sjtu.edu.cn/members/yyu]
  2. 俞揚--南京大學 [https://www.yuque.com/eyounx/home]
  3. 李飛飛--美國國家工程院院士[https://profiles.stanford.edu/fei-fei-li]
  4. Alekh Agarwal--穀歌 [https://alekhagarwal.net/]
  5. Sergey Levine--UC Berkeley[https://people.eecs.berkeley.edu/~svlevine/]
  6. Pieter Abbeel--UC Berkeley[https://people.eecs.berkeley.edu/~pabbeel/]
  7. David Silver--DeepMind/倫敦大學[https://www.davidsilver.uk/]
  8. Rémi Munos--DeepMind[http://researchers.lille.inria.fr/munos/]
  9. Chelsea Finn--斯坦福大學[https://ai.stanford.edu/~cbfinn/]
  10. 高劍峰--微軟[https://www.microsoft.com/en-us/research/people/jfgao/]
  11. timothy lillicrap--DeepMind/卡耐基梅隆大學[https://contrastiveconvergence.net/~timothylillicrap/index.php]
  12. Frank L. Lewis--德州大學阿靈頓分校[https://www.uta.edu/academics/faculty/profile?username=flewis]
  13. Jonathan P. How--麻省理工學院[https://www.mit.edu/~jhow/]
  14. Koray Kavukcuoglu--DeepMind[https://koray.kavukcuoglu.org/]
  15. Peter Herald Stone--德克薩斯大學[https://www.cs.utexas.edu/~pstone/]

資料彙編

  1. 【流行的強化學習算法的代碼、練習和解決方案】Denny Britz-穀歌,https://github.com/dennybritz/reinforcement-learning
  2. 【深度強化學習入門到精通-2020最全資料綜述】作者-嶽龍飛,深度強化學習實驗室(DeepRL-Lab),https://aijishu.com/a/1060000000091025
  3. 【Deep Reinforcement Learning(深度強化學習)倉庫】深度強化學習實驗室(DeepRL-Lab),https://github.com/neurondance/deeprl
  4. 【強化學習從入門到放棄——強化學習的學習資料彙總】更新至2019年,https://taospirit.github.io/2019/04/15/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%A5%E9%97%A8/

初步版本,水平有限,有錯誤或者不完善的地方,歡迎大家提建議和補充,會一直保持更新,本文為專知內容組原創內容,未經允許不得轉載,如需轉載請發送郵件至fangquanyi@gmail.com或 聯係微信專知小助手(Rancho_Fang)

敬請關注//www.webtourguide.com和關注專知公眾號,獲取第一手AI相關知識

成為VIP會員查看完整內容
微信掃碼谘詢專知VIP會員
Top