深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。 傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而,傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下,深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段並為性能更好的端到端學習的實現提供了可能。

VIP內容

本書作者通過閱讀大量文獻,並對文獻做梳理,將教學內容與學生反饋相結合,寫成本書。本書麵向的對象是有一定機器學習基礎的學生,特別是有誌從事科研工作的研究生。閱讀本書,相當於閱讀多篇經典論文,並掌握其中的核心思想和數學原理。本書作者沒有照搬論文內容,而是提取論文的主要思想,再按照本書整體思路和結構重新做推導、表述。與原始論文相比,本書在細節方麵予以簡化、甚至糾正。讀者如果發現本書內容在細節上與原始論文有出入,不必感到疑惑,也不必質疑本書的正確性。

現在市麵上已有多本強化學習的教材,那麼本書與其他教材的區別在哪裏呢?傳統的強化學習書籍知識體係完整,但其中多數內容在今天已經不太重要,而當今最重要的技術卻沒有被囊括。較新的深度強化學習教材幾乎都偏重編程實踐,而對方法和原理的解釋比較欠缺,對數學推導采用完全回避的態度;這是情有可原的,因為想把代碼講解清楚容易,而想把方法和原理講解清楚卻很困難。本書的獨特之處在於有係統地講解深度強化學習,不回避數學原理,而是用通俗的語言解釋數學原理。為了將方法和原理解釋清楚,作者精心製作了超過一百張插圖,讓模型和數學變得直觀。本書盡量剔除一切不必要的概念,隻保留最有用的內容,爭取做到每一個章節都值得閱讀。

為了降低閱讀的難度,本書盡量避免一切不必要的數學公式,可是書中仍然有大量的公式。強化學習方法幾乎都來自於嚴格的數學推導,每種方法的本質往往在於一兩個數學公式。不完全理解數學公式,不可能徹底深入理解強化學習方法。如果你理解每個公式是怎麼來的,那麼算法的流程就一目了然。本書不會繞開必要數學公式,但會盡量解釋清楚,絕對不會“空降公式”。

本書假設讀者完全不懂強化學習,但是要求讀者了解機器學習的基礎知識,比如優化、目標函數、正則、梯度等基本概念。讀者可以不熟悉深度學習的技術細節,但是應當知曉深度學習的“常識”,知道神經網絡的全連接層、卷積層、Sigmoid 激活函數、Softmax激活函數的用途。如果讀者幾乎不懂深度學習,也可以閱讀本書,但是會在一定程度上影響閱讀和理解。

市麵上講解深度強化學習代碼的書籍已經很多,本書就不花大量篇幅講解編程實現,而是給出偽代碼。再者,有的讀者熟悉 TensorFlow,而有的讀者偏好 PyTorch,一本書沒有辦法同時照顧兩個群體。用TensorFlow 和 PyTorch 講解深度強化學習的書籍在市麵上都能找到,不論讀者喜歡哪種,都能找到相應書籍,對本書起補充作用。讀者並沒有必要閱讀講解源代碼的書籍,因為源代碼及其講解都很容易在互聯網上搜索到。比如,要是讀者想要搜索 DDPG(深度確定策略梯度方法)的 TensorFlow 實現,隻需要在互聯網上搜索“DDPG+TensorFlow”,就能找到源代碼及其講解。有了本書的基礎知識,讀者可以輕鬆看懂源代碼。

王樹森 2021 年 3 月 9 日

成為VIP會員查看完整內容
28
45
0

最新內容

In recent years, fully differentiable rigid body physics simulators have been developed, which can be used to simulate a wide range of robotic systems. In the context of reinforcement learning for control, these simulators theoretically allow algorithms to be applied directly to analytic gradients of the reward function. However, to date, these gradients have proved extremely challenging to use, and are outclassed by algorithms using no gradient information at all. In this work we present a novel algorithm, cross entropy analytic policy gradients, that is able to leverage these gradients to outperform state of art deep reinforcement learning on a set of challenging nonlinear control problems.

0
0
0
下載
預覽

最新論文

In recent years, fully differentiable rigid body physics simulators have been developed, which can be used to simulate a wide range of robotic systems. In the context of reinforcement learning for control, these simulators theoretically allow algorithms to be applied directly to analytic gradients of the reward function. However, to date, these gradients have proved extremely challenging to use, and are outclassed by algorithms using no gradient information at all. In this work we present a novel algorithm, cross entropy analytic policy gradients, that is able to leverage these gradients to outperform state of art deep reinforcement learning on a set of challenging nonlinear control problems.

0
0
0
下載
預覽
參考鏈接
微信掃碼谘詢專知VIP會員
Top