VIP內容

《強化學習和隨機優化:序列決策的統一框架》是一本新書,它提供了一個統一框架,涵蓋了所有在不確定性下進行決策的社區(見jungle.princeton.edu)。這是第一本全麵介紹這些領域的書,遵循了確定性優化和機器學習(但不是隨機優化)中長期使用的風格。

第一部分提供了基礎材料,其中大部分可以略讀。第1章提供了通用建模框架的概述,該框架涵蓋了任何序列決策問題,最困難的挑戰(對於大多數問題)是策略的設計。第1章提供了跨越任何可能被設計的策略的四類策略路線圖的早期草圖。第2章總結了每個社區的規範化建模框架,這些框架使用了該字段的符號來處理某種形式的序列決策問題。對這一領域完全陌生的讀者可以略讀這一章,了解已經采用的各種方法。有深度的讀者將在這些規範問題中的一個或多個方麵有一定程度的專業知識,這將有助於在該問題和我們的框架之間提供一座橋梁。最後,第三章深入探討了在線學習。本章應該略讀,然後在需要時作為參考資料使用。

第二部分-隨機搜索-這些是隨機優化問題,可以使用自適應算法解決,其中唯一的信息鏈接迭代是關於函數的信念。我們還將這些狀態獨立函數稱為狀態獨立函數,以區別於我們在第三部分中開始處理的更一般的狀態依賴函數。

第三部分-狀態相關問題-這裏我們過渡到更豐富的序列問題類,其中被優化的函數是狀態相關的。

第四部分-策略搜索-這些章節描述了必須調整的策略,無論是在模擬器中還是通過經驗。

第五部分-基於前瞻近似的策略-基於前瞻近似的策略是策略搜索派生的策略的對應。

第六部分-多智能體係統和學習-最後我們展示了如何擴展我們的框架來處理多智能體係統。

目錄內容:

Chapter 1 – Introduction

Chapter 2 – Canonical models and applications .

Chapter 3 – Online learning- Revised from ADP book

Chapter 4 – Introduction to stochastic search

Chapter 5 – Derivative-based stochastic optimization

Chapter 6 – Stepsize policies

Chapter 7 – Derivative-free stochastic optimization

Chapter 8 – State-dependent problems

Chapter 9 – Modeling sequential decision problems

Chapter 10 – Uncertainty modeling

Chapter 11 – Designing policies

Chapter 12 – Policy function approximations and policy search

Chapter 13 – Cost function approximations

Chapter 14 – Discrete Markov decision processes

Chapter 15 – Backward approximate dynamic programming

Chapter 16 – Forward ADP I: The value of a policy

Chapter 17 – Forward ADP II: Policy optimization

Chapter 18 – Forward ADP III: Convex functions

Chapter 19 – Direct lookahead policies

Chapter 20 – POMDPs, two-agent systems, and multiagent RL

成為VIP會員查看完整內容
0
39
1
Top