第一部分提供了基礎材料,其中大部分可以略讀。第1章提供了通用建模框架的概述,該框架涵蓋了任何序列決策問題,最困難的挑戰(對於大多數問題)是策略的設計。第1章提供了跨越任何可能被設計的策略的四類策略路線圖的早期草圖。第2章總結了每個社區的規範化建模框架,這些框架使用了該字段的符號來處理某種形式的序列決策問題。對這一領域完全陌生的讀者可以略讀這一章,了解已經采用的各種方法。有深度的讀者將在這些規範問題中的一個或多個方麵有一定程度的專業知識,這將有助於在該問題和我們的框架之間提供一座橋梁。最後,第三章深入探討了在線學習。本章應該略讀,然後在需要時作為參考資料使用。

第二部分-隨機搜索-這些是隨機優化問題,可以使用自適應算法解決,其中唯一的信息鏈接迭代是關於函數的信念。我們還將這些狀態獨立函數稱為狀態獨立函數,以區別於我們在第三部分中開始處理的更一般的狀態依賴函數。

第三部分-狀態相關問題-這裏我們過渡到更豐富的序列問題類,其中被優化的函數是狀態相關的。

第四部分-策略搜索-這些章節描述了必須調整的策略,無論是在模擬器中還是通過經驗。

第五部分-基於前瞻近似的策略-基於前瞻近似的策略是策略搜索派生的策略的對應。

第六部分-多智能體係統和學習-最後我們展示了如何擴展我們的框架來處理多智能體係統。

目錄內容:

Chapter 1 – Introduction

Chapter 2 – Canonical models and applications .

Chapter 3 – Online learning- Revised from ADP book

Chapter 4 – Introduction to stochastic search

Chapter 5 – Derivative-based stochastic optimization

Chapter 6 – Stepsize policies

Chapter 7 – Derivative-free stochastic optimization

Chapter 8 – State-dependent problems

Chapter 9 – Modeling sequential decision problems

Chapter 10 – Uncertainty modeling

Chapter 11 – Designing policies

Chapter 12 – Policy function approximations and policy search

Chapter 13 – Cost function approximations

Chapter 14 – Discrete Markov decision processes

Chapter 15 – Backward approximate dynamic programming

Chapter 16 – Forward ADP I: The value of a policy

Chapter 17 – Forward ADP II: Policy optimization

Chapter 18 – Forward ADP III: Convex functions

Chapter 19 – Direct lookahead policies

Chapter 20 – POMDPs, two-agent systems, and multiagent RL

"> 【普林斯頓幹貨書】強化學習與隨機優化,776頁pdf闡述序列決策統一框架 - 專知VIP

《強化學習和隨機優化:序列決策的統一框架》是一本新書,它提供了一個統一框架,涵蓋了所有在不確定性下進行決策的社區(見jungle.princeton.edu)。這是第一本全麵介紹這些領域的書,遵循了確定性優化和機器學習(但不是隨機優化)中長期使用的風格。

第一部分提供了基礎材料,其中大部分可以略讀。第1章提供了通用建模框架的概述,該框架涵蓋了任何序列決策問題,最困難的挑戰(對於大多數問題)是策略的設計。第1章提供了跨越任何可能被設計的策略的四類策略路線圖的早期草圖。第2章總結了每個社區的規範化建模框架,這些框架使用了該字段的符號來處理某種形式的序列決策問題。對這一領域完全陌生的讀者可以略讀這一章,了解已經采用的各種方法。有深度的讀者將在這些規範問題中的一個或多個方麵有一定程度的專業知識,這將有助於在該問題和我們的框架之間提供一座橋梁。最後,第三章深入探討了在線學習。本章應該略讀,然後在需要時作為參考資料使用。

第二部分-隨機搜索-這些是隨機優化問題,可以使用自適應算法解決,其中唯一的信息鏈接迭代是關於函數的信念。我們還將這些狀態獨立函數稱為狀態獨立函數,以區別於我們在第三部分中開始處理的更一般的狀態依賴函數。

第三部分-狀態相關問題-這裏我們過渡到更豐富的序列問題類,其中被優化的函數是狀態相關的。

第四部分-策略搜索-這些章節描述了必須調整的策略,無論是在模擬器中還是通過經驗。

第五部分-基於前瞻近似的策略-基於前瞻近似的策略是策略搜索派生的策略的對應。

第六部分-多智能體係統和學習-最後我們展示了如何擴展我們的框架來處理多智能體係統。

目錄內容:

Chapter 1 – Introduction

Chapter 2 – Canonical models and applications .

Chapter 3 – Online learning- Revised from ADP book

Chapter 4 – Introduction to stochastic search

Chapter 5 – Derivative-based stochastic optimization

Chapter 6 – Stepsize policies

Chapter 7 – Derivative-free stochastic optimization

Chapter 8 – State-dependent problems

Chapter 9 – Modeling sequential decision problems

Chapter 10 – Uncertainty modeling

Chapter 11 – Designing policies

Chapter 12 – Policy function approximations and policy search

Chapter 13 – Cost function approximations

Chapter 14 – Discrete Markov decision processes

Chapter 15 – Backward approximate dynamic programming

Chapter 16 – Forward ADP I: The value of a policy

Chapter 17 – Forward ADP II: Policy optimization

Chapter 18 – Forward ADP III: Convex functions

Chapter 19 – Direct lookahead policies

Chapter 20 – POMDPs, two-agent systems, and multiagent RL

成為VIP會員查看完整內容
0
37
1

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習範式之一。 強化學習與監督學習的不同之處在於,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在於,後者不假設MDP的確切數學模型,並且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

本書提供了分布式優化、博弈和學習的基本理論。它包括那些直接從事優化工作的人,以及許多其他問題,如時變拓撲、通信延遲、等式或不等式約束,以及隨機投影。本書適用於在動態經濟調度、需求響應管理和智能電網插電式混合動力汽車路由等領域使用分布式優化、博弈和學習理論的研究人員和工程師。

無線技術和計算能力的進步使得理論、模型和工具的發展成為必要,以應對網絡上大規模控製和優化問題帶來的新挑戰。經典的優化方法是在所有問題數據都可用於集中式服務器的前提下工作的。然而,這一前提不適用於由電力係統、傳感器網絡、智能建築和智能製造等應用驅動的分布式環境中的大型網絡係統。在這樣的環境中,每個節點(agent)根據自己的數據(信息)以及通過底層通信網絡從相鄰的agent接收到的信息進行本地計算,從而分布式地解決大規模控製和優化問題。最終,集中式優化方法必然會走向衰落,從而產生一種新的分布式優化類型,它考慮了多個agent之間的有效協調,即所有agent共同協作,使一個局部目標函數之和的全局函數最小化。

本書研究了近年來分布式優化問題中的幾個標準熱點問題,如無約束優化、有約束優化、分布式博弈和分布式/分散學習等。為了強調分布式優化在這些主題中的作用,我們將重點放在一個簡單的原始(次)梯度方法上,但我們也提供了網絡中其他分布式優化方法的概述。介紹了分布式優化框架在電力係統控製中的應用。這本書自然主要包括三個部分。第一部分討論了分布式優化算法理論,共分為四章:(1)多智能體時滯網絡中的協同分布式優化;(2)時變拓撲多智能體係統的約束一致性;(3)不等式約束和隨機投影下的分布式優化;(4)隨機矩陣有向圖上的加速分布優化。第二部分作為過渡,研究了分布式優化算法理論及其在智能電網動態經濟調度問題中的應用,包括兩章:(5)時變有向圖約束優化的線性收斂性;(6)時變有向圖上經濟調度的隨機梯度推動。第三部分對分布式優化、博弈和學習算法理論進行了分析和綜合,本部分所有算法都是針對智能電網係統內的特定案例場景設計的。本部分共分三章:(7)智能微電網能源交易博弈中的強化學習;(8)不完全信息約束博弈的強化學習;(9)基於擁塞博弈的插電式混合動力汽車路徑選擇強化學習。其中,給出了仿真結果和實際應用實例,以說明前麵提出的優化算法、博弈算法和學習算法的有效性和實用性。

成為VIP會員查看完整內容
0
50
1

藍光輝教授的專著係統地介紹了機器學習算法基礎概念和近期進展,尤其是基於優化方法的算法。 機器學習算法領域近期出現了大量研發進展,但目前社區尚缺乏對機器學習算法基礎概念和近期進展的係統性介紹,尤其是基於隨機優化方法、隨機算法、非凸優化、分布式與在線學習,以及無投影方法的機器學習算法。

佐治亞理工終身教授藍光輝出版的一本關於機器學習算法的專著《First-order and Stochastic Optimization Methods for Machine Learning》。

這本專著具備以下特點:

  • 覆蓋從基礎構造塊到精心設計的複雜算法等詳實內容;
  • 用教程的形式介紹了機器學習算法領域的近期進展;
  • 麵向機器學習、人工智能和數學規劃社區的廣大研究人員;
  • 每一章節後都附有練習。

係統梳理優化算法的進展

在該書序言部分,藍光輝教授介紹了寫作此書的初衷:

優化在數據科學中一直發揮重要作用。很多統計和機器學習模型的分析與解決方法都依賴於優化。但是,近期社區對計算數據分析優化的興趣往往伴隨著一些難題。高維度、大型數據規模、內在不確定性、無法避免的非凸問題,以及實時和分布式設置的要求,給現有的優化方法帶來了大量困難。 在過去十年中,為解決以上挑戰,優化算法在設計和分析方麵出現了巨大進步。然而,這些進步分散在多個不同學科的大量文獻中,缺乏係統性的梳理。而這使得年輕研究人員更難進入優化算法領域,更難構建必要的基礎知識、了解目前的前沿成果,以及推動該領域的發展。 這本書嚐試用更有條理的方式介紹領域進展,主要聚焦於已得到廣泛應用或具備大規模機器學習和數據分析應用潛力的優化算法,包括一階方法、隨機優化方法、隨機和分布式方法、非凸隨機優化方法、無投影方法,以及算子滑動和分散式方法。 本書的寫作目標是介紹基礎算法機製,它們能在不同環境設置下提供最優性能保障。不過在探討算法之前,本書首先簡要介紹了多個常見的機器學習模型和一些重要的優化理論,希望借此為初學者提供良好的理論基礎。

此外,藍教授表示這本書的目標讀者是對優化算法及其在機器學習和人工智能中的應用感興趣的研究生和高年級本科生,也可以作為更高階研究人員的參考書目。這本書的最初版本已經作為佐治亞理工學院高年級本科生和博士課程的教材。

核心內容

這本書共包括八個章節,涵蓋機器學習模型、凸優化、非凸優化、無投影方法等內容,是對優化算法近期進展的一次係統性梳理。

書籍鏈接:https://www.springer.com/gp/book/9783030395674

作者簡介

本書作者藍光輝教授,博士畢業於佐治亞理工學院,目前任教於佐治亞理工 H. Milton Stewart 工業和係統工程學院。此外,他還擔任《Computational Optimization and Applications》、優化算法頂級期刊《Mathematical Programming》和《SIAM Journal on Optimization》等雜誌的副主編,是國際機器學習和深度學習算法方向的頂級專家。

藍光輝教授專注於計算機科學領域的基礎研究,他的研究方向包括:隨機優化和非線性規劃的理論、算法和應用,包括隨機梯度下降和加速隨機梯度下降,以及用於解決隨機凸和非凸優化問題。

成為VIP會員查看完整內容
0
35
1

本教程關注信息理論在統計學中的應用。被稱為信息散度或Kullback-Leibler距離或相對熵的信息度量起著關鍵作用。涵蓋的主題包括大偏差、假設檢驗、指數族的最大似然估計、列聯表的分析以及具有“信息幾何”背景的迭代算法。同時,還介紹了通用編碼的理論,以及由通用編碼理論驅動的最小描述長度原理的統計推理。

https://www.nowpublishers.com/article/Details/CIT-004

成為VIP會員查看完整內容
0
32
1

本書致力於魯棒優化——一種處理不確定數據優化問題的特定的和相對新穎的方法。

• 數據不確定性的現象是什麼,為什麼它值得專門處理,

• 如何在魯棒優化中處理這一現象,以及如何將這種處理方法與處理數據不確定性的傳統方法進行比較。

本書的主體部分分為四個部分:

第一部分是 魯棒線性規劃的基本理論,它從一個不確定線性規劃問題及其魯棒/廣義魯棒問題的概念的詳細討論開始。

第二部分可以看作是第一部分的“二次曲線版本”,將non-adjustable魯棒優化的主要概念推廣到二次曲線形式的不確定凸規劃問題,重點是不確定二次曲線和半定規劃問題。

第三部分致力於魯棒多階段決策,特別是魯棒動態規劃。

第四部分提出了三個實際的例子,充分詳細地提出了RO方法的應用。

成為VIP會員查看完整內容
0
41
0

人工智能技術已經成為當前技術變革的主要推動力之一,從計算機科學到工程學等許多科學技術領域都在竭盡全力想用自動化的方法創造更大的價值。要想做到這一點,工程師當然必須要對當前最具潛力的機器學習方法有一個大致了解。倫敦國王學院信息學習教授 Osvaldo Simeone 公開發布了長達 237 頁的最新專著,為工程師提供了全麵細致的機器學習入門介紹。

本專著的目標是介紹機器學習領域內的關鍵概念、算法和理論框架,涵蓋了監督學習與無監督學習、統計學習理論、概率圖模型和近似推斷等方向。本專著的目標讀者是具有概率學和線性代數背景的電氣工程師。本書基於第一原理(first principle)寫作,並按照有清晰定義的分類方式對其中的主要思想進行了組織,其中的類別包含鑒別式模型和生成式模型、頻率論者和貝葉斯方法、準確推斷和近似推斷、有向模型和無向模型、凸優化和非凸優化。本書中的數學框架使用了信息論的描述方式,以便工具具有統一性。書中提供了簡單且可重複的數值示例,以便讀者了解相關的關鍵動機和結論。本專著的目的並不是要為每個特定類別中已有的大量解決方案提供詳盡的細節描述(這些描述讀者可參閱教科書和論文了解),而是為了給工程師提供一個切入點,以便他們能借此進一步深入機器學習相關文獻。

第一章 概述

當我在教授機器學習課程時,有著工程學背景的同事和學生經常問及:如何更好地入門機器學習。我通常會以書籍推薦的形式回應——一般但稍微過時的介紹,請讀這本書;對於基於概率模型方法的詳細調查,請查看這些索引;如果想要了解統計學習,我覺得這篇文章很有用;如此等等。結果證明這些回答無法使我與提問者滿意。書籍很多很厚,使得繁忙的工程學教授和學生望而卻步。因此我首次撰寫了這篇專論,一篇基礎且體量適當的入門書,其中通過簡單的術語麵向工程師統一介紹了機器學習主要思想和原理,同時涵蓋了其最新發展和文獻指導,以供進一步研究。

第二章,線性回歸入門介紹

第二章我們回顧了三個核心的學習框架,即頻率論者(frequentist)、貝葉斯和 MDL。頻率論者為數據假定了真實、未知分布的存在,並致力於學習一個預測器(predictor),從而更好地泛化來自這一分布的不可見數據。這可通過學習一個插入最優預測器表達式的概率模型或者直接解決預測變量上的 ERM 問題而完成。貝葉斯方法輸出一個預測分布,可通過解決計算不可見標簽上後驗分布的推斷問題而整合先驗信息與數據。最後,MDL 方法旨在篩選一個模型,允許使用最少的比特描述數據,因此去除在未觀察實例上泛化的任務。本章也廣泛討論了過擬合的關鍵問題,展示了學習算法的性能可就偏差和評估錯誤獲得理解。運行實例是用於高斯模型的線形回歸中的一個。下一章將會介紹更多學習構建和學習常見概率模型的工具。

第三章,概率學習模型

本章中,我們回顧了概率模型的一個重要類別——指數族,它被廣泛用作學習算法的組件以完成監督、無監督學習任務。這一類別成員的關鍵屬性是由同一家族中的梯度 LL 和共軛先驗的可用性采用的簡單形式。下一章我們將講述指數族在解決分類問題方麵的不同應用模型。

第四章,分類

本章扼要概述了分類的關鍵問題。按照第二章提出的分類係統,我們依據用來連接解釋性變量與標簽的模型類型劃分了學習算法。尤其地,我們描述了線性與非線性的確定性判別模型,涵蓋了用於多層神經網絡的感知機算法、SVM、反向傳播;聚焦於 GLM 的概率判別模型;包括 QDA 和 LDA 在內的概率生成模型。我們同樣介紹了混合模型與提升方法(Boosting)。盡管本章聚焦在算法方麵,下一章將討論一個理論框架,研究監督學習的性能。

第五章,統計學習理論

本章描述了經典的 PAC 框架,並用它分析監督學習的泛化性能。我們知道 VC 維理論定義了模型的能力,這就意味著 VC 維在給定模型準確度和置信度上度量了其學習所需要的樣本數量。在下一章中,我們將從監督學習進一步討論無監督學習問題。

第六章,無監督學習

在本章節中,我們回顧了無監督學習的基礎知識。優秀的無監督學習方法一般都通過隱變量或潛在變量幫助解釋數據的結構。我們首先通過期望最大化算法(EM)回顧了機器學習及各種變體。隨後介紹了機器學習生成模型 GAN,該方法使用從數據中學到的散度度量以代替 KL 散度。隨後接著回顧了通過 InfoMax 原則訓練的判別模型和自編碼器。在下一章節中,我們通過討論概率圖模型的強大框架而擴展了對概率模型的理解。

第七章,概率圖模型

概率圖模型將關於數據結構的先驗信息編碼為因果關係的形式,即通過有向圖和貝葉斯網絡(BN),或通過無向圖和馬爾可夫隨機場(MRF)編碼為相互之間的依賴性關係。這種結構可以表示為條件獨立性屬性。概率圖模型所編碼的結構屬性能有效地控製模型的性能,因此能以可能的偏差為代價減少過模型擬合。概率圖模型也推動執行貝葉斯推斷,至少在樹型結構的圖中是這樣的。下一章將討論貝葉斯推斷和關聯學習比較重要的問題,當然具體的方法對計算力的需求就太大了。

第八章,近似推斷與學習

本章通過關注 MC 和 VI 方法概覽了近似推斷技術。並且重點關注了選擇不同類型的近似準則及其所產生的影響,例如介紹 M- 和 I- 映射。同樣我們還討論了在學習問題上使用近似推斷的方法。此外,我們還討論了本章目前最優的技術進展。

第九章,結語

這一章節主要是簡單介紹機器學習,尤其是強調那些統一框架下的概念。除了前文縱覽機器學習的各種方法,我們在這年還提供了那些隻是提到或簡要描述的重要概念及其擴展方向,因此下麵將提供前文沒有介紹的重要概念列表。

隱私:在許多應用中,用於訓練機器學習算法的數據集包含了很多敏感的私人信息,例如推薦係統中的個人偏好和醫療信息等等。因此確保學習的模型並不會揭露任何訓練數據集中的個人記錄信息就顯得十分重要了。這一約束能使用差分隱私(differential privacy)概念形式化表達。保證個人數據點隱私的典型方法包括在執行 SGD 訓練模型時對梯度添加隨機噪聲,該方法依賴於使用不同的訓練數據子集混合所學習到的專家係統 [1]。

魯棒性:已經有研究者表明不同的機器學習模型包含神經網絡對數據集中很小的變化十分敏感,它們會對次要的、正確選擇的和解釋變量中的變動給出錯誤的響應。為了確保模型關於對抗樣本具有魯棒性,修正訓練過程是具有重要實踐意義的研究領域 [37]。

計算平台和編程框架:為了擴展機器學習應用,利用分布式計算架構和相應的標準編程框架 [9] 是十分有必要的。

遷移學習:針對特定任務並使用給定數據集進行訓練的機器學習模型,目前如果需要應用到不同的任務還需要重新初始化和訓練。遷移學習研究領域即希望將預訓練模型從一個任務獲得的專業知識遷移到另一個任務中。神經網絡的典型解決方案規定了通用隱藏層的存在,即對不同任務訓練的神經網絡有一些隱藏層是相同的。

域適應(Domain adaptation):在許多學習問題中,可用數據和測試數據的分布並不相同。例如在語音識別中,模型學習時所使用的用戶數據和訓練後其他用戶使用該模型所提供的語音數據是不同的。廣義 PAC 理論分析了這種情況,其將測試分布作為測試和訓練的分布差異函數而獲得了泛化誤差邊界。

有效通信學習(Communication-efficient learning):在分布式計算平台上,數據通常被分配在處理器中,處理器中的通信造成了延遲與能耗。一個重要的研究問題是找到學習性能與通信成本之間的最佳折衷。

強化學習:強化學習是機器學習方法最近大獲成功的根本核心,獲得了玩視頻遊戲或與人類選手對決的必要技能。在強化學習中,一方想要學習世界中已觀察到的狀態 x 和動作 t 之間的最優映射,比如說 p(t|x, θ)。不同於監督學習,強化學習中最優動作不可知,機器會由於采取的動作而獲得一個獎勵/懲罰信號。其中一個流行的方法是深度強化學習,它通過神經網絡建模映射 p(t|x, θ)。通過使用強化方法評估梯度並借助 SGD,這被訓練從而最大化平均獎勵。

成為VIP會員查看完整內容
0
54
0

強化學習定義了僅通過行動和觀察來學習做出好的決策的代理所麵臨的問題。為了成為有效的問題解決器,這些代理必須能有效地探索廣闊的世界,從延遲的反饋中分配信用,並歸納出新的經驗,同時要利用有限的數據、計算資源和感知帶寬。抽象對所有這些努力都是必要的。通過抽象,代理可以形成其環境的簡潔模型,以支持一個理性的、自適應的決策者所需要的許多實踐。在這篇論文中,我提出了強化學習中的抽象理論。首先,我提出了執行抽象過程的函數的三個要求:它們應該1)保持近似最優行為的表示,2) 有效地被學習和構造,3) 更低的規劃或學習時間。然後,我提出了一套新的算法和分析,闡明了代理如何根據這些需求學習抽象。總的來說,這些結果提供了一條通向發現和使用抽象的部分路徑,將有效強化學習的複雜性降到最低。

強化學習問題如下。RL代理通過以下兩個離散步驟的無限重複與環境進行交互:

  1. 代理收到觀察和獎勵。
  2. 代理從這種交互中學習並執行一個動作。 這個過程如圖1.2所示。在這種互動過程中,agent的目標是做出決策,使其獲得的長期報酬最大化。

論文餘下組織如下: 第1部分。在第2章中,我提供了關於RL(2.1節)以及狀態抽象(2.2節)和動作抽象(2.3節)的必要背景知識。

第2部分。下一部分將專注於狀態抽象。我提出了新的算法和三個緊密相連的分析集,每一個目標是發現滿足引入的需求的狀態抽象。在第3章中,我開發了一個形式化的框架來推理狀態抽象,以保持近似最優的行為。這個框架由定理3.1總結,它強調了值保持狀態抽象的四個充分條件。然後,在第4章中,我將這一分析擴展到終身RL設置,在終身RL設置中,代理必須不斷地與不同的任務交互並解決不同的任務。本章的主要觀點是介紹了用於終身學習設置的PAC狀態抽象,以及澄清如何有效計算它們的結果。定理4.4說明了保證這些抽象保持良好行為的意義,定理4.5說明了有多少以前已解決的任務足以計算PAC狀態抽象。我著重介紹了模擬實驗的結果,這些結果說明了所介紹的狀態抽象類型在加速學習和計劃方麵的效用。最後,第五章介紹了信息論工具對狀態抽象的作用。我提出了狀態抽象和率失真理論[283,43]和信息瓶頸方法[318]之間的緊密聯係,並利用這種聯係設計新的算法,以高效地構建狀態抽象,優雅地在壓縮和良好行為表示之間進行權衡。我以各種方式擴展了這個算法框架,說明了它發現狀態抽象的能力,這些狀態抽象提供了良好行為的樣本高效學習。

第3部分。然後我轉向行動抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了尋找盡可能快地做出計劃的抽象動作的問題——主要結果表明,這個問題通常是NP困難的(在適當簡化的假設下),甚至在多項式時間內很難近似。然後,在第7章中,我解決了在規劃中伴隨高層次行為構建預測模型的問題。這樣的模型使代理能夠估計在給定狀態下執行行為的結果。在本章中,我將介紹並分析一個用於這些高級行為的新模型,並證明在溫和的假設下,這個簡單的替代仍然是有用的。我提供的經驗證據表明,新的預測模型可以作為其更複雜的對等物的適當替代者。最後,在第8章中,我探討了抽象行動改善探索過程的潛力。我描述了Jinnai等人開發的一種算法[145],該算法基於構建可以輕鬆到達環境所有部分的抽象行動的概念,並證明該算法可以加速對基準任務的探索。

第4部分。最後,我轉向狀態動作抽象的聯合過程。在第9章中,我介紹了一個將狀態和動作抽象結合在一起的簡單機製。使用這個方案,然後我證明了哪些狀態和動作抽象的組合可以在任何有限的MDP中保持良好的行為策略的表示,定理9.1總結了這一點。接下來,我將研究這些聯合抽象的反複應用,作為構建分層抽象的機製。在對層次結構和底層狀態動作抽象的溫和假設下,我證明了這些層次結構也可以保持全局近最優行為策略的表示,如定理9.3所述。然後,我將在第十章中總結我的思考和今後的方向。

總的來說,這些結果闡明了強化學習的抽象理論。圖1.4展示了本文的可視化概述。

成為VIP會員查看完整內容
0
42
1

這份手冊最大的特點就是包含許多關於機器學習的經典公式和圖表,有助於您快速回憶有關機器學習的知識點。非常適合那些正在準備與機器學習相關的工作麵試的人。

項目地址:https://github.com/soulmachine/machine-learning-cheat-sheet

該手冊雖然隻有 135 頁,但麻雀雖小五髒俱全,包含了 28 個主題內容,目錄如下:

  • Introduction
  • Probability
  • Generative models for discrete data
  • Gaussian Models
  • Bayesian statistics
  • Frequentist statistics
  • Linear Regression
  • Logistic Regression
  • Generalized linear models and the exponential family
  • Directed graphical models(Bayes nets)
  • Mixture models and the EM algorithm
  • Latent linear models
  • Sparse linear models
  • Kernels
  • Gaussian processes
  • Adaptive basis function models
  • Hidden markov Model
  • State space models
  • Undirected graphical models(Markov random fields)
  • Exact inference for graphical models
  • Variational inference
  • More variational inference
  • Monte Carlo inference
  • Markov chain Monte Carlo (MCMC)inference
  • Clustering
  • Graphical model structure learning
  • Latent variable models for discrete data
  • Deep learning
成為VIP會員查看完整內容
0
50
1

本書將側重於統計學習和序列預測(在線學習)的理論方麵。在本筆記的第一部分,我們將使用經典的工具:集中不等式、隨機平均、覆蓋數字和組合參數來分析學習的i.i.d.數據。然後,我們將重點放在序列預測上,並開發許多用於在此場景中學習的相同工具。後一部分是基於最近的研究,並提出了進一步研究的方向。我們在整個課程中強調的極大極小方法,提供了一種比較學習問題的係統方法。除了理論分析,我們將討論學習算法,特別是學習和優化之間的重要聯係。我們的框架將處理開發接近最優和計算效率的算法。我們將用矩陣補全、鏈路預測等問題來說明這一點。如果時間允許,我們將深入了解信息理論和博弈論,並展示我們的新工具如何無縫地產生許多有趣的結果。

成為VIP會員查看完整內容
0
43
2

這本受歡迎的教科書的第一版,當代人工智能,提供了一個學生友好的人工智能介紹。這一版完全修訂和擴大更新,人工智能: 介紹機器學習,第二版,保留相同的可訪問性和解決問題的方法,同時提供新的材料和方法。

該書分為五個部分,重點介紹了人工智能中最有用的技術。書的第一部分涵蓋了基於邏輯的方法,而第二部分著重於基於概率的方法。第三部分是湧現智能的特點,探討了基於群體智能的進化計算和方法。接下來的最新部分將提供神經網絡和深度學習的詳細概述。書的最後一部分著重於自然語言的理解。

適合本科生和剛畢業的研究生,本課程測試教材為學生和其他讀者提供關鍵的人工智能方法和算法,以解決具有挑戰性的問題,涉及係統的智能行為在專門領域,如醫療和軟件診斷,金融決策,語音和文本識別,遺傳分析等。

https://www.routledge.com/Artificial-Intelligence-With-an-Introduction-to-Machine-Learning-Second/Neapolitan-Jiang/p/book/9781138502383

成為VIP會員查看完整內容
0
99
2

為工程師寫的機器學習簡介(A Brief Introduction to Machine Learning for Engineers)

https://arxiv.org/abs/1709.02840

摘要

本專著的目標是介紹機器學習領域內的關鍵概念、算法和理論框架,涵蓋了監督學習與無監督學習、統計學習理論、概率圖模型和近似推斷等方向。本專著的目標讀者是具有概率學和線性代數背景的電氣工程師。本書基於第一原理(first principle)寫作,並按照有清晰定義的分類方式對其中的主要思想進行了組織,其中的類別包含鑒別式模型和生成式模型、頻率論者和貝葉斯方法、準確推斷和近似推斷、有向模型和無向模型、凸優化和非凸優化。本書中的數學框架使用了信息論的描述方式,以便工具具有統一性。書中提供了簡單且可重複的數值示例,以便讀者了解相關的關鍵動機和結論。本專著的目的並不是要為每個特定類別中已有的大量解決方案提供詳盡的細節描述(這些描述讀者可參閱教科書和論文了解),而是為了給工程師提供一個切入點,以便他們能借此進一步深入機器學習相關文獻。

成為VIP會員查看完整內容
0
77
3
小貼士
相關論文
Gaurav Yengera,Rati Devidze,Parameswaran Kamalaruban,Adish Singla
0+閱讀 · 6月8日
Aryan Deshwal,Syrine Belakaria,Janardhan Rao Doppa
0+閱讀 · 6月8日
Arda Atalik,Alper Köse,Michael Gastpar
0+閱讀 · 6月8日
Chi Jin,Qinghua Liu,Tiancheng Yu
0+閱讀 · 6月7日
Chi Jin,Qinghua Liu,Sobhan Miryoosefi
0+閱讀 · 6月7日
Sivakanth Gopi,Yin Tat Lee,Lukas Wutschitz
0+閱讀 · 6月5日
Yiwen Guo,Changshui Zhang
11+閱讀 · 3月25日
Stephen McAleer,John Lanier,Roy Fox,Pierre Baldi
3+閱讀 · 2020年6月15日
Hierarchical Deep Multiagent Reinforcement Learning
Hongyao Tang,Jianye Hao,Tangjie Lv,Yingfeng Chen,Zongzhang Zhang,Hangtian Jia,Chunxu Ren,Yan Zheng,Changjie Fan,Li Wang
5+閱讀 · 2018年9月25日
Alexander Jung
9+閱讀 · 2018年8月19日
Top