深度強化學習近年來備受關注。在自動駕駛、遊戲、分子重組和機器人等各種活動中,他們都取得了令人印象深刻的成果。在所有這些領域,計算機程序已經學會了解決困難的問題。他們學會了飛行模型直升機和表演特技動作,如回旋和翻滾。在某些應用中,他們甚至比最優秀的人類還要優秀,比如Atari、Go、撲克和星際爭霸。深度強化學習探索複雜環境的方式提醒我們,孩子們是如何學習的,通過開玩笑地嚐試東西,獲得反饋,然後再嚐試。計算機似乎真的擁有人類學習的各個方麵; 這是人工智能夢想的核心。教育工作者並沒有忽視研究方麵的成功,大學已經開始開設這方麵的課程。這本書的目的是提供深度強化學習領域的全麵概述。這本書是為人工智能的研究生寫的,並為希望更好地理解深度強化學習方法和他們的挑戰的研究人員和實踐者。我們假設學生具備本科水平的計算機科學和人工智能知識;本書的編程語言是Python。我們描述了深度強化學習的基礎、算法和應用。我們將介紹已建立的無模型和基於模型的方法,它們構成了該領域的基礎。發展很快,我們還涵蓋了一些高級主題: 深度多智能體強化學習、深度層次強化學習和深度元學習。

https://deep-reinforcement-learning.net/

這本書的目的是呈現在一個單一的深度強化學習的最新見解,適合教學一個研究生水平一個學期的課程。除了涵蓋最先進的算法,我們涵蓋經典強化學習和深度學習的必要背景。我們還涵蓋了自我遊戲、多主體、層次和元學習方麵的先進的、前瞻性的發展。

深度強化學習建立在深度監督學習和表格強化學習的基礎上

在這些章節中有很多材料,既有基礎的,也有先進的,有很多文獻。一種選擇是講授一門關於書中所有主題的課程。另一種選擇是慢一些、深入一些,在基礎知識上花足夠的時間,創建關於Chaps. 2-5的課程,以涵蓋基本主題(基於值、基於策略和基於模型的學習),並創建關於Chaps. 6-9的單獨課程,以涵蓋多智能體、分層和元學習等更高級的主題。

在這一介紹性的章節之後,我們將繼續學習第二章,在第二章中,我們將詳細討論表格(非深度)強化學習的基本概念。我們從馬爾可夫決策過程開始,並詳細討論它們。第三章解釋了基於深度價值的強化學習。本章涵蓋了為尋找最優策略而設計的第一個深度算法。我們仍將在基於價值、無模型的範式中工作。在本章的最後,我們將分析一個自學如何玩上世紀80年代Atari電子遊戲的玩家。下一章,第四章,討論了一種不同的方法:基於深度策略的強化學習。下一章,第5章,介紹了基於深度模型的強化學習與學習模型,該方法首先建立環境的過渡模型,然後再建立策略。基於模型的強化學習有希望獲得更高的樣本效率,從而加快學習速度。

"> 要上手RL?406頁《深度強化學習》2022新書,Leiden大學Aske Plaat教授主講 - 專知VIP

Leiden大學Aske Plaat教授《深度強化學習》2022新書,值得關注!

深度強化學習近年來備受關注。在自動駕駛、遊戲、分子重組和機器人等各種活動中,他們都取得了令人印象深刻的成果。在所有這些領域,計算機程序已經學會了解決困難的問題。他們學會了飛行模型直升機和表演特技動作,如回旋和翻滾。在某些應用中,他們甚至比最優秀的人類還要優秀,比如Atari、Go、撲克和星際爭霸。深度強化學習探索複雜環境的方式提醒我們,孩子們是如何學習的,通過開玩笑地嚐試東西,獲得反饋,然後再嚐試。計算機似乎真的擁有人類學習的各個方麵; 這是人工智能夢想的核心。教育工作者並沒有忽視研究方麵的成功,大學已經開始開設這方麵的課程。這本書的目的是提供深度強化學習領域的全麵概述。這本書是為人工智能的研究生寫的,並為希望更好地理解深度強化學習方法和他們的挑戰的研究人員和實踐者。我們假設學生具備本科水平的計算機科學和人工智能知識;本書的編程語言是Python。我們描述了深度強化學習的基礎、算法和應用。我們將介紹已建立的無模型和基於模型的方法,它們構成了該領域的基礎。發展很快,我們還涵蓋了一些高級主題: 深度多智能體強化學習、深度層次強化學習和深度元學習。

https://deep-reinforcement-learning.net/

這本書的目的是呈現在一個單一的深度強化學習的最新見解,適合教學一個研究生水平一個學期的課程。除了涵蓋最先進的算法,我們涵蓋經典強化學習和深度學習的必要背景。我們還涵蓋了自我遊戲、多主體、層次和元學習方麵的先進的、前瞻性的發展。

深度強化學習建立在深度監督學習和表格強化學習的基礎上

在這些章節中有很多材料,既有基礎的,也有先進的,有很多文獻。一種選擇是講授一門關於書中所有主題的課程。另一種選擇是慢一些、深入一些,在基礎知識上花足夠的時間,創建關於Chaps. 2-5的課程,以涵蓋基本主題(基於值、基於策略和基於模型的學習),並創建關於Chaps. 6-9的單獨課程,以涵蓋多智能體、分層和元學習等更高級的主題。

在這一介紹性的章節之後,我們將繼續學習第二章,在第二章中,我們將詳細討論表格(非深度)強化學習的基本概念。我們從馬爾可夫決策過程開始,並詳細討論它們。第三章解釋了基於深度價值的強化學習。本章涵蓋了為尋找最優策略而設計的第一個深度算法。我們仍將在基於價值、無模型的範式中工作。在本章的最後,我們將分析一個自學如何玩上世紀80年代Atari電子遊戲的玩家。下一章,第四章,討論了一種不同的方法:基於深度策略的強化學習。下一章,第5章,介紹了基於深度模型的強化學習與學習模型,該方法首先建立環境的過渡模型,然後再建立策略。基於模型的強化學習有希望獲得更高的樣本效率,從而加快學習速度。

成為VIP會員查看完整內容
5
89
0

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習範式之一。 強化學習與監督學習的不同之處在於,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在於,後者不假設MDP的確切數學模型,並且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

本書分為三個部分。第一部分介紹了分布式強化學習的構建模塊。我們首先介紹了我們的基本研究對象,收益分布和分布Bellman方程(第二章)。第三章介紹了分類時間差分學習,一種簡單的學習收益分布的算法。在第三章結束時,讀者應該理解分布式強化學習的基本原則,並且應該能夠在簡單的實際設置中使用它。

第二部分是對分布式強化學習理論的發展。第4章介紹了一種用於測量返回分布之間距離的語言,以及與這些分布交互的操作符。第5章介紹了實現分布式強化學習所需的概率表示的概念;在此基礎上,研究了用這種表示來計算和近似收益分布的問題,並引入了分布動態規劃的框架。第6章研究了如何從樣本中以增量的方式學習返回分布,給出了類別時間差分學習的正式結構,以及其他算法,如分位數時間差異學習。第7章將這些思想擴展到最優決策的設置(也稱為控製設置)。最後,第8章介紹了基於統計泛函概念的分布強化學習的不同視角。在第二部分結束時,讀者應該理解在設計分布式強化學習算法時出現的挑戰,以及解決這些挑戰的可用工具。

第三部分和最後一部分為實際場景ios開發了分布式強化學習。第九章回顧了線性值函數逼近的原理,並將這些思想推廣到分布環境中。第10章討論了如何將分布方法與深度神經網絡相結合來獲得深度強化學習的算法,並提出了一個模型來研究這種結合所產生的現象。第11章討論了分布式強化學習在兩個進一步研究領域(多主體學習和神經科學)的新興應用,並得出結論。

https://www.distributional-rl.org/

成為VIP會員查看完整內容
3
61
0

看到這些材料時,一個顯而易見的問題可能會出現:“為什麼還要一本深度學習和自然語言處理的書?”已有多篇優秀的論文發表,涵蓋了深度學習及其在語言處理中的應用的理論和實踐兩個方麵。然而,從我教授自然語言處理課程的經驗來看,我認為,盡管這些書的質量很好,但它們中的大多數並不是針對最有可能的讀者。這本書的目標讀者是那些在機器學習和自然語言處理之外的領域有技能的人,他們的工作至少部分依賴於對大量數據(尤其是文本數據)的自動分析。這些專家可能包括社會科學家、政治科學家、生物醫學科學家,甚至對機器學習了解有限的計算機科學家和計算語言學家。

現有的深度學習和自然語言處理書籍一般分為兩大陣營。第一個陣營側重於深度學習的理論基礎。這對前麵提到的讀者肯定是有用的,因為在使用工具之前應該了解它的理論方麵。然而,這些書往往假定了典型的機器學習研究者的背景,因此,我經常看到沒有這種背景的學生很快就會在這樣的材料中迷失。為了緩解這個問題,目前存在的第二種類型的書籍側重於機器學習從業者;也就是說,關於如何使用深度學習軟件,極少關注理論方麵。我認為,關注實際方麵同樣是必要的,但不是充分的。考慮到深度學習框架和庫已經變得相當複雜,由於理論上的誤解而誤用它們的幾率很高。我在我的課程中也經常看到這個問題。

因此,本書旨在為自然語言處理的深度學習的理論和實踐方麵架起橋梁。我介紹了必要的理論背景,並假設讀者有最少的機器學習背景。我的目標是讓任何上過線性代數和微積分課程的人都能理解這些理論材料。為了解決實際方麵的問題,本書包括用於討論的較簡單算法的偽代碼,以及用於更複雜體係結構的實際Python代碼。任何參加過Python編程課程的人都應該能夠理解這些代碼。讀完這本書後,我希望讀者能夠有必要的基礎,立即開始構建真實的、實用的自然語言處理係統,並通過閱讀有關這些主題的研究出版物來擴展他們的知識。

成為VIP會員查看完整內容
0
60
0

從Facebook、萬維網和互聯網這樣的社交網絡,到我們身體細胞中蛋白質之間複雜的相互作用,我們不斷麵臨著理解網絡結構和發展的挑戰。隨機圖的理論為這一理解提供了一個框架,在這本書中,作者對理解和應用這一理論的基本工具給出了細致的介紹。第一部分包括足夠的材料,包括練習,一個學期的課程在高等本科或初級研究生水平。然後,讀者為第二部分和第三部分更高級的主題做好了充分的準備。最後一部分提供了一個快速介紹所需的背景材料。所有那些對離散數學、計算機科學或應用概率及其應用感興趣的人都會發現這是一個理想的入門課程。

https://www.cambridge.org/core/books/introduction-to-random-graphs/0F67A19795B731B0C97EAB5BB5748CF2#fndtn-information

成為VIP會員查看完整內容
0
56
0

【導讀】佛羅裏達大學電子與計算機工程係教授Sean Meyn撰寫的新書稿《強化學習與控製係統》,重點講述了與強化學習最相關的控製基礎,以及基於這些基礎的RL算法設計的大量工具。

Sean Meyn,佛羅裏達大學電子與計算機工程係教授兼Robert C. Pittman傑出學者主席,認知與控製實驗室主任,佛羅裏達可持續能源研究所所長。Sean於1982年獲得加利福尼亞大學洛杉磯分校數學學士學位,於1987年獲得麥吉爾大學電子工程博士學位。他的學術研究興趣包括決策和控製的理論與應用,隨機過程和優化。他在這些主題上的研究獲得了許多獎項,並且是IEEE會士。

http://www.meyn.ece.ufl.edu/

為了定義強化學習(RL),首先需要定義自動控製。例如,在你的日常生活中,可能包括你的汽車巡航控製,你的空調恒溫器,冰箱和熱水器,以及現代的衣物烘幹機的決策規則。有收集數據的傳感器,有收集數據以了解世界狀態的計算機”(汽車以正確的速度行駛嗎?毛巾還濕嗎?),根據這些測量結果,由計算機驅動的算法會發出命令來調整需要調整的東西:油門、風扇速度、加熱盤管電流,或者……更令人興奮的例子包括太空火箭、人造器官和微型機器人來進行手術。RL的目標是真正自動的自動控製:沒有任何物理學或生物學或醫學知識,RL算法調整自己成為一個超級控製器: 最平穩的飛行進入太空,和最專業的微型外科醫生! 這個夢想在大多數應用中肯定是遙不可及的,但最近的成功故事鼓舞了工業界、科學家和新一代學生。繼2015年擊敗歐洲圍棋冠軍樊麾之後,DeepMind的AlphaGo再次刷新了世界紀錄。不久之後的新聞是令人震驚的AlphaZero續集,它在“沒有任何專家幫助的情況下”自學下國際象棋和圍棋。這在現在看來已經不是什麼新鮮事了,似乎每個月都會有新的突破。

今天的強化學習有兩個同等重要的基礎: 1. 最優控製:兩個最著名的RL算法,TD-和q -學習,都是關於逼近最優控製的核心價值函數。2. 統計和信息理論。RL中的loration是本書的一大焦點,它強調了最優控製的幾何性質,以及為什麼創建可靠的學習算法並不困難。我們不會忽視第二個基礎: 動機和成功的啟發式將在不深入研究理論的情況下進行解釋。讀者將學到足夠的知識,開始嚐試自製的計算機代碼,並擁有一個大的算法設計選擇庫。在完成這本書的一半之前,我希望學生能對為什麼這些算法被期望是有用的以及為什麼它們有時會失敗有一個紮實的理解。

本書的重點是與強化學習最相關的控製基礎,以及基於這些基礎的RL算法設計的大量工具。

成為VIP會員查看完整內容
2
107
0

強化學習(RL)作為一種可行的、強大的技術,用於解決各種複雜的跨行業業務問題,包括在不確定性下的順序優化決策。盡管RL被歸類為機器學習(ML)的一個分支,但它的看待和處理方式往往與機器學習的其他分支(監督和非監督學習)非常不同。事實上,RL似乎掌握了開啟人工智能前景的關鍵——人工智能可以根據觀察到的信息的變化來調整決策,同時不斷朝著最優結果前進。RL算法在無人駕駛汽車、機器人和策略遊戲等備受矚目的問題上的滲透,預示著未來RL算法的決策能力將遠超人類。

本書重點研究支撐RL的基礎理論。我們對這一理論的處理是基於本科水平的概率、優化、統計和線性代數。我們強調嚴謹但簡單的數學符號和公式來發展理論,並鼓勵你把方程寫出來,而不是僅僅從書中閱讀。偶爾,我們引用一些高等數學(如:隨機微積分),但本書的大部分是基於容易理解的數學。特別是,兩個基本的理論概念- Bellman最優方程和廣義策略迭代-貫穿全書,因為它們構成了我們在RL中所做的幾乎所有事情的基礎,甚至在最先進的算法中。

本書第二部分用動態規劃或強化學習算法解決的金融應用。作為隨機控製問題的許多金融應用的一個基本特征是,模型MDP的回報是效用函數,以捕捉金融回報和風險之間的權衡。

成為VIP會員查看完整內容
2
67
0

【導論】麻省理工學院最近開設一門深度學習課程MIT 6.S191,共包含十大主題課程,涵蓋深度學習導論、序列建模、深度視覺、生成模型、強化學習、圖神經網絡、對抗學習、貝葉斯模型、神經渲染、機器學習嗅覺等,圖文並茂,涵蓋最新的前沿內容,非常值得學習!最新一講是深度強化學習。

課程地址:http://introtodeeplearning.com/

課程介紹:

麻省理工學院的深度學習方法的導論課程,應用到計算機視覺,自然語言處理,生物學,和更多! 學生將獲得深度學習算法的基礎知識和在TensorFlow中構建神經網絡的實踐經驗。先修習微積分(即求導數)和線性代數(即矩陣乘法),我們將在學習過程中嚐試解釋其它內容! Python方麵的經驗是有幫助的,但不是必需的。歡迎聽眾!

成為VIP會員查看完整內容
2
29
0

決策理論是現代人工智能和經濟學的基礎。本課程主要從統計學的角度,也從哲學的角度,為決策理論打下堅實的基礎。本課程有兩個目的:

  • 深入了解統計決策理論、實驗設計的自動化方法,並將其與人類決策聯係起來。
  • 通過開發算法和智能代理的實驗,將該理論應用到強化學習和人工智能的實際問題中。

課程可分為兩部分。

  • 第一部分,我們介紹了主觀概率和效用的概念,以及如何用它們來表示和解決決策問題。然後討論未知參數的估計和假設檢驗。最後,我們討論了順序抽樣、順序實驗,以及更一般的順序決策。

  • 第二部分是不確定性下的決策研究,特別是強化學習和專家谘詢學習。首先,我們研究幾個有代表性的統計模型。然後,我們給出了使用這些模型做出最優決策的算法的概述。最後,我們來看看學習如何根據專家的建議來行動的問題,這個領域最近在在線廣告、遊戲樹搜索和優化方麵有很多應用。

成為VIP會員查看完整內容
4
129
0

人類從反饋中學習得最好——我們被鼓勵采取導致積極結果的行動,而被具有消極後果的決定所阻礙。這種強化過程可以應用到計算機程序中,使它們能夠解決經典編程所不能解決的更複雜的問題。深度強化學習實戰教你基本概念和術語的深度強化學習,以及實踐技能和技術,你將需要把它落實到你自己的項目。

對這項技術

深度強化學習是一種機器學習的形式,人工智能智能體從自己的原始感官輸入中學習最優行為。係統感知環境,解釋其過去決策的結果,並使用這些信息優化其行為以獲得最大的長期回報。眾所周知,深度強化學習對AlphaGo的成功做出了貢獻,但這並不是它所能做的全部!更令人興奮的應用程序等待被發現。讓我們開始吧。

關於這本書

深度強化學習實戰中教你如何編程的代理人,學習和改善的直接反饋,從他們的環境。您將使用流行的PyTorch深度學習框架構建網絡,以探索從深度Q-Networks到策略梯度方法再到進化算法的強化學習算法。在你進行的過程中,你會將你所知道的應用到實際操作項目中,比如控製模擬機器人、自動化股票市場交易,甚至構建一個可以下圍棋的機器人。

裏麵有什麼

  • 將問題組織成馬爾可夫決策過程
  • 深度Q網絡、策略梯度法、進化算法等流行算法及其驅動算法的直覺
  • 將強化學習算法應用於實際問題
成為VIP會員查看完整內容
38
213
0

林軒田機器學習基石這門課有一個配套教材:《Learning From Data》,林軒田也是編者之一。這本書的主頁為:Learning From Data,豆瓣上關於這本書的評分高達9.4,還是很不錯的,值得推薦!可以配套視頻一起學習。

機器學習允許計算係統根據從觀測數據中積累的經驗自適應地改進性能。其技術廣泛應用於工程、科學、金融、商業等領域。這本書是為機器學習的短期課程設計的。這是一門短期課程,不是倉促的課程。經過十多年的教材教學,我們提煉出了我們認為每個學生都應該知道的核心主題。我們選擇了“從數據中學習”這個標題,它忠實地描述了這個主題是關於什麼的,並且以一種類似故事的方式覆蓋了這些主題。我們希望讀者能通過從頭到尾閱讀這本書來學習這門學科的所有基礎知識。

  • 數據學習具有明顯的理論和實踐軌跡。在這本書中,我們平衡了理論和實踐,數學和啟發式。我們的納入標準是相關性。包括建立學習概念框架的理論,以及影響實際學習係統性能的啟發法。

  • 從數據中學習是一個動態的領域。一些熱門的技術和理論有時隻是一時的流行,而另一些獲得了牽引,成為該領域的一部分。我們在本書中強調的是必要的基礎知識,這些基礎知識使任何從數據中學習的學生有了堅實的基礎,並使他們能夠冒險去探索更多的技術和理論,或者貢獻自己的知識。

  • 作者是加州理工學院(Caltech)、倫斯勒理工學院(RPI)和國立台灣大學(NTU)的教授,這本書是他們廣受歡迎的機器學習課程的主要教材。作者還廣泛谘詢了金融和商業公司關於機器學習的應用,並在機器學習競賽中帶領獲勝團隊。

成為VIP會員查看完整內容
Learning From Data.pdf
15
140
0

本文為大家帶來了一份斯坦福大學的最新課程CS234——強化學習,主講人是斯坦福大學Emma Brunskill,她是斯坦福大學計算機科學助理教授,任職斯坦福大學人類影響力實驗室、斯坦福人工智能實驗室以及統計機器學習小組,主要研究強化學習。要實現人工智能的夢想和影響,需要能夠學會做出正確決策的自主係統。強化學習是這樣做的一個強有力的範例,它與大量的任務相關,包括機器人、遊戲、消費者建模和醫療保健。本課程通過講課、書麵作業和編碼作業的結合,學生將精通強化學習的關鍵思想和技術。

1.課程介紹(Description)

要實現人工智能的夢想和影響,需要能夠學會做出正確決策的自主係統。強化學習是這樣做的一個強有力的範例,它與大量的任務相關,包括機器人、遊戲、消費者建模和醫療保健。本課程將為強化學習領域提供紮實的介紹,學生將學習包括通用化和探索在內的核心挑戰和方法。通過講課、書麵作業和編碼作業的結合,學生將精通強化學習的關鍵思想和技術。作業將包括強化學習和深度強化學習的基礎,這是一個極有前途的新領域,將深度學習技術與強化學習相結合。此外,學生將通過期末專題來增進對強化學習領域的理解。

課程地址:

https://web.stanford.edu/class/cs234/schedule.html

2.預備知識(Prerequisites)

1)熟練Python

所有的課程都將使用Python(使用numpy和Tensorflow,也可以使用Keras)。這裏有一個針對那些不太熟悉Python的人的教程。如果你有很多使用不同語言(如C/ c++ / Matlab/ Javascript)的編程經驗,可能會很好。

2)大學微積分,線性代數(如 MATH 51, CME 100)

你應該能夠熟練地進行(多變量)求導,理解矩陣/向量符號和運算。

3)基本概率及統計(例如CS 109 或同等課程)

你應該了解基本的概率,高斯分布,均值,標準差等。

4)機器學習基礎

我們將闡述成本函數,求導數,用梯度下降法進行優化。CS 221或CS 229均可涵蓋此背景。使用一些凸優化知識,一些優化技巧將更加直觀。

3.主講:Emma Brunskill

Emma Brunskill是斯坦福大學計算機科學助理教授,任職斯坦福大學人類影響力實驗室、斯坦福人工智能實驗室以及統計機器學習小組。

主要研究強化學習係統,以幫助人們更好地生活。並處理一些關鍵技術。最近的研究重點包括:1)有效強化學習的基礎。一個關鍵的挑戰是要了解代理商如何平衡勘探與開發之間的局限性。2)如果要進行順序決策,該怎麼辦。利用巨大數量的數據來改善在醫療保健,教育,維護和許多其他應用程序中做出的決策,這是一個巨大的機會。這樣做需要假設/反事實推理,以便在做出不同決定時對潛在結果進行推理。3)人在回路係統。人工智能具有極大地擴大人類智能和效率的潛力。我們正在開發一個係統,用其他眾包商(CHI 2016)生產的(機器)固化材料對眾包商進行訓練,並確定何時擴展係統規格以包括新內容(AAAI 2017)或傳感器。我們也有興趣研究確保機器學習係統在人類用戶的意圖方麵表現良好(Arxiv 2017),也被稱為安全和公平的機器學習。

個人主頁:https://cs.stanford.edu/people/ebrun/

4.課程安排

01: 強化學習導論(Introduction to Reinforcement Learning)

02: 表格MDP規劃(Tabular MDP planning)

03: 表格RL政策評估(Tabular RL policy evaluation)

04: Q-learning

05: 帶函數逼近的強化學習(RL with function approximation)

06: 帶函數逼近的強化學習(RL with function approximation)

07: 帶函數逼近的強化學習(RL with function approximation)

08: 從馬爾可夫決策過程到強化學習(Policy search)

09: 從馬爾可夫決策過程到強化學習(Policy search)

10: 課堂中期(In-class Midterm)

11: 模仿學習/探索(Imitation learning/Exploration)

12: 探索/開發(Exploration/Exploitation)

13: 探索/開發(Exploration/Exploitation)

14: 批處理強化學習(Batch Reinforcement Learning)

15: 嘉賓講座:Craig Boutilier(Guest Lecture: Craig Boutilier)

16: 課堂測驗(In-class Quiz)

17: 蒙特卡洛樹搜索算法(Monte Carlo Tree Search)

18: 牆報展示(Poster presentations)

成為VIP會員查看完整內容
2
70
0
小貼士
相關VIP內容
相關論文
Arxiv
35+閱讀 · 2021年5月9日
Anomalous Instance Detection in Deep Learning: A Survey
Arxiv
23+閱讀 · 2020年3月16日
Arxiv
117+閱讀 · 2018年10月8日
Arxiv
10+閱讀 · 2018年7月31日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
10+閱讀 · 2018年6月27日
Arxiv
13+閱讀 · 2018年6月23日
Arxiv
10+閱讀 · 2018年4月25日
微信掃碼谘詢專知VIP會員
Top