簡介:

模仿學習研究如何從專家的決策數據中進行學習,以得到接近專家的決策模型。同樣學習如何決策的強化學習往往隻根據環境的滯後反饋進行學習。與之相比,模仿學習能從決策數據中獲得更為直接的反饋。它可以分為行為克隆、基於逆向強化學習的模仿學習兩類方法。基於逆向強化學習的模仿學習把模仿學習的過程分解成逆向強化學習和強化學習兩個子過程,並反複迭代。逆向強化學習用於推導符合專家決策數據的獎賞函數,而強化學習基於該獎賞函數學習策略。基於生成對抗網絡的模仿學習方法從基於逆向強化學習的模仿學習發展而來,其中最早出現且最具代表性的是生成對抗模仿學習方法(Generative Adversarial Imitation Learning,簡稱GAIL)。生成對抗網絡由兩個相對抗的神經網絡構成,分別為判別器和生成器。GAIL的特點是用生成對抗網絡框架求解模仿學習問題,其中,判別器的訓練過程可類比獎賞函數的學習過程,生成器的訓練過程可類比策略的學習過程。與傳統模仿學習方法相比,GAIL具有更好的魯棒性、表征能力和計算效率。因此,它能夠處理複雜的大規模問題,並可拓展到實際應用中。然而,GAIL存在著模態崩塌、環境交互樣本利用效率低等問題。最近,新的研究工作利用生成對抗網絡技術和強化學習技術等分別對這些問題進行改進,並在觀察機製、多智能體係統等方麵對GAIL進行了拓展。本文綜述了這些有代表性的工作,並探討這類算法未來的發展趨勢,最後進行了總結。

作者簡介:

郝建業博士,現任天津大學智能與計算學部-軟件學院副教授,博士生導師。香港中文大學(CUHK)計算機科學與工程專業博士,麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)博士後研究員。

郝建業教授主持參與國家基金委、科技部、工信委、天津市重大等科研項目10餘項, 與國際上多個頂尖科研團隊(包括麻省理工學院 (MIT), 帝國理工學院,CMU, 香港中文大學,代爾夫特理工大學,新加坡國立大學,南洋理工大學等)具有良好的長期合作關係, 並取得了多項國際領先的研究成果。在人工智能領域具有豐富的研究經驗,目前已在多智能體係統、 人工智能、 軟件工程等領域的多個頂級國際期刊 (Journal of Autonomous Agents and Multiagent Systems, IEEE/ACM Trans (TPAMI, TSG, TAAS 等)) 和國際會議 (NIPS, AAMAS, IJCAI, AAAI, FSE 等)上發表學術論文70餘篇,專著2部。

成為VIP會員查看完整內容
0
22
0

相關內容

生成對抗網絡GAN是由蒙特利爾大學Ian Goodfellow教授和他的學生在2014年提出的機器學習架構。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

摘要:隨著機器學習技術在生產、生活等各個領域的廣泛應用,機器學習算法本身的安全問題也引起越來越多的 關注。基於對抗樣本的攻擊方法是機器學習算法普遍麵臨的安全挑戰之一。以機器學習的安全性問題為出發點,介 紹了當前機器學習麵臨的隱私攻擊、完整性攻擊等安全問題,歸納了目前常見對抗樣本生成方法的發展過程及各自 的特點,總結了目前已有的針對對抗樣本攻擊的防禦技術,最後對提高機器學習算法魯棒性的方法做了進一步的展 望。

作者介紹:

朱清新:1982年1月四川師範大學數學係本科畢業獲學士學位。1984年7月北京理工大學應用數學專業畢業獲碩士學位。1984年8月起任西南技術物理研究所工程師、副研究員,作為技術骨幹參加了國防科工委7712工程項目並獲科研成果三等獎。1993年5月渥太華大學應用數學和電子工程係控製論專業畢業獲博士學位。1993年5月至1996年3月在渥太華大學電子工程係和加拿大卡爾頓大學計算機學院從事博士後研究並獲計算機第二碩士學位。1996年3月至1997年11月任加拿大Nortel公司和OmniMark高級研究員。1998年3月應聘回國到電子科技大學計算機學院工作,1999年6月聘為教授、2001年6月聘為博士生導師。2002年9月至2003年3月赴加拿大蒙特利爾Concordia大學計算機係任高級訪問學者。現任電子科技大學計算機學院學術委員會主任,計算運籌學研究室主任。主要研究領域包括:生物信息學、信息檢索、計算運籌學與最優化。

張小鬆: 長江學者特聘教授,國家重點研發計劃網絡空間安全專項首席科學家, 2017年網絡安全優秀人才獎獲得者。長期致力於軟件安全、網絡安全和數據安全領域的研究,成果在應用中取得重要的社會和經濟效益,近年來多次獲國家和省部級成果獎勵,發表包括CCF A類期刊IT、TSE、TIFS在內的學術論文六十餘篇,出版了《網絡安全協議》、《惡意軟件分析與檢測》、《軟件測試》等專著、教材和譯著5部,獲授權國際、國內發明專利22項,公開50多項,獲軟件著作權登記10項。

成為VIP會員查看完整內容
0
8
0

題目:Reinforcement Learning:Theory and Algorithms

簡介:

強化學習是近幾年研究的熱點,特別是伴隨DeepMind AlphaGo的出現名聲大噪。強化學習(RL)是一種機器學習範式,在這種範式中,agent從經驗中學習完成順序決策任務,RL在機器人、控製、對話係統、醫療等領域有廣泛的應用。《強化學習:理論與算法》這本書講述了強化學習最新進展,包括MDP、樣本複雜度、策略探索、PG、值函數等關鍵議題,是了解強化學習的材料。

章節:

  • 第一章:馬爾科夫決策過程MDP 預介紹
  • 第二章:生成模型的樣本複雜度
  • 第三章:強化學習的策略探索
  • 第四章:策略梯度方法
  • 第五章:值函數近似
  • 第六章:RL的戰略探索和豐富的觀測資料
  • 第七章:行為克隆和學徒學習

作者簡介:

Alekh Agarwal目前是微軟人工智能研究中心的研究員,領導強化學習研究小組。之前,在加州大學伯克利分校獲得計算機科學博士學位後,與彼得·巴特利特(Peter Bartlett)和馬丁·溫賴特(Martin Wainwright)一起在紐約微軟研究院(Microsoft Research)度過了六年美好的時光。

薑楠,UIUC助理教授,機器學習研究員。核心研究領域是強化學習(RL),關注於RL的樣本效率,並利用統計學習理論中的思想來分析和開發RL算法。

沙姆·卡卡德(Sham M. Kakade)是華盛頓研究基金會(Washington Research Foundation)數據科學主席,同時在華盛頓大學(University of Washington)艾倫學院(Allen School)和統計學係任職。他致力於機器學習的理論基礎,專注於設計(和實現)統計和計算效率的算法。

成為VIP會員查看完整內容
rl_monograph_AJK.pdf
0
51
1

論文題目:基於路徑依賴關係的循環分析技術研究

論文作者:謝肖飛,天津大學博士研究生,主要研究方向是計算機科學及計算機應用、軟件工程及安全軟件工程、可信軟件及網絡安全等信息安全領域。

指導老師:李曉紅,教授,博士生導師,智能與計算學部網絡安全學院副院長、軟件與信息安全工程研究所所長,天津市先進網絡重點室副主任。兼任計算機學會高級會員、中國計算機學會女工委委員、ACM會員、軟件工程專委會委員、形式化專委會委員、全國高等學校計算機教育研究會常務理事、天津大學女工委員、智能與計算學部教代會主任。主要從事計算機科學及計算機應用、軟件工程及安全軟件工程、可信軟件及網絡安全等信息安全領域的研究工作。 主持和參與科技部“863”計劃、國家重大研究計劃,國家基金重點、天津市重點等項目20餘項,發表重要期刊和會議論文100餘篇。在頂級會議和期刊發表論文23篇,其中:CCF A類或SCI一區8篇(TSE2017、JIOT2018、FSE2016、AAAI2017、FSE2017、IJCAI2017、IEEE S&P 2015、IEEE S&P2016),CCF B類9篇(ISSTA2016、ECAI2016,ICSME2017、SANER2017、ICWS2017、ICWS2018、AAMAS2018、ICSOC 2018),JCR一區2篇,SCI二區2篇、SCI三區2篇,論文“Proteus: Computing Disjunctive Loop Summary via Path Dependency Analysis”解決了符號執行中循環處理的難題,被軟件工程頂級會議FSE 2016接收,並獲得ACM SIGSOFT 2016年度傑出論文獎。曾獲授權國家發明專利13項,獲湖北省科技進步一等獎1項,天津科技進步三等獎1項。指導博士生獲得天津大學優秀博士論文,碩士研究生連續三年獲得天津市優秀碩士學位論文。

論文摘要:軟件已經被廣泛應用於在現代社會的各個領域,由於代碼實現不當導致軟件 的質量問題也層出不窮。基於靜態分析的程序驗證和測試是保障軟件代碼安全性 與正確性的兩種主要技術,而循環分析是靜態分析中麵臨的最大挑戰之一。在靜 態分析中,由於循環的迭代次數往往不能確定,使得無法對循環的所有行為分析 和檢測,從而影響程序驗證和高覆蓋率測試用例生成的效率。循環分析已經成為 程序驗證、測試及其它靜態分析應用的主要瓶頸。高效的循環分析技術可以提高 程序分析的效率,從而更好地保證軟件質量。

成為VIP會員查看完整內容
0
4
1

報告主題:麵向大數據的粒計算理論與方法

報告摘要:大數據給現有的數據分析與挖掘技術帶來了前所未有的挑戰,探索大數據分析的粒計算新理論與新方法已成為數據挖掘與機器學習領域所關心的重要問題。本報告分析了大數據挖掘特點與粒計算範式的高度契合性,介紹了我們在基於粒計算的大數據分析挖掘方麵的最新研究進展,探討了多粒度計算在數據建模中的一些思考。

嘉賓簡介:梁吉業,博士、教授、博士生導師,CCF 會士,山西大學副校長,山西大學計算智能與中文信息處理教育部重點實驗室主任,教育部計算機類專業教學指導委員會委員,中國計算機學會理事,中國人工智能學會知識工程與分布智能專業委員會副主任委員,山西省計算機學會理事長,享受國務院政府特殊津貼專家。任國際學術期刊《International Journal of Computer Science and Knowledge Engineering》、國內學術期刊《計算機研究與發展》與《模式識別與人工智能》編委。先後主持國家863計劃項目2項、國家自然科學基金項目7項(其中重點基金項目2項),973計劃前期研究專項1項。先後在《Artificial Intelligence》、《IEEE Transactions on Pattern Analysis and Machine Intelligence》、《Data Mining and Knowledge Discovery》、《IEEE Transactions on Knowledge and Data Engineering》、《中國科學》等國際國內重要學術刊物和會議上發表論文200餘篇,其中SCI收錄100餘篇。作為第一完成人獲山西省自然科學一等獎2項。2014年—2018年,連續入選愛思唯爾中國高被引學者榜單。指導的博士生獲得全國百篇優秀博士學位論文提名獎、CCF優秀博士學位論文獎、中國人工智能學會優秀博士學位論文。

成為VIP會員查看完整內容
麵向大數據的粒計算理論與方法SMP2019(2019-08).pdf
0
16
0

主題:Learning for policy improvement

摘要:強化學習在經驗易獲得的領域取得了許多成功,如電子遊戲或棋盤遊戲。這類區域的RL算法通常基於梯度下降:它們以較小的學習率進行許多噪聲更新。相反,我們研究每次更新花費更多計算的算法,試圖減少噪聲並進行更大的更新;當經驗比計算時間更昂貴時,這樣的算法是合適的。特別地,我們看幾種基於近似策略迭代的方法。

作者簡介:Geoff Gordon博士是微軟研究蒙特勒實驗室的研究主任,也是卡內基梅隆大學機器學習係的教授。他還擔任過機械學習係的臨時係主任和教育副係主任。戈登博士的研究集中在能夠進行長期思考的人工智能係統上,比如提前推理以解決問題、計劃一係列行動或從觀察中推斷出看不見的特性。特別是,他著眼於如何將機器學習與這些長期思考任務結合起來。1991年,戈登博士在康奈爾大學獲得計算機科學學士學位,1999年在卡內基梅隆大學獲得計算機科學博士學位。他的研究興趣包括人工智能、統計機器學習、教育數據、博弈論、多機器人係統,以及概率、對抗和一般和領域的規劃。他之前的任命包括斯坦福大學計算機科學係的客座教授和聖地亞哥燃燒玻璃技術的首席科學家。

成為VIP會員查看完整內容
0
5
1

題目主題:Solving Games With Complex Strategy Spaces

簡介:計算博弈論的一個中心問題是對給定遊戲描述的博弈理論解概念進行計算。 在許多實際的多代理域中,包括基礎結構安全性,環境保護,電子商務和網絡路由,每個代理都需要做出由多個組件組成的複雜決策,例如選擇網絡中的路徑,選擇子集。 保護/攻擊目標,為每個巡邏單位執行巡邏路線,多次競標或在連續區域采取行動。 最終的策略空間可能由指數數量甚至是無限數量的純策略組成,因此標標準形式表示及其相關算法存在不足。 本教程將總結具有複雜策略空間的遊戲開發高效算法的最新進展,包括使用邊際概率,用於表示和求解具有結構化策略空間的遊戲的通用框架,以及使用可區分學習和(多主體)深度強化學習。 我們將涵蓋從基礎架構安全到環境和野生動植物保護的應用領域。

作者介紹:Hau Chan,林肯大學計算機科學與工程係助理教授,電子郵件:hchan3@unl.edu。 Chan博士曾在多代理係統和經濟的交叉領域工作。他早期的工作重點是應用圖形遊戲來建模和研究相互依賴的安全域(例如,安全投資決策)。他最近正在進行的工作是關於一款具有複雜策略空間的遊戲。 他在AAMAS 2019上提供了有關計算遊戲理論主題的教程。

Fei Fang,卡內基梅隆大學計算機科學學院助理教授,電子郵件:feifang@cmu.edu。 方博士在多智能體係統上工作了七年多,專注於將博弈論和機器學習與應用程序集成到安全性,可持續性和移動性領域。她在綠色安全遊戲和PAWS(野生生物安全保護助手)方麵的工作在國際人工智能聯合會議(IJCAI'15)上獲得了計算可持續性軌道方麵的傑出論文獎,並在人工智能創新應用中獲得了創新應用獎。 她提供了有關計算遊戲理論主題的教程,包括AAMAS 2019計算遊戲理論教程,IJCAI 2018遊戲理論和安全性機器學習教程,AAMAS 2018 AI促進社會公益教程以及ACM-EC 2017關於進步的教程安全與隱私的博弈論。

成為VIP會員查看完整內容
0
5
0
Top