模仿學習是學習嚐試模仿專家行為從而獲取最佳性能的一係列任務。目前主流方法包括監督式模仿學習、隨機混合迭代學習和數據聚合模擬學習等方法。模仿學習(Imitation Learning)背後的原理是是通過隱含地給學習器關於這個世界的先驗信息,比如執行、學習人類行為。在模仿學習任務中,智能體(agent)為了學習到策略從而盡可能像人類專家那樣執行一種行為,它會尋找一種最佳的方式來使用由該專家示範的訓練集(輸入-輸出對)。當智能體學習人類行為時,雖然我們也需要使用模仿學習,但實時的行為模擬成本會非常高。與之相反,吳恩達提出的學徒學習(Apprenticeship learning)執行的是存粹的貪婪/利用(exploitative)策略,並使用強化學習方法遍曆所有的(狀態和行為)軌跡(trajectories)來學習近優化策略。它需要極難的計略(maneuvers),而且幾乎不可能從未觀察到的狀態還原。模仿學習能夠處理這些未探索到的狀態,所以可為自動駕駛這樣的許多任務提供更可靠的通用框架。

VIP內容

簡介:

模仿學習研究如何從專家的決策數據中進行學習,以得到接近專家的決策模型。同樣學習如何決策的強化學習往往隻根據環境的滯後反饋進行學習。與之相比,模仿學習能從決策數據中獲得更為直接的反饋。它可以分為行為克隆、基於逆向強化學習的模仿學習兩類方法。基於逆向強化學習的模仿學習把模仿學習的過程分解成逆向強化學習和強化學習兩個子過程,並反複迭代。逆向強化學習用於推導符合專家決策數據的獎賞函數,而強化學習基於該獎賞函數學習策略。基於生成對抗網絡的模仿學習方法從基於逆向強化學習的模仿學習發展而來,其中最早出現且最具代表性的是生成對抗模仿學習方法(Generative Adversarial Imitation Learning,簡稱GAIL)。生成對抗網絡由兩個相對抗的神經網絡構成,分別為判別器和生成器。GAIL的特點是用生成對抗網絡框架求解模仿學習問題,其中,判別器的訓練過程可類比獎賞函數的學習過程,生成器的訓練過程可類比策略的學習過程。與傳統模仿學習方法相比,GAIL具有更好的魯棒性、表征能力和計算效率。因此,它能夠處理複雜的大規模問題,並可拓展到實際應用中。然而,GAIL存在著模態崩塌、環境交互樣本利用效率低等問題。最近,新的研究工作利用生成對抗網絡技術和強化學習技術等分別對這些問題進行改進,並在觀察機製、多智能體係統等方麵對GAIL進行了拓展。本文綜述了這些有代表性的工作,並探討這類算法未來的發展趨勢,最後進行了總結。

作者簡介:

郝建業博士,現任天津大學智能與計算學部-軟件學院副教授,博士生導師。香港中文大學(CUHK)計算機科學與工程專業博士,麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)博士後研究員。

郝建業教授主持參與國家基金委、科技部、工信委、天津市重大等科研項目10餘項, 與國際上多個頂尖科研團隊(包括麻省理工學院 (MIT), 帝國理工學院,CMU, 香港中文大學,代爾夫特理工大學,新加坡國立大學,南洋理工大學等)具有良好的長期合作關係, 並取得了多項國際領先的研究成果。在人工智能領域具有豐富的研究經驗,目前已在多智能體係統、 人工智能、 軟件工程等領域的多個頂級國際期刊 (Journal of Autonomous Agents and Multiagent Systems, IEEE/ACM Trans (TPAMI, TSG, TAAS 等)) 和國際會議 (NIPS, AAMAS, IJCAI, AAAI, FSE 等)上發表學術論文70餘篇,專著2部。

成為VIP會員查看完整內容
0
19
0
父主題
Top