郝建業博士,現任天津大學智能與計算學部-軟件學院副教授,博士生導師。香港中文大學(CUHK)計算機科學與工程專業博士,麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)博士後研究員。 郝建業教授主持參與國家基金委、科技部、工信委、天津市重大等科研項目10餘項, 與國際上多個頂尖科研團隊(包括麻省理工學院 (MIT), 帝國理工學院,CMU, 香港中文大學,代爾夫特理工大學,新加坡國立大學,南洋理工大學等)具有良好的長期合作關係, 並取得了多項國際領先的研究成果。在人工智能領域具有豐富的研究經驗,目前已在多智能體係統、 人工智能、 軟件工程等領域的多個頂級國際期刊 (Journal of Autonomous Agents and Multiagent Systems, IEEE/ACM Trans (TPAMI, TSG, TAAS 等)) 和國際會議 (NIPS, AAMAS, IJCAI, AAAI, FSE 等)上發表學術論文70餘篇,專著2部。

VIP內容

簡介:

模仿學習研究如何從專家的決策數據中進行學習,以得到接近專家的決策模型。同樣學習如何決策的強化學習往往隻根據環境的滯後反饋進行學習。與之相比,模仿學習能從決策數據中獲得更為直接的反饋。它可以分為行為克隆、基於逆向強化學習的模仿學習兩類方法。基於逆向強化學習的模仿學習把模仿學習的過程分解成逆向強化學習和強化學習兩個子過程,並反複迭代。逆向強化學習用於推導符合專家決策數據的獎賞函數,而強化學習基於該獎賞函數學習策略。基於生成對抗網絡的模仿學習方法從基於逆向強化學習的模仿學習發展而來,其中最早出現且最具代表性的是生成對抗模仿學習方法(Generative Adversarial Imitation Learning,簡稱GAIL)。生成對抗網絡由兩個相對抗的神經網絡構成,分別為判別器和生成器。GAIL的特點是用生成對抗網絡框架求解模仿學習問題,其中,判別器的訓練過程可類比獎賞函數的學習過程,生成器的訓練過程可類比策略的學習過程。與傳統模仿學習方法相比,GAIL具有更好的魯棒性、表征能力和計算效率。因此,它能夠處理複雜的大規模問題,並可拓展到實際應用中。然而,GAIL存在著模態崩塌、環境交互樣本利用效率低等問題。最近,新的研究工作利用生成對抗網絡技術和強化學習技術等分別對這些問題進行改進,並在觀察機製、多智能體係統等方麵對GAIL進行了拓展。本文綜述了這些有代表性的工作,並探討這類算法未來的發展趨勢,最後進行了總結。

作者簡介:

郝建業博士,現任天津大學智能與計算學部-軟件學院副教授,博士生導師。香港中文大學(CUHK)計算機科學與工程專業博士,麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)博士後研究員。

郝建業教授主持參與國家基金委、科技部、工信委、天津市重大等科研項目10餘項, 與國際上多個頂尖科研團隊(包括麻省理工學院 (MIT), 帝國理工學院,CMU, 香港中文大學,代爾夫特理工大學,新加坡國立大學,南洋理工大學等)具有良好的長期合作關係, 並取得了多項國際領先的研究成果。在人工智能領域具有豐富的研究經驗,目前已在多智能體係統、 人工智能、 軟件工程等領域的多個頂級國際期刊 (Journal of Autonomous Agents and Multiagent Systems, IEEE/ACM Trans (TPAMI, TSG, TAAS 等)) 和國際會議 (NIPS, AAMAS, IJCAI, AAAI, FSE 等)上發表學術論文70餘篇,專著2部。

成為VIP會員查看完整內容
0
27
0
Top