Meta RL(Meta Reinforcement Learning)是Meta Learning應用到Reinforcement Learning的一個研究方向,核心的想法就是希望AI在學習大量的RL任務中獲取足夠的先驗知識Prior Knowledge然後在麵對新的RL任務時能夠 學的更快,學的更好,能夠自適應新環境!

VIP內容

我們假設好奇心是進化過程中發現的一種機製,它鼓勵個體在生命早期進行有意義的探索,從而使個體接觸到能夠在其一生中獲得高回報的經曆。我們將產生好奇行為的問題表述為元學習的問題之一:一個外環將在一個好奇心機製的空間中搜索,該機製動態地適應代理的獎勵信號,而一個內環將使用適應的獎勵信號執行標準的強化學習。然而,目前基於神經網絡權值傳遞的meta-RL方法隻在非常相似的任務之間進行了推廣。為了擴展泛化,我們提出使用元學習算法:類似於ML論文中人類設計的代碼片段。我們豐富的程序語言將神經網絡與其他構建模塊(如緩衝區、最近鄰模塊和自定義丟失函數)結合在一起。我們通過實驗證明了該方法的有效性,發現了兩種新的好奇心算法,它們在圖像輸入網格導航、acrobot、lunar lander、ant和hopper等不同領域的性能與人類設計的公開發布的好奇心算法相當,甚至更好。

成為VIP會員查看完整內容
0
19
1
Top