深度強化學習 (DRL) 是一種使用深度學習技術擴展傳統強化學習方法的一種機器學習方法。 傳統強化學習方法的主要任務是使得主體根據從環境中獲得的獎賞能夠學習到最大化獎賞的行為。然而,傳統無模型強化學習方法需要使用函數逼近技術使得主體能夠學習出值函數或者策略。在這種情況下,深度學習強大的函數逼近能力自然成為了替代人工指定特征的最好手段並為性能更好的端到端學習的實現提供了可能。

VIP內容

作為人類,我們的目標和環境在我們的一生中不斷變化,這是基於我們的經驗、行動以及內在和外在的驅動力。相反,典型的強化學習問題設置考慮的決策過程是跨情景的靜態過程。我們能不能開發一種強化學習算法來應對前者中更現實的問題設置的持續變化?雖然策略上的算法(如策略梯度)原則上可以擴展到非平穩設置,但更有效的非策略算法(在學習時回放過去的經驗)卻不能這麼說。在這項工作中,我們形式化了這個問題設置,並借鑒了在線學習和概率推理文獻的思想,得出了一個非策略RL算法,可以推理和處理這種終身非平穩性。我們的方法利用潛在變量模型從當前和過去的經驗中學習環境的表示,並使用該表示執行非策略RL。我們進一步介紹了幾個顯示終生非平穩性的模擬環境,並根據經驗發現,我們的方法大大優於那些不考慮環境變化的方法。

https://proceedings.mlr.press/v139/xie21c

成為VIP會員查看完整內容
0
6
0

最新論文

One of the lessons from the COVID-19 pandemic is the importance of social distancing, even in challenging circumstances such as pre-hurricane evacuation. To explore the implications of integrating social distancing with evacuation operations, we describe this evacuation process as a Capacitated Vehicle Routing Problem (CVRP) and solve it using a DNN (Deep Neural Network)-based solution (Deep Reinforcement Learning) and a non-DNN solution (Sweep Algorithm). A central question is whether Deep Reinforcement Learning provides sufficient extra routing efficiency to accommodate increased social distancing in a time-constrained evacuation operation. We found that, in comparison to the Sweep Algorithm, Deep Reinforcement Learning can provide decision-makers with more efficient routing. However, the evacuation time saved by Deep Reinforcement Learning does not come close to compensating for the extra time required for social distancing, and its advantage disappears as the emergency vehicle capacity approaches the number of people per household.

0
0
0
下載
預覽
Top