讓智能體主動交互,DeepMind提出用元強化學習實現因果推理

2019 年 2 月 11 日 機器之心
讓智能體主動交互,DeepMind提出用元強化學習實現因果推理

選自arXiv

作者:Ishita Dasgupta等

機器之心編譯

參與:Panda


因果推理能力可能是自然智能的重要組成部分,如何讓機器具備這樣的能力也一直是個重要的研究方向。不久之前,DeepMind、倫敦大學學院和哈佛大學的研究者探索了通過元強化學習實現因果推理的方法。



論文:https://arxiv.org/pdf/1901.08162.pdf


發現和利用環境中的因果結構是智能體麵臨的一大關鍵挑戰。這裏我們探索了是否可通過元強化學習來實現因果推理(cause reasoning)。我們使用無模型強化學習訓練了一個循環網絡來求解一係列包含因果結構的問題。我們發現,訓練後的智能體能夠在全新的場景中執行因果推理,從而獲得獎勵。智能體可以選擇信息幹預、根據觀察數據得出因果推論以及做出反事實的預測。盡管也存在已有的形式因果推理算法,但我們在這篇論文中表明這樣的推理可以由無模型強化學習產生,並提出這裏給出的更多端到端的基於學習的方法也許有助於在複雜環境中的因果推理。通過讓智能體具備執行——以及解釋——實驗的能力,本研究也能為強化學習中的結構化探索提供新的策略。


1 引言


很多機器學習算法的根基都是發現數據中的相關模式。盡管這種方法足以應對許多領域(Krizhevsky et al., 2012; Cho et al., 2014),但有時候我們感興趣的問題具有固有的因果性質。在回答「吸煙是否導致癌症?」或「這個人工作被拒的原因是種族歧視嗎?」或「是這個營銷活動導致了銷量上漲嗎?」這些問題時,需要有推理因果的能力。因果推理可能是自然智能的一大關鍵組件,在人類嬰兒、大鼠甚至鳥類身上都有體現(Leslie, 1982; Gopnik et al., 2001; 2004; Blaisdell et al., 2006; Lagnado et al., 2013)。


有關定義和執行因果推理的形式方法的文獻很豐富(Pearl, 2000; Spirtes et al., 2000; Dawid, 2007; Pearl et al., 2016)。我們研究了能否通過元學習實現這樣的推理。元學習方法是指直接從數據中學習「學習(或推斷/估計)過程」自身。人類智能也與類比模型(Grant et al., 2018)有密切聯係(Goodman et al., 2011),這種模型是直接從環境中學習因果結構,而沒有一個預先設計的形式理論。


我們特別采用了之前的研究(Duan et al., 2016; Wang et al., 2016)引入的「元強化學習」,其中使用無模型強化學習(RL)方法訓練了一個基於循環神經網絡(RNN)的智能體。通過在多種類別的結構化任務上進行訓練,這個 RNN 變成了一個能泛化到取自類似分布的新任務上的學習算法。在我們的案例中,我們在一個任務分布上進行了訓練,其中每一個任務都有一個不同的因果結構作為支撐。我們關注的是能最好地隔離相關問題的抽象任務:當不向智能體明確提供因果概念時,元學習可否產生能執行因果推理的智能體。


元學習能端到端地學習,通過分攤計算而提供可擴展性的優勢,該算法有望找到最適用於所需因果推理類型的因果結構的內部表征(Andrychowicz et al., 2016; Wang et al., 2016; Finn et al., 2017)。我們重點關注強化學習的原因是我們感興趣的不僅是讓智能體根據被動觀察學習因果,而且也能通過與環境的主動交互來學習(Hyttinen et al., 2013; Shanmugam et al., 2015)。


2 問題說明與方法


我們研究了三種明顯不同的數據設定——觀察的、有幹預的和反事實的。這些不同設定測試的是不同類型的推理。


  • 在觀察式設定中(實驗 1),智能體僅能從環境中獲取被動的觀察數據。這種類型的數據可讓智能體推斷相關性(關聯性推理/associative reasoning),並且還能根據環境的結構推斷因果關係(因果性推理/cause-effect reasoning)。

  • 在有幹預的設定中(實驗 2),智能體可通過設置某些變量的值以及觀察對其它變量的影響而在環境中采取行動。這種類型的數據有助於對因果關係的估計。

  • 在反事實的設定中(實驗 3),智能體首先有機會通過交互來了解環境的因果結構。在 episode 的最後一步,它必須回答一個反事實的問題,該問題的形式為「如果在之前的時間步驟進行不同的幹預會怎樣?」


接下來我們將使用圖模型框架(Pearl, 2000; Spirtes et al., 2000; Dawid, 2007)對這些設定以及每種設定中可能的推理模式進行形式化。隨機變量用大寫字母標注,它們的值用小寫字母標注。


2.1 因果推理


隨機變量之間的因果關係可以使用因果貝葉斯網絡(CBN,詳見補充材料)表示。CBN 是一種有向無環圖模型,既能表示獨立關係,也能表示因果關係。每個節點 X_i 對應於一個隨機變量,並且聯合分布 p(X_1,...,X_N) 是根據每個節點 X_i 的父節點 pa(X_i) 通過求每個節點 X_i 的條件分布的積而得到的,即:



邊帶有因果語義信息:如果存在一條從 X_i 指向 X_j 的路徑,則 X_i 就是 X_j 的一個潛在原因。有向路徑也被稱為因果路徑。X_i 對 X_j 的因果影響是給定限定在僅有因果路徑的 X_i 時 X_j 的條件分布。


圖 1a 給出了一個 CBN 示例,其中 E 表示一周的鍛煉小時數,H 表示心髒健康情況,A 表示年齡。E 對 H 的因果影響是限定在路徑 E→H 的條件分布,即不包括路徑 E←A→H。變量 A 被稱為混雜變量(confounder),因為它將因果影響與非因果的統計影響混雜到了一起。隻是通過 p(H|E) 基於鍛煉水平觀察心髒健康狀況(關聯性推理)不能解答鍛煉水平改變是否會造成心髒健康變化的問題(因果性推理),因為總是存在這樣的可能性:這兩者之間的關聯源自共有的年齡混雜變量。


圖 1:(a)有一個混雜變量的因果貝葉斯網絡(CBN):年齡(A)和鍛煉身體(E)對健康(H)的影響。(b)受幹預 CBN,通過將 p(E|A) 替換成一個 δ 分布 δ(E−e) 而對前麵的 CBN 進行了修改,條件分布 p(H|E,A) 和 p(A) 保持不變。


2.2 元學習


元學習是一類範圍廣泛的方法,其從數據中學習的是學習算法本身的各個方麵。深度學習算法的很多單個組件都可通過元學習成功得到,包括優化器(Andrychowicz et al., 2016)、初始參數設置(Finn et al., 2017)、度量空間(Vinyals et al., 2016)、外部記憶的使用(Santoro et al., 2016)。


按照(Duan et al., 2016; Wang et al., 2016)的方法,我們將整個學習算法參數化為了一個循環神經網絡(RNN),然後我們使用無模型強化學習來訓練這個 RNN 的權重。這個 RNN 是在一個寬廣的問題分布上訓練的,其中每個問題都需要學習。當以這種方式訓練時,RNN 可以實現能有效求解訓練分布的同分布或相近分布中全新的學習問題(更多細節請參閱補充材料)。


通過無模型強化學習學習 RNN 的權重可被視為學習的「外環(outer loop)」。外環將 RNN 的權重整合進一個「內環」學習算法中。這個內環算法會在 RNN 的激活動態中一直執行,即使當該網絡的權重被凍結時也能繼續學習。這個內環算法也可以與用於訓練它的外環算法有非常不同的性質。比如,在之前的工作中,這種方法曾被用於協調多臂賭博機問題中的探索-利用權衡(Duan et al., 2016),也曾被用於學習能動態調整自身學習率的算法(Wang et al., 2016; 2018)。我們在本研究中探索了獲取可感知因果的內環學習算法的可能性。


3 任務設置和智能體架構


在我們的實驗中,智能體在每個 episode 中都會和一個不同的 CBN 交互,這些 CBN 由 N 個變量定義。CBN 的結構是從可能的無環圖空間中隨機取出的,其取出方式的限定條件將在後續小節說明。


每個 episode 包含 T 個步驟,可分為兩個階段:信息階段和測驗階段。信息階段對應於前 T-1 個步驟,讓智能體可通過與 CBN 交互或被動觀察 CBN 的樣本來收集信息。智能體有望使用這些信息來推斷 CBN 的連接方式和權重。測驗階段對應於最後一個步驟,要求智能體利用其在信息階段收集到的因果信息,從而在存在隨機外部幹預時選擇出值最高的節點。


智能體架構和訓練


我們使用了一個長短期記憶(LSTM)網絡(Hochreiter and Schmidhuber, 1997)(有 192 個隱藏單元)。在每個時間步驟 t,該網絡都接收一個包含的連接向量作為輸入,其中,o_t 是觀察,a_(t-1) 是前一個動作(是一個 one-hot 向量),r_(t-1) 是獎勵(是單個實數值)。


其輸出是作為 LSTM 的隱藏狀態的線性投射而計算的,是一組策略 logits(其維度等於可用動作的數量),加上一個標量基線。這個策略 logits 會由一個 softmax 函數變換,然後再被采樣以給出一個所選的動作。


學習使用了異步優勢 actor-critic(Mnih et al., 2016),其損失函數包含三項——策略梯度、基線成本和一個熵成本。基線成本由相對於策略梯度成本 0.05 進行加權。熵成本的權重是在訓練過程中從 0.25 到 0 退火式衰減。優化由 RMSProp 完成,其 ε=10^-5,動量=0.9,衰減率=0.95。學習率從 9×10^−6 到 0 退火式衰減,折扣因子為 0.93。除非另有說明,訓練完成要執行 1×10^7 步,使用了批大小為 1024 的分批式環境。


對於所有實驗,在訓練完成之後,都在一個留存測試集上對智能體進行測試,學習率設為零。


4 實驗


圖 2:實驗 1。智能體根據觀察數據執行因果性推理。a)實驗中測試的智能體得到的平均獎勵。b)在有外部幹預的節點上根據至少存在或不存在一個父節點(分別表示為 Parent 和 Orphan)而劃分的表現。c)一個測試 CBN 的測驗階段。綠色和紅色邊分別表示 +1 和 -1 的權重。黑色表示被幹預的節點,綠色和紅色節點分別表示該節點的值為正和負,白色表示為零。藍色圓圈表示該智能體的選擇。


圖 3:實驗 2。智能體根據幹預數據執行因果性推理。a)實驗中測試的智能體得到的平均獎勵。b)在有外部幹預的節點上根據存在或不存在未被觀察的混雜變量(分別表示為 Conf. 和 Unconf.)而劃分的表現。c)一個測試 CBN 的測驗階段。


圖 6:實驗 3。智能體執行反事實推理。a)實驗中測試的智能體得到的平均獎勵。b)根據測驗階段中最大節點值是退化的(Deg.)或明顯不同的(Dist.)而劃分的表現。c)一個測試 CBN 的測驗階段。



本文為機器之心編譯,轉載請聯係本公眾號獲得授權

✄------------------------------------------------

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

登錄查看更多
8
0

相關內容

因果推斷是研究如何更加科學地識別變量間的因果關係。 客觀事物普遍存在著內在的因果聯係,人們隻有弄清事物發展變化的前因後果,才能全麵地、本質地認識事物。基幹事物發展的這種規律,在論證觀點時,有時就可以直接從事物本身的因果關係中進行推論,這就叫因果推斷法

摘要: 強化學習作為一種用於解決無模型序列決策問題的方法已經有數十年的曆史, 但強化學習方法在處理高維變量問題時常常會麵臨巨大挑戰. 近年來, 深度學習迅猛發展, 使得強化學習方法為複雜高維的多智能體係統提供優化的決策策略、在充滿挑戰的環境中高效執行目標任務成為可能. 本文綜述了強化學習和深度強化學習方法的原理, 提出學習係統的閉環控製框架, 分析了多智能體深度強化學習中存在的若幹重要問題和解決方法, 包括多智能體強化學習的算法結構、環境非靜態和部分可觀性等問題, 對所調查方法的優缺點和相關應用進行分析和討論. 最後提供多智能體深度強化學習未來的研究方向, 為開發更強大、更易應用的多智能體強化學習控製係統提供一些思路.

成為VIP會員查看完整內容
0
33
1

機器人和自主係統在現代經濟中扮演著重要的角色。定製機器人顯著提高了生產率、操作安全性和產品質量。然而,人們通常通過編程操作這些機器人來完成較小的領域的特定任務,而無法快速適應新任務和新情況。廉價、輕便和靈活的機器人硬件的出現為將機器人的自主能力提升到前所未有的水平提供了機會。新的機器人硬件在日常環境中的一個主要挑戰是處理現實世界的持續變化性和不確定性。為了應對這一挑戰,我們必須解決感知和行動之間的協同作用:一方麵,機器人的感知自適應地指導其行動,另一方麵,它的行動產生了新的感知信息,用於決策。我認為,實現通用機器人自治的關鍵一步是將感知和動作緊密地結合起來。

新興的人工智能計算工具已經證明了成功的希望,並構成了在非結構化環境中增強機器人感知和控製的理想候選。機器人的實體本質迫使我們超越現有的從無實體數據集學習的範式,並激勵我們開發考慮物理硬件和動態複雜係統的新算法。

本論文的研究工作是建立可通用的機器人感知和控製的方法和機製。我們的工作表明,感知和行動的緊密耦合,有助於機器人通過感官與非結構化的世界進行交互,靈活地執行各種任務,並適應地學習新任務。我們的研究結果表明,從低級的運動技能到高級的任務理解三個抽象層次上解剖感知-動作循環,可以有效地促進機器人行為的魯棒性和泛化。我們規劃的研究工作是處理日益複雜的任務,展現出我們朝著聖杯目標的路線圖:在現實世界中構建長期的、通用的機器人自治。

成為VIP會員查看完整內容
yukezhu_phd_dissertation.pdf
closing_perception_action_loop.pdf
0
33
4
小貼士
相關論文
Imitation Learning for Fashion Style Based on Hierarchical Multimodal Representation
Shizhu Liu,Shanglin Yang,Hui Zhou
6+閱讀 · 4月13日
Learning to See Through Obstructions
Yu-Lun Liu,Wei-Sheng Lai,Ming-Hsuan Yang,Yung-Yu Chuang,Jia-Bin Huang
5+閱讀 · 4月2日
Liuyi Yao,Zhixuan Chu,Sheng Li,Yaliang Li,Jing Gao,Aidong Zhang
40+閱讀 · 2月5日
A Survey of Learning Causality with Data: Problems and Methods
Ruocheng Guo,Lu Cheng,Jundong Li,P. Richard Hahn,Huan Liu
5+閱讀 · 2018年9月25日
Paraphrase Generation with Deep Reinforcement Learning
Zichao Li,Xin Jiang,Lifeng Shang,Hang Li
3+閱讀 · 2018年8月23日
The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach
Iulian Vlad Serban,Chinnadhurai Sankar,Michael Pieper,Joelle Pineau,Yoshua Bengio
9+閱讀 · 2018年7月12日
Xiangyu Zhao,Long Xia,Liang Zhang,Zhuoye Ding,Dawei Yin,Jiliang Tang
6+閱讀 · 2018年5月7日
Sven Schmit,Carlos Riquelme
5+閱讀 · 2018年3月28日
Xiangyu Zhao,Liang Zhang,Zhuoye Ding,Dawei Yin,Yihong Zhao,Jiliang Tang
12+閱讀 · 2018年1月5日
Chong Wang,David Blei,David Heckerman
3+閱讀 · 2015年5月16日
Top