CVPR2019滿分文章 | 強化跨模態匹配和自監督模仿學習(文末源碼)

2019 年 3 月 12 日 計算機視覺戰隊

首先,祝賀我黨在3月成功舉行了“兩會”,希望我黨越來越強大。在接下來將會有好幾場關於IEEE會議,也會著重指向接下來人工智能的發展風向標,有興趣的同學可以持續關注。

今天,“計算機視覺戰隊”給大家帶來的是CVPR2019會議上幾乎滿分paper,那我們就開始一起學習吧!

簡 介

深度學習發展迅速,很多技術已經落實到具體產品,給我們生活帶來了很多方便,未來會越來越多的技術實現,實現人類第四次人工智能革命。

今天說的就是一個導航技術——視覺-語言導航(Vision-language navigation,VLN),其任務就是指在真實的三維環境中讓具有實體的智能體進行導航並完成自然語言指令。

今天講的這個技術,主要解決了三個挑戰性問題:1)跨模態參照;2)糟糕的反饋;3)泛化問題。

首先,提出了一種新的強化跨模態匹配(RCM)方法,它可以通過強化學習的方式同時促進局部和全局的跨模態參照,具體就是使用了一個匹配指標,它成為了鼓勵模型增強外部指令和運動軌跡之間匹配的固有反饋,模型也用了一個推理導航器,它用來在局部視覺場景中執行跨模態參照。

在一個VLN benchmark數據集上進行的評估結果表明,提出的RCM模型大幅超越已有模型,SPL分數提高了10%,成為了新的SOTA。

之後,為了提高學習到的策略的泛化性,進一步提出了一個自監督模仿學習(SIL)方法,通過模仿自己以往的良好決策的方式探索未曾見過的環境。

在此,作者們表明了SIL可以逼近出更好、更高效的策略,這極大程度減小了智能體在見過和未見過的環境中的成功率表現的差別(從 30.7% 降低到 11.7%)。

Model


導航πθ是一個基於策略的代理,把輸入X映射在一係列行為指令。在每一個步驟中,導航器從環境接收一個狀態st(視覺場景),並需要在本地可視場景中接收文本指令。因此,設計了一個跨模態推理導航,它可以在序列學習軌跡曆史、文本指令的重點和局部顯著性,從而形成一個跨模態推理路徑,以鼓勵兩種模態在步驟t處的局部動力學。

上圖顯示了在時間步驟t展開版本的導航器。為導航器配備全景,將m個不同的視角分為圖像塊,所以全景特征從視覺狀態St提取的可以表示為{vt,j}j=1,vt,j表示圖像塊在視角j的預訓練CNN特征。

History Context

一旦導航器運行一步,視覺場景就會相應地發生變化。軌跡τ1:t的曆史到步驟t由一個基於注意力機製的軌跡編碼器LSTM編碼為曆史文本:

請注意,後麵采用的是都是點積注意力,將其表示為如下,(以上麵的視覺特性為例):

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017.

Visually Conditioned Textual Context

記憶過去可以使人們認識到當前的狀態,從而理解下一步應該關注的單詞或子指令。因此,進一步學習了以曆史上下文為條件的文本。讓語言編碼器LSTM將語言指令x編碼成一組文本特征{wi}ni=1。然後,在每個時間步驟,文本被計算為:

Textually Conditioned Visual Context

要知道在哪裏需要動態理解語言指令,因此基於文本上下文計算視覺上下文,如下:

Action Prediction

最後行為預測器考慮曆史上下文ht、文本上下文ct和視覺上下文cvisual,並在此基礎上決定下一步的方向。它使用雙線性點積計算每個可導航方向的概率Pk,如下所示:

Cross-Modal Matching Critic


除了來自環境的外部獎勵信號之外,還導出了匹配評論vβ提供的內在獎勵,以鼓勵語言指令x與導航器πθ的軌跡之間的全局匹配:

因此,采用一種基於注意的序列到序列語言模型作為匹配評論vβ,用軌跡編碼器對軌跡τ進行編碼,並給出用語言譯碼器生成指令x中每個字的概率分布。因此內在的回饋:

Learning


Self-Supervised Imitation Learning

最後一部分介紹了通用視覺語言導航任務的RCM方法,該方法的標準設置是在可視化環境中訓練Agent,在未見環境中進行測試。在本節中,我們將討論一個不同的設置,其中允許代理在沒有地麵真相演示的情況下探索不可見的環境。這是有實際好處的,因為它有利於終身學習和適應新環境。

為此,提出了一種自我監督的模仿學習(SIL)方法來模仿Agent自身過去的好決策。如上,給定一個自然語言指令x,沒有成對的演示和GT目標位置,導航器生成一組可能的軌跡,存儲最佳軌跡,其通過評論vβ匹配到一個replay buffer中確定的,公式如下:

匹配的評論之前介紹的循環重建獎勵來評估軌跡。然後,在replay buffer中利用好的軌跡,Agent確實在自我監督下優化了以下目標。目標位置未知,因此不受環境的監督。

實驗及結果


在R2R測試集上的結果

已見和未見驗證集的研究結果

可見和未見驗證集上的可視化

上圖:左:出了門,向左轉向樓梯,一路走上樓梯,在樓梯頂上停下來;右:右轉下樓梯,左轉,一直走到洗衣房,在那兒等著。

特別是,上麵的兩個例子,兩者都具有很高的內在回報。在(A)中,Agent成功地到達了目標目的地,對自然語言教學有了全麵的理解;而在(B)中,內在回報也很高,這表明了主體的大部分行為都是好的,但也值得注意的是,在結束時,Agent沒有認出洗衣房,這說明了在導航任務中,更加精確的視覺基礎訓練的重要性。

如果想加入我們“計算機視覺戰隊”,請掃二維碼加入學習群。計算機視覺戰隊主要涉及機器學習、深度學習等領域,由來自於各校的碩博研究生組成的團隊,主要致力於人臉檢測、人臉識別,多目標檢測、目標跟蹤、圖像分割等研究方向。

登錄查看更多
9
0

相關內容

多模態
小貼士
Top