視覺跟蹤是計算機視覺領域的一個重要問題,在視覺監控、智能交通、機器人等視覺係統中發揮著重要作用。然而,現有的跟蹤方法往往基於 RGB 圖像序列,這些序列對亮度的變化非常敏感,因此一些目標在弱光條件下是無效的。在這種情況下,現有方法的跟蹤性能可能會顯著降低。

//www.webtourguide.com/paper/c6cc2d20fe3e758d83a8decbbc882956

引入諸如深度和紅外數據等其他方式是處理單個源成像局限性的有效方法,但多模態成像平台通常需要精心設計,目前無法應用於許多現實應用中。近紅外(NIR)成像是許多監控攝像機的重要組成部分,其成像可以根據光照強度在 RGB 和 NIR 之間切換。這兩種方式是異質的,具有不同的視覺特性,因此給視覺跟蹤帶來了巨大的挑戰。然而,現有的研究工作尚未對這一具有挑戰性的問題進行研究。那麼如何設計一種合適的算法,以緩解RGB和NIR模式之間的外觀差距,並靈活地嵌入到不同的跟蹤框架中,實現魯棒的跨模式目標跟蹤?如何創建視頻基準數據集以促進跨模態目標跟蹤的研究和發展?

在這項工作中,我們解決了跨模態目標跟蹤課題,並提出了一個新的視頻數據集CMOTB,包括654個跨模態圖像序列,總幀數超過486k,平均視頻長度超過735幀。為了促進跨模態目標跟蹤的研究和發展,我們提出了一個新的即插即用模塊。該模塊學習感知模態的目標表示,以減少在跟蹤過程中 RGB 和 NIR 不同模態之間的外觀差距,可以靈活地嵌入不同的跟蹤框架中。在我們提出的數據集上進行了廣泛的實驗,證明了所提出的模塊對於兩個代表性的跟蹤框架,即 dimp-50和 RT-MDNet 上的17種最先進的跟蹤方法的有效性。

"> 【AAAI 2022】跨模態目標跟蹤: 模態感知表示和統一基準 - 專知VIP

視覺跟蹤是計算機視覺領域的一個重要問題,在視覺監控、智能交通、機器人等視覺係統中發揮著重要作用。然而,現有的跟蹤方法往往基於 RGB 圖像序列,這些序列對亮度的變化非常敏感,因此一些目標在弱光條件下是無效的。在這種情況下,現有方法的跟蹤性能可能會顯著降低。

//www.webtourguide.com/paper/c6cc2d20fe3e758d83a8decbbc882956

引入諸如深度和紅外數據等其他方式是處理單個源成像局限性的有效方法,但多模態成像平台通常需要精心設計,目前無法應用於許多現實應用中。近紅外(NIR)成像是許多監控攝像機的重要組成部分,其成像可以根據光照強度在 RGB 和 NIR 之間切換。這兩種方式是異質的,具有不同的視覺特性,因此給視覺跟蹤帶來了巨大的挑戰。然而,現有的研究工作尚未對這一具有挑戰性的問題進行研究。那麼如何設計一種合適的算法,以緩解RGB和NIR模式之間的外觀差距,並靈活地嵌入到不同的跟蹤框架中,實現魯棒的跨模式目標跟蹤?如何創建視頻基準數據集以促進跨模態目標跟蹤的研究和發展?

在這項工作中,我們解決了跨模態目標跟蹤課題,並提出了一個新的視頻數據集CMOTB,包括654個跨模態圖像序列,總幀數超過486k,平均視頻長度超過735幀。為了促進跨模態目標跟蹤的研究和發展,我們提出了一個新的即插即用模塊。該模塊學習感知模態的目標表示,以減少在跟蹤過程中 RGB 和 NIR 不同模態之間的外觀差距,可以靈活地嵌入不同的跟蹤框架中。在我們提出的數據集上進行了廣泛的實驗,證明了所提出的模塊對於兩個代表性的跟蹤框架,即 dimp-50和 RT-MDNet 上的17種最先進的跟蹤方法的有效性。

成為VIP會員查看完整內容
0
21
0

相關內容

論文鏈接://www.webtourguide.com/paper/ccffad6c8b192de0cd9569ea05d05019

圖像差異描述生成(Image Difference Captioning,簡稱IDC) 的目標是對比兩張相似圖片、捕捉它們之間的視覺差異,然後用自然語言將這些差異描述出來,如圖1所示。相比於經典的圖像描述生成任務(Image Captioning, 為一張圖片生成內容描述),它涉及兩張相似圖片的內容理解與對比,更富有挑戰性。這個任務在現實生活中有廣泛的應用,比如協助鳥類學家區分並記錄相似的鳥類品種,自動檢測和描述監控視頻中的場景變化等等。

圖1 圖像差異描述任務的兩個例子

IDC任務主要有兩方麵的挑戰:

· 一方麵,相似圖片之間的差異是非常細粒度的,捕捉並描述出這種細粒度差異,需要建立(圖片1,圖片2,文本)三者之間更強的聯係;

· 另一方麵,該任務所需的三元組數據,人工標注的成本非常高,導致已有數據集的規模都較小,且不同數據集之間domain差異較大。

受到近期視覺-語言預訓練(VLP)工作的啟發,我們為IDC任務提出了一種預訓練-微調的新範式。

對於IDC的第一個挑戰,我們結合對比學習設計了三個自監督任務,在細粒度層麵對視覺和語言的特征表示進行了對齊。對於第二個挑戰,我們額外使用了來自其他任務的同域數據,來緩解標注數據較少的問題。我們的框架能靈活地處理這些形式不一的額外數據。實驗表明,我們的模型在CLEVR-Change和Birds-to-words兩個數據集上都取得了最佳效果。

成為VIP會員查看完整內容
6
12
0

時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限製了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源於人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在https://github.com/Katou2/CSTP上找到。

//www.webtourguide.com/paper/c0dee275900d84eb9dddb0d36111a0ed

成為VIP會員查看完整內容
2
13
0

隨著我們構建能夠與周圍真實世界互動的新人工智能技術,從多種模態學習的問題占據了中心舞台。從醫療保健、教育到通信等應用,越來越多地依賴多種模態已被證明是更準確地感知和處理我們周圍世界的一個獨特因素。在這篇論文中,我們關注在現實世界中學習多模態表示的問題。我們概述了多模態機器學習的三個主要挑戰,並采取具體步驟來解決它們。首先,我們解決了局部融合的挑戰,重點是學習跨模態動力學,包括語言、視覺和聽覺(我們周圍最常見的三種模態)之間的單模態、雙模態和三模態交互作用。隨後,我們躍進到時間融合,其中局部融合挑戰擴展到時間域。時間融合需要模式之間的對齊,這和學習跨模式動力學一樣重要。隨後,第三個挑戰涉及的事實是,在現實世界中,多模態數據幾乎總是部分可見的。我們擴展了變分推理(VI)的功能,以處理甚至是最極端的缺失率和缺失模式的情況。在本文深入研究這些挑戰的過程中,我們對多模態機器學習做出了算法、理論和經驗貢獻。

本論文研究了語言、視覺和聲學模態的多模態學習麵臨的三大挑戰: 局部融合挑戰涉及模態間複雜的跨模態交互建模。 時間融合挑戰涉及建模可能存在於順序模式之間的異步數據 丟失數據挑戰涉及建模真實世界部分可觀測的多模態數據

成為VIP會員查看完整內容
3
51
0

摘要

作為一種比傳統機器學習方法更有效的訓練框架,元學習獲得了廣泛的歡迎。然而,在多模態任務等複雜任務分布中,其泛化能力尚未得到深入研究。近年來,基於多模態的元學習出現了一些研究。本綜述從方法論和應用方麵提供了基於多模態的元學習景觀的全麵概述。我們首先對元學習和多模態的定義進行了形式化的界定,並提出了這一新興領域的研究挑戰,如何豐富少樣本或零樣本情況下的輸入,以及如何將模型泛化到新的任務中。然後我們提出了一個新的分類係統,係統地討論了結合多模態任務的典型元學習算法。我們對相關論文的貢獻進行了調研,並對其進行了分類總結。最後,提出了該領域的研究方向。

//www.webtourguide.com/paper/3cf8fdad89ed44f7ea803ce6e0ab21b5

引言

深度學習方法在語音、語言和視覺領域取得了顯著進展[1,2,3]。然而,這些方法的性能嚴重依賴於大量標記數據的可用性,而在大多數應用中,獲取這些數據可能不切實際或成本高昂。僅使用有限的標記數據往往會導致過擬合問題,導致泛化到新數據[4]或完全不同的分布的不確定性。另一方麵,人類學習過程中使用的“學會學習”機製[5]使我們能夠從很少的樣本[6]中快速學習新的概念。已有證據表明,通過結合先驗知識和情境,人類可以在有限情景下獲得多個先驗任務的經驗,在有限情景下,習得的抽象經驗被一般化,以提高未來對新概念的學習表現。受此啟發,提出了一種名為元學習(meta-learning)的計算範式[7,8],用來模擬人類學習廣義任務經驗的能力,旨在讓機器從類似任務中獲取先驗知識,並快速適應新任務。通過在動態選擇中提取跨領域任務目標,元學習過程比傳統機器學習模型更具數據效率[9,10]。

由於元學習能夠泛化到新的任務,我們的目的是了解元學習如何發揮作用,當任務更複雜時,例如,數據源不再是單模態的,或原始模態中的數據是有限的。最近的研究集中在將元學習框架應用於複雜任務的分配上[11,12],但僅限於單一的模態。特別是,在多個應用[7]、學習優化步驟[13]的先驗知識、數據嵌入[14,15]或模型結構[16]的多任務和單任務場景中,元學習已經被證明是成功的。然而,在異構任務模態下,如何巧妙地利用元學習給研究人員帶來了獨特的挑戰。要在額外模態的幫助下從這些任務中學習新概念,示例應該以成對或多種方式提供,其中每個示例包含同一概念的兩個或多個項目,但在不同的模態。

首先在圖像分類的零樣本學習(ZSL) /廣義零樣本學習(GSZL)領域探討了不同模態的異質特征。語義模式被認為在模型訓練中提供強大的先驗知識和輔助視覺模式。為了更好地將知識從可見的類遷移到不可見的類,基於元的算法被廣泛引入來捕獲配對模態之間的屬性關係。然而,訓練過程大多將一個模態視為主要模態,並通過添加另一個模態來利用額外的信息。它不涉及在真實的複雜情景中對多種模態的分析,如未配對的模態、缺失的模態以及模態之間的關聯。因此,一些研究進一步將元學習方法應用於由其他模態構成的任務。具體來說,當不同任務的模態來自不同的數據分布,或者不同任務的模態被遺漏或不平衡時,通過充分利用元學習背景下的多模態數據,可以將不同模式的優勢整合到問題中,從而提高績效。另一方麵,元學習本身的訓練框架有助於提高原多模態學習者在新任務中的泛化能力。雖然對這兩個概念的跨學科研究聽起來很有前景,但目前的研究大多將元學習算法和多模態學習算法分開進行總結,導致多模態與元學習結合的研究存在差距。

最後,我們希望在本次綜述中對基於多模態的元學習算法進行係統而全麵的研究。我們旨在為不同的方法提供直觀的解釋,並有助於:

識別將元學習算法應用於多模態任務的挑戰; 提出一個新的分類,並為每個類別提供深刻的分析; 總結解決不同挑戰的具體貢獻,包括其方法和與其他方法的區別; 強調當前的研究趨勢和未來可能的方向。

本綜述的其餘部分組織如下。在第二節中,我們首先對元學習和多模態的定義進行了形式化界定,然後給出了基於多模態的元學習挑戰的總體範式。然後我們在第3節提出了一個基於元學習算法可以學習的先驗知識的新分類。我們分別在第4節、第5節和第6節對如何使原始元學習方法適應多模態數據的相關研究進行了考察,在第7節對這些工作進行了總結。最後,我們總結了目前的研究趨勢在第8節和可能的方向,未來的工作在第9節。

成為VIP會員查看完整內容
4
61
0

自監督視頻表示方法主要關注視頻中時間屬性的表示。然而,靜態屬性與非靜態屬性的作用卻很少被探索:靜態特征在整個視頻中都保持著相似,它能夠預測視頻級別的動作類。表示時間變化屬性的非平穩特征對於涉及更細粒度的時間理解(如動作分割)的下遊任務更有利。我們認為用單一的表示來捕獲兩種類型的特征是次優的,並提出通過對長和短視圖的對比學習,即長視頻序列及其短子序列,將表示空間分解為平穩和非平穩特征。靜止特征在短期和長期視圖之間共享,而非靜止特征聚合短期視圖以匹配相應的長期視圖。為了驗證我們的方法,我們證明了我們的固定特征在動作識別下遊任務上工作得特別好,而我們的非固定特征在動作分割上表現得更好。此外,我們分析了學習的表征,發現平穩特征捕獲更多的時間穩定的靜態屬性,而非平穩特征包含更多的時間變化的屬性。

//www.webtourguide.com/paper/084c413e8f11e0bb93c51b0b978ea784

成為VIP會員查看完整內容
0
7
0

對比學習允許我們通過對比消極樣本中的正對來靈活地定義強大的損失函數。最近,該原理也被用於學習視頻和文本的跨模態嵌入,但沒有充分發揮其潛力。特別是之前的損失沒有考慮模態內的相似性,導致嵌入效率低下,因為相同的內容被映射到嵌入空間的多個點上。在CrossCLR中,我們提出了一個對比損失來解決這個問題。此外,我們根據輸入嵌入定義了高度相關的樣本集,並將其從負樣本中排除,以避免假負樣本性問題。我們表明,這些原則持續地提高了學習嵌入的質量。通過CrossCLR學習的聯合嵌入擴展了Youcook2和LSMDC數據集上的視頻文本檢索和Youcook2數據集上的視頻字幕的技術水平。我們還通過學習其他對模式的改進的關節嵌入來證明這個概念的通用性。

//www.webtourguide.com/paper/91484725dec5fe4f3db2e6bb2ca9a448

成為VIP會員查看完整內容
1
13
0

當測試數據和訓練數據的分布相似時,基於深度神經網絡的方法已經取得了驚人的性能,但如果沒有相似的分布,則性能可能表現很差。因此,消除訓練和測試數據之間分布變化的影響對於構建具有良好性能的深度模型至關重要。傳統的方法要麼假設訓練數據已知的異質性(例如域標簽),要麼假設不同域的容量近似相等。在本文中,我們考慮一個更具有挑戰性的情況,即上述兩種假設都不成立。為了解決這一問題,我們提出通過學習訓練樣本的權重來消除特征之間的依賴關係,這有助於深度模型擺脫虛假的相關性,從而更加關注區分性特征和標簽之間的真實聯係。大量的實驗清楚地證明了我們的方法在多個分布泛化基準上的有效性,與最先進的同行相比。通過大量的分布泛化基準實驗,包括PACS、VLCS、mist - m和NICO,我們證明了該方法的有效性,並與最新的同類方法進行了比較。

//www.webtourguide.com/paper/dd9a8778840b02be8c81aebac3c94263

成為VIP會員查看完整內容
0
16
0

情感自動識別是一個活躍的研究課題,具有廣泛的應用前景。由於人工標注成本高和標簽不可避免的模糊性,情感識別數據集的發展在規模和質量上都受到了限製。因此,如何在有限的數據資源下建立有效的模型是關鍵挑戰之一。之前的研究已經探索了不同的方法來應對這一挑戰,包括數據增強、遷移學習和半監督學習等。然而,這些現有方法的缺點包括:訓練不穩定、遷移過程中的性能損失大、或改進幅度小。

在本研究中,我們提出了一種基於跨模態分布匹配的半監督多模態情感識別模型,該模型在假設跨模態內部情緒狀態在話語層麵一致的前提下,利用大量的未標記數據來增強模型訓練。

我們在兩個基準數據集IEMOCAP和MELD上進行了廣泛的實驗來評估所提出的模型。實驗結果表明,該半監督學習模型能夠有效地利用未標記數據,並結合多種模態來提高情緒識別性能,在相同條件下優於其他先進的方法。與現有方法相比,該模型還利用了說話者和交互上下文等附加的輔助信息,從而達到了競爭能力。

成為VIP會員查看完整內容
2
31
0

從圖像中進行自監督學習的目標是通過不需要對大量訓練圖像進行語義注釋的前置任務來構造語義上有意義的圖像表示。許多前置任務導致與圖像變換協變的表示。相反,我們認為語義表示在這種轉換下應該是不變的。具體來說,我們開發了前置不變表示學習(PIRL,發音為“pearl”),該學習基於前置任務的不變表示。我們將PIRL與一個常用的前置任務一起使用,該任務涉及解決拚圖遊戲。我們發現,PIRL極大地提高了學習圖像表示的語義質量。我們的方法設置了一個新的藝術的自監督學習從圖像上幾個流行的基準自我監督學習。盡管是無監督的,但PIRL在學習圖像表示和目標檢測方麵的表現優於有監督的前訓練。總之,我們的結果證明了具有良好不變性的圖像表示的自監督學習的潛力。

成為VIP會員查看完整內容
0
40
0

論文摘要

生成多種類型的文本是一項具有挑戰性的任務,越來越受到人們的關注。由於生成性對抗網(GANs)在一般文本生成上表現出了競爭性的結果,在以往的一些研究中,它們被擴展到了類別文本生成上。然而,複雜的模型結構和學習策略限製了它們的性能,加劇了訓練的不穩定性。本文提出了一種類別感知GAN(CatGAN),它由一個有效的類別感知文本生成模型和一個層次進化學習算法組成。類別感知模型直接測量真實樣本和每個類別上生成的樣本之間的差距,減少這種差距將引導模型生成高質量的類別樣本。Gumbel-Softmax鬆弛進一步使我們的模型從複雜的學習策略中解放出來,用於在離散數據上更新CatGAN。此外,隻關注樣本質量通常會導致模式崩潰問題,因此在訓練CatGAN時引入了一種分層進化學習算法來穩定訓練過程,並在質量和多樣性之間取得平衡。實驗結果表明,CasGaN優於現有的最先進的方法。

論文作者

Zhiyue Liu, Jiahai Wang,∗ Zhiwei Liang,中山大學數據與計算機學院。

成為VIP會員查看完整內容
0
16
0
小貼士
相關VIP內容
專知會員服務
13+閱讀 · 2021年12月19日
專知會員服務
61+閱讀 · 2021年10月8日
專知會員服務
7+閱讀 · 2021年10月6日
專知會員服務
13+閱讀 · 2021年10月4日
專知會員服務
16+閱讀 · 2021年5月20日
專知會員服務
31+閱讀 · 2020年9月8日
專知會員服務
40+閱讀 · 2020年4月19日
微信掃碼谘詢專知VIP會員
Top