https://github.com/JudasDie/SOTS

作者:Chao Liang , Zhipeng Zhang , Xue Zhou, Bing Li, Weiming Hu

02 從目標中學習: 用於小樣本語義分割的雙原型網絡 Learning from the Target: Dual Prototype Network for Few Shot Semantic Segmentation

研究簡介 由於標注樣本的稀缺,支持集和查詢集之間的樣本差異(目標的外觀,尺寸,視角等)成為小樣本語義分割的主要難點。現有的基於原型的方法大多隻從支持集特征中挖掘原型,而忽略了利用來自查詢集樣本的信息,因此無法解決這個由樣本間差異帶來的痛點。

在本文中,我們提出了一種雙原型網絡 (DPNet),它從一個新穎的角度來處理小樣本語義分割問題,即在從支持集中提取原型的基礎上,進一步提出了從查詢圖像中提取可靠的前景信息作為偽原型。

為了實現這一目的,我們設計了循環比較模塊,通過兩次匹配過程篩選出符合要求的前景查詢特征,並利用這些前景特征生成偽原型。然後根據原型與偽原型之間的內在關聯,利用原型交互模塊對原型與偽原型的信息進行交互整合。最後,引入一個多尺度融合模塊,在原型(偽原型)與查詢特征的密集比較過程中引入上下文信息,以獲得更好的分割結果。

在兩個標準數據集 (PASCAL-5i, COCO-20i)上進行的大量實驗表明,我們的方法取得了優越的性能,證明了提出方法的有效性。

作者:Binjie Mao,Xinbang Zhang,Lingfeng Wang,Qian Zhang, Shiming Xiang, Chunhong Pan

03 基於模態特定信息增強的多模態行人重識別

Interact, Embed, and EnlargE (IEEE): Boosting Modality-specific Representations for Multi-Modal Person Re-identification

研究簡介 多模態行人重識別通過引入模態互補信息來輔助傳統的單模態重識別任務。現有的多模態方法在融合不同模態特征的過程中忽略模態特異信息的重要性。為此,我們提出了一種新方法來增強多模態行人重識別的模態特定信息表示 (IEEE) :交互 (Interact) 、嵌入 (Embed) 和擴大 (EnlargE) 。

首先,提出了一種新穎的跨模態交互模塊,用於在特征提取階段在不同模態之間交換有用的信息。其次,提出了一種基於關係的嵌入模塊,通過將全局特征嵌入到細粒度的局部信息中來增強模態特異特征的豐富度。最後,提出了一種新穎的多模態邊界損失,通過擴大類內不同模態的差異來迫使網絡學習每種模態的模態特定信息。在真實的和構建的行人重識別數據集上優越性驗證了所提出方法的有效性。

作者:Zi Wang, Chenglong Li, Aihua Zheng, Ran He, Jin Tang

04 麵向人體活動識別的跨模態聯邦學習

Cross-Modal Federated Human Activity Recognition via Modality-Agnostic and Modality-Specific Representation Learning

研究簡介 為了在更多本地客戶端上進行人體活動識別,我們提出一個新的麵向人體活動識別的跨模態聯邦學習任務。為了解決這一新問題,我們提出一種特征解糾纏的活動識別網絡(FDARN),模型由共有特征編碼器、私有特征編碼器、模態判別器、共享活動分類器和私有活動分類器五個模塊組成。

共有特征編碼器的目標是協同學習不同客戶端樣本的模態無關特征;私有特征編碼器旨在學習不能在客戶端之間共享的模態獨有特征;模態鑒別器的作用是以對抗學習的方式指導共有特征編碼器和私有特征編碼器的參數學習。

通過采用球麵模態判別損失的去中心化優化,我們提出的方法可以綜合利用模態無關的客戶端共享特征以及模態特有的判別特征,因此可以得到在不同客戶端上具有更強泛化能力的模型。在四個數據集上的實驗結果充分表明了該方法的有效性。

作者:Xiaoshan Yang, Baochen Xiong, Yi Huang, Changsheng Xu

05 Evo-ViT:基於快速-慢速雙流更新的視覺Transformer動態加速策略

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

研究簡介 視覺Transformer通過自注意力機製捕獲長程視覺依賴的能力使其在各種計算機視覺任務中顯示出巨大的潛力,但是長程感受野同樣帶來了巨大的計算開銷,特別是對於高分辨率視覺任務。為了能夠在盡量保持原有模型準確率的前提下,降低模型計算複雜度,從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架,目前工作分為基於空間結構先驗的結構化壓縮和非結構化特征裁剪兩個主流方向。其中,非結構化的特征裁剪破壞了二維空間結構,使得這類裁剪方法不能適用於基於空間結構先驗的結構化壓縮的模型,而目前主流的先進視覺Transformer都應用了結構化壓縮。此外,直接裁剪帶來的不完整的信息流使得目前的特征裁剪方法無法直接訓練得到很好的效果,而要依賴於未裁剪的預訓練模型。

為了解決這些問題,我們提出了快速-慢速雙流標識更新策略,在保持了完整空間結構的同時給高信息量標識和低信息量標識分配不同的計算通道,從而在不改變網絡結構的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。不同於以往方法需要依靠外部的可學習網絡來對每一層的標識進行選擇,我們進一步提出了基於Transformer原生的全局類注意力的標識選擇策略來增強層間的通信聯係,從而使得我們的方法可以在穩定標識選擇的同時去除了外部可學習參數帶來的直接訓練難的問題。

該算法能夠在保證分類準確率損失較小的情況下,大幅提升各種結構Transformer的推理速度,如在ImageNet-1K數據集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。

作者:Yifan Xu, Zhijie Zhang, Mengdan Zhang, Kekai Sheng, Ke Li, Weiming Dong, Liqing Zhang, Changsheng Xu, Xing Sun

06 基於圖卷積網絡及熱力圖回歸的3D人臉關鍵點檢測

Learning to detect 3D facial landmarks via heatmap regression with Graph Convolutional Network

研究簡介 三維人臉關鍵點檢測廣泛應用於人臉配準、人臉形狀分析、人臉識別等多個研究領域。現有的關鍵點檢測方法大多涉及傳統特征和三維人臉模型(3DMM),其性能受限於手工製作的中間表征量。

本文提出了一種新的三維人臉關鍵點檢測的方法,該方法利用精心設計的圖卷積網絡,直接從三維點雲中定位關鍵點的坐標。熱力圖是三維人臉上每個地標距離的高斯函數,圖卷積網絡在構建的三維熱力圖的幫助下可以自適應學習幾何特征,用於三維人臉關鍵點檢測。在此基礎上,我們進一步探索了局部曲麵展開與曲麵配準模塊,從3D熱力圖中直接回歸3D坐標。

實驗證明,該方法在BU-3DFE和FRGC數據集上的關鍵點定位精度和穩定性明顯優於現有方法,並在最近的大規模數據集FaceScape上取得了較高的檢測精度。

作者:YuanWang, Min Cao, Zhenfeng Fan, Silong Peng

07 基於因果關聯及混雜因子傳遞解耦物理動力學的反事實預測

Deconfounding Physical Dynamics with Global Causal Relation and Confounder Transmission for Counterfactual Prediction

研究簡介 發現潛在的因果關係是推理周圍環境和預測物理世界未來狀態的基礎能力。基於視覺輸入的反事實預測根據過去未出現的情況推斷未來狀態,是因果關係任務中的重要組成部分。

本文研究了物理動力學中的混雜影響因子,包括質量、摩擦係數等,建立幹預變量和未來狀態之間的關聯關係,進而提出了一種包含全局因果關係注意力(GCRA)和混雜因子傳輸結構(CTS)的神經網絡框架。GCRA尋找不同變量之間的潛在因果關聯,通過捕獲空域和時序信息來估計混雜因子。CTS以殘差的方式整合和傳輸學習到的混雜因子,在反事實預測過程中,通過編碼對網絡中對象位置進行約束。

實驗證明,在混雜因子真實值未知的情況下,本文的方法能夠充分學習並利用混雜因子形成的約束,在相關數據集的預測任務上取得了目前最優的性能,並可以較好地泛化到新的環境,實現良好的預測精度。

作者:Zongzhao Li, Xiangyu Zhu, Zhen Lei(Corresponding author), Zhaoxiang Zhang

08 基於多相機係統的全局運動平均算法

MMA: Multi-camera Based Global Motion Averaging

研究簡介 為了實現三維場景的完全感知,在自動駕駛汽車和智能機器人等設備中通常會安裝多相機係統以觀察周圍360度的場景。基於多相機之間剛性固定的約束,我們提出了一種全局式的多相機運動平均算法,以實現全自動的大規模場景快速魯棒建模和多相機標定。

首先,根據拍攝相機的不同將圖像分為參考圖像和非參考圖像,進而將場景圖中的邊劃分成四類。針對每一類邊上的多相機相對極幾何約束,我們進行了重新的推導和展示。基於相對旋轉和絕對旋轉之間的約束,我們提出了一種基於多相機的旋轉平均算法,並通過一種兩階段(L1+IRLS)的方式對它進行求解。基於相對平移和絕對位置之間的約束,我們提出了一種基於多相機的平移平均算法,通過求解L1範數下的優化方程獲得所有的攝像機位姿。

我們在公開的自動駕駛數據集和多組自采的多相機數據集上進行了廣泛的測試和對比,顯示我們的建模精度和魯棒性要遠遠好於傳統方法。

作者:Hainan Cui, Shuhan Shen

09 基於解耦的屬性特征的魯棒的行人屬性識別

Learning Disentangled Attribute Representations for Robust Pedestrian Attribute Recognition

研究簡介 盡管學界已經提出了各種行人屬性識別的方法,但大多數研究都遵循相同的特征學習機製,即學習一個共享的行人圖像特征來對多個屬性進行分類。然而,這種機製導致了推理階段的低可信度預測和模型的非穩健性。

在本文中,我們研究了為什麼會出現這種情況。我們從數學上發現,核心原因是在最小化分類損失的情況下,最佳共享特征不能同時與多個分類器保持高相似度。此外,這種特征學習機製忽略了不同屬性之間的空間和語義區別。

為了解決這些局限性,我們提出了一個新穎的分離屬性特征學習(DAFL)框架,為每個屬性學習一個分離的特征,該框架利用了屬性的語義和空間特征。該框架主要由可學習的語義查詢、級聯式語義空間交叉注意(SSCA)模塊和群體注意合並(GAM)模塊組成。具體來說,基於可學習語義查詢,級聯式SSCA模塊迭代地增強了屬性相關區域的空間定位,並將區域特征聚合為多個分解的屬性特征,用於分類和更新可學習語義查詢。GAM模塊根據空間分布將屬性分成小組,並利用可靠的小組注意力來監督查詢注意力圖。在PETA、RAPv1、PA100k和RAPv2上的實驗表明,所提出的方法與最先進的方法相比表現良好。

作者:Jian Jia, Naiyu Gao, Fei He, Xiaotang Chen, Kaiqi Huang

10 基於對象查詢傳播的高性能視頻物體檢測

QueryProp: Object Query Propagation for High-Performance Video Object Detection

研究簡介 視頻物體檢測旨找出視頻每一幀中包含物體的位置和類別,是一個重要且具有挑戰性的任務。傳統方法主要聚焦於設計圖像級別或者物體框級別的相鄰幀信息傳播方法,以利用視頻時序信息來提升檢測器。本文認為,通過更有效和高效的特征傳播框架,視頻物體檢測器可以在準確性和速度方麵獲得提升。

為此,本文研究了對象級特征傳播,並提出了一種用於高性能視頻物體檢測的對象查詢傳播(QueryProp)框架。提出的QueryProp包含兩種傳播策略:1)對象查詢從稀疏關鍵幀傳播至密集非關鍵幀,以減少對非關鍵幀的冗餘計算;2)對象查詢從之前的關鍵幀傳播至當前關鍵幀,以建模時間上下文來提升特征表示。

為了進一步提升查詢傳播的質量,我們設計了自適應傳播門以實現靈活的關鍵幀選擇。我們在視頻物體檢測的大規模數據集 ImageNet VID 上進行了大量實驗。QueryProp 與當前最先進的方法實現了可比的準確性,並在準確性/速度之間取得了不錯的平衡。

作者:Fei He, Naiyu Gao, Jian Jia, Xin Zhao, Kaiqi Huang

11 基於空間相似性的完全稀疏訓練加速

Towards Fully Sparse Training: Information Restoration with Spatial Similarity

研究簡介 英偉達安培架構發布的2:4結構化稀疏模式,要求連續的四個值至少包含兩個零元素,可以使得矩陣乘法的計算吞吐量翻倍。最近的工作主要集中在通過2:4稀疏性來提高推理速度,而忽視了其在訓練加速方麵的潛力,因為反向傳播占據了大約70%的訓練時間。然而,與推理階段不同,由於需要保持梯度的保真度並減少在線執行2:4稀疏的額外開銷,用結構化剪枝來提高訓練速度是不容易的。

本文首次提出了完全稀疏訓練,其中"完全"是指在保持精度的同時,對前向和後向傳播的所有矩陣乘法進行結構化修剪。為此,我們從顯著性分析開始,研究不同的稀疏對象對結構化修剪的敏感性。基於對激活的空間相似性的觀察,我們提出用固定的2:4掩碼來修剪激活。此外,我們還提出了一個信息恢複模塊來恢複丟失的信息,該模塊可以通過有效的梯度移位操作來實現。對準確性和效率的評估表明,在具有挑戰性的大規模分類和檢測任務中,我們可以實現2倍的訓練加速,而準確性的下降可以忽略不計。

作者:Weixiang Xu, Xiangyu He, Ke Cheng, Peisong Wang, Jian Cheng

12 通過學習深度神經網絡在語義分割中學習噪聲標簽的元結構

Deep Neural Networks Learn Meta-Structures from Noisy Labels in Semantic Segmentatio

研究簡介 關於深度神經網絡(DNN)如何從帶噪標簽中進行學習,大部分研究聚焦於圖像分類而不是語義分割。迄今為止,我們對於深度神經網絡在噪聲分割標簽下的學習行為仍然知之甚少。

在本研究中,為填補這一空白,我們研究了生物顯微圖像的二類語義分割和自然場景圖像下的多類語義分割。通過從幹淨標簽中隨機抽樣一小部分(例如10%)或隨機翻轉一大部分(例如90%)像素標簽,我們合成了信噪比極低的噪聲標簽。當使用這些低信噪比標簽訓練DNN時,我們發現模型的分割性能幾乎沒有下降。這表明DNN在基於監督學習的語義分割中是從標簽中學習語義類別的結構信息,而不僅僅是像素信息。我們將上述標簽中隱含的結構信息稱為元結構。當我們對標簽中的元結構進行不同程度的擾動,我們發現模型的分割性能出現不同程度的下降。而當我們在標簽中融入元結構時,可以極大提高基於無監督學習的二類語義分割模型的性能。我們將元結構在數學上定義為點集的空間分布函數,並在理論上和實驗中證明該數學模型可以很好的解釋我們在本研究中觀察到的深度神經網絡的學習行為。

作者:Yaoru Luo, Guole Liu, Yuanhao Guo, Ge Yang

自然語言處理

01 基於參數分化的多語言神經機器翻譯

Parameter Differentiation based Multilingual Neural Machine Translation

研究簡介 多語言神經機器翻譯旨在通過一個共享的模型同時處理多個語言的翻譯,並通過共享的參數實現不同語言之間的知識遷移。但是,模型中哪些參數需要共享,哪些參數是語言獨有的,仍是一個開放性問題。目前,通常的做法是啟發式地設計或者搜索語言特定地模塊,但很難找到一個最優的參數共享策略。

在本文中,我們提出一個新穎的基於參數分化的方法,該方法允許模型在訓練的過程中決定哪些參數應該是語言特定的。受到細胞分化的啟發,在我們的方法中,每個通用的參數都可以動態分化為語言特定的參數。我們進一步將參數分化準則定義為任務間梯度相似性。如果一個參數上不同任務的梯度出現衝突,那麼這個參數更有可能分化為語言特定的類型。在多語言數據集上的實驗表明我們的方法相比於基線方法取得了較大的提升。分析實驗進一步揭示了我們的方法生成的參數共享策略和語言學特征的相似性具有緊密的關係。

作者:Qian Wang, Jiajun Zhang

02 基於特征消除方法的大腦詞彙語法表征研究

Probing Word Syntactic Representations in the Brain by a Feature Elimination Method

研究簡介 神經影像研究發現大腦在理解語言時,多個腦區與語義和語法處理相關。然而,現有的方法不能探索詞性和依存關係等細粒度詞彙語法特征的神經基礎。

本文提出了一種新的框架來研究不同詞彙語法特征在大腦中的表征。為了分離不同句法特征,我們提出了一種特征消除方法——均值向量零空間投影(MVNP),來消除詞向量中的某一特征。然後,我們分別將消除某一特征的詞向量和原始詞向量與大腦成像數據聯係起來,以探索大腦如何表示被消除的特征。本文首次在同一實驗中同時研究了多個細粒度語法特征的皮層表征,並提出了多個腦區在語法處理分工中的可能貢獻。這些發現表明,語法信息處理的大腦基礎可能比經典研究所涉及的更為廣泛。

作者:Xiaohan Zhang, Shaonan Wang, Nan Lin, Jiajun Zhang, Chengqing Zong

機器學習

01 多尺度動態編碼助力脈衝網絡實現高效強化學習

Multi-scale Dynamic Coding improved Spiking Actor Network for Reinforcement Learning

研究簡介 在深度神經網絡(DNN)的幫助下,深度強化學習 (DRL) 在許多複雜任務上取得了巨大成功,如遊戲任務和機器人控製任務。DNN被認為隻是部分受到了大腦結構和功能的啟發,與之相比,脈衝神經網絡 (Spiking Neural Network,SNN) 考慮了更多的生物細節,包括具有複雜動力學的脈衝神經元和生物合理的可塑性學習方法。

受生物大腦中細胞集群(Cell Assembly)高效計算的啟發,我們提出了一種多尺度動態編碼方法來提升脈衝人工網絡(MDC-SAN)模型,並應用於強化學習以實現高效決策。多尺度表現為網絡尺度的群體編碼和神經元尺度的動態神經元編碼(包含二階神經元動力學),可以幫助SNN形成更加強大的時空狀態空間表示。大量實驗結果表明,我們的 MDC-SAN 在 OpenAI Gym的四個連續控製任務上取得了相比無編碼SNN和相同參數下DNN更好的性能。

我們認為這是一次從生物高效編碼角度探討網絡性能提升的有效嚐試,就像在生物網絡中一樣,前期的複雜化信息編碼可以讓後期的智能決策變得更簡單。

作者:Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Bo Xu

AAAI 2022 | 多尺度動態編碼助力脈衝網絡實現高效強化學習

02 AlphaHoldem: 端到端強化學習驅動的高性能兩人無限注撲克人工智能

AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning

研究簡介 無限注德州撲克(HUNL)是一個典型的不完美信息博弈。之前的代表性工作如DeepStack和Libratus嚴重依賴於反事實遺憾最小化(CFR)算法及其變體來求解。然而,由於CFR迭代的計算成本高昂,使得後續研究人員很難在HUNL中學習CFR模型,並將該算法應用於其他實際問題。

在這項工作中,我們提出了一個高性能和輕量級的德州撲克人工智能AlphaHoldem。AlphaHolddem是一種端到端的自學習強化學習框架,采用了一種偽孿生網絡結構,通過將學習到的模型與不同的曆史版本進行對打,直接從輸入狀態信息學習到輸出的動作。

文章的主要技術貢獻包括一種新的手牌和投注信息的狀態表示、一種多任務的自我遊戲訓練損失函數,以及一種新的模型評估和選擇度量來生成最終的模型。在10萬手撲克的研究中,AlphaHoldem隻用了三天的訓練就擊敗了Slumbot和DeepStack。與此同時,AlphaHoldem隻使用一個CPU核心進行每個決策僅需要4毫秒,比DeepStack快1000多倍。我們將提供一個在線開放測試平台,以促進在這個方向上的進一步研究。

作者:Enmin Zhao, Renye Yan, Jinqiu Li, Kai Li, Junliang Xing

03 AutoCFR:通過學習設計反事實後悔值最小化算法

AutoCFR: Learning to Design Counterfactual Regret Minimization Algorithms

研究簡介 反事實遺憾最小化(Counterfactual Regret Minimization, CFR)算法是最常用的近似求解兩人零和不完美信息博弈的算法。近年來,人們提出了一係列新的CFR變體如CFR+、Lienar CFR、DCFR,顯著提高了樸素CFR算法的收斂速度。然而,這些新的變體大多是由研究人員基於不同的動機通過反複試錯來手工設計的,通常需要花費大量和時間精力和洞察力。

這項工作提出采用演化學習來元學習新的CFR算法,從而減輕人工設計算法的負擔。我們首先設計了一種豐富的搜素語言來表示現有的手工設計的CFR變體。然後我們利用可擴展的演化算法以及一係列加速技術,在這種語言所定義的算法的組合空間中進行高效地搜索。學習到的新的CFR算法可以泛化到訓練期間沒有見過的新的不完美信息博弈遊戲下,並與現有的的最先進的CFR變體表現相當或更好。

作者:Hang Xu, Kai Li, Haobo Fu, Qiang Fu, Junliang Xing

04 基於對戰老虎機方法學習頂級Elo評級 Learning to Identify Top Elo Ratings as A Dueling Bandits Problem

研究簡介 Elo 評分係統被廣泛用於評估(國際象棋)遊戲和體育競技中玩家的技能。最近,它還被集成到機器學習算法中,用於評估計算機化的 AI 智能體的性能。然而,準確估計 Elo 等級分(對於頂級玩家)通常需要較多輪比賽,而采集多輪對戰信息的代價可能是昂貴的。

在本文中,為了盡量減少比較次數並提高 Elo 評估的樣本效率(針對頂級玩家),我們提出了一種高效的在線匹配調度算法。具體來說,我們通過對戰老虎機(dueling bandits)框架識別和匹配頂級玩家,並根據 Elo 基於梯度的更新方式來設計老虎機算法。我們表明,與傳統的需要 O(t) 時間的最大似然估計相比,我們能夠將每步內存和時間複雜度降低到常數。我們的算法有一個遺憾(regret)保證 O ̃(√T) (O ̃忽略對數因子),與比賽輪數是次線性相關。並且算法已經被擴展到處理非傳遞性遊戲的多維 Elo 評級。實驗結果證明我們的方法在各種遊戲任務上實現了較優的收斂速度和時間效率。

作者:Xue Yan, Yali Du, Binxin Ru, Jun Wang, Haifeng Zhang, Xu Chen

05 DPNAS:麵向差分隱私深度學習的神經網絡結構搜索

DPNAS:Neural Architecture Search for Deep Learning with Differential Privacy

研究簡介 在保證有意義的差分隱私(DP)條件下訓練深度神經網絡(DNN)通常會嚴重降低模型的精度。在本文中我們指出,在麵向隱私保護的深度學習中,DNN的拓撲結構對訓練得到的模型精度有顯著影響,而這種影響在以前的研究中基本未被探索。

鑒於這一缺失,我們提出了第一個麵向隱私保護深度學習的神經網絡設計框架DPNAS。該框架采用神經網絡架構搜索來自動設計隱私保護深度學習模型。為了將隱私保護學習方法與網絡架構搜索相結合,我們精心設計了一個新的搜索空間,並提出了一種基於DP的候選模型訓練方法。我們通過實驗證明了所提出框架的有效性。搜索得到的模型DPNASNet實現了最先進的隱私/效用權衡,例如,在(ϵ,δ)=(3,1×10^-5)的隱私預算下,我們的模型在MNIST上的測試準確率為98.57%,在FashionMNIST上的測試準確率為88.09%,在CIFAR-10上的測試準確率為68.33%。此外,通過研究生成的網絡結構,我們提供了一些關於隱私保護學習友好的DNN的有趣發現,這可以為滿足差分隱私的深度學習模型設計提供新的思路。

作者:Anda Cheng, Jiaxing Wang, Xi Sheryl Zhang, Qiang Chen, Peisong Wang, Jian Cheng

圖片

"> 中科院自動化所19篇AAAI 2022論文速覽!從CV\NLP到機器學習 - 專知VIP

計算機視覺

01 基於再查詢機製的一體化多目標跟蹤算法One More Check: Making “Fake Background” Be Tracked Again

研究簡介 近年來,將檢測和ReID統一到一個網絡之中來完成多目標跟蹤的方法取得了巨大的突破,且引起了研究人員的廣泛關注。然而當前的一體化跟蹤器僅依賴於單幀圖片進行目標檢測,在遇到一些現實場景的幹擾,如運動模糊、目標相互遮擋時,往往容易失效。一旦檢測方法因為特征的不可靠而將當前幀的目標錯判成背景時,難免會破壞目標所對應的軌跡的連貫性。

在本文中,我們提出了一個再查詢網絡來召回被錯分為“假背景”的目標框。該再查詢網絡創新性地將ID向量的功能從匹配擴展到運動預測,從而實現以較小的計算開銷將已有目標的軌跡有效地傳播到當前幀。而通過ID向量為媒介進行時序信息傳播,所生成的遷移信息有效地防止了模型過度依賴於檢測結果。因此,再查詢網絡有助於一體化方法召回“假背景”同時修複破碎的軌跡。

基於已有的一體化方法CSTrack,本文構建了一個新穎且高性能的一體化跟蹤器,其在MOT16和MOT17兩個基準上分別取得了巨大的增益,即相比於CSTrack,MOTA分數從70.7/70.6提高到76.4/76.3。此外,它還取得了新SOTA的MOTA和IDF1性能。

其代碼已開源在:https://github.com/JudasDie/SOTS

作者:Chao Liang , Zhipeng Zhang , Xue Zhou, Bing Li, Weiming Hu

02 從目標中學習: 用於小樣本語義分割的雙原型網絡Learning from the Target: Dual Prototype Network for Few Shot Semantic Segmentation

研究簡介 由於標注樣本的稀缺,支持集和查詢集之間的樣本差異(目標的外觀,尺寸,視角等)成為小樣本語義分割的主要難點。現有的基於原型的方法大多隻從支持集特征中挖掘原型,而忽略了利用來自查詢集樣本的信息,因此無法解決這個由樣本間差異帶來的痛點。

在本文中,我們提出了一種雙原型網絡 (DPNet),它從一個新穎的角度來處理小樣本語義分割問題,即在從支持集中提取原型的基礎上,進一步提出了從查詢圖像中提取可靠的前景信息作為偽原型。

為了實現這一目的,我們設計了循環比較模塊,通過兩次匹配過程篩選出符合要求的前景查詢特征,並利用這些前景特征生成偽原型。然後根據原型與偽原型之間的內在關聯,利用原型交互模塊對原型與偽原型的信息進行交互整合。最後,引入一個多尺度融合模塊,在原型(偽原型)與查詢特征的密集比較過程中引入上下文信息,以獲得更好的分割結果。

在兩個標準數據集 (PASCAL-5i, COCO-20i)上進行的大量實驗表明,我們的方法取得了優越的性能,證明了提出方法的有效性。

作者:Binjie Mao,Xinbang Zhang,Lingfeng Wang,Qian Zhang, Shiming Xiang, Chunhong Pan

03 基於模態特定信息增強的多模態行人重識別

Interact, Embed, and EnlargE (IEEE): Boosting Modality-specific Representations for Multi-Modal Person Re-identification

研究簡介 多模態行人重識別通過引入模態互補信息來輔助傳統的單模態重識別任務。現有的多模態方法在融合不同模態特征的過程中忽略模態特異信息的重要性。為此,我們提出了一種新方法來增強多模態行人重識別的模態特定信息表示 (IEEE) :交互 (Interact) 、嵌入 (Embed) 和擴大 (EnlargE) 。

首先,提出了一種新穎的跨模態交互模塊,用於在特征提取階段在不同模態之間交換有用的信息。其次,提出了一種基於關係的嵌入模塊,通過將全局特征嵌入到細粒度的局部信息中來增強模態特異特征的豐富度。最後,提出了一種新穎的多模態邊界損失,通過擴大類內不同模態的差異來迫使網絡學習每種模態的模態特定信息。在真實的和構建的行人重識別數據集上優越性驗證了所提出方法的有效性。

作者:Zi Wang, Chenglong Li, Aihua Zheng, Ran He, Jin Tang

04 麵向人體活動識別的跨模態聯邦學習

Cross-Modal Federated Human Activity Recognition via Modality-Agnostic and Modality-Specific Representation Learning

研究簡介 為了在更多本地客戶端上進行人體活動識別,我們提出一個新的麵向人體活動識別的跨模態聯邦學習任務。為了解決這一新問題,我們提出一種特征解糾纏的活動識別網絡(FDARN),模型由共有特征編碼器、私有特征編碼器、模態判別器、共享活動分類器和私有活動分類器五個模塊組成。

共有特征編碼器的目標是協同學習不同客戶端樣本的模態無關特征;私有特征編碼器旨在學習不能在客戶端之間共享的模態獨有特征;模態鑒別器的作用是以對抗學習的方式指導共有特征編碼器和私有特征編碼器的參數學習。

通過采用球麵模態判別損失的去中心化優化,我們提出的方法可以綜合利用模態無關的客戶端共享特征以及模態特有的判別特征,因此可以得到在不同客戶端上具有更強泛化能力的模型。在四個數據集上的實驗結果充分表明了該方法的有效性。

作者:Xiaoshan Yang, Baochen Xiong, Yi Huang, Changsheng Xu

05 Evo-ViT:基於快速-慢速雙流更新的視覺Transformer動態加速策略

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

研究簡介 視覺Transformer通過自注意力機製捕獲長程視覺依賴的能力使其在各種計算機視覺任務中顯示出巨大的潛力,但是長程感受野同樣帶來了巨大的計算開銷,特別是對於高分辨率視覺任務。為了能夠在盡量保持原有模型準確率的前提下,降低模型計算複雜度,從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架,目前工作分為基於空間結構先驗的結構化壓縮和非結構化特征裁剪兩個主流方向。其中,非結構化的特征裁剪破壞了二維空間結構,使得這類裁剪方法不能適用於基於空間結構先驗的結構化壓縮的模型,而目前主流的先進視覺Transformer都應用了結構化壓縮。此外,直接裁剪帶來的不完整的信息流使得目前的特征裁剪方法無法直接訓練得到很好的效果,而要依賴於未裁剪的預訓練模型。

為了解決這些問題,我們提出了快速-慢速雙流標識更新策略,在保持了完整空間結構的同時給高信息量標識和低信息量標識分配不同的計算通道,從而在不改變網絡結構的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。不同於以往方法需要依靠外部的可學習網絡來對每一層的標識進行選擇,我們進一步提出了基於Transformer原生的全局類注意力的標識選擇策略來增強層間的通信聯係,從而使得我們的方法可以在穩定標識選擇的同時去除了外部可學習參數帶來的直接訓練難的問題。

該算法能夠在保證分類準確率損失較小的情況下,大幅提升各種結構Transformer的推理速度,如在ImageNet-1K數據集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。

作者:Yifan Xu, Zhijie Zhang, Mengdan Zhang, Kekai Sheng, Ke Li, Weiming Dong, Liqing Zhang, Changsheng Xu, Xing Sun

06 基於圖卷積網絡及熱力圖回歸的3D人臉關鍵點檢測

Learning to detect 3D facial landmarks via heatmap regression with Graph Convolutional Network

研究簡介 三維人臉關鍵點檢測廣泛應用於人臉配準、人臉形狀分析、人臉識別等多個研究領域。現有的關鍵點檢測方法大多涉及傳統特征和三維人臉模型(3DMM),其性能受限於手工製作的中間表征量。

本文提出了一種新的三維人臉關鍵點檢測的方法,該方法利用精心設計的圖卷積網絡,直接從三維點雲中定位關鍵點的坐標。熱力圖是三維人臉上每個地標距離的高斯函數,圖卷積網絡在構建的三維熱力圖的幫助下可以自適應學習幾何特征,用於三維人臉關鍵點檢測。在此基礎上,我們進一步探索了局部曲麵展開與曲麵配準模塊,從3D熱力圖中直接回歸3D坐標。

實驗證明,該方法在BU-3DFE和FRGC數據集上的關鍵點定位精度和穩定性明顯優於現有方法,並在最近的大規模數據集FaceScape上取得了較高的檢測精度。

作者:YuanWang, Min Cao, Zhenfeng Fan, Silong Peng

07 基於因果關聯及混雜因子傳遞解耦物理動力學的反事實預測

Deconfounding Physical Dynamics with Global Causal Relation and Confounder Transmission for Counterfactual Prediction

研究簡介 發現潛在的因果關係是推理周圍環境和預測物理世界未來狀態的基礎能力。基於視覺輸入的反事實預測根據過去未出現的情況推斷未來狀態,是因果關係任務中的重要組成部分。

本文研究了物理動力學中的混雜影響因子,包括質量、摩擦係數等,建立幹預變量和未來狀態之間的關聯關係,進而提出了一種包含全局因果關係注意力(GCRA)和混雜因子傳輸結構(CTS)的神經網絡框架。GCRA尋找不同變量之間的潛在因果關聯,通過捕獲空域和時序信息來估計混雜因子。CTS以殘差的方式整合和傳輸學習到的混雜因子,在反事實預測過程中,通過編碼對網絡中對象位置進行約束。

實驗證明,在混雜因子真實值未知的情況下,本文的方法能夠充分學習並利用混雜因子形成的約束,在相關數據集的預測任務上取得了目前最優的性能,並可以較好地泛化到新的環境,實現良好的預測精度。

作者:Zongzhao Li, Xiangyu Zhu, Zhen Lei(Corresponding author), Zhaoxiang Zhang

08 基於多相機係統的全局運動平均算法

MMA: Multi-camera Based Global Motion Averaging

研究簡介 為了實現三維場景的完全感知,在自動駕駛汽車和智能機器人等設備中通常會安裝多相機係統以觀察周圍360度的場景。基於多相機之間剛性固定的約束,我們提出了一種全局式的多相機運動平均算法,以實現全自動的大規模場景快速魯棒建模和多相機標定。

首先,根據拍攝相機的不同將圖像分為參考圖像和非參考圖像,進而將場景圖中的邊劃分成四類。針對每一類邊上的多相機相對極幾何約束,我們進行了重新的推導和展示。基於相對旋轉和絕對旋轉之間的約束,我們提出了一種基於多相機的旋轉平均算法,並通過一種兩階段(L1+IRLS)的方式對它進行求解。基於相對平移和絕對位置之間的約束,我們提出了一種基於多相機的平移平均算法,通過求解L1範數下的優化方程獲得所有的攝像機位姿。

我們在公開的自動駕駛數據集和多組自采的多相機數據集上進行了廣泛的測試和對比,顯示我們的建模精度和魯棒性要遠遠好於傳統方法。

作者:Hainan Cui, Shuhan Shen

09 基於解耦的屬性特征的魯棒的行人屬性識別

Learning Disentangled Attribute Representations for Robust Pedestrian Attribute Recognition

研究簡介 盡管學界已經提出了各種行人屬性識別的方法,但大多數研究都遵循相同的特征學習機製,即學習一個共享的行人圖像特征來對多個屬性進行分類。然而,這種機製導致了推理階段的低可信度預測和模型的非穩健性。

在本文中,我們研究了為什麼會出現這種情況。我們從數學上發現,核心原因是在最小化分類損失的情況下,最佳共享特征不能同時與多個分類器保持高相似度。此外,這種特征學習機製忽略了不同屬性之間的空間和語義區別。

為了解決這些局限性,我們提出了一個新穎的分離屬性特征學習(DAFL)框架,為每個屬性學習一個分離的特征,該框架利用了屬性的語義和空間特征。該框架主要由可學習的語義查詢、級聯式語義空間交叉注意(SSCA)模塊和群體注意合並(GAM)模塊組成。具體來說,基於可學習語義查詢,級聯式SSCA模塊迭代地增強了屬性相關區域的空間定位,並將區域特征聚合為多個分解的屬性特征,用於分類和更新可學習語義查詢。GAM模塊根據空間分布將屬性分成小組,並利用可靠的小組注意力來監督查詢注意力圖。在PETA、RAPv1、PA100k和RAPv2上的實驗表明,所提出的方法與最先進的方法相比表現良好。

作者:Jian Jia, Naiyu Gao, Fei He, Xiaotang Chen, Kaiqi Huang

10 基於對象查詢傳播的高性能視頻物體檢測

QueryProp: Object Query Propagation for High-Performance Video Object Detection

研究簡介 視頻物體檢測旨找出視頻每一幀中包含物體的位置和類別,是一個重要且具有挑戰性的任務。傳統方法主要聚焦於設計圖像級別或者物體框級別的相鄰幀信息傳播方法,以利用視頻時序信息來提升檢測器。本文認為,通過更有效和高效的特征傳播框架,視頻物體檢測器可以在準確性和速度方麵獲得提升。

為此,本文研究了對象級特征傳播,並提出了一種用於高性能視頻物體檢測的對象查詢傳播(QueryProp)框架。提出的QueryProp包含兩種傳播策略:1)對象查詢從稀疏關鍵幀傳播至密集非關鍵幀,以減少對非關鍵幀的冗餘計算;2)對象查詢從之前的關鍵幀傳播至當前關鍵幀,以建模時間上下文來提升特征表示。

為了進一步提升查詢傳播的質量,我們設計了自適應傳播門以實現靈活的關鍵幀選擇。我們在視頻物體檢測的大規模數據集 ImageNet VID 上進行了大量實驗。QueryProp 與當前最先進的方法實現了可比的準確性,並在準確性/速度之間取得了不錯的平衡。

作者:Fei He, Naiyu Gao, Jian Jia, Xin Zhao, Kaiqi Huang

11 基於空間相似性的完全稀疏訓練加速

Towards Fully Sparse Training: Information Restoration with Spatial Similarity

研究簡介 英偉達安培架構發布的2:4結構化稀疏模式,要求連續的四個值至少包含兩個零元素,可以使得矩陣乘法的計算吞吐量翻倍。最近的工作主要集中在通過2:4稀疏性來提高推理速度,而忽視了其在訓練加速方麵的潛力,因為反向傳播占據了大約70%的訓練時間。然而,與推理階段不同,由於需要保持梯度的保真度並減少在線執行2:4稀疏的額外開銷,用結構化剪枝來提高訓練速度是不容易的。

本文首次提出了完全稀疏訓練,其中"完全"是指在保持精度的同時,對前向和後向傳播的所有矩陣乘法進行結構化修剪。為此,我們從顯著性分析開始,研究不同的稀疏對象對結構化修剪的敏感性。基於對激活的空間相似性的觀察,我們提出用固定的2:4掩碼來修剪激活。此外,我們還提出了一個信息恢複模塊來恢複丟失的信息,該模塊可以通過有效的梯度移位操作來實現。對準確性和效率的評估表明,在具有挑戰性的大規模分類和檢測任務中,我們可以實現2倍的訓練加速,而準確性的下降可以忽略不計。

作者:Weixiang Xu, Xiangyu He, Ke Cheng, Peisong Wang, Jian Cheng

12 通過學習深度神經網絡在語義分割中學習噪聲標簽的元結構

Deep Neural Networks Learn Meta-Structures from Noisy Labels in Semantic Segmentatio

研究簡介 關於深度神經網絡(DNN)如何從帶噪標簽中進行學習,大部分研究聚焦於圖像分類而不是語義分割。迄今為止,我們對於深度神經網絡在噪聲分割標簽下的學習行為仍然知之甚少。

在本研究中,為填補這一空白,我們研究了生物顯微圖像的二類語義分割和自然場景圖像下的多類語義分割。通過從幹淨標簽中隨機抽樣一小部分(例如10%)或隨機翻轉一大部分(例如90%)像素標簽,我們合成了信噪比極低的噪聲標簽。當使用這些低信噪比標簽訓練DNN時,我們發現模型的分割性能幾乎沒有下降。這表明DNN在基於監督學習的語義分割中是從標簽中學習語義類別的結構信息,而不僅僅是像素信息。我們將上述標簽中隱含的結構信息稱為元結構。當我們對標簽中的元結構進行不同程度的擾動,我們發現模型的分割性能出現不同程度的下降。而當我們在標簽中融入元結構時,可以極大提高基於無監督學習的二類語義分割模型的性能。我們將元結構在數學上定義為點集的空間分布函數,並在理論上和實驗中證明該數學模型可以很好的解釋我們在本研究中觀察到的深度神經網絡的學習行為。

作者:Yaoru Luo, Guole Liu, Yuanhao Guo, Ge Yang

自然語言處理

01 基於參數分化的多語言神經機器翻譯

Parameter Differentiation based Multilingual Neural Machine Translation

研究簡介 多語言神經機器翻譯旨在通過一個共享的模型同時處理多個語言的翻譯,並通過共享的參數實現不同語言之間的知識遷移。但是,模型中哪些參數需要共享,哪些參數是語言獨有的,仍是一個開放性問題。目前,通常的做法是啟發式地設計或者搜索語言特定地模塊,但很難找到一個最優的參數共享策略。

在本文中,我們提出一個新穎的基於參數分化的方法,該方法允許模型在訓練的過程中決定哪些參數應該是語言特定的。受到細胞分化的啟發,在我們的方法中,每個通用的參數都可以動態分化為語言特定的參數。我們進一步將參數分化準則定義為任務間梯度相似性。如果一個參數上不同任務的梯度出現衝突,那麼這個參數更有可能分化為語言特定的類型。在多語言數據集上的實驗表明我們的方法相比於基線方法取得了較大的提升。分析實驗進一步揭示了我們的方法生成的參數共享策略和語言學特征的相似性具有緊密的關係。

作者:Qian Wang, Jiajun Zhang

02 基於特征消除方法的大腦詞彙語法表征研究

Probing Word Syntactic Representations in the Brain by a Feature Elimination Method

研究簡介 神經影像研究發現大腦在理解語言時,多個腦區與語義和語法處理相關。然而,現有的方法不能探索詞性和依存關係等細粒度詞彙語法特征的神經基礎。

本文提出了一種新的框架來研究不同詞彙語法特征在大腦中的表征。為了分離不同句法特征,我們提出了一種特征消除方法——均值向量零空間投影(MVNP),來消除詞向量中的某一特征。然後,我們分別將消除某一特征的詞向量和原始詞向量與大腦成像數據聯係起來,以探索大腦如何表示被消除的特征。本文首次在同一實驗中同時研究了多個細粒度語法特征的皮層表征,並提出了多個腦區在語法處理分工中的可能貢獻。這些發現表明,語法信息處理的大腦基礎可能比經典研究所涉及的更為廣泛。

作者:Xiaohan Zhang, Shaonan Wang, Nan Lin, Jiajun Zhang, Chengqing Zong

機器學習

01 多尺度動態編碼助力脈衝網絡實現高效強化學習

Multi-scale Dynamic Coding improved Spiking Actor Network for Reinforcement Learning

研究簡介 在深度神經網絡(DNN)的幫助下,深度強化學習 (DRL) 在許多複雜任務上取得了巨大成功,如遊戲任務和機器人控製任務。DNN被認為隻是部分受到了大腦結構和功能的啟發,與之相比,脈衝神經網絡 (Spiking Neural Network,SNN) 考慮了更多的生物細節,包括具有複雜動力學的脈衝神經元和生物合理的可塑性學習方法。

受生物大腦中細胞集群(Cell Assembly)高效計算的啟發,我們提出了一種多尺度動態編碼方法來提升脈衝人工網絡(MDC-SAN)模型,並應用於強化學習以實現高效決策。多尺度表現為網絡尺度的群體編碼和神經元尺度的動態神經元編碼(包含二階神經元動力學),可以幫助SNN形成更加強大的時空狀態空間表示。大量實驗結果表明,我們的 MDC-SAN 在 OpenAI Gym的四個連續控製任務上取得了相比無編碼SNN和相同參數下DNN更好的性能。

我們認為這是一次從生物高效編碼角度探討網絡性能提升的有效嚐試,就像在生物網絡中一樣,前期的複雜化信息編碼可以讓後期的智能決策變得更簡單。

作者:Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Bo Xu

AAAI 2022 | 多尺度動態編碼助力脈衝網絡實現高效強化學習

02 AlphaHoldem: 端到端強化學習驅動的高性能兩人無限注撲克人工智能

AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning

研究簡介 無限注德州撲克(HUNL)是一個典型的不完美信息博弈。之前的代表性工作如DeepStack和Libratus嚴重依賴於反事實遺憾最小化(CFR)算法及其變體來求解。然而,由於CFR迭代的計算成本高昂,使得後續研究人員很難在HUNL中學習CFR模型,並將該算法應用於其他實際問題。

在這項工作中,我們提出了一個高性能和輕量級的德州撲克人工智能AlphaHoldem。AlphaHolddem是一種端到端的自學習強化學習框架,采用了一種偽孿生網絡結構,通過將學習到的模型與不同的曆史版本進行對打,直接從輸入狀態信息學習到輸出的動作。

文章的主要技術貢獻包括一種新的手牌和投注信息的狀態表示、一種多任務的自我遊戲訓練損失函數,以及一種新的模型評估和選擇度量來生成最終的模型。在10萬手撲克的研究中,AlphaHoldem隻用了三天的訓練就擊敗了Slumbot和DeepStack。與此同時,AlphaHoldem隻使用一個CPU核心進行每個決策僅需要4毫秒,比DeepStack快1000多倍。我們將提供一個在線開放測試平台,以促進在這個方向上的進一步研究。

作者:Enmin Zhao, Renye Yan, Jinqiu Li, Kai Li, Junliang Xing

03 AutoCFR:通過學習設計反事實後悔值最小化算法

AutoCFR: Learning to Design Counterfactual Regret Minimization Algorithms

研究簡介 反事實遺憾最小化(Counterfactual Regret Minimization, CFR)算法是最常用的近似求解兩人零和不完美信息博弈的算法。近年來,人們提出了一係列新的CFR變體如CFR+、Lienar CFR、DCFR,顯著提高了樸素CFR算法的收斂速度。然而,這些新的變體大多是由研究人員基於不同的動機通過反複試錯來手工設計的,通常需要花費大量和時間精力和洞察力。

這項工作提出采用演化學習來元學習新的CFR算法,從而減輕人工設計算法的負擔。我們首先設計了一種豐富的搜素語言來表示現有的手工設計的CFR變體。然後我們利用可擴展的演化算法以及一係列加速技術,在這種語言所定義的算法的組合空間中進行高效地搜索。學習到的新的CFR算法可以泛化到訓練期間沒有見過的新的不完美信息博弈遊戲下,並與現有的的最先進的CFR變體表現相當或更好。

作者:Hang Xu, Kai Li, Haobo Fu, Qiang Fu, Junliang Xing

04 基於對戰老虎機方法學習頂級Elo評級Learning to Identify Top Elo Ratings as A Dueling Bandits Problem

研究簡介 Elo 評分係統被廣泛用於評估(國際象棋)遊戲和體育競技中玩家的技能。最近,它還被集成到機器學習算法中,用於評估計算機化的 AI 智能體的性能。然而,準確估計 Elo 等級分(對於頂級玩家)通常需要較多輪比賽,而采集多輪對戰信息的代價可能是昂貴的。

在本文中,為了盡量減少比較次數並提高 Elo 評估的樣本效率(針對頂級玩家),我們提出了一種高效的在線匹配調度算法。具體來說,我們通過對戰老虎機(dueling bandits)框架識別和匹配頂級玩家,並根據 Elo 基於梯度的更新方式來設計老虎機算法。我們表明,與傳統的需要 O(t) 時間的最大似然估計相比,我們能夠將每步內存和時間複雜度降低到常數。我們的算法有一個遺憾(regret)保證 O ̃(√T) (O ̃忽略對數因子),與比賽輪數是次線性相關。並且算法已經被擴展到處理非傳遞性遊戲的多維 Elo 評級。實驗結果證明我們的方法在各種遊戲任務上實現了較優的收斂速度和時間效率。

作者:Xue Yan, Yali Du, Binxin Ru, Jun Wang, Haifeng Zhang, Xu Chen

05 DPNAS:麵向差分隱私深度學習的神經網絡結構搜索

DPNAS:Neural Architecture Search for Deep Learning with Differential Privacy

研究簡介 在保證有意義的差分隱私(DP)條件下訓練深度神經網絡(DNN)通常會嚴重降低模型的精度。在本文中我們指出,在麵向隱私保護的深度學習中,DNN的拓撲結構對訓練得到的模型精度有顯著影響,而這種影響在以前的研究中基本未被探索。

鑒於這一缺失,我們提出了第一個麵向隱私保護深度學習的神經網絡設計框架DPNAS。該框架采用神經網絡架構搜索來自動設計隱私保護深度學習模型。為了將隱私保護學習方法與網絡架構搜索相結合,我們精心設計了一個新的搜索空間,並提出了一種基於DP的候選模型訓練方法。我們通過實驗證明了所提出框架的有效性。搜索得到的模型DPNASNet實現了最先進的隱私/效用權衡,例如,在(ϵ,δ)=(3,1×10^-5)的隱私預算下,我們的模型在MNIST上的測試準確率為98.57%,在FashionMNIST上的測試準確率為88.09%,在CIFAR-10上的測試準確率為68.33%。此外,通過研究生成的網絡結構,我們提供了一些關於隱私保護學習友好的DNN的有趣發現,這可以為滿足差分隱私的深度學習模型設計提供新的思路。

作者:Anda Cheng, Jiaxing Wang, Xi Sheryl Zhang, Qiang Chen, Peisong Wang, Jian Cheng

圖片

成為VIP會員查看完整內容
0
29
0

相關內容

中國科學院自動化研究所(以下簡稱自動化所)成立於195610月,是我國最早成立的國立自動化研究機構和最早開展類腦智能研究的國立研究機構。自動化所同時是中國科學院率先布局成立的“人工智能創新研究院”的總體牽頭單位,“腦科學與智能技術卓越創新中心”的依托單位之一,也是國內外首個“人工智能學院”牽頭承辦單位,具有從智能機理、智能芯片、智能算法到智能係統完整的學科分布和優勢領域。

六十多年來,自動化所為我國國民經濟建設、社會進步、科技發展和國家安全做出了重要的貢獻。建國發展初期,自動化所開拓了我國的控製科學,為“兩彈一星”做出了曆史性的貢獻;改革開放年代,自動化所開創了我國模式識別智能信息處理的新領域;1990年代,自動化所以控製科學為基礎,率先布局了人工智能研究;2010年起,自動化所率先布局類腦智能研究;2018年,自動化所開啟自主進化智能研究的新格局。

自動化所現設科研開發部門14個,包括模式識別國家重點實驗室、複雜係統管理與控製國家重點實驗室、國家專用集成電路設計工程技術研究中心、中國科學院分子影像重點實驗室、腦網絡組研究中心等科研部門。還有若幹與國際和社會其他創新單元共建的各類聯合實驗室和工程中心。

2018年底,自動化所共有在職職工898人。其中科技人員696人,包括中國科學院院士2人、發展中國家科學院院士1人、研究員及正高級工程技術人員103人、副研究員及高級工程技術人員221人;共有國家海外高層次人才引進計劃(“千人計劃”)入選者1人,青年千人計劃入選者1人;中國科學院“百人計劃”入選者23人(新增2人);IEEE Fellow9人(新增3人);國家傑出青年科學基金獲得者14人,“萬人計劃”入選者11人(新增5人);百千萬人才工程入選者10人,科技部中青年科技領軍人才5人(新增3人),國家優秀青年基金獲得者5人。

自動化研究所是1981年國務院學位委員會批準的博士、碩士學位授予權單位之一,現設有控製科學與工程等1個一級學科博士研究生培養點,計算機應用技術等1個二級學科博士研究生培養點,並設有控製科學與工程等1個一級學科博士後流動站,共有在學研究生722人(其中碩士生273人、博士生449人)。在站博士後81人。

自動化所長期堅持“智能科學與技術”研究,在生物特征識別、機器學習、視覺計算、自然語言處理、智能機器人和智能芯片等領域形成了係統的理論方法和體係,並取得豐富的研究成果;已形成從原始創新、核心關鍵技術研發到技術轉移轉化的智能技術生態,正在邁入國際上智能科學與技術領域具有重要影響的戰略高技術研究機構。

   近年來,自動化所共獲得省部級以上獎勵30餘項。發表論文數量逐年增加,質量不斷提高;專利申請和授權量連年攀升,多年位居北京市科研係統前十名。繪製的“腦網絡組圖譜”第一次建立了宏觀尺度上的活體全腦連接圖譜,獲得國際同行的廣泛關注和好評;量化神經處理器(QNPU)通過自主創新的架構設計和神經網絡優化技術,首次在資源受限的芯片上實現了大規模深度神經網絡的獨立計算,處於業界領先水平。生物特征識別技術實現了從中距離到遠距離的可識別生物特征信息(虹膜-人臉-步態)全覆蓋,研製成功一係列自主知識產權的遠距離虹膜人臉多模態身份識別產品,在國家重要安全領域推廣應用,相關技術入選2018年度“十大技術突破”;音智能處理整體解決方案已經受過大規模實際應用檢驗,係統接口已成為行業標準;基於自動化所語音識別技術的“紫冬語音雲”在淘寶、來往等阿裏巴巴旗下移動客戶端產品中得到推廣;“分子影像手術導航係統”通過國家藥監局醫療器械安全性及有效性檢測認證並進入臨床應用;“仿生機器魚高效與高機動控製的理論與方法”獲得2017年度國家自然科學獎二等獎,研製的機器海豚實現了1.5倍體長的最高直線遊速,並在國際上首次實現了機器海豚完全躍出水麵;“智能視頻監控技術”和“人臉識別技術”分別成功應用於2008年北京奧運會、2010年上海世博會的安保工作中,為社會安全貢獻自己的力量;研製的AI程序“CASIA-先知1.0”采用知識和數據混合驅動的體係架構,在2017首屆全國兵棋推演大賽總決賽中71的懸殊比分戰勝人類頂級選手,展示了人工智能技術在博弈對抗領域的強大實力;與中國日報社合作構建“全球媒體雲”綜合平台,受到廣泛好評;研製的電子光學玻璃印刷全自動AOI智能檢測設備,可全麵監控絲印關鍵製程品質情況,實現整個絲印工藝的全自動化生產,該技術一舉填補了電子玻璃行業空白;“基於ACP方法的石化企業智能管理係統及應用”先後應用於茂名石化、齊魯石化,為實現企業生產管理的精細化提供了有效的工具,並榮獲“中國石油與化工自動化行業科技進步一等獎”……

新的征程上,中國科學院自動化研究所努力創建規範高效、民主和諧、環境優美、具有強大科技創新和可持續發展能力的國際知名的國家研究所,為我國科技事業的發展、為全麵建設小康社會做出新的更大的貢獻!

【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,Domain Adaptation(域自適應)相關研究非常火熱,特別是基於Domain Adaptation的視覺應用在今年的CVPR中有不少,專知小編整理了CVPR 2020 域自適應(DA)相關的比較有意思的值得閱讀的六篇論文,供大家參考—行為分割、語義分割、目標檢測、行為識別、域自適應檢索。

  1. Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

作者:Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib, Zsolt Kira

摘要:盡管最近在全監督行為分割(action segmentation)技術方麵取得了一些進展,但性能仍然不盡如人意。一個主要挑戰是時空變化問題(例如,不同的人可能以不同的方式進行相同的活動)。因此,我們利用無標簽視頻將行為分割任務重新表述為一個具有時空變化引起的域差異的跨域問題來解決上述時空變化問題。為了減少這種域差異,我們提出了自監督時域自適應(SSTDA),它包含兩個自監督輔助任務(二進製和序列域預測)來聯合對齊嵌入局部和全局時間動態的跨域特征空間,取得了比其他域自適應(DA)方法更好的性能。在三個具有挑戰性的基準數據集(GTEA、50Salads和Breakfast)上,SSTDA的表現遠遠超過當前最先進的方法(在Breakfas上F1@25得分從59.6%到69.1%,在50Salads上F1@25得分從73.4%到81.5%,在GTEA上F1@25得分從83.6%到89.1%),並且隻需要65%的標記訓練數據來就實現了該性能,這表明了SSTDA在各種變化中適應未標記目標視頻的有效性。

網址:https://arxiv.org/abs/2003.02824

代碼鏈接:https://github.com/cmhungsteve/SSTDA

  1. Differential Treatment for Stuff and Things:A Simple Unsupervised Domain Adaptation Method for Semantic Segmentation

作者:Zhonghao Wang, Mo Yu, Yunchao Wei, Rogerior Feris, Jinjun Xiong, Wen-mei Hwu, Thomas S. Huang, Honghui Shi

摘要:本文通過緩解源域(合成數據)和目標域(真實數據)之間的域轉換(domain shift),研究語義分割中的無監督域自適應問題。之前的方法證明,執行語義級對齊有助於解決域轉換問題。我們觀察到事物類別通常在不同域的圖像之間具有相似的外觀,而事物(即目標實例)具有更大的差異,我們提出使用針對填充(stuff)區域和事物的不同策略來改進語義級別的對齊方式:1)對於填充類別,我們為每一類生成特征表示,並進行從目標域到源域的對齊操作;2)對於事物(thing)類別,我們為每個單獨的實例生成特征表示,並鼓勵目標域中的實例與源域中最相似的實例對齊。以這種方式,事物類別內的個體差異也將被考慮,以減輕過度校準。除了我們提出的方法之外,我們還進一步揭示了當前對抗損失在最小化分布差異方麵經常不穩定的原因,並表明我們的方法可以通過最小化源域和目標域之間最相似的內容和實例特征來幫助緩解這個問題。

網址:https://arxiv.org/abs/2003.08040

  1. Exploring Categorical Regularization for Domain Adaptive Object Detection

作者:Chang-Dong Xu, Xing-Ran Zhao, Xin Jin, Xiu-Shen Wei

摘要:在本文中,我們解決了域自適應目標檢測問題,其中的主要挑戰在於源域和目標域之間存在明顯的域差距。以前的工作試圖明確地對齊圖像級和實例級的移位,以最小化域差異。然而,它們仍然忽略了去匹配關鍵圖像區域和重要的跨域實例,這將嚴重影響域偏移緩解。在這項工作中,我們提出了一個簡單有效的分類正則化框架來緩解這個問題。它可以作為一個即插即用(plug-and-play)組件應用於一係列域自適應Faster R-CNN方法,這些方法在處理域自適應檢測方麵表現突出。具體地說,由於分類方式的定位能力較弱,通過在檢測主幹上集成圖像級多標簽分類器,可以獲得與分類信息相對應的稀疏但關鍵的圖像區域。同時,在實例級,我們利用圖像級預測(分類器)和實例級預測(檢測頭)之間的分類一致性作為正則化因子,自動尋找目標域的硬對齊實例。各種域轉移場景的大量實驗表明,與原有的域自適應Faster R-CNN檢測器相比,我們的方法獲得了顯著的性能提升。此外,定性的可視化和分析可以證明我們的方法能夠關注針對領域適配的關鍵區域/實例。

網址:https://arxiv.org/abs/2003.09152

代碼鏈接:https://github.com/Megvii-Nanjing/CR-DA-DET

  1. Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

作者:Jonathan Munro, Dima Damen

摘要:細粒度行為識別數據集存在出環境偏差,多個視頻序列是從有限數量的環境中捕獲的。在一個環境中訓練模型並在另一個環境中部署會由於不可避免的域轉換而導致性能下降。無監督域適應(UDA)方法經常利用源域和目標域之間進行對抗性訓練。然而,這些方法並沒有探索視頻在每個域中的多模式特性。在這項工作中,除了對抗性校準之外,我們還利用模態之間的對應關係作為UDA的一種自監督校準方法。

我們在大規模數據集EPIC-Kitchens中的三個kitchens上使用行為識別的兩種模式:RGB和光學流(Optical Flow)測試了我們的方法。結果顯示,僅多模態自監督比僅進行源訓練的性能平均提高了2.4%。然後,我們將對抗訓練與多模態自監督相結合,表明我們的方法比其他UDA方法要好3%。

網址:https://arxiv.org/abs/2001.09691

  1. Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation

作者:Myeongjin Kim, Hyeran Byun

摘要:由於用於語義分割的像素級標簽標注很費力,因此利用合成數據是一種更好的解決方案。然而,由於合成域和實域之間存在領域鴻溝,用合成數據訓練的模型很難推廣到真實數據。本文將這兩個領域之間的根本差異作為紋理,提出了一種自適應目標域紋理的方法。首先,我們使用樣式轉移算法使合成圖像的紋理多樣化。合成圖像的各種紋理防止分割模型過擬合到一個特定(合成)紋理。然後,通過自訓練對模型進行微調,得到對目標紋理的直接監督。我們的結果達到了最先進的性能,並通過大量的實驗分析了在多樣化數據集上訓練的模型的性質。

網址:https://arxiv.org/abs/2003.00867

  1. Probability Weighted Compact Feature for Domain Adaptive Retrieval

作者:Fuxiang Huang, Lei Zhang, Yang Yang, Xichuan Zhou

摘要:域自適應圖像檢索包括單域檢索和跨域檢索。現有的圖像檢索方法大多隻關注單個域的檢索,假設檢索數據庫和查詢的分布是相似的。然而,在實際應用中,通常在理想光照/姿態/背景/攝像機條件下獲取的檢索數據庫與在非受控條件下獲得的查詢之間的差異很大。本文從實際應用的角度出發,重點研究跨域檢索的挑戰性問題。針對這一問題,我們提出了一種有效的概率加權緊湊特征學習(PWCF)方法,它提供域間相關性指導以提高跨域檢索的精度,並學習一係列緊湊二進製碼(compact binary codes)來提高檢索速度。首先,我們通過最大後驗估計(MAP)推導出我們的損失函數:貝葉斯(BP)誘發的focal-triplet損失、BP誘發的quantization損失和BP誘發的分類損失。其次,我們提出了一個通用的域間複合結構來探索域間的潛在相關性。考慮到原始特征表示因域間差異而存在偏差,複合結構難以構造。因此,我們從樣本統計的角度提出了一種新的特征—鄰域直方圖特征(HFON)。在不同的基準數據庫上進行了大量的實驗,驗證了我們的方法在領域自適應圖像檢索中的性能優於許多最先進的圖像檢索方法。

網址:https://arxiv.org/abs/2003.03293

代碼鏈接:https://github.com/fuxianghuang1/PWCF

成為VIP會員查看完整內容
0
73
1

CVPR2020-Code

CVPR 2020 論文開源項目合集,同時歡迎各位大佬提交issue,分享CVPR 2020開源項目

圖像分類

Spatially Attentive Output Layer for Image Classification

目標檢測

Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

BiDet: An Efficient Binarized Object Detector

3D目標檢測

Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

目標跟蹤

MAST: A Memory-Augmented Self-supervised Tracker

語義分割

Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via Height-driven Attention Networks

實例分割

PolarMask: Single Shot Instance Segmentation with Polar Representation

CenterMask : Real-Time Anchor-Free Instance Segmentation

Deep Snake for Real-Time Instance Segmentation

視頻目標分割

State-Aware Tracker for Real-Time Video Object Segmentation

Learning Fast and Robust Target Models for Video Object Segmentation

NAS

Rethinking Performance Estimation in Neural Architecture Search

CARS: Continuous Evolution for Efficient Neural Architecture Search

GAN

Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions

Re-ID

Weakly supervised discriminative feature learning with state information for person identification

3D點雲

點雲卷積

FPConv: Learning Local Flattening for Point Convolution

3D點雲配準

D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features

人臉檢測

活體檢測

Searching Central Difference Convolutional Networks for Face Anti-Spoofing

人臉表情識別

Suppressing Uncertainties for Large-Scale Facial Expression Recognition

人體姿態估計

2D人體姿態估計

The Devil is in the Details: Delving into Unbiased Data Processing for Human Pose Estimation

Distribution-Aware Coordinate Representation for Human Pose Estimation

3D人體姿態估計

Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation

VIBE: Video Inference for Human Body Pose and Shape Estimation

Back to the Future: Joint Aware Temporal Deep Learning 3D Human Pose Estimation

Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS

點雲

點雲分類

PointAugment: an Auto-Augmentation Framework for Point Cloud Classification

場景文本檢測

ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

場景文本識別

ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network

超分辨率

視頻超分辨率

Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution

模型剪枝

HRank: Filter Pruning using High-Rank Feature Map

行為識別

人群計數

深度估計

單目深度估計

Domain Decluttering: Simplifying Images to Mitigate Synthetic-Real Domain Shift and Improve Depth Estimation

去模糊

視頻去模糊

Cascaded Deep Video Deblurring Using Temporal Sharpness Prior

視覺問答

視覺問答

VC R-CNN:Visual Commonsense R-CNN

視覺語言導航

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training

視頻壓縮

Learning for Video Compression with Hierarchical Quality and Recurrent Enhancement

行人軌跡預測

Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction

數據集

IntrA: 3D Intracranial Aneurysm Dataset for Deep Learning

Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS

其他

GhostNet: More Features from Cheap Operations

AdderNet: Do We Really Need Multiplications in Deep Learning?

Deep Image Harmonization via Domain Verification

Blurry Video Frame Interpolation

Extremely Dense Point Correspondences using a Learned Feature Descriptor

Filter Grafting for Deep Neural Networks

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Detecting Attended Visual Targets in Video

Deep Image Spatial Transformation for Person Image Generation

Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications

https://github.com/charlesCXK/3D-SketchAware-SSC

https://github.com/Anonymous20192020/Anonymous_CVPR5767

https://github.com/avirambh/ScopeFlow

https://github.com/csbhr/CDVD-TSP

https://github.com/ymcidence/TBH

https://github.com/yaoyao-liu/mnemonics

https://github.com/meder411/Tangent-Images

https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch

https://github.com/sjmoran/deep_local_parametric_filters

https://github.com/charlesCXK/3D-SketchAware-SSC

https://github.com/bermanmaxim/AOWS

成為VIP會員查看完整內容
0
100
4

【導讀】最近小編推出CVPR2019圖卷積網絡相關論文、CVPR2019生成對抗網絡相關視覺論文和【可解釋性】相關論文和代碼,反響熱烈。最近,視覺目標跟蹤領域出現了很多不同的框架和方法,CVPR 2019已經陸續放出十幾篇相關文章,這一領域近期也受到大家廣泛的關注。今天小編專門整理最新九篇視覺目標跟蹤相關應用論文—無監督視覺跟蹤、生成對抗網絡、三維Siamese跟蹤、SiamMask、SiamRPN++、SPM-Tracker等。

1、Unsupervised Deep Tracking (無監督的深度跟蹤)

CVPR ’19

作者:Ning Wang, Yibing Song, Chao Ma, Wengang Zhou, Wei Liu, Houqiang Li

摘要:我們在本文中提出了一種無監督視覺跟蹤方法。與現有的使用大量標注數據進行監督學習的方法不同,我們的CNN模型是以一種無監督的方式對大規模無標記視頻進行訓練的。我們的動機是,一個健壯的跟蹤器應該在前向和後向預測中都是有效的(即,跟蹤器可以在連續幀中對目標對象進行前向定位,並在第一幀中回溯到目標對象的初始位置)。我們在Siamese相關濾波器網絡上構建了我們的框架,該網絡使用未標記的原始視頻進行訓練。同時,我們提出了一種多幀驗證方法和代價敏感的損失函數,以方便無監督學習。在沒有監督信息的情況下(without bells and whistles),所提出的無監督跟蹤器達到了完全監督跟蹤器的baseline精度,這需要在訓練過程中完整且準確的標簽。此外,無監督框架顯示了利用無標記或弱標記數據進一步提高跟蹤精度的潛力。

網址:

https://arxiv.org/abs/1904.01828

代碼鏈接:

https://github.com/594422814/UDT

2、Target-Aware Deep Tracking( 目標感知的深度跟蹤)

CVPR ’19

作者:Xin Li, Chao Ma, Baoyuan Wu, Zhenyu He, Ming-Hsuan Yang

摘要:現有的深度跟蹤器主要使用卷積神經網絡對泛型目標識別任務進行預處理來表示。盡管在許多視覺任務中都取得了成功,但是使用預先訓練的深度特征進行視覺跟蹤的貢獻不如目標識別那麼重要。關鍵問題是,在視覺跟蹤中的目標的可以是任意對象類與任意形式。因此,預先訓練的深層特征在建模這些任意形式的目標時效果較差,無法將它們從背景中區分出來。在本文中,我們提出了一種新的學習目標感知特征的方法,該方法能夠比預訓練的深度特征更好地識別發生顯著外觀變化的目標。為此,我們提出了回歸損失和排名損失來指導目標活動和尺度敏感特征的生成。我們根據反向傳播的梯度來識別每個卷積濾波器的重要性,並基於用於表示目標的激活來選擇目標感知特征。目標感知特征與Siamese匹配網絡集成,用於視覺跟蹤。大量的實驗結果表明,該算法在精度和速度上均優於現有的算法。

網址:

https://arxiv.org/abs/1904.01772

代碼鏈接:

https://github.com/XinLi-zn/TADT

3、MOTS: Multi-Object Tracking and Segmentation(MOTS:多目標跟蹤和分割)

CVPR ’19

作者:Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

摘要:本文將多目標跟蹤的流行任務擴展到多目標跟蹤與分割(MOTS)。為此,我們使用半自動標注程序為兩個現有跟蹤數據集創建密集的像素級標注。我們的新標注包含了10870個視頻幀中977個不同對象(汽車和行人)的65,213個像素掩碼。為了進行評估,我們將現有的多對象跟蹤指標擴展到這個新任務。此外,我們提出了一種新的baseline方法,該方法通過單個卷積網絡共同解決檢測,跟蹤和分割問題。在對MOTS標注進行訓練時,我們通過提高性能來展示數據集的價值。我們相信,我們的數據集、度量metrics和baseline將成為開發超越二維邊界框的多對象跟蹤方法的寶貴資源。我們的注釋,代碼和模型可以在https://www.vision.rwth-aachen.de/page/mots上找到。

網址:

https://arxiv.org/abs/1902.03604

代碼鏈接:

https://www.vision.rwth-aachen.de/page/mots

4、Leveraging Shape Completion for 3D Siamese Tracking(利用形狀補全三維Siamese跟蹤)

CVPR ’19

作者:Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

摘要:點雲由於其稀疏性,處理起來很有挑戰性,因此自動駕駛車輛更多地依賴於外觀屬性,而不是純粹的幾何特征。然而,三維激光雷達感知在具有挑戰性的光或天氣條件下可以為城市導航提供重要的信息。本文研究了形狀補全Shape Completion在LIDAR點雲三維目標跟蹤中的通用性。我們設計了一個Siamese追蹤器,將模型和候選形狀編碼成一個緊湊的潛在表示。我們通過強製將潛在表示解碼為對象模型形狀來規範編碼。我們觀察到,三維物體跟蹤和三維形狀補全Shape Completion是相輔相成的。學習更有意義的潛在表示可以顯示更好的區分能力,從而提高跟蹤性能。我們在KITTI Tracking數據集上使用汽車3D bounding boxes測試了我們的方法。我們的模型對三維目標跟蹤的成功率為76.94%,精度為81.38%,形狀補全Shape Completion正則化使得兩種指標都提高了3%。

網址:

https://arxiv.org/abs/1903.01784

代碼鏈接:

https://github.com/SilvioGiancola/ShapeCompletion3DTracking

5、LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking(LaSOT:基於大規模單目標跟蹤的高質量基準)

CVPR ’19

作者:Heng Fan, Liting Lin, Fan Yang, Peng Chu, Ge Deng, Sijia Yu, Hexin Bai, Yong Xu, Chunyuan Liao, Haibin Ling

摘要:本文提出了一種用於大規模單目標跟蹤的高質量基準LaSOT。LaSOT由1400個序列組成,總幀數超過350萬。這些序列中的每一幀都小心翼翼地用一個邊界框手工標注,使LaSOT成為我們所知最大的、標注密集的跟蹤基準。LaSOT的平均視頻長度超過2500幀,每個序列都包含來自野外的各種挑戰,在野外,目標對象可能會消失,然後重新出現在視圖中。通過發布LaSOT,我們希望為社區提供一個大規模、高質量的專用基準,用於深度跟蹤器的訓練和跟蹤算法的真實評估。此外,考慮到視覺外觀與自然語言的緊密聯係,我們通過提供額外的語言規範來豐富LaSOT,旨在鼓勵探索自然語言特征來進行跟蹤。對LaSOT上的35種跟蹤算法進行了全麵的實驗評估,並進行了詳細的分析,結果表明,該算法仍有很大的改進空間。

網址:

https://arxiv.org/abs/1809.07845

6、Fast Online Object Tracking and Segmentation: A Unifying Approach(快速在線目標跟蹤和分割: 一種統一的方法)

CVPR ’19

作者:Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr

摘要:在本文中,我們將介紹如何用一種簡單的方法實時地執行視覺目標跟蹤和半監督視頻目標分割。我們的方法,稱為SiamMask,改進了流行的全卷積Siamese方法的離線訓練過程,通過一個二值分割任務增加了它們的損失。經過訓練,SiamMask完全依賴於單個邊界框初始化並在線操作,生成與類無關的目標分割掩碼,並以每秒35幀的速度旋轉邊界框。它不僅具有簡單性、多功能性和快速性,還使我們能夠在VOT-2018上建立一個新的最好的實時跟蹤器,同時在DAVIS-2016和DAVIS-2017上展示出具有競爭力的性能和半監督視頻對象分割任務的最佳速度。

網址:

https://arxiv.org/abs/1812.05050

代碼鏈接:

http://www.robots.ox.ac.uk/~qwang/SiamMask/

7、SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(SiamRPN++: 使用深層網絡的Siamese視覺跟蹤演化)

CVPR ’19

作者:Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan

摘要:基於Siamese網絡的跟蹤器將跟蹤描述為目標模板與搜索區域之間的卷積特征互相關聯。然而,與最先進的算法相比,Siamese跟蹤器仍然存在精度上的差距,它們無法利用深度網絡(如ResNet-50或更深)的特性。在本文中,我們證明了其核心原因是缺乏嚴格的翻轉不變性。通過全麵的理論分析和實驗驗證,我們通過一種簡單有效的空間感知采樣策略打破了這一限製,成功地訓練了一個性能顯著提高的ResNet驅動的Siamese跟蹤器。此外,我們提出了一種新的模型架構來執行深度和層次的聚合,這不僅進一步提高了精度,而且減少了模型的大小。我們進行了廣泛的消融研究來證明所提出的跟蹤器的有效性,該跟蹤器目前在OTB2015、VOT2018、UAV123和LaSOT四個大型跟蹤基準上獲得了最佳結果。我們的模型將會發布,以方便研究人員基於這個問題做進一步的研究。

網址:

https://arxiv.org/abs/1812.11703

代碼鏈接:

http://bo-li.info/SiamRPN++/

8、Deeper and Wider Siamese Networks for Real-Time Visual Tracking(更深入和更廣泛的Siamese網絡實時視覺跟蹤)

CVPR ’19

作者:Zhipeng Zhang, Houwen Peng

摘要:Siamese網絡以其均衡的精度和速度在視覺跟蹤領域引起了廣泛的關注。然而,Siamese跟蹤器中使用的主幹網絡相對較淺,如AlexNet[18],沒有充分利用現代深度神經網絡的優勢。在本文中,我們研究如何利用更深更廣的卷積神經網絡來提高跟蹤的魯棒性和準確性。我們注意到,用現有的強大架構(如ResNet[14]和Inception[33])直接替換主幹網絡並不能帶來改進。主要原因是1)神經元接受域的大量增加導致特征識別率和定位精度下降;2)卷積的網絡padding導致了學習中的位置偏差。為了解決這些問題,我們提出了新的residual模塊,以消除padding的負麵影響,並進一步設計使用這些模塊的新的架構控製感知域大小和網絡步長。設計的架構非常輕巧,並且在應用於SiamFC [2]和SiamRPN [20]時保證了實時跟蹤速度。實驗表明,僅由於提出的網絡架構,我們的SiamFC+和SiamRPN+在OTB-15、VOT-16和VOT-17數據集上分別獲得了9.8%/5.7% (AUC)、23.3%/8.8% (EAO)和24.4%/25.0% (EAO)的相對改進[2,20]。

網址:

https://arxiv.org/abs/1901.01660

代碼鏈接:

https://github.com/researchmm/SiamDW

9、SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking(SPM-Tracker: 用於實時視覺目標跟蹤的串並聯匹配機製)

CVPR ’19

作者:Guangting Wang, Chong Luo, Zhiwei Xiong, Wenjun Zeng

摘要:視覺目標跟蹤麵臨的最大挑戰是同時要求魯棒性和識別能力。為了解決這一問題,本文提出了一種基於SiamFC的跟蹤器,SPM-Tracker。基本思想是在兩個獨立的匹配階段處理這兩個需求。粗匹配(CM)階段通過廣義訓練增強了魯棒性,而精細匹配(FM)階段通過遠程學習網絡增強了分辨能力。當CM階段的輸入提議由CM階段生成時,這兩個階段串聯連接。當匹配分數和box位置細化被融合在一起產生最終結果時,它們也被並行連接。這種創新的串並聯結構充分利用了兩個階段,從而實現了卓越的性能。該SPM-Tracker在GPU上運行速度為120fps,在OTB-100上的AUC為0.687,在VOT-16上的EAO為0.434,顯著超過其他實時跟蹤器。

網址:

https://arxiv.org/abs/1904.04452v1

鏈接:https://pan.baidu.com/s/1Cuomaq3lrB6ub39Xt1Br0g提取碼:ydw4

成為VIP會員查看完整內容
0
21
0
小貼士
相關VIP內容
相關論文
Doyup Lee,Sungwoong Kim,Ildoo Kim,Yeongjae Cheon,Minsu Cho,Wook-Shin Han
0+閱讀 · 1月17日
Yanbei Chen,Yongqin Xian,A. Sophia Koepke,Ying Shan,Zeynep Akata
4+閱讀 · 2021年4月22日
Simple and effective localized attribute representations for zero-shot learning
Shiqi Yang,Kai Wang,Luis Herranz,Joost van de Weijer
5+閱讀 · 2020年6月10日
Few-shot Natural Language Generation for Task-Oriented Dialog
Baolin Peng,Chenguang Zhu,Chunyuan Li,Xiujun Li,Jinchao Li,Michael Zeng,Jianfeng Gao
29+閱讀 · 2020年2月27日
Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning
Dong-Jin Kim,Jinsoo Choi,Tae-Hyun Oh,In So Kweon
4+閱讀 · 2019年9月22日
Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks
Ningyu Zhang,Shumin Deng,Zhanlin Sun,Guanying Wang,Xi Chen,Wei Zhang,Huajun Chen
8+閱讀 · 2019年3月4日
Conditional BERT Contextual Augmentation
Xing Wu,Shangwen Lv,Liangjun Zang,Jizhong Han,Songlin Hu
8+閱讀 · 2018年12月17日
Document Image Classification with Intra-Domain Transfer Learning and Stacked Generalization of Deep Convolutional Neural Networks
Arindam Das,Saikat Roy,Ujjwal Bhattacharya,Swapan Kumar Parui
3+閱讀 · 2018年6月26日
Wenhao Jiang,Lin Ma,Xinpeng Chen,Hanwang Zhang,Wei Liu
6+閱讀 · 2018年4月3日
Lifu Huang,Heng Ji,Kyunghyun Cho,Clare R. Voss
10+閱讀 · 2017年7月4日
Top
微信掃碼谘詢專知VIP會員
Top