//www.webtourguide.com/paper/7a1101e877530fa0dc16f1315fe9c019

"> 【AAAI2022】基於雙流更新的視覺Transformer動態加速方法 - 專知VIP

基於雙流更新的視覺

Transformer動態加速方法

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

視覺Transformer 通過自注意力機製捕獲短程和長程視覺依賴的能力使其在各種計算機視覺任務中顯示出巨大的潛力,但是長程感受野同樣帶來了巨大的計算開銷,特別是對於高分辨率視覺任務。為了能夠在保持原有模型準確率的前提下,降低模型計算複雜度,從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架,我們提出了Evo-ViT,基於雙流token更新的視覺transformer動態加速方法。

該方法在保持了完整空間結構的同時給高信息量token和低信息量token分配不同的計算通道。從而在不改變網絡結構的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。

其中,我們提出的基於全局class attention的token選擇策略通過增強層間的通信聯係實現穩定token選擇,相比以往方法,無需依靠外部的可學習網絡來對每一層的token進行選擇,也無需基於訓練好的網絡進行token裁剪。在ImageNet 1K數據集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。

//www.webtourguide.com/paper/7a1101e877530fa0dc16f1315fe9c019

成為VIP會員查看完整內容
0
13
0

相關內容

RGBT目標跟蹤是利用兩個模態之間的互補信息來更好地完成跟蹤。現有的模型通常是設計一個比較複雜的融合模塊來完成模態信息間的交互,但由於數據量的限製,過於複雜的單個融合模塊並不能達到效果。

圖1 現有方法(a,b)和我們的方法(c)對比

為了解決複雜RGBT數據的融合問題,我們提出了一種漸進式融合網絡。首先,通過屬性對融合過程進行解耦,能夠使用較少模型參數實現多模態數據的有效融合,克服了對大規模訓練數據的依賴。其次,我們為RGBT目標跟蹤中挑戰屬性設計單獨的融合分支。分支結構簡單,因為它隻需要學習特定挑戰屬性下的融合模式。我們隻需要用帶有特定屬性標簽的數據訓練即可,這樣就減少了訓練所需要的的數據量。由於在跟蹤過程中我們可能會遇到多種挑戰,需要將屬性分支的特征聚合起來形成更加魯棒的特征表示。最後,我們使用了Transformer中的encoder來對聚合後的屬性特征以及模態特定的特征進行特征自增強,使用decoder結構將模態特定特征和屬性特征進行融合,這樣就形成了一種漸進式的融合方式。

論文下載:https://github.com/yangmengmeng1997/APFNet/tree/main/Paper

代碼開放:

https://github.com/yangmengmeng1997/APFNet

成為VIP會員查看完整內容
0
11
0

無監督域自適應是一種將深度神經網絡泛化到新目標域的有效範式。然而,要達到完全監督的性能,仍有巨大的潛力有待挖掘。在本文中,我們提出了一種新的主動學習策略來輔助目標領域中的知識遷移,稱為主動領域自適應。我們從一個觀察開始,當訓練(源)和測試(目標)數據來自不同的分布時,基於能量的模型表現出自由能量偏差。受這一內在機製的啟發,我們從經驗上揭示了一個簡單而有效的基於能量的采樣策略,它比現有的需要特定架構或計算距離的方法更能幫助我們選擇最有價值的目標樣本。我們的算法,基於能量的主動域自適應(EADA),在每一輪的選擇中查詢集域特征和實例不確定性的目標數據組。同時,通過正則化項將目標數據壓縮的自由能對準源域,可以隱式地減小域間隙。通過大量的實驗,我們證明了EADA在眾所周知的具有挑戰性的基準測試中取得了重大改進,超越了最先進的方法,使其成為開放世界中一個有用的選項。代碼可以在https://github.com/BIT-DA/EADA上找到。

//www.webtourguide.com/paper/b2cbb3e492535323da57811cc8dd9b1f

成為VIP會員查看完整內容
0
18
0

在識別和檢測等實質性視覺任務中,Vision Transformer顯示了強大的視覺表示能力,因此在手工設計更有效的架構方麵吸引了快速增長的努力。在本文中,我們提出使用神經體係結構搜索來自動化這個過程,不僅搜索體係結構,而且搜索搜索空間。其核心思想是通過使用權重共享超級網絡計算出的E-T誤差,逐步演化出不同的搜索維度。根據空間搜索過程,給出了一般視覺變換器的設計指南,並進行了廣泛的分析,促進了對視覺變換器的認識。值得注意的是,在ImageNet上進行評估時,來自搜索空間的搜索模型S3 (Search Space的簡稱)的性能優於最近提出的模型,如Swin、DeiT和ViT。S3在目標檢測、語義分割和視覺問題回答方麵的有效性也得到了說明,說明了它對下遊視覺和視覺語言任務的通用性。代碼和模型可以在https://github.com/microsoft/Cream上找到。

//www.webtourguide.com/paper/100e1a1db2c32b2d03263302d526f435

成為VIP會員查看完整內容
0
10
0

人類通過同時處理和融合來自視覺和音頻等多種模態的高維輸入來感知世界。與之形成鮮明對比的是,機器感知模型通常是特定於模態的,並針對單模態基準進行了優化,因此,從每個模態最終表示或預測的後期融合(“後期融合”)仍然是多模態視頻分類的主導範式。相反,我們引入了一種新的基於transformer的架構,它使用“融合瓶頸”在多個層進行模態融合。與傳統的成對自注意力相比,我們的模型迫使不同模態之間的信息通過少量的瓶頸潛伏,要求模型整理和濃縮每個模態中最相關的信息,隻分享必要的信息。我們發現這種策略在提高融合性能的同時,降低了計算成本。我們進行了徹底的消融研究,並在多個視聽分類基準上取得了最先進的結果,包括Audioset、Epic-Kitchens和VGGSound。所有代碼和模型將被發布。

//www.webtourguide.com/paper/dd15123bca04f060baef40fb7620ea27

成為VIP會員查看完整內容
0
29
1

我們提出了一種新的參數化方案來解決在大型神經網絡上運用差分私有SGD所麵臨的挑戰,這些挑戰包括1) 存儲單個梯度的巨大存儲成本,2) 附加的噪聲嚴重依賴於維數。具體地說,我們用兩個小維的梯度載波矩陣和一個殘差權矩陣來重新參數化每個權矩陣。我們認為,這樣的重新參數化保持向前/向後過程不變,同時使我們能夠在不計算梯度本身的情況下計算投影梯度。為了學習差分隱私,我們設計了重參數梯度擾動(RGP),它擾亂梯度載體矩陣上的梯度,並從有噪聲的梯度中重建原始權重的更新。重要的是,我們使用曆史更新來尋找梯度載波矩陣,其最優性在線性回歸下得到嚴格證明,並通過深度學習任務得到經驗驗證。RGP顯著降低了內存成本並改進了實用程序。例如,我們首次能夠在BERT模型上應用差分隱私,並在e = 8的四個下遊任務上實現了83.9%的平均精度,與非私有基準相比,損失在5%以內,但隱私泄漏風險要低得多。

//www.webtourguide.com/paper/3daeb1dc335f94ac104faf7abb027f98

成為VIP會員查看完整內容
0
8
0

雖然預訓練語言模型(例如BERT)在不同的自然語言處理任務上取得了令人印象深刻的結果,但它們有大量的參數,並承受著巨大的計算和內存成本,這使得它們難以在現實世界中部署。因此,為了降低預訓練模型的計算和存儲成本,需要對模型進行壓縮。在這項工作中,我們的目標是壓縮BERT,並解決以下兩個具有挑戰性的實際問題: (1)壓縮算法應該能夠輸出多個不同大小和延遲的壓縮模型,以支持不同內存和延遲限製的設備;(2)算法應與下遊任務無關,這樣壓縮模型一般適用於不同的下遊任務。我們利用神經結構搜索(NAS)中的技術,提出了一種有效的BERT壓縮方法NAS-BERT。NAS-BERT在精心設計的搜索空間上訓練一個大型超級網絡,該搜索空間包含各種架構,並輸出具有自適應大小和延遲的多個壓縮模型。此外,NAS-BERT的訓練是在標準的自監督的訓練前任務(如掩體語言模型)上進行的,不依賴於特定的下遊任務。因此,壓縮的模型可以跨任務使用。NAS-BERT的技術挑戰在於,在訓練前的任務上訓練一個大型超級網絡是極其昂貴的。我們采用了塊搜索、搜索空間剪枝和性能逼近等技術來提高搜索效率和準確性。對GLUE和SQuAD基準數據集的大量實驗表明,NAS-BERT可以找到比以前的方法更精確的輕量級模型,並可以直接應用於不同的下遊任務,這些任務具有適應的模型規模,以滿足不同的內存或延遲需求。

//www.webtourguide.com/paper/6f115ce6f43323f92838b15e0030f2a4

成為VIP會員查看完整內容
0
8
0

基於meta-learning的方法在有噪聲標注的圖像分類中取得了顯著的效果。這類方法往往需要大量的計算資源,而計算瓶頸在於meta-gradient的計算上。本文提出了一種高效的meta-learning更新方式:Faster Meta Update Strategy (FaMUS),加快了meta-learning的訓練速度 (減少2/3的訓練時間),並提升了模型的性能。首先,我們發現meta-gradient的計算可以轉換成一個逐層計算並累計的形式; 並且,meta-learning的更新隻需少量層數在meta-gradient就可以完成。基於此,我們設計了一個layer-wise gradient sampler 加在網絡的每一層上。根據sampler的輸出,模型可以在訓練過程中自適應地判斷是否計算並收集該層網絡的梯度。越少層的meta-gradient需要計算,網絡更新時所需的計算資源越少,從而提升模型的計算效率。

並且,我們發現FaMUS使得meta-learning更加穩定,從而提升了模型的性能。最後,我們在有噪聲的分類問題以及長尾分類問題都驗證了我們方法的有效性。

//www.webtourguide.com/paper/fda93b750216436e45e6f660ed76776e

成為VIP會員查看完整內容
0
15
0

本文提出一種新的卷積操作----動態區域注意卷積(DRConv: Dynamic Region-Aware Convolution),該卷積可以根據特征相似度為不同平麵區域分配定製的卷積核。這種卷積方式相較於傳統卷積極大地增強了對圖像語義信息多樣性的建模能力。標準卷積層可以增加卷積核的數量以提取更多的視覺元素,但會導致較高的計算成本。DRConv使用可學習的分配器將逐漸增加的卷積核轉移到平麵維度,這不僅提高了卷積的表示能力,而且還保持了計算成本和平移不變性。 圖片 DRConv是一種用於處理語義信息分布複雜多變的有效而優雅的方法,它可以以其即插即用特性替代任何現有網絡中的標準卷積,且對於輕量級網絡的性能有顯著提升。本文在各種模型(MobileNet係列,ShuffleNetV2等)和任務(分類,麵部識別,檢測和分割)上對DRConv進行了評估,在ImageNet分類中,基於DRConv的ShuffleNetV2-0.5×在46M計算量的水平下可實現67.1%的性能,相對基準提升6.3%。

//www.webtourguide.com/paper/5ab3f5fa3690be4e5e52724c176bc252

成為VIP會員查看完整內容
0
16
0

本文提出了第一種實時全身捕捉的方法,該方法通過單一顏色圖像的動態3D人臉模型來估計身體和手的形狀和運動。我們的方法使用了一種新的神經網絡結構,利用身體和手之間的相關性在高計算效率。與以往的工作不同,我們的方法是在多個數據集上聯合訓練,分別關注手、身體或麵部,不需要同時標注所有部分的數據,這是很難創建足夠多的多樣性。這種多數據集訓練的可能性使其具有優越的泛化能力。與早期的單眼全身方法相比,我們的方法通過估算統計人臉模型的形狀、表情、反照率和光照參數來捕捉更具表現力的3D人臉幾何形狀和顏色。我們的方法在公共基準上實現了具有競爭力的精度,同時顯著更快,提供更完整的麵部重建。

//www.webtourguide.com/paper/9de12fe4bffc839e10209a1ad648f1b5

成為VIP會員查看完整內容
0
14
0

許多實際應用需要對長序列時間序列進行預測,例如用電計劃。長序列時間序列預測(LSTF)對模型的預測能力要求很高,即能夠高效捕獲輸出和輸入之間精確的長程依賴。近年來的研究表明,Transformer 具有提高預測能力的潛力。然而,Transformer 存在幾個嚴重的問題,因而無法直接應用於 LSTF,比如二次時間複雜度、高內存使用率以及編碼器 - 解碼器架構的固有局限。

為解決這些問題,該研究為 LSTF 設計了一個基於高效 transformer 的模型——Informer,該模型具備三個特征:

1)ProbSparse 自注意力機製,其時間複雜度和內存使用達到 O(L log L),在序列依賴對齊方麵具有不錯的性能; 2)自注意力蒸餾通過將級聯層輸入減半來突出注意力,並且能夠高效地處理極長的輸入序列; 3)盡管生成風格解碼器在概念上非常簡單,但它會在一次前向操作中預測較長的時序序列,而不是逐步預測,這極大地提高了長序列預測的推斷速度。

成為VIP會員查看完整內容
0
36
0
小貼士
相關VIP內容
專知會員服務
11+閱讀 · 1月8日
專知會員服務
18+閱讀 · 2021年12月6日
專知會員服務
10+閱讀 · 2021年12月1日
專知會員服務
29+閱讀 · 2021年10月14日
專知會員服務
8+閱讀 · 2021年6月20日
專知會員服務
15+閱讀 · 2021年5月4日
專知會員服務
16+閱讀 · 2021年4月2日
專知會員服務
14+閱讀 · 2021年3月18日
專知會員服務
36+閱讀 · 2021年2月6日
相關資訊
基於知識蒸餾的BERT模型壓縮
大數據文摘
17+閱讀 · 2019年10月14日
Interspeech 2019 | 基於多模態對齊的語音情感識別
AI科技評論
18+閱讀 · 2019年9月21日
基於手機係統的實時目標檢測
計算機視覺戰隊
8+閱讀 · 2018年12月5日
一文學習基於蒙特卡羅的強化學習方法(送書)
人工智能頭條
4+閱讀 · 2018年3月13日
幹貨|基於雙流遞歸神經網絡的人體骨架行為識別!
全球人工智能
10+閱讀 · 2017年12月15日
【技術分享】基於雙流遞歸神經網絡的人體骨架行為識別
機器學習研究會
5+閱讀 · 2017年9月1日
相關論文
Q-ViT: Fully Differentiable Quantization for Vision Transformer
Zhexin Li,Tong Yang,Peisong Wang,Jian Cheng
0+閱讀 · 1月19日
Yifan Xu,Zhijie Zhang,Mengdan Zhang,Kekai Sheng,Ke Li,Weiming Dong,Liqing Zhang,Changsheng Xu,Xing Sun
6+閱讀 · 2021年12月6日
Junhao Xu,Shoukang Hu,Jianwei Yu,Xunying Liu,Helen Meng
0+閱讀 · 2021年11月29日
Kai Han,An Xiao,Enhua Wu,Jianyuan Guo,Chunjing Xu,Yunhe Wang
4+閱讀 · 2021年10月26日
Zhaowen Li,Zhiyang Chen,Fan Yang,Wei Li,Yousong Zhu,Chaoyang Zhao,Rui Deng,Liwei Wu,Rui Zhao,Ming Tang,Jinqiao Wang
3+閱讀 · 2021年6月10日
Star-Transformer
Qipeng Guo,Xipeng Qiu,Pengfei Liu,Yunfan Shao,Xiangyang Xue,Zheng Zhang
3+閱讀 · 2019年2月28日
The Evolved Transformer
David R. So,Chen Liang,Quoc V. Le
5+閱讀 · 2019年1月30日
SlowFast Networks for Video Recognition
Christoph Feichtenhofer,Haoqi Fan,Jitendra Malik,Kaiming He
17+閱讀 · 2018年12月10日
Joaquin Vanschoren
117+閱讀 · 2018年10月8日
Jonas Gehring,Michael Auli,David Grangier,Denis Yarats,Yann N. Dauphin
3+閱讀 · 2017年7月25日
Top
微信掃碼谘詢專知VIP會員
Top