//www.webtourguide.com/paper/7a1101e877530fa0dc16f1315fe9c019

"> 【AAAI2022】基於雙流更新的視覺Transformer動態加速方法 - 專知VIP

基於雙流更新的視覺

Transformer動態加速方法

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

視覺Transformer 通過自注意力機製捕獲短程和長程視覺依賴的能力使其在各種計算機視覺任務中顯示出巨大的潛力,但是長程感受野同樣帶來了巨大的計算開銷,特別是對於高分辨率視覺任務。為了能夠在保持原有模型準確率的前提下,降低模型計算複雜度,從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架,我們提出了Evo-ViT,基於雙流token更新的視覺transformer動態加速方法。

該方法在保持了完整空間結構的同時給高信息量token和低信息量token分配不同的計算通道。從而在不改變網絡結構的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。

其中,我們提出的基於全局class attention的token選擇策略通過增強層間的通信聯係實現穩定token選擇,相比以往方法,無需依靠外部的可學習網絡來對每一層的token進行選擇,也無需基於訓練好的網絡進行token裁剪。在ImageNet 1K數據集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。

//www.webtourguide.com/paper/7a1101e877530fa0dc16f1315fe9c019

成為VIP會員查看完整內容
0
15
0

相關內容

用於在線視頻實例分割的混合實例覺知時序融合方法

Hybrid Instance-aware Temporal Fusion for Online Video Instance Segmentation

論文摘要:本文提出了一種基於實例的時序內容融合方法,用於在線視頻實例分割框架。首先,我們利用圖像分割的一種表示,基於實例的全局編碼和 CNN 特征圖來表示實例級和像素級特征。基於這種表示,我們引入了一種無需裁剪的時序融合方法來對視頻幀之間的時間一致性進行建模。具體地,我們在實例編碼中對全局實例信息進行編碼,並通過實例編碼和 CNN 特征圖之間的混合注意力機製建模幀間的上下文融合。利用學習到的混合時間一致性,我們能夠直接檢索和維護跨幀的實例身份,去除了先前方法中複雜的逐幀實例匹配方案。在 Youtube-VIS-19/21 數據集,我們的模型在所有在線視頻實例分割方法中取得了最佳性能。

論文開創性突破與核心貢獻:用於實時視頻實力分割的高效時序融合方法,在所有在線視頻實例分割方法中取得了最佳性能。

//www.webtourguide.com/paper/7ea2959c252c2c2e8bbc5614bc159ef3

成為VIP會員查看完整內容
1
7
0

在預訓練和微調範式下,預訓練語言模型(PLMs)在各種自然語言處理(NLP)任務中取得了巨大的成功。由於具有大量的參數,PLM需要大量的計算和資源。因此,模型剪枝被引入到大規模PLM的壓縮中。然而,以往的方法大多隻考慮下遊任務的特定知識,而忽略了修剪過程中基本的任務不可知知識,這可能會導致災難性遺忘問題,導致泛化能力較差。為了在我們的剪枝模型中保持任務不可知論和任務特定的知識,我們提出了對比剪枝(CAP)在預訓練和微調範式下。它被設計成一個通用框架,兼容結構化和非結構化剪枝。CAP統一於對比學習,使得經過修剪的模型能夠從預訓練的任務不可知知識模型和精細調整的任務特定知識模型中學習。此外,為了更好地保留剪枝模型的性能,快照(即每次剪枝迭代時的中間模型)也可以作為剪枝的有效監督。我們大量的實驗表明,采用CAP能夠持續地產生顯著的改進,特別是在非常高的稀疏性場景中。在隻保留3%模型參數(即97%稀疏度)的情況下,CAP在QQP和MNLI任務中分別成功地實現了原BERT算法的99.2%和96.3%的性能。此外,我們的探索性實驗表明,經過CAP修剪的模型具有較好的泛化能力。

//www.webtourguide.com/paper/d2442bf43a31aaa81587f38a17e6c85d

成為VIP會員查看完整內容
0
12
0

時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限製了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源於人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在https://github.com/Katou2/CSTP上找到。

//www.webtourguide.com/paper/c0dee275900d84eb9dddb0d36111a0ed

成為VIP會員查看完整內容
2
13
0

近年來,圖神經網絡在文獻分類中得到了廣泛的應用。然而,現有的方法大多是基於沒有句子級信息的靜態詞同現圖,這帶來了三個挑戰:(1)詞的歧義性(2)詞的同義性(3)動態上下文依存。為了解決這些問題,我們提出了一種新的基於GNN的稀疏結構學習模型用於文檔分類。具體地說,文檔級圖最初是由句子級詞同現圖的斷開並集生成的。模型收集了一組可訓練的連接句子間不相連詞的邊,利用結構學習對動態上下文依賴的邊進行稀疏選取。具有稀疏結構的圖可以通過GNN聯合利用文檔中的局部和全局上下文信息。在歸納學習中,將改進後的文檔圖進一步輸入到一個通用的讀出函數中,以端到端方式進行圖級分類和優化。在幾個真實世界數據集上的大量實驗表明,提出的模型優於最先進的結果,並揭示了學習每個文檔稀疏結構的必要性。

//www.webtourguide.com/paper/63b66dc21199c294e92d3703a5444d25

成為VIP會員查看完整內容
0
18
0

【導讀】Transformer係列的算法模型是當下研究的熱點之一。基於Transformer的模型在自然語言處理、計算機視覺等領域得到了廣泛的應用,最具代表性的就是作為預訓練模型的核心構件,如BERT等。之前已經有相關係列Transformer綜述。來自中科院計算所的研究人員從計算機視覺三個基本任務(分類、檢測和分割)的角度對一百多種不同的視覺變換器進行了綜述,值得關注。

摘要

Transformer 是一種基於注意力的編碼器-解碼器架構,徹底改變了自然語言處理領域。受這一重大成就的啟發,最近在將類似 Transformer 的體係結構應用於計算機視覺 (CV) 領域方麵進行了一些開創性工作,這些工作已經證明了它們在各種 CV 任務上的有效性。與現代卷積神經網絡 (CNN) 相比,visual Transformers 依靠有競爭力的建模能力,在 ImageNet、COCO 和 ADE20k 等多個基準測試中取得了令人印象深刻的性能。在本文中,我們全麵回顧了針對三個基本 CV 任務(分類、檢測和分割)的一百多種不同的視覺變換器,其中提出了一種分類法來根據它們的動機、結構和使用場景來組織這些方法. 由於訓練設置和麵向任務的差異,我們還在不同的配置上評估了這些方法,以方便直觀地進行比較,而不僅僅是各種基準測試。此外,我們揭示了一係列基本但未開發的方麵,這些方麵可能使 Transformer 從眾多架構中脫穎而出,例如,鬆弛的高級語義嵌入以彌合視覺和順序 Transformer 之間的差距。最後,提出了三個有前景的未來研究方向,以供進一步研究。

//www.webtourguide.com/paper/81663beebc3e71dadb416550ed549c65

引言

Transformer [1]作為一種基於注意力的結構,首次在序列建模和機器翻譯任務中顯示出巨大的力量。如圖1所示,Transformer已經逐漸成為自然語言處理(NLP)的主要深度學習模型。最新的主流模型是一些自監督的變形金剛,預先從足夠的數據集訓練,然後在小而具體的下遊任務[2]-[9]上進行微調。生成預訓練Transformer (GPT)族[2]-[4]利用Transformer解碼器執行自回歸語言建模任務,而Transformer的雙向編碼器表示(BERT)[5]及其變體[6]、[7]作為構建在Transformer編碼器上的自動編碼器語言模型。

在計算機視覺(CV)領域,在視覺轉換器模型之前,卷積神經網絡(CNN)已經成為一個主導範式[10]-[12]。受NLP[1]和[13]中自注意力機製的巨大成功啟發,一些基於CNN的模型試圖通過一個額外的空間[14]-[16]或通道級別[17]-[19]的自注意力層來捕捉長期依賴。而另一些人則試圖用全局[20]或局部自注意力塊[21]-[25]來完全替代傳統的卷積。雖然Cordonnier等人從理論上證明了自注意力塊[26]的有效性和效率,但在主流基準上,這些純注意力模型仍然不如當前最先進的(SOTA) CNN模型。

如上所述,基於注意力的模型在視覺識別領域受到了極大的關注,而vanilla Transformer在NLP領域取得了巨大的成功。受到這些啟發,最近有許多作品將Transformer移植到CV任務中,並取得了可比性的結果。例如Dosovitskiy等人[27]提出了一種使用圖像patch作為圖像分類輸入的純Transformer,在許多圖像分類基準上已經實現了SOTA。此外,visual transformer在其他CV任務中也取得了良好的性能,如檢測[28]、分割[29]、跟蹤[30]、圖像生成[31]、增強[32]。如圖1所示,在[27]、[28]之後,在過去的一年中,針對各個領域提出了數百種基於transformer的模型。因此,我們迫切需要一個係統的文獻調研來識別、分類和批判性地評估這些新出現的視覺Transformer的表現。考慮到讀者可能來自不同的領域,我們針對這些現有的視覺變形金剛進行三個基本的CV任務,包括分類、檢測和分割。如圖2所示,本綜述將所有這些現有方法根據其任務、動機和結構特征分為多個組。其中一些可能部分重疊。例如,一些改進不僅提高了骨幹在圖像分類中的性能,而且還提高了密集預測任務(即檢測和分割)的性能,許多深度和層次的方法也通過改進CNN和attention來實現。

去年發表了幾篇關於Transformer的綜述,Tay等[86]綜述了Transformer在NLP中的效率,Khan等[87]和Han等[88]總結了早期的視覺變形和先前的注意力模型,以及一些沒有係統方法的語言模型。Lin等人介紹了Transformer的最新綜述,對Transformer的各種變體進行了係統的綜述,並簡要地提到了可視化應用[89]。基於這些觀察,本文旨在對近期的視覺Transformer進行全麵的回顧,並對現有的方法進行係統的分類:

(1)全麵性和可讀性。本文全麵回顧了100多個視覺Transformers的三個基本任務:分類、檢測和分割。我們選取並分析了50多個具有代表性的模型,如圖2所示。我們不僅從單一的角度對每個模型進行詳盡的分析,而且還通過遞進、對比和多視角分析等意義來建立它們之間的內在聯係。

(2)直觀的比較。由於這些Transformers在不同的任務中遵循不同的訓練方案和超參數設置,本綜述通過將它們在不同的數據集和限製下分離,呈現了多個橫向比較。在此基礎上,我們總結了針對每個任務設計的一係列有前途的組件,包括: 基於層次結構的主幹淺局部卷積,基於稀疏注意的空間先驗加速,以及用於分割的通用掩模預測方案。

(3) 深入分析。我們進一步提供了以下方麵的重要見解: 從順序任務到視覺任務的轉換過程,Transformer與其他視覺網絡之間的對應關係,以及不同任務中可學習嵌入(即類標記、對象查詢、掩碼嵌入)的相關性。最後,展望了未來的研究方向。例如,編碼器-解碼器Transformer骨幹可以通過學習嵌入來統一三個子任務。

本文的其餘部分組織如下。第2節介紹了原始Transformer的概述架構和關鍵組件。第三章總結了Transformer 主幹的綜合分類,並簡要討論了圖像分類。然後我們回顧了當代的Transformer檢測器,包括第四節中的Transformer neck和backbone。第五節根據嵌入的形式(即patch embedding和query embedding),闡明了在分割領域中主流的Transformer變體。此外,第二章-第四章還簡要分析了其相應領域的績效評價的具體方麵。第六章從三個方麵進行了進一步的探討,並指出了未來進一步研究的方向。

總結

在上述比較和討論的基礎上,我們現就以下三項基本任務近期的改進情況作一簡要總結。

  • 對於分類,一個深度層次的Transformer主幹可以有效地降低計算複雜度[39],並在深度避免特征過平滑[35],[40],[59],[60]。同時,早期卷積[37]足以捕獲低級特征,可以顯著增強淺層的魯棒性,降低計算複雜度。卷積投影[46]、[47]和局部注意力機製[33]、[42]都可以改善Transformer的局部性。[48]、[49]也可能是一種用位置編碼替代的新方法。

  • 在檢測方麵,Transformer骨幹得益於編碼器-解碼器結構,比僅使用編碼器的Transformer檢測器計算更少[73]。因此,解碼器是必要的,但由於其收斂速度慢[72],需要的堆棧很少[70]。此外,稀疏注意力[67]有利於降低計算複雜度,加速Transformer的收斂,而空間先驗[67]、[69]、[71]則有利於Transformer的性能,收斂速度稍快。

  • 對於分割,編碼器-解碼器Transformer模型可以通過一係列可學習的掩碼嵌入[29],[84],[137],將三個分割子任務統一為一個掩碼預測問題。這種無箱方法在多個基準上實現了最新的SOTA[137]。此外,還證明了基於box-based Transformer的特定混合任務級聯模型[81]在實例分割任務中獲得了更高的性能。

成為VIP會員查看完整內容
2
61
0

摘要: 卷積神經網絡(convolutional neural network, CNN)在圖像處理、語音識別、自然語言處理等領域實現了很好的性能.大規模的神經網絡模型通常遭遇計算、存儲等資源限製,稀疏神經網絡的出現有效地緩解了對計算和存儲的需求.盡管現有的領域專用加速器能夠有效處理稀疏網絡,它們通過算法和結構的緊耦合實現高能效,卻喪失了結構的靈活性.粗粒度數據流架構通過靈活的指令調度可以實現不同的神經網絡應用.基於該架構,密集卷積規則的計算特性使不同通道共享相同的一套指令執行,然而稀疏網絡中存在權值稀疏,使得這些指令中存在0值相關的無效指令,而現有的指令執行方式無法自動跳過它們從而產生無效計算.同時在執行不規則的稀疏網絡時,現有的指令映射方法造成了計算陣列的負載不均衡.這些問題阻礙了稀疏網絡性能的提升.基於不同通道共享一套指令的前提下,根據稀疏網絡的數據和指令特征增加指令控製單元實現權值數據中0值相關指令的檢測和跳過,同時使用負載均衡的指令映射算法解決稀疏網絡中指令執行不均衡問題.實驗表明:與密集網絡相比稀疏網絡實現了平均1.55倍的性能提升和63.77%的能耗減少.同時比GPU(cuSparse)和Cambricon-X實現的稀疏網絡分別快2.39倍(Alexnet)、2.28倍(VGG16)和1.14倍(Alexnet)、1.23倍(VGG16).

https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200112

成為VIP會員查看完整內容
0
12
0

雖然預訓練語言模型(例如BERT)在不同的自然語言處理任務上取得了令人印象深刻的結果,但它們有大量的參數,並承受著巨大的計算和內存成本,這使得它們難以在現實世界中部署。因此,為了降低預訓練模型的計算和存儲成本,需要對模型進行壓縮。在這項工作中,我們的目標是壓縮BERT,並解決以下兩個具有挑戰性的實際問題: (1)壓縮算法應該能夠輸出多個不同大小和延遲的壓縮模型,以支持不同內存和延遲限製的設備;(2)算法應與下遊任務無關,這樣壓縮模型一般適用於不同的下遊任務。我們利用神經結構搜索(NAS)中的技術,提出了一種有效的BERT壓縮方法NAS-BERT。NAS-BERT在精心設計的搜索空間上訓練一個大型超級網絡,該搜索空間包含各種架構,並輸出具有自適應大小和延遲的多個壓縮模型。此外,NAS-BERT的訓練是在標準的自監督的訓練前任務(如掩體語言模型)上進行的,不依賴於特定的下遊任務。因此,壓縮的模型可以跨任務使用。NAS-BERT的技術挑戰在於,在訓練前的任務上訓練一個大型超級網絡是極其昂貴的。我們采用了塊搜索、搜索空間剪枝和性能逼近等技術來提高搜索效率和準確性。對GLUE和SQuAD基準數據集的大量實驗表明,NAS-BERT可以找到比以前的方法更精確的輕量級模型,並可以直接應用於不同的下遊任務,這些任務具有適應的模型規模,以滿足不同的內存或延遲需求。

//www.webtourguide.com/paper/6f115ce6f43323f92838b15e0030f2a4

成為VIP會員查看完整內容
0
8
0

基於meta-learning的方法在有噪聲標注的圖像分類中取得了顯著的效果。這類方法往往需要大量的計算資源,而計算瓶頸在於meta-gradient的計算上。本文提出了一種高效的meta-learning更新方式:Faster Meta Update Strategy (FaMUS),加快了meta-learning的訓練速度 (減少2/3的訓練時間),並提升了模型的性能。首先,我們發現meta-gradient的計算可以轉換成一個逐層計算並累計的形式; 並且,meta-learning的更新隻需少量層數在meta-gradient就可以完成。基於此,我們設計了一個layer-wise gradient sampler 加在網絡的每一層上。根據sampler的輸出,模型可以在訓練過程中自適應地判斷是否計算並收集該層網絡的梯度。越少層的meta-gradient需要計算,網絡更新時所需的計算資源越少,從而提升模型的計算效率。

並且,我們發現FaMUS使得meta-learning更加穩定,從而提升了模型的性能。最後,我們在有噪聲的分類問題以及長尾分類問題都驗證了我們方法的有效性。

//www.webtourguide.com/paper/fda93b750216436e45e6f660ed76776e

成為VIP會員查看完整內容
0
15
0

本文是第一個將Transformers應用於視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計複雜的流程來解決此問題。本文提出了一種基於Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的並行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,並且在YouTube-VIS數據集上實現了最快的速度。

//www.webtourguide.com/paper/0dfba6abdc5e6a189d86770822c17859

成為VIP會員查看完整內容
1
27
0

本文由香港科技大學和騰訊優圖實驗室聯合提出。目標檢測網絡已經被廣泛應用到安保,自動駕駛,醫學圖像等各個領域。然而傳統的目標檢測網絡需要使用大量高質量的訓練樣本對模型進行訓練。這些訓練樣本需要大量的人力物力進行標注,往往無法快速獲得,所以無法將目標檢測模型快速部署到新樣本的檢測中,而小樣本目標檢測方法可以很好地解決這一問題。我們提出了一種基於深度孿生網絡的小樣本目標檢測模型,通過基於注意力機製的候選框網絡,多關係檢測器以及三元組對比訓練方法對網絡進行改進,使得網絡能夠不對新物體重新訓練即可應用於新類別檢測。此外,我們提供了一個1000類的小樣本物體檢測數據集,希望可以方便該領域的研究。

我們的工作主要有以下貢獻:

首先,我們使用注意力機製對物體檢測候選框進行篩選。我們將待檢測新物體的特征作為濾波器在輸入圖片上進行卷積,以此找出潛在的候選框區域。

然後,我們使用多關係檢測器對這些候選框進行分類以及位置調整。多關係檢測器對候選框和新物體進行像素級、區域級和全圖級的多級關係匹配,以此找出匹配程度最高的區域作為檢測輸出。

最後,我們構建(目標樣本,正樣本,負樣本)訓練樣本三元組對模型進行訓練,使得網絡能夠同時學習到相同物體間的相似性和不同物體間的差異性,從而大大提升網絡在新樣本上的檢測性能。我們的方法在多個數據集上均取得了最好的結果,且無需在新物體上進行任何訓練。其基本框架圖如下:

成為VIP會員查看完整內容
2
31
0
小貼士
相關資訊
微軟亞研提出VL-BERT:通用的視覺-語言預訓練模型
機器之心
14+閱讀 · 2019年9月3日
基於深度學習的視頻目標檢測綜述
CVer
5+閱讀 · 2019年6月9日
Colab 免費提供 Tesla T4 GPU,是時候薅羊毛了
機器之心
10+閱讀 · 2019年4月25日
CMU、穀歌提出Transformer-XL:學習超長上下文關係
機器之心
8+閱讀 · 2019年1月18日
基於手機係統的實時目標檢測
計算機視覺戰隊
8+閱讀 · 2018年12月5日
【CVPR2018】物體檢測中的結構推理網絡
深度學習大講堂
4+閱讀 · 2018年7月30日
論文筆記:多任務相關粒子濾波跟蹤器
統計學習與視覺計算組
8+閱讀 · 2017年7月7日
微信掃碼谘詢專知VIP會員
Top