https://zhuanlan.zhihu.com/p/41691301 [2] https://www.zhihu.com/question/60109389/answer/203099761 [3] https://zhuanlan.zhihu.com/p/31427164 [4] https://zhuanlan.zhihu.com/p/23006190 [5] https://blog.csdn.net/weixin_37763809/article/details/88256828 [6] https://zhuanlan.zhihu.com/p/37505777 [7] https://zhuanlan.zhihu.com/p/77221549 [8] https://www.zhihu.com/question/433702668/answer/1617092684 [9] https://blog.csdn.net/zouxy09/article/details/7929348 [10] https://www.jiqizhixin.com/articles/2020-01-01

"> CVPR 二十年,影響力最大的 10 篇論文! - 專知VIP

CVPR是計算機視覺領域三大頂會中唯一一個年度學術會議。在快速更新迭代的計算機學科中,CVPR成為了計算機視覺領域的“頂級流量”。而在過去的這些年間,CVPR也有著許多的變化。在十多年前,CVPR不過1500人的參會規模,到了2019年參會人數已經超過了6500人,投稿數量也年年增長。

雖然CVPR每年都會評選出最佳論文,但我們今天將從另一個角度來評選CVPR這二十年來的TOP10。即以Web of Science上顯示的論文的引用量作為論文影響力的參考,排列出近二十年來影響力最大的十篇論文。接下來我們將依次進行介紹。

TOP10Rethinking the Inception Architecture for Computer VisionCVPR 2016

作者:Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,Jon Shlens,Zbigniew Wojna

機構:Google,倫敦大學

被引頻次:4751

這篇論文又被稱為Inception-v3,是GoogLeNet(Inception-v1)的延伸。GoogLeNet首次出現於2014年ILSVRC 比賽,並在當年的比賽中獲得了冠軍。Inception-v1的參數量遠小於同期VGGNet,而性能卻與之基本持平。相較於Inception-v1,Inception-v3做出的主要改進則是將卷積進行非對稱拆分,以顯著降低參數量,同時使得空間特征更為豐富。

TOP9Densely Connected Convolutional NetworksCVPR 2017

作者:Gao Huang,Zhuang Liu,Laurens van der Maaten,Kilian Q. Weinberger

機構:康奈爾大學,清華大學,Facebook AI Research

被引頻次:5181

DenseNet也是CVPR2017的最佳論文之一。在當時的神經網絡模型都遇到一個問題:隨著網路層數的加深,訓練過程中的前傳信號和梯度信號在經過很多層之後可能會逐漸消失。而DenseNet的核心思想解決了這一問題。它對前每一層都加一個單獨的 shortcut,使得任意兩層網絡都可以直接“溝通”。

而DenseNet的不足之處在於它的內存占用十分龐大。但瑕不掩瑜,DenseNet以其極具創新性的思路,不僅顯著減輕了深層網絡在訓練過程中梯度消散而難以優化的問題,同時也取得了非常好的性能。

TOP8You Only Look Once: Unified, Real-Time Object DetectionCVPR 2016

作者:Joseph Redmon,Santosh Divvala,Ross Girshick,Ali Farhadiq

機構:華盛頓大學,Allen Institute for AI,Facebook AI Research

被引頻次:5295

這一篇論文就是在目標檢測領域大名鼎鼎的YOLO。其最新的版本已經更新到了YOLOv5,且每一代的發布都能在行業內卷齊新的熱潮。

用YOLO的英文直譯解釋這一方法,就是隻需要瀏覽一次就能識別出圖中的物體的類別和位置。展開來說,YOLO的核心思想就是將目標檢測轉化為回歸問題求解,並基於一個單獨的端到端網絡,完成從原始圖像的輸入到物體位置和類別的輸出。這使得網絡結構簡單,且極大提升了檢測速度。由於網絡沒有分支,所以訓練也隻需要一次即可完成。之後的很多檢測算法都借鑒了這一思路。

TOP7Rich feature hierarchies for accurate object detection and semantic segmentationCVPR 2014

作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik

機構:加利福尼亞大學伯克利分校

被引頻次:6876

這篇文章的排名在YOLO之前,既合理又巧妙。因為在YOLO之前,目標檢測領域可以說是RCNN的世界。RCNN是將CNN引入目標檢測的開山之作,它改變了目標檢測領域的主要研究思路。緊隨其後的係列文章,如Fast RCNN和Faster RCNN等,都代表了該領域當時的最高水準。

在RCNN前經典的目標檢測算法是使用滑動窗法依次判斷所有可能的區域,而RCNN則采用Selective Search方法預先提取一係列較可能是物體的候選區域,之後僅在這些候選區域上提取特征,這使得檢測的速度大大提升。

TOP6Rapid object detection using a boosted cascade of simple featuresCVPR 2001

作者:Paul Viola,Michael Jones

機構:三菱電氣實驗室 ,康柏劍橋研究實驗室

被引頻次:7033

這篇論文是本次盤點中最先發表的一篇,比其他九篇文章都早了十年左右,它在傳統人臉檢測中具有裏程碑意義,因而本文提出的思想聚焦於傳統的目標檢測。

這篇論文主要解決了三個問題:一是減少了計算特征的時間,二是構建了簡單又很有效的單分支決策樹分類器,最後是從簡單到複雜把多個分類器級聯,對可能包含人臉的區域進行重點檢測,從而顯著提升了檢測速度。

TOP5Going Deeper with ConvolutionsCVPR 2015

作者:Christian Szegedy,Dragomir Anguelov, Dumitru Erhan,Vincent Vanhoucke,Yangqing Jia,Pierre Sermanet,Wei Liu,Scott Reed,Andrew Rabinovich

機構:Google,北卡羅來納大學,密歇根大學

發布時間:2015年

被引頻次:7269

可能大家已經發現了亮點,這篇論文的係列工作在前麵就出現過。這篇論文就是開辟Inception家族,並在CNN分類器發展史上留下濃墨重彩的一筆的GoogLeNet。

在 Inception 出現之前,大部分流行 CNN 是將卷積層不斷堆疊,讓網絡越來越深來得到更好的性能。而GoogLeNet 最大的特點就是使用 Inception 模塊,並設計一種具有優良局部拓撲結構的網絡,對輸入圖像並行地執行多個卷積運算或池化操作,將所有輸出結果拚接為一個非常深的特征圖。通過這種方式,GoogLeNet取得了非常驚豔的效果。

TOP4ImageNet: A Large-Scale Hierarchical Image DatabaseCVPR 2009

作者:Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li,Li Fei-Fei

機構:普林斯頓大學

發布時間:2009年

被引頻次:8222

ImageNet是AI女神李飛飛團隊構建的計算機視覺領域非常著名的海量的帶標注圖像數據集。它在圖像分類、目標分割和目標檢測中都有著無法撼動的地位。ImageNet從 2007 年開始到 2009 年完成,有超過 1500 萬張圖片。

可以毫不誇張的說,ImageNet 是圖像處理算法的試金石。另外,從 2010 年起,每年 ImageNet 官方會舉辦挑戰賽。Hinton團隊提出的AlexNet也是在2012年的ImageNet挑戰賽上一舉成名,自此深度學習的熱潮被點燃。

TOP3Fully Convolutional Networks for Semantic SegmentationCVPR 2015

作者:Jonathan Long,Evan Shelhamer,Trevor Darrell

發布時間:2015年

被引頻次:9027

FCN在我們之前盤點的圖像分割TOP10中就出現過,並高居第一位。作為語義分割的開山之作,無論是圖像分割TOP1,還是CVPRTOP3,FCN都是當之無愧的。FCN所提出的全卷積網絡的概念,開創了用FCN做實例和像素級別理解係列方法的先河。後續非常多的方法都受到了FCN的思路啟發。FCN的提出為目標識別、檢測與分割也都做出了巨大的貢獻。

TOP2Histograms of oriented gradients for human detectionCVPR 2005

作者:Navneet Dalal,Bill Triggs

被引頻次:13389

圖片 這篇論文所提出的方法簡稱HOG,是一種是非常經典的圖像特征提取方法,在行人識別領域被應用得尤為多。雖然文章已經發表了十五年,但仍然常常被人們用於最新工作的思路參考。HOG將圖像分成小的連通區域,將它稱為細胞單元,然後采集細胞單元中各像素點的梯度的或邊緣的方向直方圖,把這些直方圖組合起來就可以構成特征描述器。

TOP1Deep Residual Learning for Image RecognitionCVPR2016

作者:Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun

被引頻次:32065

這篇論文作為第一名,的確是當之無愧。作為CVPR2016的最佳論文,它所提出的ResNet不僅在計算機視覺領域,而是在深度學習領域中都帶來了顛覆式影響。

在當年,ResNet橫掃 ImageNet 2015和COCO 榜單。也是從ResNet開始,神經網絡在視覺分類任務上的性能第一次超越了人類。它也讓當時第二次獲得CVPR Best Paper的何愷明正式踏上了大神之路。

最初 ResNet 的設計是用來處理深層 CNN 結構中梯度消失和梯度爆炸的問題,它將輸入從卷積層的每個塊添加到輸出,讓每一層更容易學習恒等映射,並且還減少了梯度消失的問題。而如今,殘差模塊已經成為幾乎所有 CNN 結構中的基本構造。

最後,我們來進行一下簡要地總結。雖然本次盤點的是20年內CVPRTOP10,但是有超過半數的論文都是在近十年發表的,由此可以窺見深度學習在近年來的飛躍式發展。因此我們可以期待在未來的計算機視覺領域,一定會有更多更強的工作,為我們的科研與生活帶來更快更好的提升。

參考資料

[1]https://zhuanlan.zhihu.com/p/41691301[2]https://www.zhihu.com/question/60109389/answer/203099761[3]https://zhuanlan.zhihu.com/p/31427164[4]https://zhuanlan.zhihu.com/p/23006190[5]https://blog.csdn.net/weixin_37763809/article/details/88256828[6]https://zhuanlan.zhihu.com/p/37505777[7]https://zhuanlan.zhihu.com/p/77221549[8]https://www.zhihu.com/question/433702668/answer/1617092684[9]https://blog.csdn.net/zouxy09/article/details/7929348[10]https://www.jiqizhixin.com/articles/2020-01-01

成為VIP會員查看完整內容
0
27
1

相關內容

計算機視覺是一門研究如何使機器“看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數據中獲取‘信息’的人工智能係統。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021對比學習(Contrastive Learning)在計算機視覺上的應用,這塊這幾年一直比較受關注,特別是具體領域應用等等?大家先睹為快——圖像去霧、少樣本學習、多模態視頻學習、密集CL、對抗CL

CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Contrastive Learning for Compact Single Image Dehazing

作者:Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie , Lizhuang Ma

摘要:由於嚴重的信息退化,單圖像去霧是一個具有挑戰性的問題。然而,現有的基於深度學習的除霧方法僅采用清晰的圖像作為正樣本來指導除霧網絡的訓練,而未利用負樣本信息。而且,它們中的大多數集中在通過增加深度和寬度來增強除霧網絡,從而導致大量的計算和內存需求。在本文中,我們提出了一種基於對比學習的新穎對比正則化(CR)技術,以利用模糊圖像和清晰圖像的信息分別作為負樣本和正樣本。CR確保在表示空間中將還原後的圖像拉到更接近清晰圖像,並推到遠離朦朧圖像的位置。此外,考慮到性能和內存存儲之間的權衡,我們基於類自動編碼器(AE)框架開發了一個緊湊的除霧網絡。它涉及自適應混合操作和動態特征增強模塊,分別受益於自適應地保存信息流和擴展接收域以提高網絡的轉換能力。我們將具有自動編碼器和對比正則化功能的除霧網絡稱為AECR-Net。在合成和真實數據集上進行的廣泛實驗表明,我們的AECR-Net超越了最新技術。

論文:https://arxiv.org/abs/2104.09367

代碼:https://github.com/GlassyWu/AECR-Net

2. Fine-grained Angular Contrastive Learning with Coarse Labels

作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky

摘要:Few-shot學習方法會提供經過優化的預訓練技術,以便使用一個或幾個示例輕鬆地將模型適應新類(在訓練過程中看不見)。這種對不可見類別的適應性對於許多實際應用尤為重要,在這些實際應用中,預先訓練的標簽空間無法保持固定以有效使用,並且模型需要“特殊化”以支持動態的新類別。粗粒度到細粒度(Coarse-to-Fine)Few-Shot(C2FS)是一種特別有趣的場景,基本上被Few-Shot文獻所忽略,其中訓練(train)類(例如,動物)的粒度比目標(test)類的“粒度”粗得多(例如品種)。C2FS的一個非常實際的示例是目標類是訓練類的子類。直觀地講,這是特別具有挑戰性的,因為包括regular and few-shot的有監督的預訓練往往會學會忽略類內差異性,這對於分離子類至關重要。在本文中,我們介紹了一種新穎的“角度歸一化(Angular normalization)”模塊,該模塊可以有效地結合監督和自監督的對比預訓練來解決C2FS任務,從而證明了在多個基準和數據集的廣泛研究中所取得的顯著成果。我們希望這項工作將有助於為有關C2FS分類這一新的,具有挑戰性且非常實用的主題的未來研究鋪平道路。

論文:https://arxiv.org/abs/2012.03515

3. Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata

摘要:與從單模態學習相比,獲得多模態線索,(例如,視覺和音頻)可以更快地完成某些認知任務。在這項工作中,我們建議在跨模態中傳輸知識,即使這些數據模態在語義上可能不相關。與直接對齊不同模態的表示不同,我們組合音頻,圖像和視頻的跨模態表示,以發現更豐富的多模態知識。我們的主要思想是學習一種組合嵌入表示,這種嵌入可以縮小跨模態語義鴻溝並捕獲與任務相關的語義,這有助於通過組合對比學習將跨模態的表示整合在一起。我們在三個視頻數據集(UCF101,ActivityNet和VG-GSound)上建立了一個新的,全麵的多模態蒸餾基準。此外,我們證明了我們的模型在傳輸視聽知識以改善視頻表示學習方麵,明顯優於各種現有的知識蒸餾方法。

論文:https://arxiv.org/abs/2104.10955

代碼:https://github.com/yanbeic/CCL

4. Dense Contrastive Learning for Self-Supervised Visual Pre-Training

作者:Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li

摘要:迄今為止,大多數現有的自監督學習方法都是針對圖像分類進行設計和優化的。由於圖像級預測和像素級預測之間的差異,這些預訓練的模型對於密集的預測任務可能不是最佳的。為了解決這個問題,我們旨在設計一種有效,密集的自監督學習方法,通過考慮局部特征之間的對應關係,直接在像素(或局部特征)級別上起作用。我們提出了密集的對比學習(DenseCL),該算法通過在輸入圖像的兩個視圖之間的像素級別上優化成對的對比(不相似)損失來實現自監督學習。

與基準方法MoCo-v2相比,我們的方法引入的計算開銷(僅慢了1%)可忽略不計,但是在轉移到下遊密集的預測任務(包括目標檢測,語義分割和實例分割)時,始終表現出優異的性能;並大大領先於最新技術。具體而言,在強大的MoCo-v2基線上,我們的方法在PASCAL VOC數據集對象檢測任務上的AP顯著提升2.0%,COCO數據集對象檢測任務上的AP顯著提升1.1%,COCO數據集實例分割任務上的AP提升0.9%,PASCAL VOC數據集語義分割任務上的AP提升3.0% Cityscapes數據集語義分割任務上mIoU顯著提升1.8%。

論文:https://arxiv.org/abs/2011.09157

代碼:https://git.io/DenseCL

5. AdCo: Adversarial Contrast for Efficient Learning of Unsupervised Representations from Self-Trained Negative Adversaries

作者:Qianjiang Hu, Xiao Wang, Wei Hu, Guo-Jun Qi

摘要:對比學習依賴於構建一個負樣本集合,當負樣本的表示是經過自訓練時,負樣本很難與正樣本的查詢(query)區分開來。現有的對比學習方法要麼在小批量樣本中含有負樣本隊列,而隻有一小部分在迭代中被更新,要麼隻使用當前小批量樣本中的其他樣本作為負樣本。他們無法通過更新整個隊列來密切跟蹤迭代過程中學習到的表示的變化,也無法從使用過的小批量樣本中剔除有用信息。或者,我們提出直接學習一組負樣本來對抗自我訓練的表示。兩個角色,表示網絡和負樣本對抗,交替更新來獲取最具挑戰性的負樣本,以區分正樣本查詢的表示。我們進一步表明,通過最大化對抗性對比損失,負樣本被更新為正樣本查詢的加權組合,從而他們能夠隨著時間密切跟蹤表示的變化。實驗結果表明,本文所提出的對抗對比模型(AdCo)不僅具有出色的性能(在ImageNet上進行線性評估,200個epoch時 top-1準確度為73.2%,800個epoch時為75.7%),而且可以在更短的GPU時間和更少的epoch條件下進行更有效的預訓練。

論文:https://arxiv.org/abs/2011.08435

代碼:https://github.com/maple-research-lab/AdCo

成為VIP會員查看完整內容
0
16
0

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021視頻理解(Video Understanding)相關論文,讓大家先睹為快——長視頻學習、指稱表達、VideoMoCo、視頻預測、自監督視頻表示學習

CVPR2021OD、CVPR2021AR

1. PGT: A Progressive Method for Training Models on Long Videos

作者:Bo Pang, Gao Peng, Yizhuo Li, Cewu Lu

摘要:卷積視頻模型的計算複雜度比其對應的圖像級模型大一個數量級。受計算資源的約束,沒有模型或訓練方法可以端到端訓練長視頻序列。目前,主流方法是將原始視頻分割成片段,導致片段時間信息流不完整,受自然語言處理長句的啟發,我們建議將視頻視為滿足馬爾可夫性質的連續片段,並將其訓練為通過逐步擴展信息在時間維度上的整體傳播。這種漸進式訓練(PGT)方法能夠以有限的資源端對端地訓練長視頻,並確保信息的有效傳輸。作為一種通用且強大的訓練方法,我們通過經驗證明了該方法在不同模型和數據集上均具有顯著的性能改進。作為說明性示例,我們提出的方法將Chalow上的SlowOnly網絡提高了3.7 mAP,在Kinetics 方麵提高了1.9 top-1的精度,而參數和計算開銷卻可以忽略不計。

代碼:

https://github.com/BoPang1996/PGT

網址:https://arxiv.org/abs/2103.11313

2. Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos

作者:Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo, Shih-Fu Chang

摘要:在本文中,我們解決了在視頻中引用了指稱表達(Referring Expression)的問題,這個任務由於複雜的表達和場景動態而具有挑戰性。與以前的解決方案可以在多個階段(即跟蹤,基於proposal的匹配)解決問題的方法不同,我們從新穎的角度出發使用單階段框架—co-grounding。我們通過語義注意力學習來提高單幀 grounding 的準確性,並通過聯合co-grounding特征學習來提高跨幀 grounding的一致性。語義注意力學習顯式地解析具有不同屬性的線索,以減少複雜表達中的歧義。co-groundin特征學習通過集成時間相關性來減少由場景動態引起的模糊性,從而增強了視覺特征表示。實驗結果證明了我們的框架在video grounding數據集VID和LiOTB上的優越性,可以跨幀生成準確而穩定的結果。我們的模型還適用於引用圖像中的指稱表達(Referring Expression),這可以通過RefCOCO數據集上的改進性能來說明。

代碼:https://sijiesong.github.io/co-grounding

網址:https://arxiv.org/abs/2103.12346

3. VideoMoCo: Contrastive Video Representation Learning with Temporally Adversarial Examples

作者:Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu

摘要:MOCO對於無監督的圖像表示學習是有效的。在本文中,我們針對無監督視頻表示學習提出VideomoCo。給出視頻序列作為輸入樣本,我們從兩個視角改善MoCo的時間特征表示。首先,我們介紹一個生成器,以便在時間上刪除幾個幀。然後學習鑒別器以編碼類似的特征表示,無論幀移除如何。通過在訓練攻擊期間自適應地丟棄不同的幀,我們將該輸入樣本增強以訓練一個時間魯棒的編碼器。其次,在計算對比損耗時,我們使用時間衰減來模擬內存隊列中的鍵(key)衰減。動量編碼器在鍵進入後進行更新,當我們使用當前輸入樣本進行對比學習時,這些鍵的表示能力會下降。這種下降通過時間衰減反映出來,以使輸入樣本進入隊列中的最近鍵。結果,我們使MoCo能夠學習視頻表示,而無需憑經驗設計pretext任務。通過增強編碼器的時間魯棒性並為鍵的時間衰減建模,我們的VideoMoCo基於對比學習在時間上提高了MoCo。在包括UCF101和HMDB51在內的基準數據集上進行的實驗表明,VideoMoCo是最先進的視頻表示學習方法。

代碼:https://github.com/tinapanpt/VideoMoCo

網址:

https://arxiv.org/abs/2103.05905

4. Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction

作者:Bohan Wu, Suraj Nair, Roberto Martin-Martin, Li Fei-Fei, Chelsea Finn

摘要:拓展到不同場景的視頻預測模型將使智能體(agent)能夠通過使用模型規劃來執行多種任務。然而,雖然現有的視頻預測模型在小型數據集上產生了有希望的結果,但在大型和多樣化的數據集上訓練時,它們會遭受嚴重的欠擬合(underfitting)。為了解決這種欠擬合挑戰,我們首先觀察到訓練更大的視頻預測模型的能力通常是通過GPU或TPU的內存限製的。同時,深層次的潛在變量模型可以通過捕獲未來觀測值的多級隨機性來產生更高質量的預測,但是這種模型的端到端優化特別困難。我們的主要想法在於,通過對分層自編碼器的貪婪和模塊化優化可以同時解決內存限製和大規模視頻預測的優化挑戰。我們介紹貪婪的分層變分自編碼器(GHVAES),這是一種通過貪婪訓練分層自編碼器的每個級別來學習Highfivelity視頻預測的方法。GHVAE在四個視頻數據集上的預測性能提高了17-55%,在實際機器人任務上的成功率提高了35-40%,並且可以通過簡單地添加更多內容來提高性能模塊。

代碼:https://sites.google.com/view/ghvae

網址:https://arxiv.org/abs/2103.04174

5. Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning

作者:Jinpeng Wang, Yuting Gao, Ke Li, Yiqi Lin, Andy J. Ma, Hao Cheng, Pai Peng, Rongrong Ji, Xing Sun

摘要:通過從數據本身監督,自監督學習表現出了提高深神經網絡的視頻表示能力的巨大潛力。然而,一些當前的方法傾向於從背景中欺騙,即,預測高度依賴於視頻背景而不是運動,使得模型容易受到背景的變化。為了減輕模型依賴背景,我們建議通過添加背景來消除背景影響。也就是說,給定視頻,我們隨機選擇靜態幀並將其添加到每個其他幀以構建分散注意力的視頻樣本。然後我們強製模型拉動分散的視頻的特征和原始視頻的特征,以便明確地限製模型以抵抗背景影響,更多地關注運動變化。我們將我們的方法命名為Background Erasing (BE)。值得注意的是,我們的方法的實現非常簡單,可以很輕鬆地添加到大多數SOTA方法中。具體而言,在嚴重bias的數據集UCF101和HMDB51上具有16.4%和19.1%的改善,對較少bias的數據集Diving48改進了14.5%。

網址:https://arxiv.org/abs/2009.05769

成為VIP會員查看完整內容
0
24
0

【導讀】作為計算機視覺領域的三大國際頂會之一,IEEE國際計算機視覺與模式識別會議CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都會吸引全球領域眾多專業人士參與。CVPR 2021將在線舉行, 中國科學院院士、中科院自動化所智能感知與計算研究中心主任譚鐵牛將出任大會主席(General Chair,GC),上海科技大學的虞晶怡教授將任程序主席(Program Chair,PC)。今年的CVPR有效投稿多達7500篇,一共有1663篇論文被接收,接收率為27%。

為此,專知小編提前為大家整理了五篇CVPR 2021視覺目標檢測(Object Detection)相關論文,讓大家先睹為快——開放域目標檢測、實例蒸餾、多實例主動學習、自監督多目標檢測、少樣本目標檢測

1. Towards Open World Object Detection

作者:K J Joseph, Salman Khan, Fahad Shahbaz Khan, Vineeth N Balasubramanian

摘要:人類具有識別其環境中未知目標實例的本能。當相應的知識最終可用時,對這些未知實例的內在好奇心有助於學習它們。這促使我們提出了一個新穎的計算機視覺問題:“開放世界目標檢測”,該模型的任務是:1)在沒有明確監督的情況下將尚未引入該目標的目標識別為“未知”,以及2)當逐漸接收到相應的標簽時,逐步學習這些已識別的未知類別,而不會忘記先前學習的類別。我們提出了問題,引入了強大的評價準則並提供了一種新穎的解決方案,我們稱之為ORE:基於對比聚類和基於能量的未知標識的開放世界目標檢測器。我們的實驗評估和消去實驗研究分析了ORE在實現開放世界目標方麵的功效。作為一個有趣的副產品,我們發現識別和表征未知實例有助於減少增量目標檢測設置中的混亂,在此方法中,我們無需任何方法上的努力即可獲得最先進的性能。我們希望我們的工作將吸引對這個新發現的但至關重要的研究方向的進一步研究。

圖片 代碼:

https://github.com/JosephKJ/OWOD

網址:

https://arxiv.org/abs/2103.02603

2. General Instance Distillation for Object Detection

作者:Xing Dai, Zeren Jiang, Zhao Wu, Yiping Bao, Zhicheng Wang, Si Liu, Erjin Zhou

摘要:近年來,知識蒸餾已被證明是模型壓縮的有效解決方案。這種方法可以使輕量級的學生模型獲得從繁瑣的教師模型中提取的知識。但是,先前的蒸餾檢測方法對於不同的檢測框架具有較弱的概括性,並且嚴重依賴ground truth (GT),而忽略了實例之間有價值的關係信息。因此,我們提出了一種新的基於區分性實例檢測任務的蒸餾方法,該方法不考慮GT區分出的正例或負例,這稱為一般實例蒸餾(GID)。我們的方法包含一個通用實例選擇模塊(GISM),以充分利用基於特征的,基於關係的和基於響應的知識進行蒸餾。廣泛的結果表明,在各種檢測框架下,學生模型可顯著提高AP的表現,甚至優於教師模型。具體來說,在Reconet上使用ResNet-50的RetinaNet在COCO數據集上具有GID的mAP達到了39.1%,比基線的36.2%超出了2.9%,甚至比具有38.1%的AP的基於ResNet-101的教師模型更好。

圖片 網址:

https://arxiv.org/abs/2103.02340

3. Multiple Instance Active Learning for Object Detection

作者:Tianning Yuan, Fang Wan, Mengying Fu, Jianzhuang Liu, Songcen Xu, Xiangyang Ji, Qixiang Ye

摘要:盡管主動學習(active learning)在圖像識別方麵取得了長足的進步,但仍然缺乏為目標檢測任務設置的實例級主動學習方法。在本文中,我們提出了多實例主動學習(MIAL),通過觀察實例級別的不確定性來選擇信息量最大的圖像進行檢測器訓練。MIAL定義了實例不確定性學習模塊,該模塊利用在標記集上訓練的兩個對抗性實例分類器的差異來預測未標記集的實例不確定性。MIAL將未標記的圖像視為實例包,並將圖像中的特征錨視為實例,並通過以多實例學習(MIL)方式對實例重新加權來估計圖像不確定性。迭代實例不確定性學習和重新加權有助於抑製嘈雜的實例,以彌合實例不確定性和圖像級不確定性之間的差距。實驗證明,MIAL為實例級的主動學習設置了堅實的基準。在常用的目標檢測數據集上,MIAL具有明顯的優勢,優於最新方法,尤其是在標記集很小的情況下。

圖片 代碼:

https://github.com/yuantn/MIAL

4. There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge

作者:Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada

摘要:目標固有的聲音屬性可以提供有價值的線索,以學習豐富的表示形式來進行目標檢測和跟蹤。此外,可以通過僅監視環境中的聲音來利用視頻中視聽事件的共現來在圖像上定位目標。到目前為止,這僅在攝像機靜止且用於單個目標檢測的情況下才可行。此外,這些方法的魯棒性受到限製,因為它們主要依賴於高度易受光照和天氣變化影響的RGB圖像。在這項工作中,我們提出了一種新穎的自監督的MM-DistillNet框架,該框架由多名教師組成,這些教師利用RGB,深度和熱圖像等多種模式,同時利用互補線索和提煉知識到單個音頻學生網絡中。我們提出了新的MTA損失函數,該函數有助於以自監督的方式從多模態教師中提取信息。此外,我們為有聲讀物的學生提出了一種新穎的自監督的前置任務,使我們不必依賴勞動強度大的人工注釋。我們引入了一個大型多模態數據集,其中包含113,000多個時間同步的RGB,深度,熱和音頻模態幀。大量實驗表明,我們的方法優於最新方法,同時能夠在推理甚至移動過程中僅使用聲音來檢測多個目標。

圖片 網址:

https://arxiv.org/abs/2103.01353

5. Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection

作者:Chenchen Zhu, Fangyi Chen, Uzair Ahmed, Marios Savvides

摘要:由於真實世界數據固有的長尾分布,少樣本目標檢測是當前非常需要研究的問題。它的性能在很大程度上受到新的類別數據匱乏的影響。但是,無論數據可用性如何,新穎類和基類之間的語義關係都是恒定的。在這項工作中,我們研究將這種語義關係與視覺信息一起使用,並將顯式關係推理引入新穎目標檢測的學習中。具體來說,我們通過從大型語料庫中學到的語義嵌入來表示每個類的概念。檢測要求將目標的圖像表示投影到此嵌入空間中。我們發現如果僅僅使用啟發式知識圖譜作為原始嵌入是遠遠不夠的,提出使用一種動態關係圖來擴展原始嵌入向量。因此,我們提出的SRR-FSD的少樣本檢測器對於新目標的變化能夠保持穩定的性能。實驗表明,SRR-FSD可以在higher shots下獲得還不錯的結果,更重要地是,在較低的explicit shots和implicit shots的情況下,SRR-FSD的性能也要好得多。

圖片 網址:

https://arxiv.org/abs/2103.01903

成為VIP會員查看完整內容
0
40
3

圖像分割(image segmentation)技術是計算機視覺領域的個重要的研究方向,近些年,圖像分割技術迅猛發展,在多個視覺研究領域都有著廣泛的應用。本文盤點了近20年來影響力最大的 10 篇論文。

-TOP10- Mask R-CNN 被引頻次:1839 作者:Kaiming He,Georgia Gkioxari,Piotr Dollar,Ross Girshick. 發布信息: 2017,16th IEEE International Conference on Computer Vision (ICCV) 論文:https://arxiv.org/abs/1703.06870代碼:https://github.com/facebookresearch/DetectronMask R-CNN作為非常經典的實例分割(Instance segmentation)算法,在圖像分割領域可謂“家喻戶曉”。Mask R-CNN不僅在實例分割任務中表現優異,還是一個非常靈活的框架,可以通過增加不同的分支完成目標分類、目標檢測、語義分割、實例分割、人體姿勢識別等多種不同的任務。

-TOP9- SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation 被引頻次:1937 作者: Vijay Badrinarayanan,Alex Kendall,Roberto Cipolla 發布信息:2015,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 論文:https://arxiv.org/pdf/1511.00561.pdf代碼:https://github.com/aizawan/segnetSegNet是用於進行像素級別圖像分割的全卷積網絡。SegNet與FCN的思路較為相似,區別則在於Encoder中Pooling和Decoder的Upsampling使用的技術。Decoder進行上采樣的方式是Segnet的亮點之一,SegNet主要用於場景理解應用,需要在進行inference時考慮內存的占用及分割的準確率。同時,Segnet的訓練參數較少,可以用SGD進行end-to-end訓練。

-TOP8- DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs 被引頻次:2160 作者: Chen Liang-Chieh,Papandreou George,Kokkinos Iasonas等. 發布信息:2018,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE DeepLabv1:https://arxiv.org/pdf/1412.7062v3.pdfDeepLabv2:https://arxiv.org/pdf/1606.00915.pdfDeepLabv3:https://arxiv.org/pdf/1706.05587.pdfDeepLabv3+:https://arxiv.org/pdf/1802.02611.pdf代碼:https://github.com/tensorflow/models/tree/master/research/deeplabDeepLab係列采用了Dilated/Atrous Convolution的方式擴展感受野,獲取更多的上下文信息,避免了DCNN中重複最大池化和下采樣帶來的分辨率下降問題。2018年,Chen等人發布Deeplabv3+,使用編碼器-解碼器架構。DeepLabv3+在2012年pascal VOC挑戰賽中獲得89.0%的mIoU分數。

DeepLabv3+

-TOP7- Contour Detection and Hierarchical Image Segmentation 被引頻次:2231 作者: Arbelaez Pablo,Maire Michael,Fowlkes Charless等. 發布信息:2011,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 論文和代碼:https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.htmlContour Detection and Hierarchical Image Segmentation通過檢測輪廓來進行分割,以解決不加交互的圖像分割問題,是分割領域中非常重要的一篇文章,後續很多邊緣檢測算法都利用了該模型。

-TOP6- Efficient graph-based image segmentation 被引頻次:3302 作者:Felzenszwalb PF,Huttenlocher DP 發布信息:2004,INTERNATIONAL JOURNAL OF COMPUTER VISION 論文和代碼:http://cs.brown.edu/people/pfelzens/segment/Graph-Based Segmentation 是經典的圖像分割算法,作者Felzenszwalb也是提出DPM算法的大牛。該算法是基於圖的貪心聚類算法,實現簡單。目前雖然直接用其做分割的較少,但許多算法都用它作為基石。

-TOP5- SLIC Superpixels Compared to State-of-the-Art Superpixel Methods 被引頻次:4168 作者: Radhakrishna Achanta,Appu Shaji,Kevin Smith,Aurelien Lucchi,Pascal Fua,Sabine Susstrunk. 發布信息:2012,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 論文和代碼:https://ivrlwww.epfl.ch/supplementary_material/RK_SLICSuperpixels/index.htmlSLIC 算法將K-means 算法用於超像素聚類,是一種思想簡單、實現方便的算法,SLIC算法能生成緊湊、近似均勻的超像素,在運算速度,物體輪廓保持、超像素形狀方麵具有較高的綜合評價,比較符合人們期望的分割效果。

-TOP4- U-Net: Convolutional Networks for Biomedical Image Segmentation 被引頻次:6920 作者: Ronneberger Olaf,Fischer Philipp,Brox Thomas 發布信息:2015,18th International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI) 代碼:https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/U-Net是一種基於深度學習的圖像語義分割方法,在醫學圖像分割領域表現尤為優異。它基於FCNs做出改進,相較於FCN多尺度信息更加豐富,同時適合超大圖像分割。作者采用數據增強(data augmentation),通過使用在粗糙的3*3點陣上的隨機取代向量來生成平緩的變形,解決了可獲得的訓練數據很少的問題。並使用加權損失(weighted loss)以解決對於同一類的連接的目標分割。

-TOP3- Mean shift: A robust approach toward feature space analysis 被引頻次:6996 作者: Comaniciu D,Meer P 發布信息:2002,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE Meanshift是基於像素聚類的代表方法之一,是一種特征空間分析方法。密度估計(Density Estimation) 和mode 搜索是Meanshift的兩個核心點。對於圖像數據,其分布無固定模式可循,所以密度估計必須用非參數估計,選用的是具有平滑效果的核密度估計(Kernel density estimation,KDE)。Meanshift 算法的穩定性、魯棒性較好,有著廣泛的應用。但是分割時所包含的語義信息較少,分割效果不夠理想,無法有效地控製超像素的數量,且運行速度較慢,不適用於實時處理任務。 -TOP2- Normalized cuts and image segmentation 被引頻次:8056 作者:Shi JB,Malik J 發布信息:2000,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 論文:https://ieeexplore.ieee.org/abstract/document/1000236NormalizedCut是基於圖論的分割方法代表之一,與以往利用聚類的方法相比,更加專注於全局解的情況,並且根據圖像的亮度,顏色,紋理進行劃分。

-Top1- Fully Convolutional Networks for Semantic Segmentation 被引頻次:8170 作者: Long Jonathan,Shelhamer Evan,Darrell Trevor 發布信息:2015,IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 代碼:https://github.com/shelhamer/fcn.berkeleyvision.orgFCN是圖像分割領域裏程碑式論文。作為語義分割的開山之作,FCN是當之無愧的TOP1。它提出了全卷積網絡(FCN)的概念,針對語義分割訓練了一個端到端,點對點的網絡,它包含了三個CNN核心思想: (1)不含全連接層(fc)的全卷積(fully conv)網絡。可適應任意尺寸輸入。 (2)增大數據尺寸的反卷積(deconv)層。能夠輸出精細的結果。 (3)結合不同深度層結果的跳級(skip)結構。同時確保魯棒性和精確性。

參考 [1]FCN的學習及理解(Fully Convolutional Networks for Semantic Segmentation),CSDN [2]mean shift 圖像分割 (一),CSDN [3]https://zhuanlan.zhihu.com/p/49512872[4]圖像分割—基於圖的圖像分割(Graph-Based Image Segmentation),CSDN [5]https://www.cnblogs.com/fourmi/p/9785377.html

成為VIP會員查看完整內容
0
57
6
小貼士
相關主題
相關論文
Pourya Shamsolmoali,Masoumeh Zareapoor,Jocelyn Chanussot,Huiyu Zhou,Jie Yang
0+閱讀 · 6月3日
Ryo Yonetani,Tatsunori Taniai,Mohammadamin Barekatain,Mai Nishimura,Asako Kanezaki
4+閱讀 · 2月8日
Aidan Hogan,Eva Blomqvist,Michael Cochez,Claudia d'Amato,Gerard de Melo,Claudio Gutierrez,José Emilio Labra Gayo,Sabrina Kirrane,Sebastian Neumaier,Axel Polleres,Roberto Navigli,Axel-Cyrille Ngonga Ngomo,Sabbir M. Rashid,Anisa Rula,Lukas Schmelzeisen,Juan Sequeda,Steffen Staab,Antoine Zimmermann
79+閱讀 · 2020年3月4日
Attention Network Robustification for Person ReID
Hussam Lawen,Avi Ben-Cohen,Matan Protter,Itamar Friedman,Lihi Zelnik-Manor
3+閱讀 · 2019年10月15日
Image Captioning with Integrated Bottom-Up and Multi-level Residual Top-Down Attention for Game Scene Understanding
Jian Zheng,Sudha Krishnamurthy,Ruxin Chen,Min-Hung Chen,Zhenhao Ge,Xiaohua Li
3+閱讀 · 2019年6月16日
Golnaz Ghiasi,Tsung-Yi Lin,Ruoming Pang,Quoc V. Le
6+閱讀 · 2019年4月16日
Panoptic Feature Pyramid Networks
Alexander Kirillov,Ross Girshick,Kaiming He,Piotr Dollár
3+閱讀 · 2019年1月8日
MDU-Net: Multi-scale Densely Connected U-Net for biomedical image segmentation
Jiawei Zhang,Yuzhen Jin,Jilan Xu,Xiaowei Xu,Yanchun Zhang
8+閱讀 · 2018年12月4日
Berkan Demirel,Ramazan Gokberk Cinbis,Nazli Ikizler-Cinbis
18+閱讀 · 2018年5月17日
Alexander Wong,Mohammad Javad Shafiee,Francis Li,Brendan Chwyl
7+閱讀 · 2018年2月19日
Top