CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議。

知識薈萃

CVPR 2019 論文打包下載(1294篇)

登陸專知後,可點擊下方鏈接打包下載:

百度網盤鏈接,提取碼: 5q1j 。

VIP內容

CVPR是計算機視覺領域三大頂會中唯一一個年度學術會議。在快速更新迭代的計算機學科中,CVPR成為了計算機視覺領域的“頂級流量”。而在過去的這些年間,CVPR也有著許多的變化。在十多年前,CVPR不過1500人的參會規模,到了2019年參會人數已經超過了6500人,投稿數量也年年增長。

雖然CVPR每年都會評選出最佳論文,但我們今天將從另一個角度來評選CVPR這二十年來的TOP10。即以Web of Science上顯示的論文的引用量作為論文影響力的參考,排列出近二十年來影響力最大的十篇論文。接下來我們將依次進行介紹。

TOP10Rethinking the Inception Architecture for Computer VisionCVPR 2016

作者:Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,Jon Shlens,Zbigniew Wojna

機構:Google,倫敦大學

被引頻次:4751

這篇論文又被稱為Inception-v3,是GoogLeNet(Inception-v1)的延伸。GoogLeNet首次出現於2014年ILSVRC 比賽,並在當年的比賽中獲得了冠軍。Inception-v1的參數量遠小於同期VGGNet,而性能卻與之基本持平。相較於Inception-v1,Inception-v3做出的主要改進則是將卷積進行非對稱拆分,以顯著降低參數量,同時使得空間特征更為豐富。

TOP9Densely Connected Convolutional NetworksCVPR 2017

作者:Gao Huang,Zhuang Liu,Laurens van der Maaten,Kilian Q. Weinberger

機構:康奈爾大學,清華大學,Facebook AI Research

被引頻次:5181

DenseNet也是CVPR2017的最佳論文之一。在當時的神經網絡模型都遇到一個問題:隨著網路層數的加深,訓練過程中的前傳信號和梯度信號在經過很多層之後可能會逐漸消失。而DenseNet的核心思想解決了這一問題。它對前每一層都加一個單獨的 shortcut,使得任意兩層網絡都可以直接“溝通”。

而DenseNet的不足之處在於它的內存占用十分龐大。但瑕不掩瑜,DenseNet以其極具創新性的思路,不僅顯著減輕了深層網絡在訓練過程中梯度消散而難以優化的問題,同時也取得了非常好的性能。

TOP8You Only Look Once: Unified, Real-Time Object DetectionCVPR 2016

作者:Joseph Redmon,Santosh Divvala,Ross Girshick,Ali Farhadiq

機構:華盛頓大學,Allen Institute for AI,Facebook AI Research

被引頻次:5295

這一篇論文就是在目標檢測領域大名鼎鼎的YOLO。其最新的版本已經更新到了YOLOv5,且每一代的發布都能在行業內卷齊新的熱潮。

用YOLO的英文直譯解釋這一方法,就是隻需要瀏覽一次就能識別出圖中的物體的類別和位置。展開來說,YOLO的核心思想就是將目標檢測轉化為回歸問題求解,並基於一個單獨的端到端網絡,完成從原始圖像的輸入到物體位置和類別的輸出。這使得網絡結構簡單,且極大提升了檢測速度。由於網絡沒有分支,所以訓練也隻需要一次即可完成。之後的很多檢測算法都借鑒了這一思路。

TOP7Rich feature hierarchies for accurate object detection and semantic segmentationCVPR 2014

作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik

機構:加利福尼亞大學伯克利分校

被引頻次:6876

這篇文章的排名在YOLO之前,既合理又巧妙。因為在YOLO之前,目標檢測領域可以說是RCNN的世界。RCNN是將CNN引入目標檢測的開山之作,它改變了目標檢測領域的主要研究思路。緊隨其後的係列文章,如Fast RCNN和Faster RCNN等,都代表了該領域當時的最高水準。

在RCNN前經典的目標檢測算法是使用滑動窗法依次判斷所有可能的區域,而RCNN則采用Selective Search方法預先提取一係列較可能是物體的候選區域,之後僅在這些候選區域上提取特征,這使得檢測的速度大大提升。

TOP6Rapid object detection using a boosted cascade of simple featuresCVPR 2001

作者:Paul Viola,Michael Jones

機構:三菱電氣實驗室 ,康柏劍橋研究實驗室

被引頻次:7033

這篇論文是本次盤點中最先發表的一篇,比其他九篇文章都早了十年左右,它在傳統人臉檢測中具有裏程碑意義,因而本文提出的思想聚焦於傳統的目標檢測。

這篇論文主要解決了三個問題:一是減少了計算特征的時間,二是構建了簡單又很有效的單分支決策樹分類器,最後是從簡單到複雜把多個分類器級聯,對可能包含人臉的區域進行重點檢測,從而顯著提升了檢測速度。

TOP5Going Deeper with ConvolutionsCVPR 2015

作者:Christian Szegedy,Dragomir Anguelov, Dumitru Erhan,Vincent Vanhoucke,Yangqing Jia,Pierre Sermanet,Wei Liu,Scott Reed,Andrew Rabinovich

機構:Google,北卡羅來納大學,密歇根大學

發布時間:2015年

被引頻次:7269

可能大家已經發現了亮點,這篇論文的係列工作在前麵就出現過。這篇論文就是開辟Inception家族,並在CNN分類器發展史上留下濃墨重彩的一筆的GoogLeNet。

在 Inception 出現之前,大部分流行 CNN 是將卷積層不斷堆疊,讓網絡越來越深來得到更好的性能。而GoogLeNet 最大的特點就是使用 Inception 模塊,並設計一種具有優良局部拓撲結構的網絡,對輸入圖像並行地執行多個卷積運算或池化操作,將所有輸出結果拚接為一個非常深的特征圖。通過這種方式,GoogLeNet取得了非常驚豔的效果。

TOP4ImageNet: A Large-Scale Hierarchical Image DatabaseCVPR 2009

作者:Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li,Li Fei-Fei

機構:普林斯頓大學

發布時間:2009年

被引頻次:8222

ImageNet是AI女神李飛飛團隊構建的計算機視覺領域非常著名的海量的帶標注圖像數據集。它在圖像分類、目標分割和目標檢測中都有著無法撼動的地位。ImageNet從 2007 年開始到 2009 年完成,有超過 1500 萬張圖片。

可以毫不誇張的說,ImageNet 是圖像處理算法的試金石。另外,從 2010 年起,每年 ImageNet 官方會舉辦挑戰賽。Hinton團隊提出的AlexNet也是在2012年的ImageNet挑戰賽上一舉成名,自此深度學習的熱潮被點燃。

TOP3Fully Convolutional Networks for Semantic SegmentationCVPR 2015

作者:Jonathan Long,Evan Shelhamer,Trevor Darrell

發布時間:2015年

被引頻次:9027

FCN在我們之前盤點的圖像分割TOP10中就出現過,並高居第一位。作為語義分割的開山之作,無論是圖像分割TOP1,還是CVPRTOP3,FCN都是當之無愧的。FCN所提出的全卷積網絡的概念,開創了用FCN做實例和像素級別理解係列方法的先河。後續非常多的方法都受到了FCN的思路啟發。FCN的提出為目標識別、檢測與分割也都做出了巨大的貢獻。

TOP2Histograms of oriented gradients for human detectionCVPR 2005

作者:Navneet Dalal,Bill Triggs

被引頻次:13389

圖片 這篇論文所提出的方法簡稱HOG,是一種是非常經典的圖像特征提取方法,在行人識別領域被應用得尤為多。雖然文章已經發表了十五年,但仍然常常被人們用於最新工作的思路參考。HOG將圖像分成小的連通區域,將它稱為細胞單元,然後采集細胞單元中各像素點的梯度的或邊緣的方向直方圖,把這些直方圖組合起來就可以構成特征描述器。

TOP1Deep Residual Learning for Image RecognitionCVPR2016

作者:Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun

被引頻次:32065

這篇論文作為第一名,的確是當之無愧。作為CVPR2016的最佳論文,它所提出的ResNet不僅在計算機視覺領域,而是在深度學習領域中都帶來了顛覆式影響。

在當年,ResNet橫掃 ImageNet 2015和COCO 榜單。也是從ResNet開始,神經網絡在視覺分類任務上的性能第一次超越了人類。它也讓當時第二次獲得CVPR Best Paper的何愷明正式踏上了大神之路。

最初 ResNet 的設計是用來處理深層 CNN 結構中梯度消失和梯度爆炸的問題,它將輸入從卷積層的每個塊添加到輸出,讓每一層更容易學習恒等映射,並且還減少了梯度消失的問題。而如今,殘差模塊已經成為幾乎所有 CNN 結構中的基本構造。

最後,我們來進行一下簡要地總結。雖然本次盤點的是20年內CVPRTOP10,但是有超過半數的論文都是在近十年發表的,由此可以窺見深度學習在近年來的飛躍式發展。因此我們可以期待在未來的計算機視覺領域,一定會有更多更強的工作,為我們的科研與生活帶來更快更好的提升。

參考資料

[1]https://zhuanlan.zhihu.com/p/41691301[2]https://www.zhihu.com/question/60109389/answer/203099761[3]https://zhuanlan.zhihu.com/p/31427164[4]https://zhuanlan.zhihu.com/p/23006190[5]https://blog.csdn.net/weixin_37763809/article/details/88256828[6]https://zhuanlan.zhihu.com/p/37505777[7]https://zhuanlan.zhihu.com/p/77221549[8]https://www.zhihu.com/question/433702668/answer/1617092684[9]https://blog.csdn.net/zouxy09/article/details/7929348[10]https://www.jiqizhixin.com/articles/2020-01-01

成為VIP會員查看完整內容
0
32
1

最新論文

This paper presents results of Document Visual Question Answering Challenge organized as part of "Text and Documents in the Deep Learning Era" workshop, in CVPR 2020. The challenge introduces a new problem - Visual Question Answering on document images. The challenge comprised two tasks. The first task concerns with asking questions on a single document image. On the other hand, the second task is set as a retrieval task where the question is posed over a collection of images. For the task 1 a new dataset is introduced comprising 50,000 questions-answer(s) pairs defined over 12,767 document images. For task 2 another dataset has been created comprising 20 questions over 14,362 document images which share the same document template.

0
0
0
下載
預覽
Top