2022.2.19更新
計算機視覺:讓冰冷的機器看懂這個多彩的世界 by
深度學習與視覺計算 by 王亮 中科院自動化所
如何做好計算機視覺的研究? by 華剛博士
計算機視覺 微軟亞洲研究院係列文章
卷積神經網絡如何進行圖像識別
相似圖片搜索的原理 阮一峰
如何識別圖像邊緣? 阮一峰
圖像目標檢測(Object Detection)原理與實現 (1-6)
運動目標跟蹤係列(1-17) - [http://blog.csdn.net/App_12062011/article/category/6269524/1]
看圖說話的AI小朋友——圖像標注趣談(上,下)
Video Analysis 相關領域介紹之Video Captioning(視頻to文字描述)
從特斯拉到計算機視覺之「圖像語義分割」
視覺求索公眾號相關文章係列,
http://www.ics.uci.edu/~yyang8/extra/cv_giants.html
Other schools in no particular order:
http://www.it610.com/article/1770772.htm
組織機構與科研院所 THE Computer Vision Foundation 計算視覺基金會 →http://www.cv-foundation.org/
(a non-profit organization that fosters and supports research in all aspects of computer vision) Stanford Vision Lab 斯坦福大學視覺實驗室 →http://vision.stanford.edu/
It focuses on two intimately connected branches of vision research: computer vision and human vision UC Berkeley Computer Vision Group →https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/Face Recognition Homepage →http://www.face-rec.org/USC Computer Vision 南加州大學計算機視覺實驗室 →http://iris.usc.edu/USC-Computer-Vision.html
The Computer Vision Laboratory at the University of Southern California ibug Intelligent behaviour understanding group → https://ibug.doc.ic.ac.uk/ The core expertise of the iBUG group is the machine analysis of human behaviour in space and time including face analysis, body gesture analysis, visual, audio, and multimodal analysis of human behaviour, and biometrics analysis.
Dataset-AMP:Luka Čehovin Zajc; Alan Lukežič; Aleš Leonardis; Matej Kristan. "Beyond Standard Benchmarks: Parameterizing Performance Evaluation in Visual Object Tracking." ICCV (2017). [paper]
Dataset-Nfs:Hamed Kiani Galoogahi, Ashton Fagg, Chen Huang, Deva Ramanan and Simon Lucey. "Need for Speed: A Benchmark for Higher Frame Rate Object Tracking." ICCV (2017) [paper] [supp] [project]
Dataset-DTB70:Siyi Li, Dit-Yan Yeung. "Visual Object Tracking for Unmanned Aerial Vehicles: A Benchmark and New Motion Models." AAAI (2017) [paper] [project] [dataset]
Dataset-UAV123:Matthias Mueller, Neil Smith and Bernard Ghanem. "A Benchmark and Simulator for UAV Tracking." ECCV (2016) [paper] [project] [dataset]
Dataset-TColor-128:Pengpeng Liang, Erik Blasch, Haibin Ling. "Encoding color information for visual tracking: Algorithms and benchmark." TIP (2015) [paper] [project] [dataset]
Dataset-NUS-PRO:Annan Li, Min Lin, Yi Wu, Ming-Hsuan Yang, and Shuicheng Yan. "NUS-PRO: A New Visual Tracking Challenge." PAMI (2015) [paper] [project] [Data_360(code:bf28)][Data_baidu]] [View_360(code:515a)][View_baidu]]
Dataset-PTB:Shuran Song and Jianxiong Xiao. "Tracking Revisited using RGBD Camera: Unified Benchmark and Baselines." ICCV (2013) [paper] [project] [5 validation] [95 evaluation]
Dataset-ALOV300+:Arnold W. M. Smeulders, Dung M. Chu, Rita Cucchiara, Simone Calderara, Afshin Dehghan, Mubarak Shah. "Visual Tracking: An Experimental Survey." PAMI (2014) [paper] [project]Mirror Link:ALOV300Mirror Link:ALOV300
OTB2013:Wu, Yi, Jongwoo Lim, and Minghsuan Yang. "Online Object Tracking: A Benchmark." CVPR (2013). [paper]
OTB2015:Wu, Yi, Jongwoo Lim, and Minghsuan Yang. "Object Tracking Benchmark." TPAMI (2015). [paper] [project]
Dataset-VOT:[project]
[VOT13_paper_ICCV]The Visual Object Tracking VOT2013 challenge results
[VOT14_paper_ECCV]The Visual Object Tracking VOT2014 challenge results
[VOT15_paper_ICCV]The Visual Object Tracking VOT2015 challenge results
[VOT16_paper_ECCV]The Visual Object Tracking VOT2016 challenge results
[VOT17_paper_ECCV]The Visual Object Tracking VOT2017 challenge results
來源|麻省理工學院新聞辦公室 編輯|專知翻譯整理
研究人員發現一些計算機視覺係統處理圖像的方式與人類通過眼角看到的方式之間存在相似之處。也許計算機視覺和人類視覺有更多的共同點?
麻省理工學院的研究表明,某種類型的強大計算機視覺模型感知視覺表示的方式類似於人類使用周邊視覺的方式。這些模型被稱為對抗性魯棒模型,旨在克服添加到圖像數據中的細微噪聲。
研究人員發現,這些模型學習轉換圖像的方式類似於人類外圍處理中涉及的某些元素。但由於機器沒有視覺外圍,計算機視覺模型的工作很少集中在外圍處理上,資深作者、大腦、思維和機器中心的博士後 Arturo Deza 說。
“這似乎是周邊視覺,以及正在進行的紋理表示,已被證明對人類視覺非常有用。所以,我們的想法是,也許對機器也有一些用途,”核心作者、電氣工程和計算機科學係的研究生 Anne Harrington 說。
結果表明,設計一個包含某種形式的外圍處理的機器學習模型可以使模型能夠自動學習對圖像數據中的一些細微操作具有魯棒性的視覺表示。Deza 補充說,這項工作還可以幫助闡明人類外圍處理的目標,這些目標仍然沒有得到很好的理解。
該研究成果在國際頂會(ICLR 2022)上發表(如下)。
【Finding Biological Plausibility for Adversarially Robust Features via Metameric Tasks】:最近的工作表明,深度神經網絡 (DNN) 訓練數據集中的特征約束驅動了對抗性噪聲的魯棒性(Ilyas 等人,2019 年)。通過圖像處理,這種對抗性魯棒網絡學習的表示也被證明比非魯棒網絡在人類感知上更一致(Santurkar 等人,2019 年,Engstrom 等人,2019 年)。盡管看起來更接近人類視覺感知,但尚不清楚穩健 DNN 表示中的約束是否與人類視覺中發現的生物約束相匹配。人類視覺似乎依賴於外圍基於紋理/摘要的統計表示,這已被證明可以解釋諸如擁擠 (Balas et al., 2009) 和視覺搜索任務 (Rosenholtz et al., 2012) 等現象。為了了解對抗性魯棒優化/表示與人類視覺相比如何,我們使用類似於 Freeman & Simoncelli, 2011, Wallis et al., 2016 和 Deza et al., 2019 的 metamer 任務進行了心理物理學實驗,我們評估了人類的表現如何觀察者可以區分為匹配對抗性魯棒表示而合成的圖像與非魯棒表示和周邊視覺的紋理合成模型(Texforms a la Long et al., 2018)。我們發現,隨著刺激在外圍呈現得更遠,魯棒表示和紋理模型圖像的可辨別性降低到接近機會的表現。此外,魯棒和紋理模型圖像的性能在參與者中顯示出相似的趨勢,而在非魯棒表示上的性能在整個視野中變化很小。這些結果共同表明(1)對抗性魯棒表示比非魯棒表示更好地捕獲外圍計算,以及(2)魯棒表示捕獲外圍計算,類似於當前最先進的紋理外圍視覺模型。更廣泛地說,我們的研究結果支持這樣一種觀點,即局部紋理摘要統計表示可能會推動人類對對抗性擾動的不變性,並且在 DNN 中加入此類表示可能會產生有用的屬性,如對抗性魯棒性。這些結果共同表明(1)對抗性魯棒表示比非魯棒表示更好地捕獲外圍計算,以及(2)魯棒表示捕獲外圍計算,類似於當前最先進的紋理外圍視覺模型。更廣泛地說,我們的研究結果支持這樣一種觀點,即局部紋理摘要統計表示可能會推動人類對對抗性擾動的不變性,並且在 DNN 中加入此類表示可能會產生有用的屬性,如對抗性魯棒性。這些結果共同表明(1)對抗性魯棒表示比非魯棒表示更好地捕獲外圍計算,以及(2)魯棒表示捕獲外圍計算,類似於當前最先進的紋理外圍視覺模型。更廣泛地說,我們的研究結果支持這樣一種觀點,即局部紋理摘要統計表示可能會推動人類對對抗性擾動的不變性,並且在 DNN 中加入此類表示可能會產生有用的屬性,如對抗性魯棒性。
【雙重視覺】
人類和計算機視覺係統都具有所謂的中心凹視覺,用於檢查高度詳細的物體。人類還擁有周邊視覺,用於組織廣闊的空間場景。Deza 說,典型的計算機視覺方法試圖模擬中央凹視覺——這是機器識別物體的方式——並且傾向於忽略周邊視覺。
但是中央凹計算機視覺係統容易受到攻擊者添加到圖像數據中的對抗性噪聲的影響。在對抗性攻擊中,惡意代理會巧妙地修改圖像,因此每個像素都發生了非常細微的變化——人類不會注意到差異,但噪音足以欺騙機器。例如,一張圖像對人類來說可能看起來像一輛汽車,但如果它受到對抗性噪聲的影響,計算機視覺模型可能會自信地將其誤分類為蛋糕,這可能會對自動駕駛汽車產生嚴重影響。
為了克服這個漏洞,研究人員進行了所謂的對抗性訓練,他們創建了經過對抗性噪聲操縱的圖像,將它們輸入神經網絡,然後通過重新標記數據並重新訓練模型來糾正其錯誤。
“僅僅進行額外的重新標記和訓練過程似乎就與人類處理產生了很多感知上的一致性,”Deza 說。
他和 Harrington 想知道這些經過對抗訓練的網絡是否健壯,因為它們編碼的對象表示類似於人類周邊視覺。因此,他們設計了一係列心理物理人體實驗來檢驗他們的假設。
【檢測時間】
他們從一組圖像開始,並使用三種不同的計算機視覺模型從噪聲中合成這些圖像的表示:一個“正常”機器學習模型,一個經過訓練具有對抗魯棒性的模型,一個專門設計用於解釋了人類外圍處理的某些方麵,稱為 Texforms。
該團隊在一係列實驗中使用了這些生成的圖像,參與者被要求區分原始圖像和每個模型合成的表示。一些實驗還讓人類區分來自相同模型的不同對隨機合成圖像。
參與者將他們的眼睛集中在屏幕的中心,而圖像則在屏幕的遠端,在他們周圍的不同位置閃爍。在一個實驗中,參與者必須在一係列圖像中識別出奇怪的圖像,這些圖像一次隻閃爍幾毫秒,而在另一個實驗中,他們必須匹配在他們的中央凹處呈現的圖像,兩個候選模板圖像放置在他們的外圍。
在實驗中,參與者將他們的眼睛集中在屏幕的中心,而圖像則在屏幕的另一邊閃爍,在他們周圍的不同位置,就像這些動畫 gif 一樣。在一項實驗中,參與者必須在一係列圖像中識別出奇怪的圖像,這些圖像一次隻閃爍幾毫秒。由研究人員提供。
在這個實驗中,研究人員讓人類將中心模板與兩個外圍模板之一進行匹配,而他們的眼睛不會從屏幕中心移開。由研究人員提供。
當合成圖像顯示在遠處時,參與者在很大程度上無法區分對抗性魯棒模型或 Texform 模型的原始圖像。標準機器學習模型並非如此。
然而,最引人注目的結果可能是人類所犯的錯誤模式(作為刺激在外圍的位置的函數)在所有使用來自 Texform 模型的刺激的實驗條件和對抗性穩健的模型。這些結果表明,對抗性穩健模型確實捕捉到了人類外圍處理的某些方麵,Deza 解釋說。
研究人員還計算了特定的機器學習實驗和圖像質量評估指標,以研究每個模型合成的圖像之間的相似性。他們發現對抗性魯棒模型和 Texforms 模型生成的模型最相似,這表明這些模型計算相似的圖像轉換。
“我們正在闡明人類和機器如何犯同樣類型的錯誤,以及為什麼會犯這種錯誤,”Deza 說。為什麼會發生對抗性魯棒性?是否存在我們尚未在大腦中發現的機器對抗魯棒性的生物學等效物?”
Deza希望這些結果能激發該領域的更多工作,並鼓勵計算機視覺研究人員考慮構建更多受生物啟發的模型。
這些結果可用於設計具有某種模擬視覺外圍的計算機視覺係統,可以使其對對抗性噪聲具有自動魯棒性。這項工作還可以為機器的開發提供信息,這些機器能夠通過使用人類外圍處理的某些方麵來創建更準確的視覺表示。
“我們甚至可以通過嚐試從人工神經網絡中獲取某些屬性來了解人類視覺,”Harrington 補充道。
以前的工作已經展示了如何隔離圖像的“穩健”部分,在這些圖像上的訓練模型使它們不太容易受到對抗性失敗的影響。達姆施塔特工業大學心理學研究所和認知科學中心的感知教授托馬斯沃利斯解釋說,這些強大的圖像看起來像是真實圖像的加擾版本。
“為什麼這些強大的圖像看起來像它們的樣子?Harrington 和 Deza 使用仔細的人類行為實驗來表明,人們看到這些圖像與外圍原始照片之間差異的能力在質量上與從受生物啟發的人類外圍信息處理模型生成的圖像相似,”Wallis 說,誰沒有參與這項研究。“Harrington 和 Deza 提出,學習忽略外圍一些視覺輸入變化的相同機製可能是為什麼穩健的圖像看起來像它們的樣子,以及為什麼對穩健的圖像進行訓練會降低對抗敏感性。這個有趣的假設值得進一步研究,並且可以代表生物和機器智能研究之間協同作用的另一個例子。”
這項工作得到了麻省理工學院大腦、思想和機器中心和洛克希德馬丁公司的部分支持。
Weakly supervised temporal action localization aims to localize temporal boundaries of actions and simultaneously identify their categories with only video-level category labels. Many existing methods seek to generate pseudo labels for bridging the discrepancy between classification and localization, but usually only make use of limited contextual information for pseudo label generation. To alleviate this problem, we propose a representative snippet summarization and propagation framework. Our method seeks to mine the representative snippets in each video for propagating information between video snippets to generate better pseudo labels. For each video, its own representative snippets and the representative snippets from a memory bank are propagated to update the input features in an intra- and inter-video manner. The pseudo labels are generated from the temporal class activation maps of the updated features to rectify the predictions of the main branch. Our method obtains superior performance in comparison to the existing methods on two benchmarks, THUMOS14 and ActivityNet1.3, achieving gains as high as 1.2% in terms of average mAP on THUMOS14.
Weakly supervised temporal action localization aims to localize temporal boundaries of actions and simultaneously identify their categories with only video-level category labels. Many existing methods seek to generate pseudo labels for bridging the discrepancy between classification and localization, but usually only make use of limited contextual information for pseudo label generation. To alleviate this problem, we propose a representative snippet summarization and propagation framework. Our method seeks to mine the representative snippets in each video for propagating information between video snippets to generate better pseudo labels. For each video, its own representative snippets and the representative snippets from a memory bank are propagated to update the input features in an intra- and inter-video manner. The pseudo labels are generated from the temporal class activation maps of the updated features to rectify the predictions of the main branch. Our method obtains superior performance in comparison to the existing methods on two benchmarks, THUMOS14 and ActivityNet1.3, achieving gains as high as 1.2% in terms of average mAP on THUMOS14.