"> 阿斯隆理工大學 | 深度學習目標檢測模型2021年最新綜述! - 專知VIP

目標檢測是對圖像或視頻中的物體進行分類和定位的任務。近年來,由於其廣泛的應用而倍受關注。本文概述了基於深度學習的目標檢測器的最新發展。還提供了用於檢測的基準數據集和評估指標的簡要概述,以及用於識別任務的一些著名的主幹架構。它還涵蓋了邊緣設備上使用的當代輕量級分類模型。最後,我們在多個指標上比較了這些體係結構的性能。

成為VIP會員查看完整內容
0
31
0

相關內容

目標檢測,也叫目標提取,是一種與計算機視覺和圖像處理有關的計算機技術,用於檢測數字圖像和視頻中特定類別的語義對象(例如人,建築物或汽車)的實例。深入研究的對象檢測領域包括麵部檢測和行人檢測。 對象檢測在計算機視覺的許多領域都有應用,包括圖像檢索和視頻監視。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,並對近年來WSOD的成就進行了全麵的綜述。具體來說,我們首先描述了WSOD的製定和設置,包括產生的背景、麵臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然後,介紹了目前廣泛使用的WSOD數據集和評價指標。最後,討論了WSOD的未來發展方向。我們相信這些總結可以為今後的WSOD和WSOL研究鋪平道路。

引言

目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和範圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。

為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測隻有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它隻檢測圖像中的一個實例。由於WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。

在本文中,我們回顧了所有典型的WSOD方法,並對WSOD的最新進展進行了全麵的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然後,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。

在本文中,我們總結了大量的深度學習 WSOD方法,並給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下:

  • 分析了WSOD的背景、主要挑戰和基本框架。此外,我們還詳細介紹了幾種主流方法。
  • 對於主要挑戰,我們分析了2016年以來幾乎所有的WSOD方法,並總結了許多技巧和訓練技巧(參見表V)。
  • 在WSOD任務中引入了當前流行的數據集和重要的評估指標。
  • 總結並討論了關於模型和應用方向未來進展的有價值的見解和指南。
成為VIP會員查看完整內容
0
21
0

社區揭示了不同於網絡中其他社區成員的特征和聯係。社區檢測在網絡分析中具有重要意義。除了經典的譜聚類和統計推理方法,我們注意到近年來用於社區檢測的深度學習技術在處理高維網絡數據方麵的優勢有了顯著的發展。因此,通過深度學習對社區檢測的最新進展進行全麵概述,對學者和從業者都是及時的。本文設計並提出了一種新的分類方法,包括基於深度神經網絡的深度學習模型、深度非負矩陣分解和深度稀疏濾波。主要的類別,即深度神經網絡,進一步分為卷積網絡,圖注意力網絡,生成對抗網絡和自動編碼器。綜述還總結了流行的基準數據集、模型評估指標和開源實現,以解決實驗設置。然後討論了社區檢測在各個領域的實際應用,並提出了實現方案。最後,通過提出這一快速發展的深度學習領域中具有挑戰性的課題,我們概述了未來的發展方向。

//www.webtourguide.com/paper/eb70a346cb2540dab57be737828445c6

引言

早在20世紀20年代,社會學和社會人類學就對社區進行了研究。然而,直到21世紀之後,研究人員才開始利用強大的數學工具和大規模數據操作來檢測社區,以解決具有挑戰性的問題[2]。自2002年[3]以來,Girvan和Newman將圖劃分問題引起了更廣泛的關注。在過去的10年裏,計算機科學研究者廣泛研究了基於網絡拓撲結構[5]-[8]和實體語義信息[9]-[11]、靜態網絡[12]-[14]、小型網絡和大型網絡[15]-[17]的社區檢測問題[4]。越來越多的基於圖的方法被開發出來用於檢測具有複雜數據結構[18],[19]環境中的社區。通過社區檢測,可以詳細分析網絡中社區的動態和影響,如謠言傳播、病毒爆發、腫瘤進化等。

社區的存在推動了社區檢測研究的發展,是一個越來越具有現實意義的研究領域。俗話說,物以類聚,人以群分。根據六度分離理論,世界上任何一個人都可以通過六個熟人認識其他人[21]。事實上,我們的世界是一個由一係列社區組成的巨大網絡。例如,通過檢測社交網絡[22]-[24]中的社區,如圖1所示,平台讚助商可以向目標用戶推廣他們的產品。在引文網絡[25]中,社區檢測決定了研究主題的重要性、關聯性、演化和識別研究趨勢。在代謝網絡[26]、[27]和蛋白質-蛋白質相互作用(PPI)網絡[28]中,社區檢測揭示了具有相似生物學功能的代謝和蛋白質。同樣,腦網絡[19]、[29]中的社區檢測反映了腦區域的功能和解剖分離。

許多傳統的技術,如譜聚類[30],[31]和統計推理[32]-[35],被用於小型網絡和簡單的場景。然而,由於它們的計算和空間成本巨大,它們無法擴展到大型網絡或具有高維特征的網絡。現實網絡中非線性結構信息豐富,使得傳統模型在實際應用中不太適用。因此,需要更強大的具有良好計算性能的技術。目前,深度學習提供了最靈活的解決方案,因為深度學習模型: (1) 學習非線性網絡屬性,如節點之間的關係,(2) 提供一個低維的網絡表示,保持複雜的網絡結構,(3) 提高了從各種信息中檢測社區的性能。因此,深度學習用於社區檢測是一種新的趨勢,需要及時全麵的調查。

據我們所知,本文是第一次全麵調研深度學習在社區檢測方麵的貢獻。以往的研究主要集中在傳統的社區檢測上,回顧了其在發現網絡固有模式和功能[36]、[37]方麵的重要影響。這篇論文綜述了一些具體的技術,但不限於: 基於隨機塊模型(sms)的部分檢測[38],標簽傳播算法(LPAs)[39],[40],以及單目標和多目標優化的進化計算[13],[14]。在網絡類型方麵,研究人員綜述了動態網絡[12]、有向網絡[41]和多層網絡[5]中的社區檢測方法。此外,[6],[7]還回顧了一係列關於不相交和重疊的社區缺陷的概述。圍繞應用場景,以往的論文綜述了社交網絡[9]、[42]中的社區檢測技術。

本文旨在幫助研究人員和從業者從以下幾個方麵了解社區檢測領域的過去、現在和未來趨勢:

  • 係統性分類和綜合評價。我們為此項綜述提出了一個新的係統分類(見圖3)。對於每個類別,我們回顧、總結和比較代表性的工作。我們還簡要介紹了現實世界中的社區檢測應用。這些場景為未來的社區檢測研究和實踐提供了見解。

  • 豐富的資源和高影響力的參考資料。該綜述不僅是文獻綜述,而且是基準數據集、評估指標、開源實現和實際應用的資源集合。我們在最新的高影響力國際會議和高質量同行評審期刊上廣泛調查社區檢測出版物,涵蓋人工智能、機器學習、數據挖掘和數據發現等領域。

  • 未來的發展方向。由於深度學習是一個新的研究趨勢,我們討論了當前的局限性,關鍵的挑戰和開放的問題,為未來的方向。

社區檢測在網絡分析和數據挖掘中具有重要意義。圖4展示了傳統學習方法和深度學習方法的發展。傳統的方法是在網絡結構上探索社區。這七種方法(圖3左圖)僅以一種簡單的方式捕捉淺連接。傳統方法的檢測結果往往是次優的。我們將在本節簡要回顧它們的代表性方法。深度學習方法(圖3右圖)揭示了深度網絡信息,複雜關係,處理高維數據。

本文提出了一種深度社區檢測的分類方法。分類法將方法歸納為六類: 卷積網絡、圖注意力網絡(GAT)、生成對抗網絡(GAN)、自動編碼器(AE)、深度非負矩陣分解(DNMF)和基於深度稀疏濾波(DSF)的深度社區檢測方法。卷積網絡包括卷積神經網絡(CNN)和圖卷積網絡(GCN)。AE又分為堆疊型AE、稀疏型AE、去噪型AE、圖卷積型AE、圖關注型AE和變分型AE (VAE)。

成為VIP會員查看完整內容
0
22
1

人臉檢測是許多人臉識別和人臉分析係統的關鍵第一步。早期的人臉檢測方法主要是基於從局部圖像區域手工提取特征的基礎上構建分類器,如Haar級聯和梯度定向直方圖。然而,這些方法還不夠強大,無法對來自不受控製環境的圖像實現高精度。

隨著2012年深度神經網絡在圖像分類方麵的突破性工作,人臉檢測的範式發生了巨大的轉變。受計算機視覺中深度學習的快速發展的啟發,在過去的幾年裏,許多基於深度學習的框架被提出用於人臉檢測,在準確性方麵取得了顯著的提高。

在這項工作中,我們提供了一些最具代表性的基於深度學習的人臉檢測方法的詳細概述,將它們分成幾個主要類別,並展示了它們的核心架構設計和流行基準上的精度。我們還描述了一些最流行的人臉檢測數據集。最後,我們討論了當前該領域存在的一些問題,並對未來的研究提出了建議。

成為VIP會員查看完整內容
0
27
0

摘要

文本分類是自然語言處理中最基本、最基本的任務。過去十年,由於深度學習取得了前所未有的成功,這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出,提高了全麵和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白,側重於從淺到深的模型學習。我們根據所涉及的文本和用於特征提取和分類的模型創建文本分類的分類法。然後我們詳細討論每一個類別,處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較,以及確定各種評估指標的優缺點。最後,總結了本研究的關鍵意義、未來研究方向和麵臨的挑戰。

介紹

在許多自然語言處理(NLP)應用中,文本分類(為文本指定預定義標簽的過程)是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代,手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外,手工文本分類的準確性容易受到人為因素的影響,如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程,以產生更可靠和較少主觀的結果。此外,通過定位所需信息,可以提高信息檢索效率,緩解信息超載的問題。 圖1給出了在淺層和深層分析的基礎上,文本分類所涉及的步驟流程圖。文本數據不同於數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征,然後用經典的機器學習算法對其進行分類。因此,特征提取在很大程度上製約了該方法的有效性。然而,與淺層模型不同,深度學習通過學習一組直接將特征映射到輸出的非線性轉換,將特征工程集成到模型擬合過程中。

主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代,基於淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 NaÃŕve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基於規則的方法相比,該方法在準確性和穩定性方麵具有明顯的優勢。然而,這些方法仍然需要進行特征工程,這是非常耗時和昂貴的。此外,它們往往忽略文本數據中自然的順序結構或上下文信息,使學習詞彙的語義信息變得困難。自2010年代以來,文本分類逐漸從淺層學習模式向深度學習模式轉變。與基於淺層學習的方法相比,深度學習方法避免了人工設計規則和特征,並自動提供文本挖掘的語義意義表示。因此,大部分文本分類研究工作都是基於DNNs的,這是一種計算複雜度很高的數據驅動方法。很少有人關注於用淺層學習模型來解決計算和數據的局限性。

在文獻中,Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基於深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同,我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征,就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下,DNNs可以自動進行特征提取和學習。然後給出了單標簽和多標簽任務的數據集和評價指標,並從數據、模型和性能的角度總結了未來的研究挑戰。此外,我們在4個表中總結了各種信息,包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息,以及在不同應用下的最新方法的一般基準。總而言之,本研究的主要貢獻如下:

  • 我們在表1中介紹了文本分類的過程和發展,並總結了經典模式在出版年份方麵的必要信息,包括地點、應用、引用和代碼鏈接。

  • 根據模型結構,從淺層學習模型到深度學習模型,對主要模型進行了全麵的分析和研究。我們在表2中對經典或更具體的模型進行了總結,並主要從基本模型、度量和實驗數據集方麵概述了設計差異。

  • 我們介紹了現有的數據集,並給出了主要的評價指標的製定,包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息,包括類別的數量,平均句子長度,每個數據集的大小,相關的論文和數據地址。

  • 我們在表5中總結了經典模型在基準數據集上的分類精度得分,並通過討論文本分類麵臨的主要挑戰和本研究的關鍵意義來總結綜述結果。

成為VIP會員查看完整內容
3
126
6

目標檢測的任務是從圖像中精確且高效地識別、定位出大量預定義類別的物體實例。隨著深度學習的廣泛應用,目標檢測的精確度和效率都得到了較大提升,但基於深度學習的目標檢測仍麵臨改進與優化主流目標檢測算法的性能、提高小目標物體檢測精度、實現多類別物體檢測、輕量化檢測模型等關鍵技術的挑戰。針對上述挑戰,本文在廣泛文獻調研的基礎上,從雙階段、單階段目標檢測算法的改進與結合的角度分析了改進與優化主流目標檢測算法的方法,從骨幹網絡、增加視覺感受野、特征融合、級聯卷積神經網絡和模型的訓練方式的角度分析了提升小目標檢測精度的方法,從訓練方式和網絡結構的角度分析了用於多類別物體檢測的方法,從網絡結構的角度分析了用於輕量化檢測模型的方法。此外,對目標檢測的通用數據集進行了詳細介紹,從4個方麵對該領域代表性算法的性能表現進行了對比分析,對目標檢測中待解決的問題與未來研究方向做出預測和展望。目標檢測研究是計算機視覺和模式識別中備受青睞的熱點,仍然有更多高精度和高效的算法相繼提出,未來將朝著更多的研究方向發展。

成為VIP會員查看完整內容
0
122
2

摘要: 目標檢測算法應用廣泛,一直是計算機視覺領域備受關注的研究熱點。近年來,隨著深度學習的發展,3D圖像的目標檢測研究取得了巨大的突破。與2D目標檢測相比,3D目標檢測結合了深度信息,能夠提供目標的位置、方向和大小等空間場景信息,在自動駕駛和機器人領域發展迅速。文中首先對基於深度學習的2D目標檢測算法進行概述;其次根據圖像、激光雷達、多傳感器等不同數據采集方式,分析目前具有代表性和開創性的3D目標檢測算法;結合自動駕駛的應用場景,對比分析不同 3D 目標檢測算法的性能、優勢和局限性;最後總結了3D目標檢測的應用意義以及待解決的問題,並對 3D 目標檢測的發展方向和新的挑戰進行了討論和展望。

成為VIP會員查看完整內容
0
95
2

隨著機器學習、圖形處理技術和醫學成像數據的迅速發展,機器學習模型在醫學領域的使用也迅速增加。基於卷積神經網絡(CNN)架構的快速發展加劇了這一問題,醫學成像社區采用這種架構來幫助臨床醫生進行疾病診斷。自2012年AlexNet取得巨大成功以來,CNNs越來越多地被用於醫學圖像分析,以提高臨床醫生的工作效率。近年來,三維(3D) CNNs已被用於醫學圖像分析。在這篇文章中,我們追溯了3D CNN的發展曆史,從它的機器學習的根源,簡單的數學描述3D CNN和醫學圖像在輸入到3D CNNs之前的預處理步驟。我們回顧了在不同醫學領域,如分類、分割、檢測和定位,使用三維CNNs(及其變體)進行三維醫學成像分析的重要研究。最後,我們討論了在醫學成像領域使用3D CNNs的挑戰(以及使用深度學習模型)和該領域可能的未來趨勢。

成為VIP會員查看完整內容
0
41
0

Deep Learning based Recommender System: A Survey and New Perspectives

隨著在線信息量的不斷增長,推薦係統已成為克服此類信息過載的有效策略。鑒於其在許多網絡應用中的廣泛采用,以及其改善與過度選擇相關的許多問題的潛在影響,推薦係統的實用性不容小覷。近年來,深度學習在計算機視覺和自然語言處理等許多研究領域引起了相當大的興趣,不僅歸功於出色的表現,而且還具有從頭開始學習特征表征的吸引人的特性。深度學習的影響也很普遍,最近證明了它在應用於信息檢索和推薦係統研究時的有效性。顯然,推薦係統中的深度學習領域正在蓬勃發展。本文旨在全麵回顧最近基於深度學習的推薦係統的研究工作。更具體地說,我們提供並設計了基於深度學習的推薦模型的分類,並提供了最新技術的綜合摘要。最後,我們擴展了當前的趨勢,並提供了有關該領域新的令人興奮的發展的新觀點。

成為VIP會員查看完整內容
0
142
2

多目標跟蹤(MOT)的問題在於在一個序列中跟蹤不同目標的軌跡,通常是視頻。近年來,隨著深度學習的興起,為這一問題提供解決方案的算法受益於深度模型的表示能力。本文對利用深度學習模型解決單攝像機視頻MOT任務的作品進行了全麵的綜述。提出了MOT算法的四個主要步驟,並對深度學習在每個階段的應用進行了深入的回顧。本文還對三種MOTChallenge數據集上的現有工作進行了完整的實驗比較,確定了一些最優的方法之間的相似性,並提出了一些可能的未來研究方向。

成為VIP會員查看完整內容
0
61
2
小貼士
相關主題
相關VIP內容
【文本分類大綜述:從淺層到深度學習,35頁pdf】
專知會員服務
126+閱讀 · 2020年8月6日
專知會員服務
122+閱讀 · 2020年8月1日
專知會員服務
95+閱讀 · 2020年4月24日
專知會員服務
41+閱讀 · 2020年4月6日
南洋理工大學,深度學習推薦係統綜述
專知會員服務
142+閱讀 · 2019年10月14日
深度學習視頻中多目標跟蹤:論文綜述
專知會員服務
61+閱讀 · 2019年10月13日
相關資訊
深度學習人體姿態估計算法綜述
AI前線
18+閱讀 · 2019年5月19日
綜述 | 近5年基於深度學習的目標檢測算法
計算機視覺life
18+閱讀 · 2019年4月18日
從0到1,這篇深度學習綜述送給你!
機器學習算法與Python學習
20+閱讀 · 2018年6月13日
斯坦福:「目標檢測」深度學習全麵指南
人工智能學家
7+閱讀 · 2017年10月11日
深度學習時代的目標檢測算法綜述
AI前線
6+閱讀 · 2017年9月22日
相關論文
Mengde Xu,Zheng Zhang,Han Hu,Jianfeng Wang,Lijuan Wang,Fangyun Wei,Xiang Bai,Zicheng Liu
0+閱讀 · 6月16日
FocalMix: Semi-Supervised Learning for 3D Medical Image Detection
Dong Wang,Yuan Zhang,Kexin Zhang,Liwei Wang
8+閱讀 · 2020年3月20日
AdarGCN: Adaptive Aggregation GCN for Few-Shot Learning
Jianhong Zhang,Manli Zhang,Zhiwu Lu,Tao Xiang,Jirong Wen
55+閱讀 · 2020年2月28日
Prathusha K Sarma,Yingyu Liang,William A Sethares
4+閱讀 · 2019年8月16日
Mesh R-CNN
Georgia Gkioxari,Jitendra Malik,Justin Johnson
3+閱讀 · 2019年6月6日
Object Detection in 20 Years: A Survey
Zhengxia Zou,Zhenwei Shi,Yuhong Guo,Jieping Ye
38+閱讀 · 2019年5月13日
FocusNet: An attention-based Fully Convolutional Network for Medical Image Segmentation
Chaitanya Kaul,Suresh Manandhar,Nick Pears
4+閱讀 · 2019年2月8日
Md Zahangir Alom,Mahmudul Hasan,Chris Yakopcic,Tarek M. Taha,Vijayan K. Asari
7+閱讀 · 2018年5月29日
Kaiming He,Georgia Gkioxari,Piotr Dollár,Ross Girshick
7+閱讀 · 2018年1月24日
Kriste Krstovski,Michael J. Kurtz,David A. Smith,Alberto Accomazzi
3+閱讀 · 2017年12月18日
Top