基於深度學習的單目場景深度估計方法研究

單目圖像的深度估計是計算機視覺研究的基礎性課題,由於其可以指導多種高 階視覺任務的學習,且具有良好的實際應用前景,近年來也成為計算機視覺領域的 熱門課題。單目深度估計旨在基於單張圖片或單目視頻信息,預測並恢複出場景像 素級別的深度信息。由於現實場景較為複雜,且單目圖像或視頻信息又缺乏魯棒的 幾何約束,現有的深度估計方法往往會丟失細節或無法預測正確的尺度信息,使得 其實際應用受到製約。本文通過設計有效的深度卷積網絡及其學習框架,提出了幾 種新的深度估計方法。主要研究成果概述如下:

(1)本文提出了一種新的多尺度端到端深度估計框架。先前的主流方法往往隻 能預測超像素級別的深度信息,或基於多步非端到端的學習方法。這導致了算法預 測的深度圖像丟失細節,且不利於實際應用。為了端到端的預測精細的深度圖像, 本文從兩個方麵整合了多尺度信息:(a)提出了一種新的多尺度網絡以學習多級深 度表征,並利用多尺度表征逐步地引導網絡的上采樣和預測過程;(b)提出了一種 細粒度正則化方法,使優化器引導網絡學習正確的深度結構信息。在不同數據集上 的大量實驗表明,本文的方法可以預測更完善的細節信息,且可以取得同期最佳的 預測效果。

(2)現有的基於深度神經網絡的方法缺少有效機製以恢複並保留深度圖像中的 邊緣細節信息,這使其預測效果受到影響。因此,本文提出了一種新的漸進困難挖 掘網絡以處理該問題。特別地,本文構建了困難挖掘目標函數,尺度內和尺度間子 網絡來精確地定位和修正預測困難的區域。尺度內修正模塊可以遞歸地從不同語義 特征中恢複深度細節,尺度間修正模塊可以利用不同尺度的深度信息進行互補交互。困難挖掘目標函數可以引導網絡的學習過程,使得網絡自適應地關注容易產生累計 預測誤差的區域。這三種模塊可以有效地協作,逐步地減少學習過程中的誤差傳播, 進一步地增強深度預測效果。大量的實驗分析表明,本文的方法可以有效恢複深度 圖像中的邊緣和細節信息,並取得同期最好的預測效果。

(3)本文提出了一種新的任務遞歸學習框架(Task-recursive Learning, TRL) 以同時處理語義分割,平麵法向量預測和深度估計三個任務。TRL 通過一係列任務 層麵的交互以遞歸地修正預測結果,其中位於每一個時間階段的網絡模塊可以封裝 每一個跨任務交互過程。在每一個時間階段內,TRL將多任務學習過程序列化,並 遞歸地進行交互。為了自適應地增強任務間的相似模式,本文將交互過程封裝在任 務注意力模塊(TAM)中,進而使任務的學習過程可以相互促進。在時間階段之間,通過使用特征選擇單元(FS-unit),網絡將先前獲得的經驗有選擇性地傳播至接下 來的時間節點,進而使任務間的互補信息更充分地被利用。同時,任務交互序列也 在由粗到細的尺度空間中得到延伸,使得細節信息可以被逐步地修正。最終,該多 任務序列化問題被統一地整合進遞歸網絡框架中。在公開數據集上的大量實驗表明, 本文的方法可以遞歸地修正三個任務的預測結果,並獲得同期最佳的數值效果。

(4)本文提出了一種新的模式相似性傳播框架以同時預測場景深度,法向量和 語義分割。其動機來自於相應的統計觀察,即模式相似像素對在同一任務內部和不 同任務之間均頻繁地出現。因此,可以進行兩種形式的傳播過程,即跨任務傳播和 任務特異傳播以自適應地擴散這些相似的模式。跨任務傳播通過計算非局部的關聯 性信息以整合跨任務的相似模式,使這些相似模式更好的適應每一個任務。任務特 異性傳播則是在特征空間進行迭代擴散過程,使跨任務的相似模式能夠被廣泛地應 用於任務內部。由此一來,這些任務層麵的關聯性信息可以調整和促進每一個任務 的學習。在公開數據集上的大量實驗證明了本文方法的有效性,同時也在多個數據 集和三個任務上獲得了同期最佳的效果。

(5)在線的景深學習問題要求連續地調整深度估計模型使其適應於不斷變化的 場景。由於神經網絡往往容易過擬合至當前場景而遺忘之前學得的經驗,這類開放 世界問題十分具有挑戰性。為此,本文提出了一種新的抵抗遺忘的學習方法(LPF) 以處理無監督的在線單目景深學習。與以往更新模型中所有參數的方法不同的是, LPF學習適應器模塊以高效地調整特征表示和分布,從而避免在線場景下的知識丟 失問題。具體地,本文提出了一個新的元學習方法,通過將在線適應過程與目標函 數相結合,使學習到的適應器模塊可以適應於視頻中時間連續的景深模式。為了進 一步地避免過擬合,本文提出了一種新的時間連續正則化方法來調整每個在線學習 步驟的梯度下降過程。在現實場景數據庫上的大量實驗表明,本文的方法在僅增加 少量參數的情況下,明顯地提升了在線景深估計的質量。

成為VIP會員查看完整內容
1
25
0

相關內容

近年來隨著計算機視覺領域的不斷發展,三維場景的語義分割和形狀補全受到學術界和工業界的廣泛關注.其中,語義場景補全是這一領域的新興研究,該研究以同時預測三維場景的空間布局和語義標簽為目標,在近幾年得到快速發展.本文對近些年該領域提出的基於RGB-D圖像的方法進行了分類和總結.根據有無使用深度學習將語義場景補全方法劃分為傳統方法和基於深度學習的方法兩大類.其中,對於基於深度學習的方法,根據輸入數據類型將其劃分為基於單一深度圖像的方法和基於彩色圖像聯合深度圖像的方法.在對已有方法分類和概述的基礎上,本文對語義場景補全任務所使用的相關數據集進行了整理,並分析了現有方法的實驗結果.最後,本文總結了該領域麵臨的挑戰和發展前景.

成為VIP會員查看完整內容
1
18
0

醫學影像分割是計算機輔助診斷中的一項基礎且關鍵的任務,目的在於從像素級別準確識別出目標器官、組織或病變區域。不同於自然場景下的圖像,醫學影像往往紋理複雜,同時受限於成像技術和成像設備,醫學影像噪聲大,邊界模糊而不易判斷。除此之外,對醫學影像進行標注極大依賴於醫療專家的認知和經驗,因此可用於訓練中的標注數據少且存在標注誤差。由於上述的醫學影像邊緣模糊不清、訓練數據較少和標注誤差較大等特點,基於傳統圖像分割算法搭建的輔助診斷係統難以滿足臨床應用的要求。近年來隨著卷積神經網絡(CNN)在計算機視覺和自然語言處理領域的廣泛應用,基於深度學習的醫學影像分割算法取得了極大的成功。首先概述了近幾年基於深度學習的醫學影像分割的研究進展,包括這些醫學影像分割算法的基本結構、目標函數和優化方法。隨後針對醫學影像標注數據有限的問題,對目前半監督條件下醫學影像分割的主流工作進行了整理歸納和分析。此外,還介紹了針對標注誤差進行不確定度分析的相關工作。最後,總結分析了深度學習醫學影像分割的特點並展望了未來的研究趨勢。

http://www.joca.cn/CN/abstract/abstract24596.shtml

成為VIP會員查看完整內容
2
23
0

其中一項非常值得研究的工作,點雲配準旨在將多個點雲正確配準到同一個坐標係下,形成更完整的點雲。點雲配準要應對點雲非結構化、不均勻、噪聲等的幹擾,要以更短的時間消耗達到更高的精度,但是時間消耗和精度往往是矛盾的,但在一定程度上優化是有可能的。點雲配準廣泛應用於三維重建、參數評估、定位和姿態估計等領域,在自動駕駛、機器人、增強現實等新興應用上也有點雲配準技術的參與。為此研究者開發了多樣又巧妙的點雲配準方法,本文梳理了一些比較有代表性的點雲配準方法並進行分類總結,對比相關工作,盡量覆蓋點雲配準的各種形式,並對一些方法的細節加以分析介紹。將現有方法歸納為非學習方法和基於學習的方法進行分析。非學習方法分為經典方法和基於特征的方法,基於學習的方法分為結合了非學習方法的部分學習方法和直接的端到端學習方法這兩類。分別介紹了各類方法的典型算法,對比總結算法特性,展望點雲配準技術的未來研究方向。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202103290000004&journal_id=jig

成為VIP會員查看完整內容
1
15
0

行人檢測技術在智能交通係統,智能安防監控等領域表現出了極高的應用價值,已經成為計算機視覺領域的重要研究方向之一。得益於深度學習的飛速發展,基於深度卷積神經網絡的通用目標檢測模型被不斷擴展應用到行人檢測領域,並取得了良好的性能。但是由於行人目標內在的特殊性、複雜性,特別是考慮到複雜場景下的行人遮擋、尺度變化等問題,深度學習方法也麵臨著嚴峻的挑戰。本文針對上述問題,以基於深度學習的行人檢測技術為研究對象,在充分調研文獻的基礎上,分別從基於錨點框、基於無錨點框以及通用技術改進(例如損失函數,非極大值抑製等)三個角度,對各類行人檢測算法進行細分,並選取具有代表性的方法進行詳細介紹和對比分析。此外,本文對行人檢測的通用數據集進行了詳細的介紹,對該領域先進算法的性能進行了對比分析,對行人檢測中待解決的問題與未來的研究方向做出預測和展望。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?flag=2&file_no=202012230000001&journal_id=jig

成為VIP會員查看完整內容
0
36
0

本項研究針對深度傳感係統獲取的場景深度圖像分辨率低和細節丟失等問題,突破現有基於彩色指導的場景深度複原方法的局限性,即在訓練及測試階段同時需要高分辨率彩色圖像和降質深度圖像作為網絡輸入來估計高質量深度圖像(在實際測試環境中,同視角的高分辨率彩色輔助信息並不容易獲得)。首次提出基於跨任務場景結構知識遷移的單一場景深度圖像超分辨率方法,在訓練階段從彩色圖像蒸餾出場景結構信息來輔助提升深度複原性能,而測試階段僅提供單張降質深度圖像作為輸入即可實現深度圖像重建。該算法框架同時構造了深度估計任務(彩色圖像為輸入估計深度信息)及深度複原任務(低質量深度為輸入估計高質量深度),並提出了基於師生角色交換的跨任務知識蒸餾策略以及不確定度引導的結構正則化學習來實現雙邊知識遷移,通過協同訓練兩個任務來提升深度超分辨率任務的性能。在實際部署和測試中,所提出的方法具有模型輕量化,算法速度快等特點,且在缺少高分辨率彩色信息輔助的情況下仍可獲得優異的性能。

http://faculty.dlut.edu.cn/yexinchen/zh_CN/zdylm/1123985/list/index.htm

成為VIP會員查看完整內容
0
15
0

深度預測學習問題與方法研究

隨著移動互聯網、傳感器網絡、計算機視覺的快速發展,人們獲得了海量的 時空數據。本文麵向這類數據的時間與空間結構特性,係統研究基於神經網絡的 深度預測學習方法。該方法旨在學習時空序列背後的演變規律,並對其未來狀態 給出近似估計。本文討論深度預測學習的以下難點問題:(1)如何在對時空相關 性的統一建模中考慮層次化的深度網絡特征;(2)如何緩解循環網絡深度和梯度 消失的矛盾,平衡短期與長期的時空特征;(3)針對各種確定性時空數據,研究 如何建模其複雜的趨勢非平穩過程與季節性變化;(4)針對開放視覺環境中的感 知不確定性和動態不確定性,研究如何解決概率預測模型的可信度問題;(5)如 何促進深度預測學習特征向下遊語義級的有監督任務泛化。圍繞這些問題,本文 的研究過程可分為以下三個階段,呈遞進關係,每個階段包含 2-3 個創新點:

第一階段,本文探索深度預測學習的基礎網絡結構。針對難點(1),研究基於 循環網絡的記憶狀態跨層轉移方法,實現了時間記憶狀態與多層空間特征的融合;在此基礎上,針對難點(2),本文研究如何在延長循環網絡的記憶狀態轉移路徑 的同時,延緩該路徑上的反向梯度消失。

第二階段,本文根據傳統時間序列分析中的 Cramér 分解理論[1],分別從時空 信號的非平穩性、季節性和隨機性的角度出發,針對難點(3-4)研究相應的深度 預測學習方法。這些方法依次適用於存在固有動力學模式但趨勢信息相對複雜的 確定性時空數據(如短時雷達回波序列)、季節性時空數據(如交通流量序列)和 從部分可見的環境中采集的時空數據(如帶有噪聲的視頻片段)。

第三階段,本文在數據級的時空序列預測任務的基礎上更進一步,從時序關 係推理的角度出發,再度審視深度預測學習的特征表達。針對難點(5),本文在 循環網絡的狀態轉移方程中分別引入三維卷積算子和可微分的記憶狀態讀寫機製, 旨在同時促進模型對短期時空特征的感知和對長期語義關係的推理。實驗表明,這 些改進對預測模型的任務泛化大有裨益,進而說明了麵向時空數據的深度預測學 習是一種有效的無監督表征學習框架。

此外,本文還設計了一套名為 PredLearn 的模型庫,從係統實現的角度對上述 創新性方法及其特點和適用範圍進行了整理、歸納和對比,以便用戶可以根據具 體的場景特性合理選擇模型。最後,本文以災害天氣短時臨近預報作為一種典型 的應用案例,介紹如何實現從本文方法到實際業務平台的技術轉化。

成為VIP會員查看完整內容
1
47
0

基於深度學習的圖像處理算法研究

隨著智能手機和微單相機的普及,拍照已經變成人們日常生活中不可缺少的一部分,圖像也已成為人類社會的重要信息媒介。然而受到拍照環境、設備和技術的影響,圖像中難免會出現退化現象,如何從圖像處理的角度提升拍攝照片的質量具有重要的研究意義與應用價值。近年來,深度學習技術得到了巨大的發展,並廣泛應用於圖像處理領域。相對於許多傳統算法,深度學習技術從海量的訓練數據中學習到的先驗知識具有更強的泛化能力和更複雜的參數化表達,且無需調節算法參數以適應不同的應用場景。得益於上述優勢,深度學習技術已經廣泛應用於圖像處理領域,如何利用深度學習算法提升圖像處理的效果也變成了一個重要的研究方向。

盡管深度學習技術顯著促進了圖像處理領域的發展,但是受限於其對訓練數據的敏感性,在麵對無標簽、僅有弱標簽或者合成偽標簽的數據時,深度學習技術的優勢難以充分體現。本學位論文針對以上挑戰,重點研究了缺失完整數據標簽的經典圖像處理問題,包括圖像平滑、反光去除和本征圖像分解等。本文通過將上述問題抽象為對圖像結構敏感的圖像分解問題,將顯著的目標邊緣信息通過優化或者濾波的方式編碼進深度學習的算法設計中。根據圖像處理問題中數據標簽的類型和數量不同,本文依次提出了基於無監督學習、弱監督學習和多標簽聯合訓練的深度學習解決方案。本文的最後提出了解耦學習框架,通過對10種不同圖像處理問題的聯合訓練,提煉出了圖像處理問題的核心解空間。該算法對於理解深度學習技術在圖像處理領域的應用有重要的研究價值和意義。本文的創新點和貢獻包括以下幾個方麵:

(1) 一種基於無監督學習的空間自適應圖像平滑算法

該算法通過使用卷積神經網絡,以無監督的方式從無標簽數據中學習圖像平滑的優化過程,並實現可靈活調節的圖像平滑效果。該算法提出了一個由邊緣保持項和空間自適應平滑項構成的能量函數,前者用於保持重要但易破壞的圖像結構,後者用於將多種形式的正則器(Lp範數)施加至圖像的不同區域。由於缺乏平滑圖像的真值數據,本文采用一個無監督學習的能量優化框架,用來實現多種基於圖像平滑的視覺應用,譬如圖像抽象化、鉛筆素描、細節增強、紋理去除和基於內容的圖像處理等。實驗結果表明,該基於無監督學習的空間自適應圖像平滑算法獲得了更好的視覺結果。

(2) 一種基於弱監督學習的圖像反光去除算法

該算法提出了一個多階段卷積神經網絡,用以解決圖像分解領域中經典的反光去除問題。本算法框架由兩個結構相似的卷積神經網絡串聯而成,前者預測目標圖像的邊緣結構,後者依據預測邊緣信息的引導重建目標圖像;整個過程既不需要任何人工設計,也不依賴於其他圖像處理應用。通過從真實反光圖像觀察得到的圖像亮度和結構先驗,該算法設計了一種針對模糊強反光的反光圖像合成算法;通過將合成數據以弱監督信號的形式融入到多階段神經網絡訓練中,該算法獲得了在真實反光圖像上的良好泛化性能。實驗結果表明,該基於弱監督學習的圖像反光去除算法在不同程度的反光場景中均獲得更優的視覺效果。

(3) 一種基於多標簽聯合訓練的本征圖像分解算法

本征圖像分解往往存在數據集冗雜、數據標簽不一致等問題。為解決該問題,本文提出了一個通用的核心神經網絡,用以在不同類型的數據標簽中共享本征圖像形成過程的稀疏先驗。該神經網絡由三個不同的基礎模塊組成:直接本征圖像估計網絡、導向網絡和域濾波器;其中,直接本征圖像估計網絡通過對本征圖像的直接監督獲得初始的預測結果,導向網絡負責生成稀疏的反射結構先驗,並引導域濾波器獲得幹淨的反射估計。該算法設計了一個靈活的能量損失層以實現多標簽數據聯合訓練的目的。實驗結果表明,該本征圖像分解算法在所有的主流基準數據集上都獲得了更高的精確度。

(4) 一種基於解耦學習的實時參數化圖像處理框架

傳統的深度學習算法在麵對不同的圖像處理應用時,需要重複地訓練神經網絡。為了解決這個問題,該算法提出了由基礎網絡和權重學習網絡組成的解耦學習框架,其中前者用來實現具體的圖像處理應用,後者用來學習基礎網絡的權重。該算法通過對基礎網絡的結構和權重進行解耦,達到根據圖像處理應用的變化實時動態調整基礎網絡權重的效果,並因此實現了利用單一神經網絡融合多種圖像處理應用的目的。實驗結果表明,該解耦學習框架成功應用在10種不同的參數化圖像算子中,並減少了網絡參數的存儲空間。

成為VIP會員查看完整內容
2
46
0

摘要: 三維重建在視覺方麵具有很高的研究價值, 在機器人視覺導航、智能車環境感知係統以及虛擬現實中被廣泛應用.本文對近年來國內外基於視覺的三維重建方法的研究工作進行了總結和分析, 主要介紹了基於主動視覺下的激光掃描法、結構光法、陰影法以及TOF (Time of flight)技術、雷達技術、Kinect技術和被動視覺下的單目視覺、雙目視覺、多目視覺以及其他被動視覺法的三維重建技術, 並比較和分析這些方法的優點和不足.最後對三維重建的未來發展作了幾點展望。

成為VIP會員查看完整內容
4
88
0

論文摘要:隨著數碼相機、智能手機等數碼設備的普及,用戶可以隨時隨地拍攝各種感興趣的場景。然而,在成像過程的曝光時間內存在難以避免的相機抖動、物體運動、場景深度變化等原因,使拍攝的圖片和視頻中往往存在一些模糊現象,影響對圖片內容的理解。因此對這些低質量圖片的恢複將有助於人們更好的理解圖像內容。本文擬對模糊圖片和視頻的還原進行研究,分別利用不同的結構先驗知識對模糊圖像和視頻內容進行恢複。本文的主要研究內容和貢獻如下:

  1. 針對場景文字圖片中文字筆畫寬度不同的特性,提出了一種基於文字特有多尺度字典的場景文字去模糊方法。並且統計了場景文字圖像中筆畫寬度的分布規律,通過該統計規律分別訓練得到不同尺度的場景文字字典。然後利用該文字特有多尺度字典對文字圖片中的文字區域建模先驗知識。本文提出的文字特有多尺度字典可以有效處理場景中不同筆畫寬度的場景文字。

  2. 根據圖像中相似圖像塊之間的低秩結構特性,本文提出了一種基於低秩先驗的圖像去模糊方法,觀察到在模糊圖像中使用低秩約束可以在一定程度上減少圖像的模糊效應,同時保留圖像的主要結構信息,而這一現象在圖像的梯度域上更加明顯。基於此本文提出基於低秩近似的圖像去模糊方法,分別在圖像的灰度域和梯度域增加低秩約束,保留圖像的主要邊緣結構達到去模糊的效果。

  3. 由於視頻中存在複雜的相機抖動,物體運動和場景深度變化等多種原因,傳統的基於均勻模糊核或全局非均勻模糊核的視頻去模糊方法不能滿足真實視頻的特性。基於此,提出了一種基於像素級非線性模糊核的視頻去模糊方法。通過對視頻雙向光流構造二次方程,來近似求解每個像素的非線性模糊核,可以反映出視頻中更真實的模糊核。此外,為了提高光流的準確性,將語義分割引入到視頻去模糊中,通過不同物體信息對光流進行不同的建模,得到更好的光流估計結果從而進一步提高視頻去模糊的效果。

關鍵詞: 圖像去模糊,文字圖像去模糊,視頻去模糊,稀疏表達,低秩表示,像素級非線性模糊核,光流,語義分割

作者介紹:他目前是天津大學計算機科學與技術學院和美國加州大學默塞德分校電子工程與計算機科學聯合培養的博士研究生,他的博士生導師是操曉春,他的研究興趣包括圖像去模糊,圖像/視頻分析和增強,以及相關的視覺問題,相關研究成果發表在權威期刊和會議上,如IEEE TIP, CVPR, ECCV等。

成為VIP會員查看完整內容
2
34
0

摘要:場景分割問題是計算機視覺領域基本而重要的問題,具有廣泛的應用價值。 場景分割需要解決的科學問題是如何對場景中的要素進行精確分割。其主要難 點在於場景圖像的結構十分複雜,包含多種類別和多種尺度的要素,且這些要素 之間存在著豐富的空間關係。同時在實際應用中,在保證場景分割精度的條件下 也需要綜合考慮計算複雜度和速度。因此,場景分割問題的主要難點和挑戰可概 括為三個方麵:1)尺度變換多樣,2)空間關係複雜,3)時間複雜度高。近年來, 基於深度學習,尤其是卷積神經網絡的方法在場景分割領域取得了巨大的進展, 但基於深度學習的場景分割方法還存在著一定的局限性。本課題對基於深度學 習的場景分割方法進行研究,針對上述三個難點和挑戰,取得了以下成果:

  1. 基於尺度自適應卷積的場景分割方法 目前基於深度學習的場景分割方法主要利用標準卷積,其感受野大小固定。 而場景圖像中要素的尺度變化多樣,導致大尺度要素分割結果不連續,小尺度要 素與背景混淆而遺漏的問題。針對該問題,我們提出尺度自適應卷積方法,對場 景圖像中不同尺度的要素自適應改變卷積感受野大小。該方法可以緩解由於標 準卷積感受野固定引起的大尺度要素分割結果不連續和小尺度要素被遺漏的問 題。尺度自適應卷積的整個過程是可導的,其卷積參數可以利用一個端到端的結 構從數據中自動和隱式的學習。我們在 Cityscapes 和 ADE20K 兩個數據集上驗 證了尺度自適應卷積的有效性。

  2. 基於全局和局部修正的場景分割方法 場景圖像中具有複雜的空間關係和豐富的上下文信息,對場景中要素的識 別具有極大的幫助作用。我們分別利用全局上下文信息和局部上下文信息對給 定的場景分割結果進行修正。我們首先提出全局殘差修正網絡,通過捕捉圖像中 的全局上下文信息進行分割結果的修正。經過全局殘差修正網絡修正之後,原 始分割結果中不一致、不連續的區域將被修正。其次,我們提出局部邊界修正網 絡,通過捕捉圖像中的局部上下文信息,對給定分割結果的邊界和細節進行修 正。經過局部邊界修正網絡修正之後,原始分割結果中的分割邊界將更加精確和 平滑。這兩種修正網絡均可單獨使用,也可以級聯在給定的分割網絡之後形成一 個統一框架,以共同提高修正結果的精度。在 Cityscapes 和 ADE20K 兩個數據 集上的結果顯示這兩種修正網絡可以有效提高給定分割結果的精度。

  3. 基於高分辨率特征圖重建的場景分割加速方法 現有大多數場景分割方法著眼於提高模型的分割精度,因此使用較深的神 經網絡和較高分辨率的特征圖,分割精度較高但速度較慢。為解決由於較大尺寸 輸入圖像和高分辨率特征圖導致的場景分割速度較慢的問題,我們提出高分辨 率特征圖重建方法對任意給定的場景分割框架進行加速。該方法利用降采樣輸 入圖像的特征圖對原始大小輸入圖像的特征圖進行重建。利用降采樣輸入圖像 進行特征學習的速度較快,而重建原始大小輸入圖像的特征圖可以緩解使用降 采樣輸入圖像導致的細節丟失和精度下降問題。我們在兩個公開數據集上驗證 了高分辨率特征圖重建方法的有效性,當使用 1/2 降采樣率時,可以在分割精度 損失忽略不計的情況下得到約 3 倍的加速比。

關鍵詞:場景分割,深度學習,尺度自適應卷積,全局和局部修正網絡,高分辨 率特征圖重建

作者簡介:張蕊,2009年9月-2013 年7月,在北京航空航天大學數學與係統科學學院獲理學學士學位。2013年9月-2019年7月,在中國科學院計算技術研究所攻讀博士學位,博士生導師是李錦濤。

成為VIP會員查看完整內容
2
24
0
小貼士
相關VIP內容
專知會員服務
18+閱讀 · 2021年11月8日
專知會員服務
23+閱讀 · 2021年8月28日
專知會員服務
15+閱讀 · 2021年7月25日
專知會員服務
36+閱讀 · 2021年4月14日
專知會員服務
47+閱讀 · 2020年12月18日
專知會員服務
46+閱讀 · 2020年12月6日
專知會員服務
88+閱讀 · 2020年5月1日
微信掃碼谘詢專知VIP會員
Top