CVPR 2022 將於2022年 6 月 21-24 日在美國的新奧爾良舉行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的縮寫,即IEEE國際計算機視覺與模式識別會議。該會議是由IEEE舉辦的計算機視覺和模式識別領域的頂級會議,會議的主要內容是計算機視覺與模式識別技術。

知識薈萃

重要節點

● 3月1日——錄用論文發布(共錄用2067篇,接受率2067/8161 = 25.33%)(https://cvpr2022.thecvf.com/sites/default/files/2022-03/accepted_papers.txt)

錄用論文(持續更新)

1.【基於聯合表示學習和在線聚類的無監督活動分割】Unsupervised Activity Segmentation by Joint Representation Learning and Online Clustering
● 論文摘要:提出了一種新的無監督活動分割方法,它使用視頻幀聚類作為前置任務,同時執行表示學習和在線聚類。這與通常按順序執行表示學習和聚類的先前工作形成對比。作者通過采用時間最優傳輸來利用視頻中的時間信息,將保留活動時間順序的時間正則化項合並到用於計算偽標簽集群分配的標準最優傳輸模塊中。時間最優傳輸模塊使得本文方法能夠學習無監督活動分割的有效表示。此外,與之前需要在離線聚類之前存儲整個數據集的學習特征的方法相比,本文方法可以通過在線方式一次處理一個小批量。
● 論文鏈接:https://arxiv.org/abs/2105.13353
● 論文視頻:https://www.youtube.com/watch?v=i4Fh_3nzzUI&t=12s
● 作者單位:美國Retrocausal公司
2.【基於點的神經輻射場】Point-NeRF: Point-based Neural Radiance Fields
● 論文摘要:像NeRF這樣的體積神經繪製方法可以生成高質量的視圖合成結果,但對每個場景都進行了優化,導致重建時間過長。另一方麵,深度多視圖立體方法可以通過直接的網絡推理快速重建場景幾何。point - nerf結合了這兩種方法的優點,使用神經三維點雲,與相關的神經特征,以模擬一個亮度場。point - nerf可以在基於光線行進的渲染管道中,通過聚集近場景表麵的神經點特征來有效地渲染。此外,通過預先訓練的深度網絡的直接推理,可以初始化point - nerf生成神經點雲;這個點雲可以微調,超過NeRF的視覺質量,以更快的30倍的訓練時間。Point-NeRF可以與其他三維重建方法相結合,並通過一種新的剪枝和生長機製來處理這些方法中的錯誤和異常值。
● 論文主頁:https://xharlie.github.io/projects/project_sites/pointnerf/
● 論文鏈接:https://arxiv.org/pdf/2201.08845.pdf
● 論文代碼:https://github.com/Xharlie/pointnerf
● 作者單位:南加州大學、adobe研究院
3.【機器人對象重排的迭代流最小化】IFOR: Iterative Flow Minimization for Robotic Object Rearrangement
● 論文摘要:在非結構化環境中,精確的視覺對象重排是現實世界中廣泛應用的一個關鍵問題。提出了執行,迭代流最小化機器人物體重排,一個端到端的方法,以解決未知物體在給定原始和最終場景的RGBD圖像下的物體重排問題。首先,學習了一種基於RAFT的光流模型,通過純合成數據來估計物體的相對變換。然後,這個流程被用於迭代最小化算法,以實現之前看不見的對象的精確定位。至關重要的是,我們表明我們的方法適用於混亂的場景,在現實世界中,而隻是在合成數據上進行訓練。
● 論文鏈接:https://arxiv.org/abs/2202.00732
● 論文代碼:(待更新)
● 論文主頁:https://imankgoyal.github.io/ifor.html
● 作者單位:NVIDIA、普林斯頓大學、卡耐基梅隆大學
4.【無界抗鋸齒神經輻射場】Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields
● 論文摘要:雖然神經輻射場(NeRF)在物體和空間的小邊界區域上展示了令人印象深刻的視圖合成結果,但它們在“無邊界”場景上卻很困難,在這種場景中,攝像機可能指向任何方向,內容可能存在於任何距離。在這種背景下,現有NeRF-like模型往往會產生模糊或低分辨率的效果圖(由於不平衡的細節和規模附近和遠處的物體),慢火車,可能表現出構件由於固有的歧義的任務重建一套大型場景從一個小的圖像。我們提出了mip-NeRF的一種擴展(一種處理采樣和混疊的NeRF變體),它使用非線性場景參數化、在線蒸餾和一種新的基於扭曲的正則化來克服無界場景帶來的挑戰。我們的模型,我們稱之為“mip-NeRF 360”,因為我們的目標場景中,攝像機圍繞一個點旋轉360度,與mip-NeRF相比,減少了54%的均方誤差,並能夠為高度複雜的、無限的真實世界場景生成真實的合成視圖和詳細的深度地圖。
● 論文鏈接:https://arxiv.org/abs/2111.12077
● 論文代碼:(待更新)
● 論文視頻:https://www.youtube.com/watch?v=zBSH-k9GbV4
● 作者單位:google、哈佛大學
5.【用於理解三維點雲的自監督交叉模態對比學習】CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understandings
● 論文摘要:由於點雲的不規則結構,人工標注大規模點雲數據集用於三維目標的分類、分割和檢測等各種任務往往非常費力。自我監督學習,無需任何人類標簽,是解決這個問題的一個有前途的方法。我們在現實世界中觀察到,人類能夠將從2D圖像中學習到的視覺概念映射到3D世界中。受此啟發,我們提出了CrossPoint,一種簡單的跨模態對比學習方法,用於學習可轉移的3D點雲表示。它通過最大化點雲和相應的在不變空間中渲染的2D圖像之間的一致性來實現物體的3D-2D對應,同時鼓勵點雲形態中轉換的不變性。我們的聯合訓練目標結合了模式內和模式間的特征對應,從而以一種自我監督的方式集成了來自3D點雲和2D圖像模式的豐富學習信號。實驗結果表明,我們的方法在不同的下遊任務中,包括三維對象分類和分割,優於以往的無監督學習方法。此外,消融研究驗證了我們的方法在更好地理解點雲方麵的潛力。
● 論文鏈接:https://arxiv.org/abs/2203.00680
● 論文代碼:https://github.com/mohamedafham/crosspoint
● 數據集:ShapeNet,ModelNet
● 論文視頻:(待更新)
● 作者單位:莫拉圖瓦大學、悉尼佛大學

6.【從許多休閑視頻中構建可動畫的3D神經模型】BANMo: Building Animatable 3D Neural Models from Many Casual Videos
● 論文摘要:之前關於鉸接式三維形狀重建的工作通常依賴於專門的傳感器(如同步多攝像機係統),或預先構建的三維可變形模型(如SMAL或SMPL)。這些方法不能擴展到野外的不同對象集。我們提出BANMo,一種既不需要專門的傳感器也不需要預定義的模板形狀的方法。BANMo在一個可區分的渲染框架中,從許多單目休閑視頻中構建高保真、鉸連的3D模型(包括形狀和動畫皮膚權重)。雖然許多視頻的使用提供了更多的攝像機視圖和物體清晰度的覆蓋,但它們在建立不同背景、光照條件等場景之間的對應關係方麵帶來了重大挑戰。我們的主要觀點是融合三個學派的思想;(1)利用關節骨和混合皮膚的經典變形形狀模型,(2)適用於基於梯度的優化的體積神經輻射場(NeRFs),以及(3)生成像素和關節模型之間對應的規範嵌入。我們引入神經混合蒙皮模型,允許可微和可逆鉸接變形。當與規範嵌入相結合時,這樣的模型允許我們在視頻之間建立密集的對應關係,這些對應關係可以通過周期一致性進行自我監督。在真實數據集和合成數據集上,BANMo展示了比之前的人類和動物作品更高保真度的3D重建,能夠從新穎的視角和姿勢呈現逼真的圖像。
● 論文主頁:https://banmo-www.github.io/
● 論文鏈接:https://arxiv.org/abs/2112.12761
● 論文代碼:https://github.com/facebookresearch/banmo
● 數據集:AMA
● 論文視頻:https://banmo-www.github.io/cats.html
● 作者單位:Meta、卡耐基梅隆大學

7.【隱形衣人從正常人身上獲得】ICON: Implicit Clothed humans Obtained from Normals
● 論文摘要:目前,學習逼真的、可動畫的3D服裝化身的方法,要麼是3D掃描,要麼是2D圖像,仔細控製用戶的姿勢。相比之下,我們的目標是通過2D圖像了解人物的形象。給定一組圖像,我們的方法從每幅圖像中估算出詳細的3D表麵,然後將它們組合成一個可動畫的化身。隱式函數非常適合第一個任務,因為它們可以捕捉頭發或衣服等細節。然而,目前的方法對各種各樣的人體姿態都不穩定,而且常常產生骨折或脫離身體的肢體、缺失細節或非人類形狀的3D表麵。問題是這些方法使用的全局特征編碼器是敏感的全局姿態。為了解決這個問題,我們提出了ICON(“從法線中獲得的隱含衣人”),它使用了局部特征。ICON有兩個主要模塊,它們都利用了SMPL(-X)主體模型。首先,ICON以SMPL(-X)正常人為條件,推斷出人體的詳細服裝(正麵/背麵)。其次,一個可見性感知的隱式表麵回歸器產生一個人類占有場的等表麵。重要的是,在推理時,一個反饋循環在使用推斷穿衣法線細化SMPL(-X)網格和細化法線之間交替進行。給定一個主體在不同姿勢下的多個重建幀,我們使用SCANimate來產生一個可動畫的化身。對AGORA和CAPE數據集的評估表明,即使在訓練數據非常有限的情況下,ICON在重建方麵的表現也優於目前的技術水平。此外,它對非分布樣本更加健壯,例如在野外的姿勢/圖像和幀外裁剪。ICON從野外的圖像中向強大的3D人體重建邁出了一步。這使得可以直接從視頻中創建具有個性化和自然姿勢依賴的布料變形的化身。
● 論文主頁:https://icon.is.tue.mpg.de/
● 論文鏈接:https://arxiv.org/abs/2112.09127
● 論文代碼:https://github.com/YuliangXiu/ICON
● 數據集:AGORA
● 論文視頻:https://youtu.be/ZufrPvooR2Q
● 作者單位:馬克斯·普朗克智能係統研究所

8.【可控圖像合成與編輯的合成生成先驗學習】SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing
● 論文摘要:最近的研究表明,StyleGANs為圖像合成和編輯的下遊任務提供了有前途的預先模型。然而,由於StyleGANs的潛代碼是設計來控製全局樣式的,因此很難對合成的圖像實現細粒度的控製。我們提出了SemanticStyleGAN,它訓練一個生成器分別建模局部語義部分,並以合成的方式合成圖像。不同局部部位的結構和紋理由相應的潛碼控製。實驗結果表明,我們的模型提供了不同空間區域之間的強解糾纏。當與為StyleGANs設計的編輯方法相結合時,它可以實現更細粒度的控製來編輯合成的或真實的圖像。該模型還可以通過遷移學習擴展到其他領域。因此,作為一個具有內置解糾纏的通用先驗模型,它可以促進基於gan的應用程序的開發,並支持更多潛在的下遊任務。
● 論文主頁:https://semanticstylegan.github.io/
● 論文鏈接:https://arxiv.org/abs/2112.02236
● 論文代碼:(待更新)
● 數據集:FFHQDeepFashion
● 論文視頻:https://semanticstylegan.github.io/videos/demo.mp4
● 作者單位:字節跳動

9.【基於歸一化切割的無監督對象發現的自監督Transformer】Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut
● 論文摘要:使用自蒸餾損失(DINO)進行自監督學習訓練的變形金剛已經被證明可以生成突出突出前景物體的注意力地圖。在本文中,我們演示了一種基於圖的方法,它使用自監督Transformer特性從圖像中發現對象。視覺標記被視為加權圖中的節點,其邊表示基於標記相似性的連接性得分。然後,前台對象可以使用一種歸一化的圖形分割來分組自相似的區域。我們利用譜聚類和廣義特征分解來解決圖切割問題,並表明第二最小特征向量提供了切割解決方案,因為它的絕對值表明令牌屬於前景對象的可能性。盡管這種方法很簡單,但它顯著提高了無監督對象發現的性能:我們在VOC07、VOC12和COCO20K上比最新的LOST技術分別提高了6.9%、8.1%和8.1%。通過添加第二階段的類無關檢測器(CAD),可以進一步提高性能。我們提出的方法可以很容易地推廣到無監督顯著性檢測和弱監督目標檢測。對於無監督顯著性檢測,我們將ECSSD、DUTS、DUT-OMRON上的IoU分別提高了4.9%、5.2%、12.9%。對於弱監督目標檢測,我們在CUB和ImageNet上實現了競爭性能。
● 論文主頁:https://www.m-psi.fr/Papers/TokenCut2022/
● 論文鏈接:https://arxiv.org/abs/2202.11539
● 論文代碼:https://github.com/YangtaoWANG95/TokenCut
● 數據集:ImageNetCOCO
● demo:https://huggingface.co/spaces/akhaliq/TokenCut
● 作者單位:格勒諾布爾阿爾卑斯大學、騰訊AI實驗室、三星AI中心、MIT等

10.【Swin Transformer V2:擴展容量和分辨率】Swin Transformer V2: Scaling Up Capacity and Resolution
● 論文摘要:我們提供了將Swin Transformer縮放到30億個參數的技術,並使其能夠使用高達1,536×1,536分辨率的圖像進行訓練。通過擴大容量和分辨率,Swin Transformer在四個有代表性的視覺基準上創下了新的記錄:ImageNet-V2圖像分類84.0%的top-1精度,COCO對象檢測63.1/54.4 box/mask mAP, ADE20K語義分割59.9 mIoU, kinetic400視頻動作分類86.8%的top-1精度。我們的技術一般適用於擴大視覺模型,但沒有像NLP語言模型那樣得到廣泛的探索,部分原因是在培訓和應用方麵存在以下困難:1)視覺模型在尺度上經常麵臨不穩定性問題,2)許多下遊視覺任務需要高分辨率的圖像或Windows,目前尚不清楚如何有效地將在低分辨率下訓練的模型轉換為高分辨率的模型。當圖像分辨率較高時,GPU內存消耗也是一個問題。為了解決這些問題,我們提出了幾個技術,並以Swin Transformer為例進行了說明:1)後歸一化技術和縮放餘弦注意方法,以提高大視覺模型的穩定性;2)對數間隔連續位置偏置技術,有效地將在低分辨率圖像和Windows下訓練的模型傳遞給高分辨率的對應模型。此外,我們分享了我們的關鍵實現細節,這將導致顯著節省GPU內存消耗,從而使使用常規GPU訓練大型視覺模型成為可能。通過使用這些技術和自我監督的預訓練,我們成功地訓練了強大的3B Swin Transformer模型,並有效地將其轉換到涉及高分辨率圖像或窗口的各種視覺任務,在各種基準上實現了最先進的精度。
● 論文鏈接:https://arxiv.org/abs/2111.09883
● 論文代碼:https://github.com/microsoft/Swin-Transformer
● 數據集:ImageNetCOCO
● 作者單位:微軟亞洲研究院

11.【野外時鍾模擬閱讀】It's About Time: Analog Clock Reading in the Wild
● 論文摘要:在這篇論文中,我們提出了一個框架來閱讀模擬時鍾在自然圖像或視頻。具體來說,我們做出了以下貢獻:首先,我們創建了一個可伸縮的管道來生成合成時鍾,大大減少了對勞動密集型注釋的需求;其次,提出了一種基於空間變壓器網絡(STN)的時鍾識別體係結構,對其進行端到端的時鍾校準和識別。我們表明,在提出的合成數據集上訓練的模型以良好的精度推廣到真實時鍾,倡導Sim2Real訓練製度;第三,為了進一步縮小模擬和真實數據之間的差距,我們利用時間的特殊屬性,即均勻性,在真實的無標簽時鍾視頻上生成可靠的偽標簽,並表明對這些視頻的訓練提供了進一步的改進,同時仍然不需要手工標注。最後,我們介紹了三種基於COCO、Open Images和The Clock電影的基準數據集,共4472幅帶有時鍾的圖像,對時間進行了完整的注釋,精確到分鍾。
● 論文主頁:https://charigyang.github.io/abouttime/
● 論文鏈接:https://arxiv.org/abs/2111.09162
● 論文代碼:https://github.com/charigyang/itsabouttime
● 數據集:COCO
● 作者單位:牛津大學

12.【一種新穎的單對變壓器的人機交互兩階段有效檢測】Efficient Two-Stage Detection of Human–Object Interactions with a Novel Unary–Pairwise Transformer
● 論文摘要:最近在transformer模型的可視化數據的發展已經導致了識別和檢測任務的顯著改進。特別是,使用可學習查詢代替區域建議已經產生了一類新的單階段檢測模型,其先鋒是Detection Transformer(DETR)。自那以來,這種單階段方法的變體一直主導著人機交互(HOI)檢測。然而,這種單級HOI探測器的成功很大程度上歸功於變壓器的表現能力。我們發現,當配備相同的變壓器時,兩級變壓器的性能和內存效率更高,同時訓練時間更短。在這項工作中,我們提出了一元-兩兩變壓器,一個二級檢測器,利用一元和兩兩表示的HOIs。我們觀察到,變壓器網絡的一元部分和兩兩部分是專一的,前者優先增加正麵例子的分數,後者則減少負麵例子的分數。我們在HICO-DET和V-COCO數據集上評估了我們的方法,並顯著優於最先進的方法。在推理時,我們使用ResNet50的模型在單個GPU上接近實時性能。
● 論文主頁:https://fredzzhang.com/unary-pairwise-transformers/
● 論文鏈接:https://arxiv.org/pdf/2112.01838.pdf
● 論文代碼:https://github.com/fredzzhang/upt
● 作者單位:澳大利亞國立大學、牛津大學、澳大利亞機器人視覺中心

13.【魯棒等變成像:一個學習從噪聲和部分測量中成像的完全無監督框架】Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements Transformer
● 論文摘要:深度網絡在從醫學成像到計算攝影的多重成像逆問題中提供了最先進的性能。然而,大多數現有的網絡都是用幹淨的信號訓練的,這通常很難或不可能獲得。等變成像(EI)是一種最新的自我監督學習框架,它利用信號分布中的群體不變性,僅從部分測量數據學習重構函數。雖然EI的結果令人印象深刻,但它的性能隨著噪聲的增加而下降。在本文中,我們提出了一個魯棒等變成像(REI)框架,它可以學習圖像從噪聲部分測量單獨。該方法使用Stein’s Unbiased Risk Estimator (SURE)來獲得對噪聲具有魯棒性的完全無監督訓練損失。我們表明,REI在線性和非線性逆問題上帶來了可觀的性能增益,從而為深度網絡的魯棒無監督成像鋪平了道路。
● 論文鏈接:https://arxiv.org/pdf/2111.12855.pdf
● 論文代碼:https://github.com/edongdongchen/REI
● 作者單位:愛丁堡大學

14.【使用多模態Transformer的端到端視頻對象分割】End-to-End Referring Video Object Segmentation with Multimodal Transformer
● 論文摘要:參考視頻對象分割任務 (RVOS) 涉及在給定視頻的幀中分割文本參考對象實例。由於這種多模式任務的複雜性,它結合了文本推理、視頻理解、實例分割和跟蹤,現有方法通常依賴複雜的管道來解決它。在本文中,我們提出了一種簡單的基於 Transformer 的 RVOS 方法。我們的框架稱為多模態跟蹤變壓器 (MTTR),將 RVOS 任務建模為序列預測問題。隨著計算機視覺和自然語言處理的最新進展,MTTR 是基於這樣一種認識,即視頻和文本都可以通過單個多模態 Transformer 模型有效而優雅地一起處理。 MTTR 是端到端可訓練的,沒有與文本相關的感應偏置組件,並且不需要額外的掩碼細化後處理步驟。因此,與現有方法相比,它大大簡化了 RVOS 管道。對標準基準的評估表明,MTTR 在多個指標上明顯優於以前的技術。特別是,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 數據集上分別顯示了令人印象深刻的 +5.7 和 +5.0 mAP 增益,同時每秒處理 76 幀。此外,我們報告了公開驗證集Refer-YouTube-VOS 的強大結果,這是一個更具挑戰性的 RVOS 數據集,尚未受到研究人員的關注。
● 論文視頻:https://user-images.githubusercontent.com/29209964/143956960-73e84321-757f-4272-afc5-385900905093.mp4
● 論文鏈接:https://arxiv.org/abs/2111.14821
● 論文代碼:https://github.com/mttr2021/MTTR
● 作者單位:以色列理工學院

15.【基於遺傳醫學影像的自我監督多模態對比學習】ContIG: Self-supervised Multimodal Contrastive Learning for Medical Imaging with Genetics
● 論文摘要:在將現代深度學習架構應用於臨床相關的醫療用例時,高昂的標注成本是一個實質性的瓶頸,這證實了從未標注數據中學習新算法的需求。在這項工作中,我們提出了ContIG,一種自我監督的方法,可以從大量的未標記醫學圖像和遺傳數據中學習。我們的方法校準圖像和幾個遺傳模式在特征空間使用對比損失。我們設計了一種方法來整合同一模型中每個個體的多種模式,即使可用模式因個體而異。我們的程序在所有評估下遊基準測試任務上優於最先進的自我監督方法。我們還適應了基於梯度的可解釋算法,以更好地理解圖像和遺傳模式之間的交叉模態關聯。最後,我們對我們的模型學習到的特征進行全基因組關聯研究,揭示了圖像和遺傳數據之間有趣的關係。
● 論文鏈接:https://arxiv.org/abs/2111.13424
● 作者單位:波茨坦大學等

16.【深層生成網絡流形的均勻采樣,無需再訓練】MaGNET: Uniform Sampling from Deep Generative Network Manifolds Without Retraining
● 論文摘要:深度生成網絡(DGNs)廣泛應用於生成對抗網絡(GANs)、變分自編碼器(VAEs)及其變體中,以逼近數據流形和分布。然而,由於采集成本或采集方便,訓練樣本往往以非均勻的方式分布在流形上。例如,CelebA數據集包含很大一部分笑臉。當從訓練好的DGN中采樣時,這些不一致性將會重現,這並不總是首選的,例如,為了公平或數據擴充。作為回應,我們開發了MaGNET,這是一種新穎的、理論驅動的潛在空間采樣器,適用於任何預先訓練的DGN,它產生的樣本均勻分布在學習的流形上。我們在不同的數據集和dgn上進行了一係列的實驗,例如,對於在FFHQ數據集上訓練的最先進的StyleGAN2,通過MaGNET進行均勻抽樣,在不需要標簽或重新訓練的情況下,分布精度和召回率提高了4.1%和3.0%,性別偏差降低了41.2% %。由於均勻分布並不意味著均勻語義分布,我們還分別探討了MaGNET抽樣下生成的樣本的語義屬性如何變化。
● 論文鏈接:https://arxiv.org/abs/2110.08009
● 論文代碼:https://github.com/AhmedImtiazPrio/MaGNET
● 數據集:ImageNetMNIST
● 作者單位:萊斯大學

17.【StyleGAN反演與超網絡的真實圖像編輯】HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing
● 論文摘要:將真實圖像反演到StyleGAN的潛空間是一個研究得很深入的問題。然而,由於重建和可編輯性之間的內在平衡,將現有方法應用於真實場景仍然是一個開放的挑戰:可以準確表示真實圖像的潛在空間區域通常受到降級的語義控製。最近的工作建議通過微調生成器,將目標圖像添加到行為良好的、可編輯的潛在空間區域,從而減輕這種權衡。雖然很有希望,但這種微調方案並不適合廣泛使用,因為它需要對每一張新圖像進行長時間的訓練。在這項工作中,我們將這種方法引入到基於編碼器的反演領域。我們提出了HyperStyle,一個學習調整StyleGAN的權值來忠實地表達潛在空間的可編輯區域的給定圖像的超網絡。單純的調製方法需要訓練一個具有超過30億個參數的超網絡。通過仔細的網絡設計,我們減少了這與現有的編碼器一致。HyperStyle生成的重構可與優化技術相比,具有編碼器的近實時推理能力。最後,我們展示了HyperStyle在幾種應用程序上的有效性,包括編輯訓練中從未見過的域外圖像。
● 論文主頁:https://yuval-alaluf.github.io/hyperstyle/
● 論文鏈接:https://arxiv.org/abs/2111.15666
● 論文代碼:https://github.com/yuval-alaluf/hyperstyle
● 數據集:FFHQCelebA-HQ
● 作者單位:以色列特拉維夫大學

18.【噪聲標簽的鄰域一致性學習】Learning with Neighbor Consistency for Noisy Labels
● 論文摘要:最近在深度學習方麵的進展依賴於大型的標記數據集來訓練高容量模型。然而,以時間和成本效益的方式收集大型數據集往往導致標簽噪聲。我們提出了一種從噪聲標簽學習的方法,該方法利用了特征空間中訓練示例之間的相似性,鼓勵每個示例的預測與最近的鄰居相似。與使用多個模型或不同階段的訓練算法相比,我們的方法采用了一個簡單的、額外的正則化術語的形式。它可以解釋為經典的,轉導標簽傳播算法的歸納版本。我們徹底評估了我們的方法在數據集上評估合成(CIFAR-10, CIFAR-100)和現實(mini-WebVision, Clothing1M, mini-ImageNet-Red)噪聲,並在所有這些噪聲中實現了具有競爭力的或最先進的精度。
● 論文鏈接:https://arxiv.org/abs/2202.02200
● 論文代碼:https://github.com/yuval-alaluf/hyperstyle
● 數據集:CIFAR-10CIFAR-100
● 作者單位:google、阿德萊德大學

19.【Transformer的表結構】TableFormer: Table Structure Understanding with Transformers
● 論文摘要:表以簡潔緊湊的表示方式組織有價值的內容。這些內容對於搜索引擎、知識圖譜等係統非常有價值,因為它們增強了它們的預測能力。不幸的是,桌子有各種各樣的形狀和大小。此外,它們可以有複雜的列/行頭配置、多行、不同種類的分隔行、缺少條目等。因此,從圖像中正確識別表結構是一項艱巨的任務。本文提出了一種新的表結構識別模型。後者在兩個重要方麵改進了最新的端到端深度學習模型(即PubTabNet的encoder-dual-decoder)。首先,我們介紹了一種新的表單元格對象檢測解碼器。通過這種方式,我們可以直接從PDF源代碼中獲得可編程PDF的表格單元格的內容,從而避免了自定義OCR解碼器的訓練。這種架構上的變化導致了更精確的表內容提取,並允許我們處理非英語表。其次,我們將LSTM解碼器替換為基於轉換器的解碼器。這一升級顯著提高了以前最先進的樹編輯距離分數(TEDS),在簡單表上從91%提高到98.5%,在複雜表上從88.7%提高到95%。
● 論文鏈接:https://arxiv.org/abs/2203.01017
● 作者單位:IBM

20.【基於Tracklet查詢和建議的高效視頻實例分割】Efficient Video Instance Segmentation via Tracklet Query and Proposal
● 論文摘要:視頻實例分割(Video Instance Segmentation, VIS)旨在同時對視頻中的多個對象實例進行分類、分割和跟蹤。本文提出了一個具有高效訓練和推理的全端到端框架EfficientVIS。其核心是tracklet查詢和tracklet提議,通過迭代的查詢-視頻交互將感興趣區域跨時空關聯和分割。我們進一步提出了一種函授學習方法,使片段之間的軌跡鏈接端到端可學習。與VisTR相比,EfficientVIS在YouTubeVIS基準上實現最先進的精度時,需要更少的15倍的訓練時間。同時,我們的方法使整個視頻實例分割在一個端到端傳遞,而不需要任何數據關聯。
● 論文主頁:https://jialianwu.com/projects/EfficientVIS.html
● 論文視頻:https://youtu.be/sSPMzgtMKCE
● 作者單位:紐約州立大學布法羅分校、Amazon

21.【利用超網絡改進StyleGAN反演】HyperInverter: Improving StyleGAN Inversion via Hypernetwork
● 論文摘要:由於對GAN潛在空間的探索和利用,近年來真實世界的圖像處理取得了驚人的進展。GAN反演是該流程的第一步,目的是將真實圖像忠實地映射到潛碼。不幸的是,現有的GAN反演方法不能滿足以下三個要求中的至少一個:高重構質量、可編輯性和快速推理。在本研究中,我們提出了一種新穎的兩階段策略,可以同時滿足所有的要求。在第一階段,我們訓練一個編碼器將輸入圖像映射到StyleGAN2 W-space,它被證明具有很好的可編輯性,但重構質量較低。在第二階段,我們利用一係列的超網絡來補充初始階段的重建能力,以恢複反演過程中缺失的信息。這兩個步驟相輔相成,由於超網絡分支和優異的可編輯性,由於在w空間進行反演,產生了高重構質量。我們的方法是完全基於編碼器的,從而產生非常快的推理。在兩個具有挑戰性的數據集上的大量實驗證明了該方法的優越性。
● 論文主頁:https://di-mi-ta.github.io/HyperInverter/● 論文鏈接:https://arxiv.org/abs/2112.00719
● 論文視頻:https://youtu.be/sSPMzgtMKCE● 作者單位:VinAI Research, Vietnam

22.【用於密集預測的多路徑視覺Transformer】MPViT: Multi-Path Vision Transformer for Dense Prediction
● 論文摘要:密集的計算機視覺任務,如目標檢測和分割,需要有效的多尺度特征表示來檢測或分類不同大小的目標或區域。雖然卷積神經網絡(cnn)一直是此類任務的主導架構,但最近推出的Vision transformer (vit)旨在取代卷積神經網絡成為主幹。與cnn類似,vit為具有單尺度patch的多尺度表示構建了一個簡單的多階段結構(即細到粗)。在本研究中,我們以不同於現有Transformer的視角,探索多尺度的貼片嵌入和多路徑結構,構建了多路徑視覺轉換器(MPViT)。MPViT嵌入相同大小~的特征。利用重疊卷積patch嵌入方法,同時獲取不同尺度的patch。然後,通過多個路徑將不同規模的令牌獨立地輸入到Transformer編碼器中,並聚合得到的特性,從而在相同的特性級別上實現細特性表示和粗特性表示。由於具有不同的、多尺度的特征表示,我們的MPViTs從微小~(5M)到基~(73M)的縮放,在ImageNet分類、對象檢測、實例分割和語義分割方麵,始終能夠實現比最先進的Vision transformer更好的性能。這些廣泛的結果表明,MPViT可以作為一個通用的骨幹網用於各種視覺任務。
● 論文鏈接:https://arxiv.org/abs/2112.11010
● 論文代碼:https://github.com/youngwanLEE/MPViT
● 作者單位:韓國電子與電信研究所(ETRI)、韓國高等科學技術學院(KAIST)、AITRICS

23.【直接可微攝像機姿態估計】DiffPoseNet: Direct Differentiable Camera Pose Estimation
● 論文摘要:目前用於相機姿態估計的深度神經網絡方法依賴於場景結構進行三維運動估計,但這降低了魯棒性,使得跨數據集泛化困難。相比之下,傳統的從運動估計結構的方法,利用光流估計三維運動,然後計算深度。然而,它們的準確性在很大程度上取決於光流的質量。為了避免這一問題,人們提出了直接的方法,將三維運動與深度估計分離開來,但隻使用正常流形式的圖像梯度來計算三維運動。在本文中,我們介紹了一個網絡NFlowNet,用於正常的流量估計,用於增強魯棒和直接的約束。特別地,法向流用於基於手性(深度正性)約束估計相對相機位姿。我們通過將優化問題表述為一個可微分的手性層來實現這一點,它允許端到端學習相機的姿態。我們對提出的DiffPoseNet對噪聲的敏感性及其跨數據集的泛化進行了廣泛的定性和定量評估。我們將我們的方法與現有的最先進的方法進行了比較,在KITTI、TartanAir和tumrgbd數據集上顯示了高達3.4倍的改進。
● 論文鏈接:https://prg.cs.umd.edu/research/DiffPoseNet_files/DiffPoseNet.pdf
● 作者單位:美國馬裏蘭大學

24.【基於語言的視頻編輯多模式多級Transformer】Language-based Video Editing via Multi-Modal Multi-Level Transformer
● 論文摘要:視頻編輯工具在數字化設計中得到了廣泛的應用。盡管對這些工具的需求很高,但對這些工具的先驗知識要求使得新手很難上手。能夠遵循自然語言指令執行自動編輯的係統將顯著提高可訪問性。本文介紹了基於語言的視頻編輯(LBVE)任務,該任務允許模型在文本指導下將源視頻編輯成目標視頻。LBVE具有兩個特點:1)保留了源視頻的場景,而不是生成一個完全不同的視頻;2)語義在目標視頻中呈現不同,所有的變化都由給定的指令控製。我們提出一種多模態多級變壓器(M3L-Transformer)來實現LBVE。M3L-Transformer動態學習不同層次的視頻感知和語言語義之間的對應關係,有利於視頻理解和視頻幀合成。我們構建了三個新的評估數據集,包括兩個診斷數據集和一個來自帶有人類標記文本的自然視頻。大量的實驗結果表明,M3L-Transformer是一種有效的視頻編輯方法,LBVE可以為視覺和語言的研究開辟一個新的領域。
● 論文鏈接:https://arxiv.org/abs/2104.01122
● 作者單位:UC Santa Barbara、UC Santa Cruz

25.【可控三維人工合成的表麵定向神經輻射場】Surface-Aligned Neural Radiance Fields for Controllable 3D Human Synthesis
● 論文摘要:提出了一種基於稀疏多視角RGB視頻重構可控隱式三維人體模型的新方法。我們的方法定義了網格表麵點上的神經場景表示,並從人體網格表麵簽名的距離。我們確定了一個不可區分的問題,當3D空間中的一個點被映射到一個網格上最近的表麵點,以學習表麵對齊的神經場景表示。為了解決這個問題,我們提出用修正頂點法線的重心插值將一個點投影到網格表麵上。在ZJU-MoCap和Human3.6M數據集上進行的實驗表明,與現有方法相比,我們的方法在新視角和新姿態的合成中獲得了更高的質量。我們也證明了我們的方法很容易支持對體型和衣服的控製。
● 論文鏈接:https://arxiv.org/abs/2201.01683
● 作者單位:東京大學

26.【基於完全經驗重放的貝葉斯稀疏網絡學習持續學習】Learning Bayesian Sparse Networks with Full Experience Replay for Continual Learning
● 論文摘要:持續學習(CL)方法旨在使機器學習模型在學習新任務時不會災難性地忘記之前已經掌握的內容。現有的CL方法通常會對之前看到的樣本進行緩衝,進行知識蒸餾,或者使用正則化技術來實現這一目標。盡管他們表現出色,但他們仍然會受到任務間幹擾的影響,從而導致災難性的遺忘。為了改善這一問題,我們提出在任何階段隻激活和選擇稀疏的神經元來學習當前和過去的任務。這樣就可以為未來的任務保留更多的參數空間和模型容量。這將使不同任務的參數之間的幹擾最小化。為此,我們提出了一種用於持續學習的稀疏神經網絡(SNCL),該網絡利用變分貝葉斯稀疏先驗對各層神經元的激活情況進行處理。全體驗重放(Full Experience Replay, FER)為學習不同層次神經元的稀疏激活提供了有效的監督。提出了一種丟失感知的儲層采樣策略來維護內存緩衝區。該方法對於網絡結構和任務邊界是不可知的。在不同數據集上的實驗表明,我們的方法在減輕遺忘方麵達到了最先進的性能。
● 論文鏈接:https://arxiv.org/abs/2202.10203
● 作者單位:新南威爾士大學、阿德萊德大學

27.【單目3D語義場景完成】MonoScene: Monocular 3D Semantic Scene Completion
● 論文摘要:提出了一個三維語義場景完成(SSC)框架,其中場景的密集幾何和語義是由單目RGB圖像推斷出來的。與SSC文獻不同,我們依靠2.5或3D輸入,解決了2D到3D場景重建的複雜問題,同時聯合推斷其語義。我們的框架依賴於連續的2D和3D UNets,它由一種新穎的2D-3D特征投影連接起來,這種投影來源於光學,並在執行空間語義一致性之前引入了3D上下文關係。在建築貢獻的同時,我們介紹了新穎的全球場景和當地的圓錐台的損失。實驗表明,我們在所有指標和數據集上的表現都優於文獻,即使在相機視野之外,我們也能幻想出似是而非的風景。
● 論文主頁:https://cv-rits.github.io/MonoScene/
● 論文鏈接:https://arxiv.org/abs/2112.00726
● 論文代碼:https://github.com/cv-rits/MonoScene
● 作者單位:法國國家信息與自動化研究所(INRIA)

28.【基於實體提示的視頻和語言預訓練】Align and Prompt: Video-and-Language Pre-training with Entity Prompts
● 論文摘要:視頻和語言的前訓練在各種下遊任務上顯示出了有希望的改進。以前的大多數方法使用基於變壓器的多模態編碼器捕獲交叉模態交互,沒有完全解決單模態視頻和文本特征之間的不對齊問題。此外,學習細粒度的視覺語言對齊通常需要現成的對象檢測器來提供對象信息,這受到檢測器詞彙量有限和昂貴的計算成本的限製。我們提出對齊和提示:一個高效和有效的視頻和語言前訓練框架,具有更好的跨模式對齊。首先,我們引入了一種視頻文本對比(VTC)損失來對齊實例級的單模態視頻文本特征,這簡化了交叉模態交互的建模。然後,我們提出了一種新的基於視覺的預訓練任務,即實體建模(PEM),旨在學習細粒度的區域-實體對齊。為了實現這一點,我們首先引入了一個實體提示模塊,VTC對它進行訓練,以產生視頻裁剪和文本提示之間的相似性,實例化的實體名稱。然後PEM任務要求模型預測隨機選擇的視頻作物的實體偽標簽(即~歸一化相似度分數)。得到的預訓練模型在文本-視頻檢索和視頻質量保證(videoQA)方麵都達到了最先進的性能,大大超過了之前的工作。
● 論文鏈接:https://arxiv.org/abs/2112.09583
● 論文代碼:https://github.com/salesforce/alpro
● 作者單位:Salesforce Research、澳大利亞國立大學

29.【基於梯度核的持續學習重放緩衝區選擇】GCR: Gradient Coreset Based Replay Buffer Selection For Continual Learning
● 論文摘要:持續學習(CL)的目標是開發一種技術,通過這種技術,單個模型可以適應順序遇到的越來越多的任務,從而以一種資源高效的方式潛在地利用跨任務的學習。CL係統的一個主要挑戰是災難性遺忘,即在學習新任務時忘記早期的任務。為了解決這個問題,基於重放的CL方法在一個小的緩衝區上對所遇到的任務中選擇的數據進行維護和反複的再訓練。我們提出了梯度核心重放(GCR),這是一種利用精心設計的優化準則進行重放緩衝區選擇和更新的新策略。具體來說,我們選擇並保持一個“核心”,該核心接近於迄今為止所看到的所有數據的梯度,與當前的模型參數,並討論其在持續學習設置中有效應用所需的關鍵策略。在經過充分研究的離線持續學習環境中,我們顯示出了顯著的進步(絕對2%-4%)。我們的研究結果也有效地應用到在線/流CL設置中,顯示比現有方法提高了5%。最後,我們證明了監督對比損失對於持續學習的價值,當與我們的子集選擇策略相結合時,它可以產生高達5%的累積增益。
● 論文鏈接:https://arxiv.org/abs/2111.11210
● 作者單位:印度理工學院(ISM)、德州大學達拉斯分校、Google

30.【多模態視頻字幕的端到端生成預訓練】End-to-end Generative Pretraining for Multimodal Video Captioning
● 論文摘要:最近的視頻和語言前訓練框架缺乏生成句子的能力。我們提出了多模態視頻生成預訓練(MV-GPT),這是一個新的用於從無標簽視頻學習的預訓練框架,它可以有效地用於生成任務,如多模態視頻字幕。與最近的視頻語言預訓練框架不同,我們的框架同時訓練多模態視頻編碼器和句子解碼器。為了克服無標簽視頻中字幕的缺乏,我們利用未來話語作為一個額外的文本源,並提出一個雙向生成目標——我們在當前多模態語境下生成未來話語,在未來觀察下也生成當前話語。基於此目標,我們訓練一個端到端的編碼器-解碼器模型來直接從原始像素和轉錄語音生成標題。我們的模型在四個標準基準上的多模態視頻字幕以及其他視頻理解任務(如VideoQA、視頻檢索和動作分類)上都達到了最先進的性能。
● 論文鏈接:https://arxiv.org/abs/2201.08264
● 作者單位:Google Research

31.【一個完全無監督的框架,用於學習從噪聲和部分測量圖像】Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements
● 論文摘要:深度網絡在從醫學成像到計算攝影的多重成像逆問題中提供了最先進的性能。然而,大多數現有的網絡都是用幹淨的信號訓練的,這通常很難或不可能獲得。等變成像(EI)是一種最新的自我監督學習框架,它利用信號分布中的群體不變性,僅從部分測量數據學習重構函數。雖然EI的結果令人印象深刻,但它的性能隨著噪聲的增加而下降。在本文中,我們提出了一個魯棒等變成像(REI)框架,它可以學習圖像從噪聲部分測量單獨。該方法使用Stein’s Unbiased Risk Estimator (SURE)來獲得對噪聲具有魯棒性的完全無監督訓練損失。我們表明,REI在線性和非線性逆問題上帶來了可觀的性能增益,從而為深度網絡的魯棒無監督成像鋪平了道路。
● 論文鏈接:https://arxiv.org/abs/2111.12855
● 論文代碼:https://github.com/edongdongchen/rei
● 作者單位:愛丁堡大學

32.【通過隨機收縮加速逆問題的條件擴散模型】Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models for Inverse Problems through Stochastic Contraction
● 論文摘要:由於其作為生成模型的強大性能,擴散模型最近在社區中引起了極大的興趣。此外,它在逆問題中的應用已經證明了最先進的性能。不幸的是,擴散模型有一個嚴重的缺點——它們本質上采樣速度很慢,需要幾千步迭代才能從純高斯噪聲生成圖像。在這項工作中,我們表明從高斯噪聲開始是不必要的。相反,從具有更好初始化的單個正向擴散開始顯著減少了反向條件擴散中的采樣步驟數。這種現象由隨機差分方程的收縮理論正式解釋,例如我們的條件擴散策略 - 反向擴散的交替應用,然後是非擴展數據一致性步驟。新的采樣策略,稱為 Come-Closer-Diffuse-Faster (CCDF),還揭示了如何將現有的用於逆問題的前饋神經網絡方法與擴散模型協同結合的新見解。超分辨率、圖像修複和壓縮感知 MRI 的實驗結果表明,我們的方法可以在顯著減少采樣步驟的情況下實現最先進的重建性能。
● 論文鏈接:https://arxiv.org/abs/2112.05146
● 作者單位:韓國科學技術院(KAIST)

33.【單幅圖像向神經輻射場平移的無監督條件π-GAN】Pix2NeRF: Unsupervised Conditional π-GAN for Single Image to Neural Radiance Fields Translation
● 論文摘要:我們提出了一種管道來生成對象或特定類別的場景的神經輻射場~(NeRF),以單個輸入圖像為條件。這是一項具有挑戰性的任務,因為訓練 NeRF 需要同一場景的多個視圖,以及難以獲得的相應姿勢。我們的方法基於 π-GAN,這是一種用於無條件 3D 感知圖像合成的生成模型,它將隨機潛在代碼映射到一類對象的輻射場。我們聯合優化 (1) π-GAN 目標以利用其高保真 3D 感知生成和 (2) 精心設計的重建目標。後者包括一個與 π-GAN 生成器耦合的編碼器,以形成一個自動編碼器。與之前的小樣本 NeRF 方法不同,我們的管道是無監督的,能夠在沒有 3D、多視圖或姿勢監督的情況下使用獨立圖像進行訓練。我們管道的應用包括 3d 頭像生成、以對象為中心的具有單個輸入圖像的新穎視圖合成以及 3d 感知超分辨率等。
● 論文鏈接:https://arxiv.org/abs/2202.13162
● 論文代碼:https://github.com/HexagonPrime/Pix2NeRF
● 作者單位:蘇黎世聯邦理工學院

34.【基於單車載攝像機圖像的保持拓撲的局部路網估計】Topology Preserving Local Road Network Estimation from Single Onboard Camera Image Translation
● 論文摘要:道路網絡拓撲的知識對於自主規劃和導航至關重要。然而,僅部分探索了從單個圖像中恢複這種拓撲結構。此外,它還需要參考地平麵,也就是在該地平麵上執行驅動操作。本文旨在直接在鳥瞰圖 (BEV) 中提取本地道路網絡拓撲結構,所有這些都位於複雜的城市環境中。唯一的輸入包括單個板載前視攝像頭圖像。我們使用一組有向車道曲線及其交互來表示道路拓撲,這些交互是使用它們的交叉點捕獲的。為了更好地捕捉拓撲,我們引入了\emph{最小循環}的概念及其覆蓋。最小循環是由有向曲線段(兩個交點之間)形成的最小循環。封麵是一組曲線,其分段參與形成最小循環。我們首先表明覆蓋足以唯一地表示道路拓撲。然後使用覆蓋物來監督深度神經網絡,以及車道曲線監督。這些學習從單個輸入圖像預測道路拓撲。 NuScenes 和 Argoverse 基準測試的結果明顯優於使用基線獲得的結果。我們的源代碼將公開。
● 論文鏈接:https://arxiv.org/abs/2112.10155
● 作者單位:蘇黎世聯邦理工學院、荷語天主教魯汶大學

35.【混合擴散:自然圖像的文本驅動編輯】Blended Diffusion: Text-driven Editing of Natural Images
● 論文摘要:自然語言為圖像編輯提供了一個高度直觀的界麵。在本文中,我們介紹了第一個基於自然語言描述和 ROI 掩碼在通用自然圖像中執行局部(基於區域)編輯的解決方案。我們通過利用和組合預訓練的語言圖像模型 (CLIP) 來實現我們的目標,將編輯轉向用戶提供的文本提示,並使用去噪擴散概率模型 (DDPM) 來生成看起來自然的結果。為了將編輯區域與圖像的未更改部分無縫融合,我們在空間上混合了輸入圖像的噪聲版本與局部文本引導的擴散潛伏在噪聲水平的進展中。此外,我們表明在擴散過程中添加增強可以減輕對抗性結果。我們在定性和定量方麵與幾個基線和相關方法進行了比較,並表明我們的方法在整體真實感、保留背景和匹配文本的能力方麵優於這些解決方案。最後,我們展示了幾個文本驅動的編輯應用程序,包括向圖像添加新對象、刪除/替換/更改現有對象、背景替換和圖像外推。
● 論文主頁:https://omriavrahami.com/blended-diffusion-page/
● 論文鏈接:https://arxiv.org/abs/2111.14818
● 論文代碼:https://github.com/omriav/blended-diffusion
● 作者單位:耶路撒冷希伯來大學、赫茲利亞跨學科研究中心

36.【多攝像頭多人跟蹤的提升多剪輯優化】LMGP: Lifted Multicut Optimization for Multi-Camera Multi-People Tracking
● 論文摘要:多相機多目標跟蹤目前在計算機視覺領域引起了人們的關注,因為它在現實世界的應用中具有卓越的性能,例如在擁擠場景或廣闊空間中的視頻監控。在這項工作中,我們提出了一種基於時空提升多切割公式的數學上優雅的多相機多目標跟蹤方法。我們的模型利用單相機跟蹤器產生的最先進的軌跡作為提議。由於這些 tracklet 可能包含 ID-Switch 錯誤,我們通過從 3D 幾何投影中獲得的新穎的預聚類來改進它們。因此,我們得到了一個更好的跟蹤圖,沒有 ID 切換和更精確的數據關聯階段的親和成本。然後,通過求解全局提升多切割公式,將軌跡與多攝像機軌跡匹配,該公式結合了位於同一攝像機和攝像機間軌跡上的短程和長程時間交互。 WildTrack 數據集的實驗結果產生了近乎完美的結果,優於 Campus 中最先進的跟蹤器,同時與 PETS-09 數據集相當。我們將在接受論文後提供我們的實現。
● 論文鏈接:https://arxiv.org/abs/2111.11892
● 作者單位:馬克斯·普朗克信息學研究所、漢諾威萊布尼茲大學、奧爾登堡大學、德國人工智能研究中心

37.【使用門控最優傳輸的分層形狀匹配】Bending Graphs: Hierarchical Shape Matching using Gated Optimal Transport
● 論文摘要:形狀匹配一直是計算機圖形和視覺社區長期研究的問題。目標是預測具有一定變形程度的網格之間的密集對應關係。現有方法要麼考慮采樣點的局部描述,要麼根據全局形狀信息發現對應關係。在這項工作中,我們研究了一種分層學習設計,我們將局部補丁級信息和全局形狀級結構結合到其中。這種靈活的表示可以實現對應預測,並為匹配階段提供豐富的特征。最後,我們通過反複更新非置信節點上的特征來學習形狀之間的全局一致對應關係,提出了一種新的最優傳輸求解器。我們在公開數據集上的結果表明,在存在嚴重變形的情況下具有強大的性能,無需進行廣泛的訓練或改進。
● 論文鏈接:https://arxiv.org/abs/2202.01537
● 作者單位:慕尼黑工業大學、威尼斯大學、瑞士意大利語區大學、Google

38.【用於6DoF物體姿態估計的粗到細表麵編碼】ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose Estimation
● 作者:Yongzhi Su, Mahdi Saleh, Torben Fetzer, Jason Rambach, Benjamin Busam, Nassir Navab, Didier Stricker, Federico Tombari
● 作者單位:慕尼黑工業大學等

39.【一種多階段單鏡頭目標姿態估計框架】OSOP: A Multi-Stage One Shot Object Pose Estimation Framework
● 作者:Ivan Shugurov, Fu Li, Benjamin Busam, Slobodan Ilic
● 作者單位:慕尼黑工業大學等

40.【單目深度估計的跨模態學習】CroMo: Cross-Modal Learning for Monocular Depth Estimation
● 作者:Yannick Verdie, Jifei Song, Barnabé Mas, Benjamin Busam, Ales Leonardis, Steven McDonagh
● 作者單位:慕尼黑工業大學等

41.【一個多模態數據集用於具有光度挑戰性的類別級目標姿態估計】PhoCaL: A Multi-Modal Dataset for Category-Level Object Pose Estimation with Photometrically Challenging Objects
● 作者:Pengyuan Wang, HyunJun Jung, Yitong Li, Siyuan Shen, Rahul Parthasarathy Srikanth, Lorenzo Garattoni, Sven Meier, Nassir Navab, Benjamin Busam
● 作者單位:慕尼黑工業大學等

42.【學習對抗性變形點雲以進行穩健的 3D 對象檢測】3D-VField: Learning to Adversarially Deform Point Clouds for Robust 3D Object Detection
● 作者:Alexander Lehner, Stefano Gasperini, Alvaro Marcos-Ramiro, Mohammad-Ali Nikouei Mahani, Michael Schmidt, Nassir Navab, Benjamin Busam, Federico Tombari
● 作者單位:慕尼黑工業大學等

43.【學習局部位移點雲補全】 Learning Local Displacements for Point Cloud Completion
● 作者:Yida Wang, David Joseph Tan, Nassir Navab, Federico Tombari
● 作者單位:慕尼黑工業大學等

44.【基於幾何導向點式投票的類別級對象姿態估計】GPV-Pose: Category-level Object Pose Estimation via Geometry-guided Point-wise Voting
● 作者:Yan Di, Ruida Zhang, Zhiqiang Lou, Fabian Manhardt, Xiangyang Ji, Nassir Navab, Federico Tombari
● 作者單位:慕尼黑工業大學等

45.【醫學圖像配準中相似度學習的變分貝葉斯方法】 A variational Bayesian method for similarity learning in medical image registration
● 作者:Daniel Grzech, Mohammad Farid Azampour, Ben Glocker, Julia Schnabel, Nassir Navab, Bernhard Kainz, Loic le Folgoc
● 作者單位:慕尼黑工業大學等

46.【學會在野外協調有序的行動】 Learning to Align Sequential Actions in the Wild
● 作者:Weizhe Liu, Bugra Tekin, Huseyin Coskun, Vibhav Vineet, Pascal Fua, Marc Pollefeys
● 作者單位:慕尼黑工業大學等

47.【用於快速魯棒點雲配準的幾何Transformer】Geometric Transformer for Fast and Robust Point Cloud Registration
● 作者:Zheng Qin, Hao Yu, Changjian Wang, Yulan Guo, Yuxing Peng, Kai Xu
● 作者單位:慕尼黑工業大學等

48.【一種用於連續多任務領域適應的合成驅動數據集】SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation
● 作者:T Sun, M Segù, J Postels, Y Wang, L Van Gool, B Schiele, F Tombari, F Yu
● 作者單位:慕尼黑工業大學等

49.Do Explanations Explain? Model Knows Best
● 作者:Ashkan Khakzar, Pedram Khorsandi, Rozhin Nobahari, Nassir Navab
● 作者單位:慕尼黑工業大學等

50.【基於大規模密集、精確和多樣化數據集的單幅圖像頭部三維對準】DAD-3D HEADS: Large-scale Dense, Accurate and Diverse Dataset for 3D Head Alignment from a Single Image
● 論文摘要:DAD-3DHeads包含超過3.5K地標的注釋,與地麵真實掃描相比,準確地代表了3D頭部形狀。數據驅動模型DAD-3DNet在我們的數據集上進行訓練,學習形狀、表情和姿態參數,並使用網格進行3D頭部重建。該模型還引入了一個裏程碑預測分支,以充分利用多個相關任務的豐富監督和協同訓練。
● 論文主頁:https://dad3dheads.netlify.app/
● 作者單位:烏克蘭利沃夫大學、帝國理工學院等

51.【基於大規模密集、精確和多樣化數據集的單幅圖像頭部三維對準】DAD-3D HEADS: Large-scale Dense, Accurate and Diverse Dataset for 3D Head Alignment from a Single Image
● 論文摘要:DAD-3DHeads包含超過3.5K地標的注釋,與地麵真實掃描相比,準確地代表了3D頭部形狀。數據驅動模型DAD-3DNet在我們的數據集上進行訓練,學習形狀、表情和姿態參數,並使用網格進行3D頭部重建。該模型還引入了一個裏程碑預測分支,以充分利用多個相關任務的豐富監督和協同訓練。
● 論文主頁:https://dad3dheads.netlify.app/
● 作者單位:烏克蘭利沃夫大學、帝國理工學院等

52.【光流網絡的對抗魯棒性研究】Towards Understanding Adversarial Robustness of Optical Flow Networks Alignment from a Single Image
● 論文摘要:最近的工作表明,光流網絡對基於補丁的物理對抗攻擊缺乏魯棒性。對汽車係統的基本組件進行物理攻擊的可能性是引起嚴重關注的一個原因。在本文中,我們分析了問題的原因並表明缺乏魯棒性的根源在於光流估計的經典孔徑問題以及網絡架構細節的錯誤選擇。我們展示了如何糾正這些錯誤,以使光流網絡對基於補丁的物理攻擊具有魯棒性。此外,我們還研究了光流範圍內的全局白盒攻擊。我們發現可以精心設計有針對性的白盒攻擊,以使流量估計模型偏向任何所需的輸出,但這需要訪問輸入圖像和模型權重。我們的結果表明,光流網絡對普遍攻擊具有魯棒性。
● 論文鏈接:https://arxiv.org/abs/2103.16255
● 作者單位:弗賴堡大學

53.【混合搜索策略】Which Model to Transfer? Finding the Needle in the Growing Haystack
● 論文摘要:遷移學習最近被普及為從頭開始訓練模型的數據高效替代方案,特別是在視覺和 NLP 中,它提供了非常可靠的基線。豐富的模型存儲庫(例如 TensorFlow Hub)的出現使從業者和研究人員能夠在廣泛的下遊任務中釋放這些模型的潛力。隨著這些存儲庫呈指數級增長,有效地為手頭的任務選擇一個好的模型變得至關重要。我們通過熟悉的遺憾概念對這個問題進行了形式化,並介紹了主要策略,即與任務無關(例如選擇得分最高的 ImageNet 模型)和任務感知搜索策略(例如線性或 kNN 評估)。我們進行了一項大規模的實證研究,並表明任務不可知和任務感知方法都會產生很高的遺憾。然後,我們提出了一種簡單且計算效率高的混合搜索策略,該策略優於現有方法。我們強調了所提出的解決方案在一組 19 種不同的視覺任務上的實際好處。
● 論文鏈接:https://arxiv.org/abs/2010.06402
● 作者單位:蘇黎世聯邦理工學院、Google Research

54.【基於歸一化的動態無監督域適應】The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization
● 論文摘要:域適應對於使學習模型適應新場景(例如域轉移或不斷變化的數據分布)至關重要。當前的方法通常需要來自移位域的大量標記或未標記數據。這在需要持續動態適應或遭受數據稀缺的領域中可能是一個障礙,例如。在具有挑戰性的天氣條件下自動駕駛。為了解決持續適應分布變化的問題,我們提出了動態無監督適應(DUA)。我們通過不斷調整批量歸一化層的統計數據來修改模型的特征表示。我們表明,通過僅訪問來自移位域的一小部分未標記數據並按順序進行調整,可以獲得強大的性能提升。由於來自目標域的未標記數據甚至不到 1%,DUA 已經在強大的基線上取得了具有競爭力的結果。此外,與以前的方法相比,計算開銷最小。我們的方法簡單但有效,可以應用於任何使用批量標準化作為其組件之一的架構。我們通過在各種領域適應數據集和任務(包括對象識別、數字識別和對象檢測)上評估 DUA 來展示 DUA 的實用性。
● 論文鏈接:https://arxiv.org/abs/2112.00463
● 作者單位:格拉茨工業大學等

55.【GPU的快速離散優化】FastDOG: Fast Discrete Optimization on GPU
● 論文摘要:我們提出了一種大規模並行拉格朗日分解方法,用於求解結構化預測中出現的 0-1 整數線性程序。我們提出了一種新的迭代更新方案來解決拉格朗日對偶和用於解碼原始解決方案的擾動技術。為了表示子問題,我們遵循 Lange 等人。 (2021)並使用二元決策圖(BDD)。我們的原始算法和對偶算法幾乎不需要子問題之間的同步,並且對 BDD 的優化隻需要基本操作而無需複雜的控製流。這使我們能夠利用 GPU 為我們方法的所有組件提供的並行性。我們展示了來自馬爾可夫隨機場的 MAP 推理、發育生物學的二次分配和細胞跟蹤的組合問題的實驗結果。我們的高度並行 GPU 實現改進了 Lange 等人的算法的運行時間。 (2021)高達一個數量級。特別是,我們接近或優於一些最先進的專業啟發式算法,同時與問題無關。
● 論文鏈接:https://arxiv.org/abs/2111.10270
● 作者單位:馬克斯·普朗克信息學研究所

56.【一種GPU快速多切算法】RAMA: A Rapid Multicut Algorithm on GPU
● 論文摘要:我們為多割(又名相關聚類)問題提出了一種高度並行的原始對偶算法,這是一種廣泛用於機器學習和計算機視覺的經典圖聚類問題。我們的算法包括三個遞歸執行的步驟:(1)找到與底層多割鬆弛的違反不等式相對應的衝突循環,(2)在邊緣和循環之間執行消息傳遞以優化來自發現的違反循環的拉格朗日鬆弛,從而產生減少成本和(3)通過矩陣-矩陣乘法以降低成本的方式收縮邊緣。我們的算法產生原始解決方案和估計最佳距離的雙重下界。我們在 GPU 上實現了我們的算法,與在 CPU 上運行的傳統串行算法相比,在不犧牲解決方案質量的情況下,執行速度提高了一到兩個數量級。我們可以在幾秒鍾內以小的原始對偶間隙解決具有多達 O(10^8) 個變量的非常大規模的基準測試問題。
● 論文鏈接:https://arxiv.org/abs/2109.01838● 論文代碼:https://github.com/pawelswoboda/rama
● 作者單位:馬克斯·普朗克信息學研究所

57.【沒有注釋的情況下分割對象學習】FreeSOLO: Learning to Segment Objects without Annotations
● 論文摘要:實例分割是一項基本的視覺任務,旨在識別和分割圖像中的每個對象。但是,它需要昂貴的注釋,例如邊界框和分割掩碼來進行學習。在這項工作中,我們提出了一種完全無監督的學習方法,可以在沒有任何注釋的情況下學習與類無關的實例分割。我們提出了 FreeSOLO,這是一個建立在簡單實例分割方法 SOLO 之上的自我監督實例分割框架。我們的方法還提出了一種新穎的定位感知預訓練框架,其中可以以無監督的方式從複雜場景中發現對象。 FreeSOLO 在具有挑戰性的 COCO 數據集上實現了 9.8% 的 AP_{50},甚至優於幾種使用手動注釋的分割提議方法。我們第一次成功地展示了無監督的與類無關的實例分割。 FreeSOLO 的框定位顯著優於最先進的無監督對象檢測/發現方法,COCO AP 的相對改進約為 100%。 FreeSOLO 進一步證明了作為一種強大的預訓練方法的優越性,在僅使用 5% 的 COCO 掩碼對實例分割進行微調時,其性能優於最先進的自監督預訓練方法 + 9.8% AP。
● 論文鏈接:https://arxiv.org/abs/2202.12181
● 作者單位:阿德萊德大學、NVIDIA、加州理工學院、浙江大學

58.【通過插值對齊的特征來改進表示】AlignMixup: Improving representations by interpolating aligned features
● 論文摘要:Mixup 是一種強大的數據增強方法,它在輸入或特征空間中的兩個或多個示例之間以及相應的目標標簽之間進行插值。許多最近的混合方法側重於將兩個或多個對象剪切和粘貼到一個圖像中,這更多是關於有效處理而不是插值。然而,如何最好地插入圖像並沒有很好的定義。從這個意義上說,mixup 已與自動編碼器相關聯,因為自動編碼器通常會“很好地進行插值”,例如生成一張不斷變形為另一張的圖像。在這項工作中,我們從插值的角度重新審視 mixup 並引入 AlignMix,我們在幾何上對齊特征空間中的兩個圖像。對應關係允許我們在兩組特征之間進行插值,同時保持一組特征的位置。有趣的是,這會導致 mixup 主要保留一張圖像的幾何形狀或姿勢以及另一張圖像的紋理,將其與風格轉移聯係起來。不僅如此,我們還展示了自動編碼器仍然可以改進混合下的表示學習,而分類器永遠不會看到解碼的圖像。 AlignMix 在五個不同的基準測試中優於最先進的混合方法。
● 論文鏈接:https://arxiv.org/abs/2103.15375
● 作者單位:Inria, Univ Rennes, CNRS, IRISA

59.【跨模態檢索的協同雙流視覺-語言前訓練模型】COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval
● 論文摘要:大規模的單塔預訓練模型,在跨模態檢索中取得驚人的檢索效果。遺憾的是,由於它們大多采用耗時的實參跨模態交互方式,檢索效率非常低。最近,像CLIP和ALIGN這樣具有高推理效率的雙塔模型也表現出了良好的效果,然而,它們隻考慮了模態之間的實例級對齊(因此仍有改進的餘地)。為了克服這些限製,我們提出了一個新穎的協同式雙塔視覺語言預訓練模型,簡稱為COTS。總的來說,我們提出的COTS是通過加強模態間的交互來提高圖像-文本檢索效果的。除了通過動量對比學習進行實例級的對齊之外,我們還提出了兩種額外的跨模態交互。(1)Token級的交互—在不使用實參交互模型的情況下,我們設計了一個遮蔽視覺語言建模(MVLM)的學習目標,其中變分自編碼器用於視覺編碼,可為每個圖像生成視覺token級別的標記。(2)任務級的交互—在文本到圖像和圖像到文本的檢索任務之間設計了一個KL-對齊學習目標,其中每個任務的概率分布是用動量對比學習中的負樣本隊列計算的。在公平比較下,我們提出的COTS在所有雙塔方法中取得了最好的結果,與最新的單塔方法相比,COTS表現出相當的能力(但推理速度快10,800倍)。同時,我們提出的COTS也適用於從文本到視頻的檢索,在廣泛使用的MSR-VTT數據集上取得了目前最好的結果。
● 作者:盧浩宇,費楠益,霍宇琦,高一釗,盧誌武,文繼榮
● 作者單位:中國人民大學高瓴人工智能學院

60.【跨模態檢索的協同雙流視覺-語言前訓練模型】Balanced Audio-visual Learning via On-the-fly Gradient Modulation
● 論文摘要:視聽學習通過整合不同的感官,有助於全麵了解世界。因此,多輸入模態有望提高模型性能,但我們實際上發現即使多模態模型優於其單模態模型,它們也沒有得到充分利用。具體來說,在本文中,我們指出現有的視聽判別模型(其中為所有模態設計了統一的目標)可能仍然存在欠優化的單模態表示,這是由某些場景中的另一種主導模態引起的。為了緩解這種優化不平衡,我們提出了動態梯度調製,通過監控它們對學習目標的貢獻的差異來自適應地控製每種模態的優化。此外,引入了動態變化的額外高斯噪聲,以避免梯度調製引起的泛化下降。因此,我們在不同的視聽任務上實現了對普通融合方法的相當大的改進,這種簡單的策略也可以提升現有的多模態方法,這說明了它的有效性和多功能性。
● 作者:彭小康*,衛雅珂*,鄧安東,王棟,胡迪
● 作者單位:中國人民大學高瓴人工智能學院

61.【學習在動態視聽情境中回答問題】Learning to Answer Questions in Dynamic Audio-Visual Scenarios
● 論文摘要:我們在本文中聚焦於視聽問答(AVQA)任務,該任務旨在回答視頻中不同視覺對象、聲音及其關聯的問題。其中問題需要對視聽場景進行全麵的多模態理解和時空推理。為了對這項任務進行基準測試並促進我們的研究,我們創建了一個大規模的AVQA數據集,其中包含超過45K個問答對,並涵蓋了不同模態下的9類問題類型以及33個不同的問題模板。為了探究AVQA任務,我們提出了一些基線方法,並引入了一個時空視聽網絡。實驗結果表明多模態感知可以有益於AVQA任務,並且所提出的模型優於最近的A-、V-和AVQA方法。我們相信構建的數據集能夠作為測試平台,用於評估和促進視聽場景理解和時空推理的研究。此外,引入了動態變化的額外高斯噪聲,以避免梯度調製引起的泛化下降。因此,我們在不同的視聽任務上實現了對普通融合方法的相當大的改進,這種簡單的策略也可以提升現有的多模態方法,這說明了它的有效性和多功能性。
● 作者:李光耀*,衛雅珂*,田亞鵬,胡迪,徐成良,文繼榮
● 作者單位:中國人民大學高瓴人工智能學院

62.【深度安全多視圖聚類:降低因視圖增加而導致聚類性能下降的風險】Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase
● 論文摘要:多視圖聚類通過挖掘多個視圖的互補信息來提高聚類性能。然而,我們觀察到視圖數量的增加並不總能確保提高模型的聚類效果。為此,我們提出了一個基於深度學習的通用框架以降低視圖增加帶來的聚類性能下降的風險。具體地,該模型需要通過自動選擇來自不同視圖的特征來同時挖掘互補信息和去除無意義的噪聲。這兩個學習過程通過提出的雙層優化目標被集成到統一的框架。在理論上,該框架的經驗聚類風險不高於在視圖增加前的數據和新增加的單視圖數據上的經驗聚類風險。同時,在基於散度的聚類損失下,該框架的期望聚類風險以高概率不高於在視圖增加前的數據和新增加的單視圖數據上的期望聚類風險。在基準多視圖數據集上的綜合實驗證明了該框架在實現安全多視圖聚類上的有效性和優越性。
● 作者:唐華鐿,劉勇
● 作者單位:中國人民大學高瓴人工智能學院

63.【利用大規模視頻轉錄推進高分辨率視頻語言表示】Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions
● 論文摘要:我們研究了視頻和語言(VL)的聯合預訓練,以實現跨模態學習並使大量的下遊VL任務受益。現有的研究要麼是提取低質量的視頻特征,要麼是學習有限的文本嵌入,而忽略了高分辨率的視頻和多樣化的語義可以顯著增強跨模態學習。在本文中,我們提出了一個新穎的高分辨率和多樣化的視頻-文本預訓練模型(HD-VILA),用於許多視覺任務。我們收集了一個具有兩個特性的大型數據集:(1)高分辨率,包括371.5K小時的720p視頻。(2)多樣化,涵蓋15個流行的YouTube類別。為了實現VL預訓練,我們通過一個混合Transformer和一個多模態Transformer來共同優化HD-VILA模型,前者學習豐富的時空特征,後者進行視頻特征與多樣化文本的交互。我們的預訓練模型在10個VL理解任務和2個文本到視覺的生成任務中取得了最先進的結果。例如,我們在zero-shot MSR-VTT文本到視頻檢索任務中超越了SOTA模型,相對增加了38.5%R@'1,在高分辨率數據集LSMDC中增加了53.6%。學習到的VL嵌入在文本到視覺編輯和超分辨率任務中也能有效地產生視覺效果好、語義上的相關結果。
● 作者:薛宏偉*,杭天愷*,曾豔紅*,孫宇衝*,劉蓓,楊歡,傅建龍,郭百寧
● 作者單位:中國人民大學高瓴人工智能學院

64.【目標檢測的定位蒸餾】Localization Distillation for Dense Object Detection Translation
● 論文摘要:知識蒸餾(Knowledge精餾,KD)在學習緊湊模型的目標檢測中具有強大的能力。由於KD方法在提取定位信息方麵效率較低,以往的目標檢測方法主要是在模擬區域內模擬深度特征,而不是模擬分類logit。本文通過對定位知識精餾過程的重構,提出了一種新的定位精餾方法,該方法能有效地將定位知識從教師傳遞給學生。此外,我們還啟發式地引入了有價值定位區域的概念,有助於有選擇地提取特定區域的語義和定位知識。結合這兩種新組件,我們首次證明logit模仿比特征模仿更有效,並且定位知識蒸餾比語義知識蒸餾更重要和有效。該蒸餾方案簡單有效,可方便地應用於不同密度的物體探測器。實驗表明,LD能夠在不犧牲推理速度的情況下,將單尺度1×訓練計劃下的GFocal-ResNet-50在COCO基準上的AP得分從40.1提高到42.1。
● 論文鏈接:https://arxiv.org/abs/2102.12252
● 論文代碼:https://github.com/HikariTJU/LD
● 作者單位:南開大學、天津大學、哈爾濱工業大學

65.【弱監督目標定位建模為領域適應】Weakly Supervised Object Localization as Domain Adaption
● 論文摘要:弱監督目標定位(WSOL)隻關注在圖像級分類掩碼的監督下進行對象定位。以前的大多數WSOL方法都遵循分類激活映射(classification activation map, CAM),它使用多實例學習(MIL)機製基於分類結構對目標進行本地化。然而,MIL機製使得CAM隻能激活識別目標的部分而不能激活整個目標,削弱了其本地化目標的性能。**為了避免這一問題,本文提出了一種新的視角,將WSOL建模為域適應(DA)任務,即在源/圖像域上訓練的分數估計器在目標/像素域上進行測試以定位目標。**在此視角下,DA-WSOL流程設計可以更好地將DA方法引入到WSOL中,以提高本地化性能。利用所提出的目標采樣策略來選擇不同類型的目標樣本。基於這些類型的目標樣本,對域自適應定位(DAL)損耗進行了闡述。該方法通過DA對兩個域之間的特征分布進行對齊,並通過Universum正則化使估計器感知目標域線索。實驗表明,該方法在多基準測試上的性能優於SOTA方法。
● 論文鏈接:https://arxiv.org/pdf/2203.01714.pdf
● 論文代碼:https://github.com/zh460045050/DA-WSOL_CVPR2022
● 作者單位:北京大學、字節跳動等

66.【適應全景語義分割的失真感知Transformers】Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Semantic Segmentation
● 論文摘要:全景圖像具有360度的方向性,包含了周圍空間的詳盡信息,為場景理解提供了豐富的基礎。為了以健壯的全景分割模型的形式展現這種潛力,大量昂貴的像素級注釋是成功的關鍵。這樣的注釋是可用的,但主要用於窄角度、針孔相機的圖像,這些圖像是現成的,對訓練全景模型來說不是最理想的資源。360度全景圖像的扭曲和明顯的圖像特征分布阻礙了從具有豐富注釋的針孔域的轉移,因此對性能造成了很大的影響。為了克服這一領域的差異,並將針孔和360度環繞視覺的語義注釋結合在一起,我們提出在可變形貼片嵌入(DPE)和可變形MLP (DMLP)組件中學習物體變形和全景圖像變形,這些組件混合到我們的全景語義分割(Trans4PASS)模型Transformer中。最後,我們通過生成多尺度的原型特征,將共享語義結合在針孔和全景特征嵌入中,並將它們對齊到我們的相互原型適配(MPA)中進行無監督領域適配。在斯坦福2d3d室內數據集上,我們的Trans4PASS與MPA保持了與完全監督狀態下的性能相當的性能,減少了1400多個標簽全景圖的需求。在DensePASS的戶外數據集上,我們將最先進的技術提高了14.39% mIoU,並將新標準設置為56.38%。
● 論文鏈接:https://arxiv.org/abs/2203.01452
● 論文代碼:https://github.com/jamycheung/trans4pass
● 作者單位:卡爾斯魯厄理工學院、字節跳動、蔡司公司

67.【使自我訓練更好地用於半監督語義分割】ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation
● 論文摘要:通過偽標簽進行自我訓練是一種傳統的、簡單的、流行的利用未標簽數據的途徑。本研究首先通過在無標簽圖像上注入強數據增強(strong data augmentation, SDA)來緩解噪聲標簽的過擬合,並解耦教師和學生之間的相似預測,構建半監督語義分割的強自訓練基線(ST)。有了這個簡單的機製,我們的ST優於所有現有的方法,沒有任何花哨的東西,例如迭代再訓練。受到這些令人印象深刻的結果的啟發,我們對SDA進行了深入的研究,並提供了一些實證分析。然而,不正確的偽標簽仍然容易累積並降低性能。為此,我們進一步提出了一種先進的自訓練框架(即ST++),該框架基於整體預測水平的穩定性,對可靠的未標記圖像進行優先排序,進行選擇性的再訓練。具體來說,在第一階段的監督訓練中保存了幾個模型檢查點,它們對未標記圖像的預測差異作為可靠性的度量。我們的圖像級選擇為學習提供了整體的上下文信息。我們證明了它比一般的像素選擇更適合分割。因此,ST++進一步提高了我們的ST。
● 論文鏈接:https://arxiv.org/abs/2106.05095
● 論文代碼:https://github.com/LiheYoung/ST-PlusPlus
● 作者單位:南京大學、騰訊、東南大學

68.【弱監督語義分詞的類再激活映射】Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation
● 論文摘要:提取類激活映射(CAM)可以說是為弱監督語義分割(WSSS)生成偽掩碼的最標準步驟。然而,我們發現偽掩模不理想的症結在於CAM中廣泛使用的二元交叉熵損失(binary cross entropy loss, BCE)。具體來說,由於BCE的類求和池特性,CAM中的每個像素都可能對同一接收域中同時出現的多個類做出響應。因此,給定一個類,它的熱CAM像素可能錯誤地侵入了屬於其他類的區域,或者非熱CAM像素實際上可能是類的一部分。為此,我們引入了一種令人尷尬的簡單但令人驚訝的有效方法:通過使用softmax交叉熵損失(SCE),命名為\textbf{ReCAM},用BCE重新激活融合CAM。給定一幅圖像,我們使用CAM提取每個單獨類的特征像素,並將它們與類標簽一起使用SCE學習另一個全連接層(在主幹之後)。一旦收斂,我們就可以像在CAM中一樣提取ReCAM。由於SCE的對比性質,像素響應被解糾纏到不同的類,因此較少的掩模模糊是預期的。對PASCAL VOC和MS~COCO的評估表明,ReCAM不僅生成高質量的遮罩,而且還支持任何CAM變體的即插即用,開銷很小。
● 論文鏈接:https://arxiv.org/pdf/2203.00962.pdf
● 論文代碼:https://github.com/zhaozhengChen/ReCAM
● 作者單位:新加坡管理大學、南洋理工大學、阿裏巴巴達摩學院

69.【用於點雲上的 3D 實例分割】SoftGroup for 3D Instance Segmentation on Point Clouds
● 論文摘要:現有的三維實例分割方法都是先進行語義分割,然後再進行分組。當執行語義分割時,很難做出預測,這樣每個點都與單個類相關聯。然而,困難決策所產生的錯誤傳播到分組中,導致(1)預測實例與基本事實之間的低重疊(2)大量的誤報。針對上述問題,本文提出了一種三維實例分割方法,稱為SoftGroup,采用自底向上軟分組,自頂向下細化的方法。SoftGroup允許每個點與多個類相關聯,以減輕語義預測錯誤所帶來的問題,並通過學習將它們分類為背景來抑製假陽性實例。在不同數據集和多種評價指標上的實驗結果證明了SoftGroup的有效性。在AP_50方麵,它的性能比最強的先驗方法在ScanNet v2隱藏測試集上高出6.2%,在S3DIS Area 5上高出6.8%。SoftGroup的速度也很快,在ScanNet v2數據集上使用單個Titan X每次掃描的速度為345ms。
● 論文鏈接:https://arxiv.org/abs/2203.01509
● 論文代碼:https://github.com/thangvubk/SoftGroup.git
● 作者單位:韓國科學技術高級研究院

70.【學習用於多人姿勢估計的局部-全局上下文適應】 Learning Local-Global Contextual Adaptation for Multi-Person Pose Estimation
● 論文摘要:本文采用自底向上的方法研究多人位姿估計問題。我們發現,在理想情況下,在局部窗口搜索方案中,中心偏移公式的定位問題可以得到解決,因此我們提出了一種多人姿態估計方法,稱為LOGO-CAP,通過學習人體姿態的局部-全局上下文適應。具體來說,該方法首先從局部小窗口的局部關鍵點擴展圖中學習關鍵點吸引圖(KAMs),然後將這些關鍵點擴展圖作為基於關鍵點的全局熱圖的動態卷積核進行上下文適應,實現精確的多人姿態估計。我們的方法是端到端可訓練的,在一個單一的前向傳遞中具有近實時推理速度,在自底向上的人體姿態估計的COCO關鍵點基準上獲得了最先進的性能。利用COCO訓練的模型,我們的方法在具有挑戰性的ochman數據集上也大大優於現有技術。
● 論文鏈接:https://arxiv.org/pdf/2109.03622.pdf
● 作者單位:武漢大學、北卡羅來那州立大學

71.【用於視頻中三維人體姿態估計的Seq2seq混合時空編碼器】MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video
● 論文摘要:近年來,基於transformer的方法從二維關鍵點序列估計三維人體姿態,全局考慮所有幀之間的身體關節,學習時空相關性。我們觀察到不同關節的運動有明顯的差異。然而,以往的方法不能有效地建模每個關節的立體幀間對應關係,導致對時空相關性的學習不足。本文提出了MixSTE (Mixed Spatio-Temporal Encoder)算法,該算法采用時域變換塊對每個關節的時域運動進行建模,采用空間transformer對關節間的空間相關性進行學習。將這兩個塊交替利用,得到更好的時空特征編碼。此外,將網絡輸出從中心幀擴展到整個輸入視頻幀,從而提高了輸入和輸出序列之間的一致性。在Human3.6M、MPI-INF-3DHP和HumanEva三個基準上進行了大量的實驗來評估所提出的方法。結果表明,在Human3.6M數據集上,我們的模型比最先進的方法性能好10.9% P-MPJPE和7.6% MPJPE。
● 論文鏈接:https://arxiv.org/pdf/2203.00859.pdf
● 作者單位:武漢大學、蘇州大學、慕尼黑工業大學、紐約州立大學布法羅分校

72.【光場深度估計的遮擋感知成本構造函數】Occlusion-Aware Cost Constructor for Light Field Depth Estimation
● 論文摘要:匹配成本構建是光場深度估計的關鍵步驟,但在深度學習時代卻鮮有研究。近年來,基於深度學習的低頻深度估計方法通過對每個子孔徑圖像進行序列偏移來構造匹配代價,這種方法複雜且耗時。在本文中,我們提出了一個簡單而快速的代價構造函數來構造低頻深度估計的匹配代價。我們的成本構造函數由一係列具有特定設計的膨脹率的卷積組成。將我們的代價構造函數應用到SAI數組中,可以在不使用任何移位操作的情況下,對預定義差異下的像素進行積分並構造匹配代價。更重要的是,提出的代價構造函數是遮擋感知的,可以通過動態調製不同視圖的像素來處理遮擋。在此基礎上,我們開發了一個用於低頻深度估計的深度網絡。我們的網絡在常用的4D LF基準中均方誤差(MSE)排名第一,並且比其他最先進的方法實現了更快的運行時間。
● 論文鏈接:https://arxiv.org/pdf/2203.01576.pdf
● 論文代碼:https://github.com/yingqianwang/oacc-net
● 作者單位:國防科學技術大學

73.【用於單目深度估計的神經窗口全連接 CRF】NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation
● 論文摘要:從單個圖像估計準確的深度是一個挑戰,因為它固有的模糊性和不適定。而近年來的作品設計了越來越複雜和強大的網絡,直接回歸深度圖,我們走的是CRFs優化的道路。由於計算量大,crf通常在鄰域之間執行,而不是在整個圖中執行。為了充分利用全連接crf的潛力,我們將輸入分割為多個窗口,並在每個窗口內進行fc - crf優化,降低了計算複雜度,使fc - crf可行。為了更好地捕捉圖中節點之間的關係,我們利用多頭注意機製來計算多頭勢函數,並將其反饋給網絡以輸出優化的深度圖。然後我們構建了一個自底向上自頂向下的結構,其中這個神經窗口FC-CRFs模塊作為解碼器,視覺轉換器作為編碼器。實驗表明,與之前的方法相比,我們的方法在KITTI和NYUv2數據集上的所有指標上都顯著提高了性能。此外,該方法可以直接應用於全景圖像,並且在MatterPort3D數據集上優於之前所有的全景圖像方法。我們的方法的源代碼將被公開。
● 論文鏈接:https://arxiv.org/abs/2203.01502
● 作者單位:阿裏巴巴集團、西蒙弗雷澤大學

74.【通過幾何感知融合進行 360 度單目深度估計】OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion
● 論文摘要:從單個圖像估計準確的深度是一個挑戰,因為它固有的模糊性和不適定。而近年來的作品設計了越來越複雜和強大的網絡,直接回歸深度圖,我們走的是CRFs優化的道路。由於計算量大,crf通常在鄰域之間執行,而不是在整個圖中執行。為了充分利用全連接crf的潛力,我們將輸入分割為多個窗口,並在每個窗口內進行fc - crf優化,降低了計算複雜度,使fc - crf可行。為了更好地捕捉圖中節點之間的關係,我們利用多頭注意機製來計算多頭勢函數,並將其反饋給網絡以輸出優化的深度圖。然後我們構建了一個自底向上自頂向下的結構,其中這個神經窗口FC-CRFs模塊作為解碼器,視覺轉換器作為編碼器。實驗表明,與之前的方法相比,我們的方法在KITTI和NYUv2數據集上的所有指標上都顯著提高了性能。此外,該方法可以直接應用於全景圖像,並且在MatterPort3D數據集上優於之前所有的全景圖像方法。我們的方法的源代碼將被公開。
● 論文鏈接:https://arxiv.org/abs/2203.00838
● 作者單位:密蘇裏大學、博世研究院

75.【通過文本和參考圖像設計你的頭發】HairCLIP: Design Your Hair by Text and Reference Image
● 論文摘要:頭發編輯是計算機視覺和圖形學中一個有趣而富有挑戰性的問題。許多現有的方法需要繪製良好的草圖或蒙版作為編輯的條件輸入,然而這些交互既不直接也不高效。為了將用戶從繁瑣的交互過程中解放出來,本文提出了一種新的頭發編輯交互模式,可以根據用戶提供的文本或參考圖像單獨或聯合操作頭發屬性。為此,我們在共享的嵌入空間中對圖像和文本條件進行編碼,並利用對比語言-圖像預訓練(CLIP)模型強大的圖像文本表示功能,提出了一個統一的頭發編輯框架。通過精心設計的網絡結構和丟失功能,我們的框架可以以解糾纏的方式進行高質量的頭發編輯。大量的實驗證明了我們的方法在操作精度、編輯結果的視覺真實性和無關屬性保存方麵的優越性。
● 論文鏈接:https://arxiv.org/abs/2112.05142
● 論文代碼:https://github.com/wty-ustc/hairclip
● 作者單位:中國科學技術大學、微軟、香港城市大學

76.【增量Transformer結構增強圖像掩蔽位置編碼】Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding
● 論文摘要:近年來,圖像補繪取得了顯著的進展。然而,如何恢複紋理逼真、結構合理的圖像仍然是一個難題。由於卷積神經網絡的接收域有限,一些特定的方法隻處理規則紋理,而失去了整體結構。另一方麵,基於注意力的模型可以更好地學習結構恢複的長程依賴性,但在圖像尺寸較大的情況下,由於計算量大而受到限製。為了解決這些問題,我們建議利用一個額外的結構恢複器,以促進圖像內畫增量。該模型利用一個強大的基於注意的Transformer模型,在一個固定的低分辨率草圖空間中恢複整體圖像結構。這樣的灰度空間很容易上采樣到更大的尺度,以傳遞正確的結構信息。通過零初始化殘差加法,我們的結構恢複器可以與其他預訓練的繪製模型有效地集成在一起。此外,利用掩蔽位置編碼策略提高了大型不規則掩模的性能。在各種數據集上的大量實驗驗證了我們的模型與其他競爭對手的有效性。
● 論文鏈接:https://arxiv.org/abs/2203.00867
● 論文代碼:https://github.com/dqiaole/zits_inpainting
● 作者單位:複旦大學

77.【圖像-圖像翻譯任務中對比學習的Patch-wise語義關係研究】Exploring Patch-wise Semantic Relation for Contrastive Learning in Image-to-Image Translation Tasks
● 論文摘要:近年來,人們提出了基於對比學習的圖像平移方法,通過對比不同的空間位置來增強圖像的空間對應性。然而,這些方法往往忽略了圖像內部不同的語義關係。為了解決這一問題,本文提出了一種新的語義關係一致性(SRC)正則化方法和解耦對比學習方法,該方法通過關注單個圖像中圖像塊之間的異構語義,利用不同的語義。為了進一步提高挖掘性能,我們利用語義關係提出了一種硬負挖掘方法。我們驗證了我們的方法在三個任務:單模態和多模態的圖像翻譯,和GAN壓縮任務的圖像翻譯。實驗結果證實了該方法在三個任務中的性能。
● 論文鏈接:https://arxiv.org/abs/2203.01532
● 作者單位:韓國KAIST

78.【一種大規模人臉識別的有效訓練方法】An Efficient Training Approach for Very Large Scale Face Recognition Translation Tasks
● 論文摘要:人臉識別在深度學習時代已經取得了顯著的進步,這得益於超大規模和良好標記的數據集。然而,對超大數據集的訓練是耗時的,並且占用了大量的硬件資源。因此,設計一種有效的培訓方法是必不可少的。全連接(FC)層的百萬級維數是計算和內存消耗的主要原因。為此,我們提出了一種新的訓練方法,稱為快速人臉分類(F2C),以在不犧牲性能的情況下減少時間和成本。該方法采用動態類池(DCP)動態存儲和更新身份特征,可作為FC層的替代。DCP由於其體積較小且獨立於整個人臉身份的集合,具有高效節省時間和成本的優點。我們在多個人臉基準和私有數據集上進一步驗證了所提出的F2C方法,並顯示了可比較的結果,同時,在識別精度和硬件成本方麵,該方法的速度比最先進的基於fc的方法更快。此外,我們的方法進一步改進了設計良好的雙數據加載器,包括基於身份和基於實例的加載器,使其更有效地更新DCP參數。
● 論文鏈接:https://arxiv.org/abs/2105.10375
● 論文代碼:https://github.com/tiandunx/FFC
● 作者單位:新加坡國立大學、阿裏巴巴、清華大學、中國科學院自動化研究所、深圳科技大學

79.【從稀疏到密集的動態3D麵部表情生成】Sparse to Dense Dynamic 3D Facial Expression Generation
● 論文摘要:在本文中,我們提出了一種從中性三維人臉和表情標簽生成動態三維麵部表情的解決方案。這涉及到兩個子問題:(i)建模表達式的時間動力學,(ii)變形中性網格以獲得表達對等物。我們使用稀疏的3D標誌集的運動來表示表達式的時間演化,我們通過訓練流形值GAN (Motion3DGAN)來學習生成這些標誌集。為了更好地對表達式引起的變形進行編碼,並將其從身份信息中分離出來,生成的運動被表示為來自中性配置的每幀位移。為了生成具有表現力的網格,我們訓練了Sparse2Dense網格解碼器(S2D-Dec),它將地標位移映射為密集的逐頂點位移。這使我們能夠了解稀疏地標集的運動如何影響整個表麵的變形,獨立於身份。對彗差和D3DFACS數據集的實驗結果表明,我們的解決方案在動態表達式生成和網格重構方麵都比之前的解決方案有了顯著的改進,同時對不可見數據保持了良好的泛化。
● 論文鏈接:https://arxiv.org/abs/2105.07463
● 作者單位:裏爾大學、法國國家研究中心、意大利帕爾馬大學、意大利佛羅倫薩大學

80.【用身份一致性Transformer保護名人】Protecting Celebrities with Identity Consistency Transformer
● 論文摘要:在本工作中,我們提出了身份一致性Transformer,一種新的人臉偽造檢測方法,該方法側重於高級語義,特別是身份信息,並通過發現內部和外部人臉區域的身份不一致來檢測嫌疑人的臉。身份一致性轉換器包含了身份一致性判定的一致性損失。我們表明,身份一致性Transformer不僅在不同的數據集上,而且在包括深度偽造視頻在內的真實世界應用中發現的各種類型的圖像退化形式上,都表現出了優越的泛化能力。當這些信息可用時,身份一致性Transformer可以很容易地使用額外的身份信息進行增強,因此,它特別適合於檢測涉及名人的臉部偽造。
● 論文鏈接:https://arxiv.org/abs/2203.01318
● 作者單位:中國科學技術大學、微軟

81.【空中跟蹤的時間上下文】TCTrack: Temporal Contexts for Aerial Tracking
● 論文摘要:在現有的視覺跟蹤器中,連續幀之間的時間上下文還遠遠沒有得到充分利用。在這項工作中,我們提出了TCTrack,一個全麵的框架來充分利用時間上下文進行空中跟蹤。時間上下文合並在\textbf{兩個層次}:\textbf{特征}的提取和\textbf{相似圖}的細化。具體來說,在特征提取方麵,我們提出了一種基於時間信息的在線時間自適應卷積,通過根據前一幀動態標定卷積權值來增強空間特征。對於相似圖的細化,我們提出了一種自適應時間轉換器,該轉換器首先以高效記憶的方式對時間知識進行有效編碼,然後對時間知識進行解碼,從而對相似圖進行精確調整。TCTrack是有效和高效的:評估四個航跡基準顯示其令人印象深刻的性能;真實世界的無人機測試顯示其在NVIDIA Jetson AGX Xavier上超過27 FPS的高速。
● 論文鏈接:https://arxiv.org/abs/2203.01885
● 論文代碼:https://github.com/vision4robotics/tctrack
● 作者單位:同濟大學、新加坡國立大學、南洋理工大學、阿裏巴巴達摩院

82.【超越 3D 連體跟蹤:點雲中 3D 單對象跟蹤的以運動為中心的範式】Beyond 3D Siamese Tracking: A Motion-Centric Paradigm for 3D Single Object Tracking in Point Clouds
● 論文摘要:激光雷達點雲中的三維單目標跟蹤(3D SOT)是自動駕駛的關鍵技術。目前的方法都遵循基於外觀匹配的暹羅模式。然而,激光雷達點雲通常沒有紋理和不完整,這阻礙了有效的外觀匹配。此外,以往的方法嚴重忽視了目標之間的關鍵運動線索。在這項工作中,除了3D Siamese跟蹤,我們引入了一個以運動為中心的範式,從一個新的角度來處理3D SOT。在此基礎上,我們提出了一種無匹配的兩級跟蹤器M^2-Track。在第1^st階段,M^2-Track通過運動變換在連續幀內對目標進行定位。然後通過2^nd階段的運動輔助形狀補全對目標盒進行細化。大量的實驗證實,M^2-Track在KITTI、NuScenes和Waymo Open Dataset上分別以57FPS(~8%、~17%和~22%)的精度提高,在三個大規模數據集上顯著超過了之前的先進水平。進一步的分析驗證了每個組件的有效性,並顯示了以運動為中心的範式與外觀匹配相結合的前景。
● 論文鏈接:https://arxiv.org/abs/2203.01730
● 論文代碼:https://github.com/Ghostish/Open3DSOT
● 作者單位:香港中文大學(深圳)、未來網絡情報研究所、深圳市大數據研究院、Xiaobing.AI、西湖大學

83.【相關感知深度跟蹤】Correlation-Aware Deep Tracking
● 論文摘要:魯棒性和識別能力是視覺目標跟蹤的兩個基本要求。在大多數跟蹤範式中,我們發現流行的類暹羅網絡提取的特征不能完全區別地對被跟蹤目標和幹擾對象建模,阻礙了它們同時滿足這兩個要求。當大多數方法都專注於設計魯棒相關操作時,我們提出了一種新的目標依賴特征網絡,其靈感來自於自/交叉注意方案。與類暹羅特征提取相比,我們的網絡將跨圖像特征相關性深入嵌入到特征網絡的多層結構中。通過對兩幅圖像的特征進行多層次的廣泛匹配,可以抑製非目標特征,從而提取出隨實例變化的特征。搜索圖像的輸出特征可以直接用於預測目標位置,無需額外的相關步驟。此外,我們的模型可以在大量的未配對圖像上進行靈活的預訓練,從而顯著加快了收斂速度。大量的實驗表明,我們的方法可以在實時運行的情況下達到最先進的結果。我們的特征網絡也可以無縫地應用於現有的跟蹤管道,以提高跟蹤性。
● 論文鏈接:https://arxiv.org/abs/2203.01666
● 作者單位:東南大學、微軟亞洲研究院

84.【視頻Transformer的 BERT 預訓練】BEVT: BERT Pretraining of Video Transformers
● 論文摘要:研究了視頻Transformer的BERT預訓練方法。這是一個簡單但值得研究的擴展,因為最近成功的BERT圖像變形前訓練。引入BEVT,將視頻表示學習分解為空間表示學習和時間動態學習。其中,BEVT首先對圖像數據進行掩蔽圖像建模,然後再對視頻數據進行掩蔽圖像建模和掩蔽視頻建模。這個設計的動機是兩個觀察:1)在圖像數據集上學習的Transformer提供了相當好的空間先驗,可以簡化視頻Transformer的學習,如果從頭開始訓練,視頻Transformer通常需要數倍的計算量;2)不同的視頻需要的判別線索,即空間和時間信息,由於類內和類間的差異較大,因此在不同的視頻中,需要做出正確的預測。我們在三個具有挑戰性的視頻基準上進行了廣泛的實驗,BEVT取得了非常有希望的結果。在Kinetics 400上,識別主要依賴於有區別的空間表示,BEVT可以獲得與強監督基線相當的結果。在Something-Something-V2和Diving 48中,它包含了依賴於時間動態的視頻,BEVT的表現明顯優於所有可選基線,並分別以71.4%和87.2% Top-1的精度實現了最先進的性能。
● 論文鏈接:https://arxiv.org/abs/2112.01529
● 論文代碼:https://github.com/xyzforever/BEVT
● 作者單位:複旦大學、Microsoft Cloud + AI

85.【通過谘詢示例進行有效且高效的在線動作檢測】Colar: Effective and Efficient Online Action Detection by Consulting Exemplars
● 論文摘要:近年來,在線動作檢測引起了越來越多的研究興趣。目前的工作是模擬曆史依賴關係,並預測未來,以感知視頻片段中的動作演化,提高檢測精度。然而,現有的範式忽略了類別級建模,對效率重視不夠。就一個類別而言,其代表框架表現出不同的特征。因此,類別級建模可以為時態依賴關係建模提供補充指導。本文提出了一種有效的範例谘詢機製,該機製首先衡量範例框架與範例框架之間的相似度,然後基於相似度權重對範例特征進行聚合。這也是一種有效的機製,因為相似性度量和特征聚合都需要有限的計算量。基於範例-谘詢機製,可以將曆史框架作為範例來捕獲長期依賴關係,將類別的代表性框架作為範例來實現類別級建模。由於類別級建模的互補性,我們的方法采用了輕量級架構,但在三個基準上實現了新的高性能。此外,利用時空網絡處理視頻幀,我們的方法處理一分鍾視頻耗時9.8秒,並取得了相當的性能。
● 論文鏈接:https://arxiv.org/pdf/2203.01057.pdf
● 作者單位:西北工業大學

86.【使用 Transformer 進行 3D 密集字幕的跨模式知識遷移】X -Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning
● 論文摘要:3D密集字幕的目的是在3D場景中通過自然語言描述單個物體,而3D場景通常以RGB-D掃描或點雲的形式表示。然而,以往的方法僅利用單一的模態信息,如點雲,無法產生真實的描述。盡管將2D特征聚合到點雲中可能是有益的,但它引入了額外的計算負擔,特別是在推理階段。在本研究中,我們使用Transformer for 3D密集字幕,X-Trans2Cap研究交叉模態知識轉移,以通過師生框架的知識蒸餾有效提升單模態3D字幕的性能。在實踐中,在訓練階段,教師網絡利用輔助的二維模態,通過特征一致性約束引導隻以點雲作為輸入的學生網絡。由於設計良好的跨模態特征融合模塊和訓練階段的特征對齊,X-Trans2Cap可以輕鬆獲取豐富的嵌入到二維圖像中的外觀信息。因此,在推理過程中,隻能使用點雲生成更忠實的標題。定性和定量結果證實,X-Trans2Cap的表現遠遠超過了以前的最先進水平,即在ScanRefer和Nr3D數據集上,分別為+21和+16的絕對CIDEr評分。
● 論文鏈接:https://arxiv.org/pdf/2203.00843.pdf
● 作者單位:香港中文大學(深圳)、上海交通大學、中山大學

87.【通過邊界排斥的僅標簽模型反轉攻擊】Label-Only Model Inversion Attacks via Boundary Repulsion
● 論文摘要:最近的研究表明,最先進的深度神經網絡很容易受到模型反演攻擊,這種攻擊會濫用對模型的訪問來重建任何給定目標類的私有訓練數據。現有的攻擊依賴於能夠訪問完整的目標模型(白盒)或模型的軟標簽(黑盒)。然而,在更困難但更實際的場景中,攻擊者隻能夠訪問模型的預測標簽,而沒有置信度度量。在本文中,我們引入了一種算法,邊界排斥模型反演(BREP-MI),僅使用目標模型的預測標簽來反演私有訓練數據。我們的算法的關鍵思想是評估模型在一個球體上的預測標簽,然後估計到達目標類質心的方向。以人臉識別為例,我們證明了BREP-MI重建的圖像成功地再現了各種數據集和目標模型體係結構的私有訓練數據的語義。我們將BREP-MI與最先進的白盒和黑盒模型反演攻擊進行了比較,結果表明,盡管假設對目標模型的了解較少,但BREP-MI優於黑盒攻擊,取得了與白盒攻擊相當的結果。
● 論文鏈接:https://arxiv.org/pdf/2203.01925.pdf
● 作者單位:弗吉尼亞理工學院

88.【一種基於統一查詢的點雲理解範式】A Unified Query-based Paradigm for Point Cloud Understanding
● 論文摘要:最近的研究表明,最先進的深度神經網絡很容易受到模型反演攻擊,這種攻擊會濫用對模型的訪問來重建任何給定目標類的私有訓練數據。現有的攻擊依賴於能夠訪問完整的目標模型(白盒)或模型的軟標簽(黑盒)。然而,在更困難但更實際的場景中,攻擊者隻能夠訪問模型的預測標簽,而沒有置信度度量。在本文中,我們引入了一種算法,邊界排斥模型反演(BREP-MI),僅使用目標模型的預測標簽來反演私有訓練數據。我們的算法的關鍵思想是評估模型在一個球體上的預測標簽,然後估計到達目標類質心的方向。以人臉識別為例,我們證明了BREP-MI重建的圖像成功地再現了各種數據集和目標模型體係結構的私有訓練數據的語義。我們將BREP-MI與最先進的白盒和黑盒模型反演攻擊進行了比較,結果表明,盡管假設對目標模型的了解較少,但BREP-MI優於黑盒攻擊,取得了與白盒攻擊相當的結果。
● 論文鏈接:https://arxiv.org/abs/2203.01925
● 作者單位:香港中文大學、MPI Informatics、香港科技大學

89.【通過學習神經組合表示進行人體 4D 建模】H4D: Human 4D Modeling by Learning Neural Compositional Representation
● 論文摘要:盡管基於深度學習的3D重建已經取得了令人印象深刻的效果,但直接學習對4D人體捕捉的細節幾何建模的技術研究較少。本工作提出了一種新的框架,利用人體先驗知識,從廣泛使用的SMPL參數化模型中有效地學習動態人體的緊湊組合表示。特別地,我們的表征,命名為H4D,代表了在一個時間跨度內的動態三維人體的潛在空間編碼形狀、初始姿態、運動和輔助信息。提出了一個簡單而有效的線性運動模型,以提供一個粗略和正則化的運動估計,然後逐幀補償的姿態和幾何細節,殘差編碼在輔助碼。在技術上,我們引入了新的基於gru的架構,以方便學習和提高表示能力。大量實驗表明,該方法不僅能有效地恢複具有精確運動和詳細幾何形狀的動態人體,而且能適應各種與4D人體相關的任務,包括運動重定向、運動完成和未來預測。
● 論文鏈接:https://arxiv.org/abs/2203.01247
● 作者單位:複旦大學、google

90.【文本和圖像驅動的神經輻射場操作】CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields
● 論文摘要:我們提出了CLIP-NeRF,一種多模態三維對象操作方法的神經輻射場(NeRF)。通過利用最近的對比語言圖像預訓練(CLIP)模型的聯合語言-圖像嵌入空間,我們提出了一個統一的框架,該框架允許以用戶友好的方式操作NeRF,可以使用簡短的文本提示或範例圖像。具體來說,為了結合NeRF的新視圖合成能力和生成模型中潛在表示的可控操縱能力,我們引入了一個解糾纏條件NeRF體係結構,允許個體對形狀和外觀進行控製。這是通過將學習到的變形字段應用於位置編碼並將顏色調節延遲到體繪製階段來實現的。為了將這種解糾纏的潛在表示連接到CLIP嵌入,我們設計了兩個代碼映射器,它們以CLIP嵌入為輸入,並更新潛在代碼以反映目標編輯。使用基於clip的匹配損失訓練映射器,以確保操作的準確性。此外,我們提出了一種反優化方法,將輸入的圖像精確地投影到潛在代碼中進行操作,以實現對真實圖像的編輯。我們通過對各種文本提示和範例圖像的大量實驗來評估我們的方法,並為交互式編輯提供了一個直觀的界。
● 論文鏈接:https://arxiv.org/abs/2112.05139
● 論文代碼:https://cassiepython.github.io/clipnerf/
● 作者單位:香港城市大學、Snap Inc.、南加州大學創新技術研究所、Microsoft Cloud AI

91.【學習探索樣本關係以進行魯棒表征學習】BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning
● 論文摘要:盡管深度神經網絡取得了成功,但由於數據的稀缺性,如數據不平衡、不可見分布和域轉移等問題,深度表示學習仍麵臨許多挑戰。為了解決上述問題,設計了多種方法以香草的方式探索樣本之間的關係(例如,從輸入或損失函數),未能探索深層的內部結構神經網絡的學習樣本的關係。受此啟發,我們建議使深度神經網絡本身能夠從每個小批量中學習樣本關係。具體來說,我們引入了一個批處理變壓器模塊或BatchFormer,然後將其應用到每個小批處理的批處理維度中,以隱式地探索訓練過程中的樣本關係。通過這樣做,該方法使得不同樣本之間的協作成為可能,例如頭類樣本可以幫助學習尾類樣本,從而實現長尾識別。此外,為了減小訓練和測試之間的差距,我們在訓練過程中使用BatchFormer或不使用BatchFormer共享分類器,因此可以在測試過程中刪除該分類器。我們在十多個數據集上進行了大量的實驗,該方法在不同的數據稀缺性應用上取得了顯著的改進,包括長尾識別、合成零次學習、域泛化和對比學習。
● 論文鏈接:https://arxiv.org/abs/2203.01522
● 論文代碼:https://github.com/zhihou7/BatchFormer
● 作者單位:悉尼大學、京東探索學院

92.【FAIR重新設計純卷積新架構】A ConvNet for the 2020s
● 論文摘要:視覺識別的“咆哮的20年代”始於Vision transformer (ViTs)的引入,它很快取代了卷積神經網絡(ConvNets),成為最先進的圖像分類模型。另一方麵,普通的ViT在應用於一般的計算機視覺任務(如對象檢測和語義分割)時麵臨困難。正是分層的transformer(例如Swin transformer)重新引入了幾個ConvNet先驗,使得transformer實際上可以作為通用的視覺主幹,並在各種各樣的視覺任務中表現出顯著的性能。然而,這種混合方法的有效性在很大程度上仍然歸功於《變形金剛》的內在優勢,而不是卷積的固有歸納偏差。在這項工作中,我們重新審視了設計空間,並測試了純粹的“卷積神經網絡”所能達到的極限。我們逐漸將標準ResNet“現代化”,以實現Transformer的設計,並發現了幾個關鍵的組件,這些組件有助於實現性能差異。這一探索的結果是一係列被稱為ConvNeXt的純ConvNet模型。完全由標準ConvNet模塊構建,ConvNeXts在準確性和可擴展性方麵優於transformer,實現了87.8%的ImageNet準確度,在COCO檢測和ADE20K分割方麵優於Swin transformer,同時保持了標準ConvNet的簡單性和效率。
● 論文鏈接:https://arxiv.org/abs/2201.03545
● 論文代碼:https://github.com/facebookresearch/ConvNeXt
● 作者單位:Facebook AI Research、UC Berkeley

93.【連接MobileNet和Transformer】Mobile-Former: Bridging MobileNet and Transformer
● 論文摘要:我們提出Mobile-Former,一個並行設計的MobileNet和變壓器之間的雙向橋。這種結構利用了MobileNet在本地處理和轉換器在全局交互中的優勢。該橋能夠實現局部和全局特征的雙向融合。與最近關於視覺轉換器的工作不同,Mobile-Former中的轉換器包含很少的token(例如6個或更少的token),這些token被隨機初始化以學習全局先驗,因此計算成本很低。結合所提出的輕量化交叉注意對橋梁進行建模,Mobile-Former不僅計算效率高,而且具有更強的表示能力。它在ImageNet分類上從25M到500M FLOPs的低FLOPs狀態下優於MobileNetV3。例如,Mobile-Former達到77.9% % top-1精度在294M FLOPs,獲得1.3%超過MobileNetV3,但節省了17%的計算。當轉移到對象檢測時,Mobile-Former在retanet框架中比MobileNetV3的性能好8.6個AP。此外,我們用Mobile-Former代替DETR中的主幹、編碼器和解碼器,構建了一個高效的端到端檢測器,它的性能比DETR提高了1.1 AP,但節省了52%的計算成本和36%的參數。
● 論文鏈接:https://arxiv.org/abs/2108.05895
● 作者單位:微軟、中國科學技術大學

94.【圖像補丁是波浪:量子啟發的視覺 MLP】An Image Patch is a Wave: Quantum Inspired Vision MLP
● 論文摘要:在計算機視覺領域,最近的工作表明,一個主要由全連接層堆疊的純MLP架構可以實現與CNN和transformer競爭的性能。通常將視覺MLP的輸入圖像分割成多個標記(patches),而現有的MLP模型直接將標記以固定的權重進行聚合,忽略了不同圖像中標記的語義信息的變化。為了動態聚合令牌,我們建議將每個令牌表示為包含振幅和相位兩部分的波函數。幅值是圖像的原始特征,而相位項是一個根據輸入圖像的語義內容變化的複雜值。引入相位項可以動態調整MLP中令牌與固定權值之間的關係。基於類似wave的令牌表示,我們建立了一種新的用於視覺任務的Wave-MLP架構。大量的實驗表明,提出的Wave-MLP在圖像分類、目標檢測和語義分割等各種視覺任務上優於目前最先進的MLP架構。
● 論文鏈接:https://arxiv.org/abs/2111.12294
● 論文代碼:https://github.com/huawei-noah/CV-backbones,https://github.com/ggjy/Hire-Wave-MLP.pytorch
● 作者單位:北京大學、華為方舟實驗室、悉尼大學

95.【3D常見損壞和數據增強】3D Common Corruptions and Data Augmentation
● 論文摘要:我們引入了一組圖像轉換,可以作為“腐蝕”來評估模型的穩健性,以及用於訓練神經網絡的“數據增強”機製。提議的轉換的主要區別在於,與Common Corruptions等現有方法不同,場景的幾何結構被納入到轉換中——因此導致更有可能發生在現實世界中的腐敗。我們展示了這些轉換是“高效的”(可以實時計算)、“可擴展的”(可以應用於真實圖像的大多數數據集),暴露了現有模型的脆弱性,並可以有效地使模型在用作“3D數據增強”機製時更加健壯。我們在多個任務和數據集上進行的評估表明,將3D信息整合到魯棒性基準測試和訓練中,為魯棒性研究開辟了一個有前途的方向。
● 論文主頁:https://3dcommoncorruptions.epfl.ch/
● 論文鏈接:https://arxiv.org/abs/2203.01441
● 作者單位:瑞士聯邦理工學院

96.【用於異常檢測的自監督預測卷積注意力塊】Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection
● 論文摘要:異常檢測通常被視為一類分類問題,其中模型隻能從正常訓練樣本中學習,同時對正常和異常測試樣本進行評估。在成功的異常檢測方法中,有一類特殊的方法依賴於預測被屏蔽信息(如補丁、未來幀等),並利用與被屏蔽信息相關的重構錯誤作為異常評分。與相關方法不同,我們提出將基於重構的功能集成到一種新的自監督預測架構構建塊中。提出的自監督塊是通用的,可以很容易地合並到各種最新的異常檢測方法。我們的區塊從一個帶有放大濾波器的卷積層開始,接收區域的中心區域被掩蓋了。生成的激活映射通過一個通道注意模塊傳遞。我們的塊配備了一個損失,使相對於接收域的掩碼區域的重構誤差最小化。我們通過將區塊集成到圖像和視頻異常檢測的幾個最先進的框架中,展示了我們的區塊的通用性,並提供了經驗證據,顯示了MVTec AD、Avenue和ShanghaiTech的顯著性能改進。
● 論文鏈接:https://arxiv.org/abs/2111.09099
● 作者單位:布加勒斯特理工大學、MBZ大學、丹麥奧爾堡大學、布加勒斯特大學等

97.【通過對齊特征學習壓縮數據集】CAFE: Learning to Condense Dataset by Aligning Features
● 論文摘要:數據集壓縮是為了將一個繁瑣的訓練集壓縮成一個緊湊的綜合訓練集,從而減少網絡訓練的工作量。最先進的方法主要依賴於通過匹配真實數據批和合成數據批之間的梯度來學習合成數據。盡管這種基於梯度的方法具有直觀的動機和有希望的結果,但從本質上講,這種方法很容易過度擬合到產生主導梯度的有偏差的樣本集,因此缺乏對數據分布的全球監督。本文提出了一種通過特征對齊來壓縮數據集(CAFE)的新方案,該方案明確地試圖保持合成集的真實特征分布和判別能力,從而使其在各種體係結構中具有較強的泛化能力。我們的方法的核心是一種有效的策略,在考慮真實樣本分類的同時,將真實數據和合成數據在不同尺度上的特征進行對齊。我們的方案進一步支持一個新的動態雙層優化,自適應調整參數更新,以防止過度/欠擬合。我們在不同的數據集上驗證了提出的CAFE,並證明它通常優於目前的技術水平:例如,在SVHN數據集上,性能增益高達11%。大量的實驗和分析驗證了所提出設計的有效性和必要性。
● 論文鏈接:https://arxiv.org/abs/2203.01531
● 論文代碼:https://github.com/kaiwang960112/cafe
● 作者單位:新加坡國立大學、愛丁堡大學、PhiGent機器人、悉尼科技大學、中科院自動化所

98.【用於網絡校準的基於邊緣的標簽平滑】The Devil is in the Margin: Margin-based Label Smoothing for Network Calibration
● 論文摘要:盡管深度神經網絡的表現占主導地位,但最近的研究表明,它們的校準很差,導致了過度自信的預測。由於訓練過程中交叉熵的最小化,過度擬合會加劇校準錯誤,因為它會提高預測的softmax概率來匹配一個熱標簽分配。這將生成正確類的softmax前激活,這個激活比其餘的激活要大得多。最近的文獻證據表明,損失函數嵌入隱式或顯式最大熵的預測產生了最先進的校準性能。我們提供了當前最先進的校準損耗的統一約束優化視角。具體來說,這些損失可以被視為線性懲罰(或拉格朗日函數)的近似值,對對數距離施加等式約束。這指出了這種潛在的等式約束的一個重要限製,其隨之而來的梯度不斷推動非信息解,這可能會阻止在基於梯度的優化過程中,在區分性能和模型校準之間達成最佳妥協。根據我們的觀察,我們提出了一個簡單和靈活的推廣基於不等式約束,它施加了一個可控的邊際logit距離。在各種圖像分類、語義分割和NLP基準上的綜合實驗表明,我們的方法在網絡標定方麵,在不影響判別性能的情況下,在這些任務上設置了新的最新的結果。
● 論文鏈接:https://arxiv.org/abs/2111.15430
● 論文代碼:https://github.com/by-liu/mbls
● 作者單位:蒙特利爾大學、伯恩茅斯大學

99.【通過引入查詢去噪加速 DETR 訓練】DN-DETR: Accelerate DETR Training by Introducing Query DeNoising
● 論文摘要:本文提出了一種新的去噪訓練方法來加速DETR(檢測變壓器)的訓練,並加深了對類似DETR方法的慢收斂問題的理解。結果表明,由於二部圖匹配的不穩定性導致早期訓練階段的優化目標不一致,導致算法收斂速度較慢。為了解決這一問題,除匈牙利損失外,我們的方法還將帶噪聲的地真包圍盒輸入Transformer解碼器,訓練模型重構原始盒,有效地降低了二部圖匹配難度,收斂速度更快。我們的方法是通用的,可以通過添加幾十行代碼輕鬆地插入任何類似detr的方法來實現顯著的改進。因此,在相同的設置下,我們的DN-DETR有顯著的提高(+1.9AP),並且在ResNet-50骨幹的類detr方法中,在12和50個訓練epoch時分別獲得了最佳的AP 43.4和48.6。與相同設置下的基線相比,DN-DETR在50%的訓練時間內取得了相當的性能。
● 論文鏈接:https://arxiv.org/abs/2203.01305
● 論文代碼:https://github.com/FengLi-ust/DN-DETR
● 作者單位:香港科技大學、國際數字經濟學院、清華大學、香港科技大學(廣州)

100.【用於長尾識別的有針對性的監督對比學習】Targeted Supervised Contrastive Learning for Long-Tailed Recognition
● 論文摘要:現實世界的數據經常顯示出帶有嚴重類別不平衡的長尾分布,在這種情況下,大多數類別可以主導訓練過程,並改變少數類別的決策邊界。最近,研究人員研究了監督對比學習在長尾識別中的潛力,並證明它提供了強大的性能增益。在本文中,我們表明,盡管監督對比學習可以幫助提高性能,但過去的基線受到不平衡數據分布帶來的不均勻性的影響。這種較差的均勻性表現在少數類的樣本在特征空間中的可分離性較差。為了解決這一問題,我們提出了有針對性的監督對比學習(TSC),它提高了超球上特征分布的均勻性。TSC首先生成一組均勻分布在超球體上的目標。然後在訓練過程中,將不同類別的特征收斂到這些不同且均勻分布的目標上。這迫使所有類,包括少數類,在特征空間中保持均勻分布,改善了類的邊界,即使在長尾數據存在的情況下也能提供更好的泛化。在多數據集上的實驗表明,TSC在長尾識別任務上取得了最先進的性能。
● 論文鏈接:https://arxiv.org/abs/2111.13998
● 作者單位:MIT

101.【三重對比學習的視覺語言預訓練】Vision-Language Pre-Training with Triple Contrastive Learning
● 論文摘要:視覺語言表征學習在很大程度上受益於圖像-文本的對比損耗(例如InfoNCE損耗)。這種對齊策略的成功是由於它能夠最大化圖像與匹配文本之間的互信息(MI)。然而,簡單地執行交叉模態對齊(CMA)忽略了每個模態中的數據潛力,這可能導致表示的退化。例如,盡管基於cma的模型能夠將圖像-文本對在嵌入空間中緊密地映射在一起,但它們不能確保來自相同模態的相似輸入保持在一起。當訓練前的數據有噪聲時,這個問題會變得更糟。在本文中,我們提出了利用跨模態和內模態自我監督的三重對比學習(TCL)來進行視覺語言前訓練。除了CMA之外,TCL還引入了一個模態內對比目標,以在表示學習中提供互補的好處。為了利用來自圖像和文本輸入的局部和結構信息,TCL進一步最大化了圖像/文本局部區域和它們的全局摘要之間的平均MI。據我們所知,我們的工作是第一個考慮到局部結構信息的多模態表示學習。實驗評估表明,我們的方法在各種常見的下遊視覺語言任務,如圖像-文本檢索和視覺問題回答上具有競爭力,達到了最新的技術水平。
● 論文鏈接:https://arxiv.org/abs/2202.10401
● 論文代碼:https://github.com/uta-smile/TCL
● 作者單位:德克薩斯大學阿靈頓分校、亞馬遜

102.【將視頻場景圖重新格式化為時間二分圖】Classification-Then-Grounding: Reformulating Video Scene Graphs as Temporal Bipartite Graphs
● 論文摘要:目前的VidSGG模型都是基於提議的方法,即首先生成大量成對的主題-對象片段作為提議,然後對每個提議進行謂詞分類。在本文中,我們認為這種流行的基於提議的框架有三個固有的缺點:1)提議的基礎真理謂詞標簽是部分正確的。2)它們打破了同一主-客體對不同謂詞實例之間的高階關係。3) VidSGG的性能受提案質量的限製。為此,我們提出了一種新的VidSGG分級接地框架,該框架可以避免所有三個被忽視的缺點。同時,在此框架下,我們將視頻場景圖重構為時間二部圖,其中實體和謂詞是兩種具有時隙的節點,邊緣表示這些節點之間的不同語義角色。這個提法充分利用了我們的新框架。據此,我們進一步提出了一種新的基於二部圖的SGG模型:BIG。具體來說,BIG包括兩個部分:分類階段和基礎階段,基礎階段的目標是對所有節點和邊緣的類別進行分類,基礎階段的目標是對每個關係實例的時間位置進行定位。對兩個VidSGG數據集的廣泛消融證明了我們的框架和BIG的有效性。
● 論文鏈接:https://arxiv.org/abs/2112.04222
● 論文代碼:https://github.com/dawn-lx/vidvrd-tracklets
● 作者單位:浙江大學、哥倫比亞大學、南洋理工大學

103.【增強深度度量學習的對抗魯棒性】Enhancing Adversarial Robustness for Deep Metric Learning
● 論文摘要:由於對抗脆弱性的安全影響,需要提高深度度量學習模型的對抗魯棒性。為了避免模型因過於複雜的例子而崩潰,現有的防禦方法忽略了最小-最大值對抗訓練,而是從弱小的對手那裏低效地學習。相反地,我們提出了硬度操作,根據一個較硬的良性三重組或偽硬度函數,有效地擾動訓練三重組直到指定的硬度水平,進行對抗訓練。由於常規訓練和最小-最大對抗訓練是它的邊界情況,因此它具有靈活性。此外,在漸進對手的基礎上,提出了偽硬度函數族,在訓練過程中逐步提高指定的硬度水平,以更好地平衡性能和魯棒性。此外,在良性例子和對抗例子中引入類內結構損失項,進一步提高了模型的魯棒性和效率。綜合實驗結果表明,該方法雖然形式簡單,但在魯棒性、訓練效率以及在良性實例上的性能方麵都遠遠優於現有的防禦技術。
● 論文鏈接:https://arxiv.org/abs/2203.01439
● 作者單位:約翰霍普金斯大學

104.【分層對比選擇性編碼】HCSC: Hierarchical Contrastive Selective Coding
● 論文摘要:圖像數據集中自然存在層次語義結構,多個語義相關的圖像聚類可以進一步集成到一個語義更粗粒度的大聚類中。用圖像表示捕獲這樣的結構可以極大地促進對各種下遊任務的語義理解。現有的對比表示學習方法缺乏這樣一種重要的模型能力。此外,這些方法中使用的負對在語義上不能保證是不同的,這可能會進一步妨礙學習後的圖像表示的結構正確性。為了解決這些局限性,我們提出了一種新的對比學習框架,稱為分層對比選擇編碼(Hierarchical contrast Selective Coding, HCSC)。在該框架中,構建了一組層次原型,並動態更新原型來表示潛在空間中數據的層次語義結構。為了使圖像表示更適合這種語義結構,我們采用並進一步改進傳統的實例和原型對比學習,通過一個精心設計的對選擇方案。該方案旨在選擇語義相似的更多樣化的正對和語義真正不同的更精確的負對。在廣泛的下遊任務中,我們驗證了HCSC優於最先進的對比方法,大量的分析研究證明了主要模型組件的有效性。
● 論文鏈接:https://arxiv.org/abs/2202.00455
● 論文代碼:https://github.com/gyfastas/hcsc
● 作者單位:上海交通大學、米拉-魁北克AI研究所、蒙特利爾大學、字節跳動

105.【為連體表示學習製作更好的對比視圖】Crafting Better Contrastive Views for Siamese Representation Learning
● 論文摘要:最近的自我監督對比學習方法極大地受益於Siamese結構,該結構旨在最小化正對之間的距離。對於高性能的暹羅表示學習,關鍵之一是設計好的對比對。以往的工作大多隻是簡單地采用隨機采樣的方法對同一幅圖像進行不同的裁剪,忽略了可能會降低圖像質量的語義信息。在這項工作中,我們提出了對比作物,可以有效地生成更好的作物,以用於暹羅人的表示學習。首先,在訓練過程中以完全無監督的方式提出了一種語義感知的對象定位策略。這引導我們生成對比視圖,可以避免大多數誤報(例如,物體與背景)。此外,我們的經驗發現,具有相似外觀的視圖對於暹羅模型的訓練是微不足道的。因此,進一步設計了中心抑製抽樣來擴大作物的方差。值得注意的是,我們的方法仔細考慮了對比學習的正對,而額外的訓練開銷可以忽略不計。作為一個即插即用和框架無關的模塊,ContrastiveCrop不斷地提高SimCLR, MoCo, BYOL, SimSiam在CIFAR-10, CIFAR-100, Tiny ImageNet和STL-10上的分類精度0.4% ~ 2.0%。在ImageNet-1K上進行預處理後,在下遊檢測和分割任務上也取得了較好的結果。
● 論文鏈接:https://arxiv.org/abs/2202.03278
● 論文代碼:https://github.com/xyupeng/contrastivecrop
● 作者單位:新加坡國立大學、清華大學、阿裏巴巴

106.【自監督學習視覺模型中social biases分布的研究】A study on the distribution of social biases in self-supervised learning visual models
● 論文摘要:如果充分采樣,深度神經網絡在學習數據分布方麵是有效的。然而,訓練數據中隱含的非相關因素可能會對它們產生強烈的偏倚。這些包括操作偏差,如無效或不均勻的數據采樣,但也有道德問題,因為社會偏差在培訓數據中或在不公平的培訓計劃中明確定義。在對人類過程有影響的任務中,對社會偏見的學習可能會產生歧視性、不道德和不值得信任的後果。人們通常認為,社會偏見源於對標記數據的監督學習,因此,自我監督學習(Self-Supervised learning, SSL)錯誤地成為一種高效且無偏見的解決方案,因為它不需要標記數據。然而,最近證明流行的SSL方法也包含了偏見。在本文中,我們研究了一係列不同的SSL可視化模型的偏差,這些模型使用ImageNet數據進行訓練,使用由心理學專家設計的方法和數據集來測量社會偏差。我們展示了SSL模型的類型和它包含的偏差數量之間的相關性。此外,結果還表明,這一數字並不嚴格依賴於模型的準確性和整個網絡的變化。最後,我們得出結論,謹慎的SSL模型選擇過程可以減少部署模型中的社會偏見的數量,同時保持高性能。
● 論文鏈接:https://arxiv.org/pdf/2203.01854.pdf
● 作者單位:馬德裏自治大學

107.【從單個 RGB-D 視頻序列中學習個性化的隱式神經化身】PINA: Learning a Personalized Implicit Neural Avatar from a Single RGB-D Video Sequence
● 論文摘要:提出了一種從短RGB-D序列中學習個性化隱式神經化身(PINA)的新方法。這允許非專業用戶創建一個詳細和個性化的自己的虛擬副本,可以與現實的服裝變形動畫。PINA不需要完全的掃描,也不需要事先從穿著衣服的人的大數據集中學習。在這種環境中學習一個完整的角色是一種挑戰,因為隻有很少的深度觀察是可用的,並且是嘈雜且不完整的(即每幀隻有部分身體的可見性)。我們提出了一種方法來學習形狀和非剛性變形通過一個位姿條件隱式曲麵和變形場,定義在正則空間。這允許我們將所有的部分觀測結果融合成一個統一的規範表示。融合是一個全局優化問題的姿態,形狀和蒙皮參數。該方法可以從真實嘈雜的RGB-D序列中學習各種不同的人物和服裝風格的神經化身,這些化身可以被賦予看不見的運動序列。
● 論文主頁:https://zj-dong.github.io/pina/● 論文鏈接:https://arxiv.org/abs/2203.01754
● 作者單位:蘇黎世聯邦理工學院、杜本根大學、馬普智能係統研究所

108.【小樣本語義分割新視角】Learning What Not to Segment: A New Perspective on Few-Shot Segmentation
● 論文摘要:當前小樣本語義分割的研究大多通過元學習框架來實現泛化;然而,在這樣的範式下訓練的模型往往存在基類偏執,而非理想化的類別無關。為此,本文提出在小樣本分割模型(元學習器)上引入一個分支(基學習器)來明確地識別基類的目標,即不需要分割的區域。然後,對兩個學習器並行輸出的粗結果進行自適應集成以得到精確的預測。更令人驚訝的是,我們的方案利用兩個樸素的學習者獲得了最優異的性能指標,並能夠擴展至更具挑戰性的廣義設置。
● 作者:郎春博,程塨,屠斌飛,韓軍偉
● 作者單位:西北工業大學

109.【小樣本語義分割新視角】Exploring Effective Data for Surrogate Training Towards Black-box Attack
● 論文摘要:在無法獲取目標模型的訓練數據時,利用本地訓練的代理模型完成對目標模型的攻擊對於AI安全性來說茲事體大。本文深入探索了對於代理訓練最為有效的數據所具備的類別特性——類間相似性及類內多樣性,分析了基於合成數據的代理訓練方法的潛在優勢,進而構建了一個麵向黑盒攻擊算法的代理訓練框架、展示了代理數據對於提升代理訓練的潛在優勢、設計了兩個替代模型的優化目標函數,大大提升了代理模型的訓練效率。
● 作者:孫緒祥,程塨,李虹達,裴蕾,韓軍偉
● 作者單位:西北工業大學

110.【基於增量跨視圖互蒸餾學習機製的CT影像生成】Incremental Cross-view Mutual Distillation for Self-supervised Medical CT Synthesis
● 論文摘要:高分辨率CT影像可以幫助醫生及醫療AI係統進行精確的影像學分析與疾病診斷,然而由於人體結構的特點,軸向視角的CT影像很難獲得足夠高的片間分辨率。為此,本文構建了一種自監督的軸向視角CT切片生成方法,提出了增量跨視圖互蒸餾學習機製,利用矢狀麵視角影像和冠狀麵視角影像的高分辨率先驗構建其與軸向視角影像的一致性約束;通過聯合迭代不同視角的影像插值過程,實現軸向視角影像片間分辨率的增量式提升,改善模型應對具有不同層厚的CT影像的魯棒性。
● 論文鏈接:https://arxiv.org/abs/2112.10325
● 作者:方超偉,王良,徐君,袁奕萱,張鼎文,韓軍偉
● 作者單位:西北工業大學

111.【基於魯棒區域特征生成的零樣本目標檢測】Robust Region Feature Synthesizer for Zero-Shot Object Detection
● 論文摘要:零樣本目標檢旨在提升模型對訓練階段不可見目標類的檢測能力。傳統的零樣本學習模型在該任務環境下難以為未見目標生成具有足夠類內多樣性的區域特征,亦或是犧牲掉部分未見目標與圖像背景的可區分性。在本研究中,我們充分考慮到物體檢測任務的獨特性,提出利用訓練圖像所包含的豐富的前背景區域特征來同時保持未見目標特征的類內多樣性和類間可區分性,首次實現了同時針對可見目標類和不可見目標類的統一目標檢測模型,並提供了首個零樣本遙感目標檢測的benchmark。
● 論文鏈接:https://arxiv.org/abs/2201.00103● 作者:黃培亮,韓軍偉,程德,張鼎文
● 作者單位:西北工業大學

112.【弱監督旋轉不變目標檢測】Weakly Supervised Rotation-Invariant Aerial Object Detection Network
● 論文摘要:目標旋轉是弱監督目標檢測中長期存在但仍未深入研究的難題之一。本文提出了一種旋轉不變弱監督目標檢測網絡,通過漸進精煉的方式,鼓勵不同的分支對具有不同旋轉角度的同一實例做出一致的預測,首次在圖像級標簽下實現旋轉不變學習。與此同時,該網絡自然地將對象實例從稀疏空間投射到具有不同角度感知旋轉的子空間。通過耦合不同的子空間以挖掘更多不同角度的目標實例,訓練更加魯棒的旋轉不變目標檢測網絡。
● 作者:馮曉緒,姚西文,程塨,韓軍偉
● 作者單位:西北工業大學

113.【基於非目標知識信息學習的小樣本語義分割】Learning Non-target Knowledge for Few-shot Semantic Segmentation
● 論文摘要:現有小樣本語義分割研究僅側重於有效地挖掘目標物體的信息。然而,對於背景和幹擾物體等非目標區域中的模糊區域,目前的方法往往難以分辨。為此,本文提出在僅使用已知的目標物體標簽的前提下,通過背景損失函數來指導類別無關的背景原型學習,從而實現對背景的挖掘排除。然後,我們進一步找到與當前查詢圖像相關的幹擾物體信息並排除。此外,我們提出了一種原型對比學習算法,以提高模型區分目標對象與幹擾物體的能力。
● 作者:劉源煒,劉念,曹清龍,姚西文,韓軍偉,邵嶺
● 作者單位:西北工業大學

114.【利用自我監督進行跨領域人群計數】Leveraging Self-Supervision for Cross-Domain Crowd Counting
● 論文摘要:在擁擠場景中統計人數的最先進的方法依賴於深度網絡來估計人群密度。雖然這些數據驅動的方法很有效,但它們依賴於大量的數據注釋來實現良好的性能,從而避免在數據注釋成本過高或獲取速度不夠快的緊急情況下部署這些模型。一種流行的解決方案是使用合成數據進行訓練。不幸的是,由於域漂移,所得到的模型在真實圖像上的泛化效果很差。我們通過訓練合成圖像及其相關標簽和未標簽的真實圖像來彌補這個缺點。為此,我們通過訓練網絡從常規圖像中識別顛倒的真實圖像,並將預測自身不確定性的能力整合到網絡中,從而迫使網絡學習透視圖感知特征,以便生成有用的偽標簽來進行微調。這就產生了一種算法,在推理時不需要任何額外的計算,它的性能始終優於最先進的跨域人群計數算法。
● 論文鏈接:https://arxiv.org/abs/2103.16291
● 作者單位:洛桑綜合理工學院(EPFL)

115.【基於稀疏觀察的流化身生成】FLAG: Flow-based Avatar Generation from Sparse Observations
● 論文摘要:為了在混合現實應用中代表人們進行協作和交流,我們需要生成逼真和可信的化身姿勢。然而,用於這項任務的頭戴式設備(HMDs)的信號流通常僅限於頭姿和手姿估計。雖然這些信號很有價值,但它們是人體的完整表征,這使得生成一個忠實的全身化身頗具挑戰性。我們通過開發一個基於流的三維人體生成模型來解決這個挑戰,通過稀疏的觀察,我們不僅了解了三維人體姿勢的條件分布,但也有一個從觀察到潛在空間的概率映射從中我們可以產生一個貌似合理的姿勢以及關節的不確定性估計。結果表明,我們的方法不僅是一個強大的預測模型,而且可以作為一個有效的姿態先驗,在不同的優化設置中,良好的初始潛在代碼起主要作用。
● 論文主頁:https://microsoft.github.io/flag/
● 論文鏈接:https://microsoft.github.io/flag/files/paper.pdf
● 作者單位:微軟

116.【深度3D- 2D水印:在3D網格中嵌入信息,並從2D渲染圖中提取信息】Deep 3D-to-2D Watermarking: Embedding Messages in 3D Meshes and Extracting Them from 2D Renderings
● 論文摘要:數字水印廣泛應用於版權保護。傳統的3D水印方法或商業軟件通常是將信息嵌入到3D網格中,然後直接從失真/未失真的3D網格中檢索信息。然而,從這樣的網格的2D渲染中檢索信息仍然具有挑戰性,而且還沒有得到充分的開發。我們引入了一個新的端到端學習框架來解決這個問題:1)編碼器秘密地嵌入信息在網格幾何和紋理;2)可區分的渲染器,從不同的攝像機角度和不同的光照條件下渲染帶水印的3D物體;3)從2D渲染圖像中恢複信息的解碼器。從廣泛的實驗中,我們表明,我們的模型學會了嵌入人類在視覺上無法察覺的信息,並從2D渲染圖中重建嵌入的信息,該信息對3D變形具有魯棒性。此外,我們還演示了我們的方法可以通用於不同的渲染器,例如光線跟蹤器和實時渲染器。
● 論文鏈接:https://arxiv.org/abs/2104.13450
● 作者單位:Google

117.【少即是多:從地標生成地麵導航指示】Less is More: Generating Grounded Navigation Instructions from Landmarks
● 論文摘要:我們研究了從室內路線上采集的360度圖像中自動生成導航指令。現有的生成器存在較差的視覺基礎,導致它們依賴於語言先驗和幻覺物體。我們的MARKY-MT5係統通過專注於視覺地標來解決這個問題;它包括第一級地標檢測器和第二級發生器-多模態、多語言、多任務編碼器-解碼器。為了訓練它,我們在Room-across-Room (RxR)數據集之上引導接地地標注釋。使用文本解析器、RxR姿態軌跡的弱監督,以及一個針對1.8b圖像訓練的多語言圖像-文本編碼器,我們識別出110萬篇英語、印地語和泰盧古語地標描述,並將它們固定在全景圖中的特定區域。在“房間到房間”項目中,按照MARKY-MT5的指令,人類尋路者的成功率(SR)達到了71%,略低於人類指令的75%,遠高於其他生成器的成功率。在三種語言上,對RxR較長的不同路徑的評估獲得61-64%的sr。在新環境中生成這樣高質量的導航指令是向對話式導航工具邁出的一步,它可以促進對指令跟隨代理的大規模訓練。
● 論文鏈接:https://arxiv.org/abs/2111.12872
● 作者單位:Google

118.【基於小批量特征交換的三維形狀變分自編碼器潛在解糾纏】3D Shape Variational Autoencoder Latent Disentanglement via Mini-Batch Feature Swapping for Bodies and Faces
● 論文摘要:在人臉和身體的三維生成模型中學習解糾纏的、可解釋的和結構化的潛在表示仍然是一個開放的問題。當需要控製身份特征時,這個問題尤其嚴重。在本文中,我們提出了一種直觀而有效的自監督方法來訓練一個3D形狀變分自動編碼器(VAE),它鼓勵身份特征的解糾纏潛在表示。通過在不同形狀之間交換任意特征來管理小批量生成,可以利用潛在表示中的已知差異和相似點來定義損失函數。在三維網格上進行的實驗結果表明,最先進的潛在解糾纏方法不能解出人臉和身體的身份特征。我們提出的方法適當地解耦了這些特征的生成,同時保持良好的表示和重構能力。
● 論文鏈接:https://arxiv.org/abs/2111.12448
● 作者單位:英國倫敦大學學院

119.【利用小塊地球移動者的距離重新排序可改善非分布人臉識別】DeepFace-EMD: Re-ranking Using Patch-wise Earth Mover’s Distance Improves Out-Of-Distribution Face Identification
● 論文摘要:人臉識別(FI)無處不在,並驅動執法部門做出許多高風險決策。最先進的FI方法通過取圖像嵌入之間的餘弦相似度來比較兩幅圖像。然而,這樣的方法會對新類型的圖像(例如,當一個查詢麵被蒙麵、裁剪或旋轉時)產生不良的非分布(OOD)泛化問題,這些圖像不包括在訓練集或圖庫中。在此,我們提出了一種重新排序的方法,利用地球移動者的距離對圖像斑塊的深度、空間特征進行比較。我們額外的比較階段明確地在細粒度級別(例如,眼睛對眼睛)檢查圖像的相似性,比傳統FI對OOD擾動和遮擋更魯棒。有趣的是,在沒有微調特征提取器的情況下,我們的方法不斷地提高了所有測試的OOD查詢的準確性:掩碼、裁剪、旋轉和對抗查詢,同時在分布中的圖像上獲得類似的結果。
● 論文主頁:https://anhnguyen.me/project/deepface-emd/● 論文鏈接:https://arxiv.org/abs/2112.04016
● 論文代碼:https://github.com/anguyen8/deepface-emd
● 作者單位:奧本大學、卡耐基梅隆大學

120.【視頻檢索用多模態融合Transformer】Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
● 論文摘要:從視頻數據中進行的多模態學習最近受到了越來越多的關注,因為它允許訓練語義上有意義的嵌入,而無需人工標注,從而實現了零鏡頭檢索和分類等任務。在這項工作中,我們提出了一種多模態、模態不可知的融合Transformer方法,它學習在多種模態之間交換信息,例如視頻、音頻和文本,並將它們集成到一個連接的多模態表示中,以獲得一個聚合多模態時間信息的嵌入。我們建議在訓練係統的同時對所有的東西進行組合損失,無論是單個模式還是成對的模式,明確地排除任何附加的東西,如位置或模式編碼。在測試時,得到的模型可以處理和融合任意數量的輸入模式。此外,變壓器的隱式特性允許處理不同長度的輸入。為了評估所提出的方法,我們在大規模的HowTo100M數據集上訓練模型,並在四個具有挑戰性的基準數據集上評估結果嵌入空間,獲得了在零拍視頻檢索和零拍視頻動作定位方麵的最先進的結果。
● 論文鏈接:https://arxiv.org/abs/2112.04446
● 作者單位:法蘭克福歌德大學、哥倫比亞大學、麻省理工學院、IBM、德州大學奧斯汀分校等

121.【開放領域,基於內容,多模態的事實核查脫離上下文的圖像通過在線資源】Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context Images via Online Resources
● 論文摘要:錯誤信息現在是一個主要問題,因為它對我們的核心民主和社會價值觀和秩序具有潛在的高風險。脫離上下文的錯誤信息是敵人用來傳播虛假故事的最簡單和有效的方法之一。在這種威脅中,真實的圖像通過歪曲上下文和/或元素來支持其他敘述。互聯網正被用作核實信息來源和方式的首選方式。我們的目標是一種可檢查的方法,通過使用Web證據對圖像和標題進行事實核查,從而自動化這個耗時且需要大量推理的過程。為了整合來自兩種模式的證據和線索,我們引入了“多模態循環一致性檢驗”的概念;從圖像/標題開始,我們收集文本/視覺證據,分別與另一對標題/圖片進行比較。此外,我們提出了一種新穎的架構,一致性檢查網絡(CCN),它通過相同和不同的模式模擬分層的人類推理:字幕與文本證據,圖像與視覺證據,以及圖像與字幕。我們的工作為開放領域、基於內容、多模式的事實核查提供了第一步和基準,並顯著優於以前沒有利用外部證據的基線。
● 論文鏈接:https://arxiv.org/abs/2112.00061
● 作者單位:美國信息安全協會亥姆霍茲信息安全中心

122.【逆向工程3D對象從點雲到擠壓圓柱體】Point2Cyl: Reverse Engineering 3D Objects from Point Clouds to Extrusion Cylinders
● 論文摘要:我們提出了Point2Cyl,一個監督網絡,將一個原始的3D點雲轉換為一組擠壓圓柱體。從原始幾何到CAD模型的逆向工程是在形狀編輯軟件中操作三維數據的一項基本任務,從而擴大其在許多下遊應用中的應用。特別是CAD模型的形式有一係列擠壓缸,2 d草圖+一個擠壓軸和範圍——和他們的布爾組合不僅廣泛應用於CAD社區/軟件還具有表現性的形狀,而在有限的原語類型(如飛機、球體和圓柱體)。在本研究中,我們引入一種神經網絡,通過學習潛在的幾何代理,以幾何為基礎的方法來解決擠壓筒分解問題。準確地說,我們的方法首先預測逐點分割、基/桶標簽和法線,然後以可微分和封閉形式的公式估計潛在的擠壓參數。我們的實驗表明,我們的方法在最近的兩個CAD數據集Fusion Gallery和DeepCAD上顯示了最好的性能,我們進一步展示了我們的方法在逆向工程和編輯。
● 論文鏈接:https://arxiv.org/abs/2112.09329
● 作者單位:斯坦福大學、KAIST、歐特克研究中心

123.【麵向實用的自監督單目室內深度估計】Toward Practical Self-Supervised Monocular Indoor Depth Estimation
● 論文摘要:大多數自監督單目深度估計方法主要集中在駕駛場景。我們表明,這樣的方法很難推廣到看不見的複雜室內場景,其中物體是雜亂的,任意安排在近場。為了獲得更強的魯棒性,我們提出了一種結構蒸餾方法,從一個預先訓練的深度估計器學習技巧,該估計器由於在野外混合數據集訓練而產生結構化但度量未知的深度。通過將精餾與從左右一致性學習度量的自監督分支相結合,我們獲得了一般室內場景的結構化和度量深度,並進行實時推理。為了促進學習和評估,我們收集了SimSIN,一個包含數千個環境的模擬數據集,和UniSIN,一個包含大約500個普通室內環境的真實掃描序列的數據集。我們在模擬到真實和真實到真實的環境中進行了實驗,並在定性和定量上展示了改進,以及在使用我們的深度圖的下遊應用中。這項工作提供了一個全麵的研究,包括方法,數據和應用。我們認為,該工作為通過自我監督進行實際的室內深度估算奠定了堅實的基礎。
● 論文鏈接:https://arxiv.org/abs/2112.02306
● 作者單位:Meta Reality Labs、南加州大學

124.【通過增強傳播和對齊來提高視頻的超分辨率】BasicVSR++: Improving Video Super-Resolution with Enhanced Propagation and Alignment
● 論文摘要:循環結構是視頻超分辨率任務的常用框架選擇。最先進的BasicVSR方法采用雙向傳播和特征對齊的方法,有效地利用整個輸入視頻中的信息。在本研究中,我們通過提出二階網格傳播和流動引導的可變形排列,重新設計了BasicVSR。我們證明,通過賦予循環框架增強傳播和對齊,可以更有效地利用跨未對齊視頻幀的時空信息。在類似的計算約束下,新組件的性能得到了改善。特別是在參數數量相似的情況下,我們的模型BasicVSR++在PSNR上比BasicVSR高出0.82 dB。除了視頻超分辨率外,BasicVSR++還可以很好地推廣到其他視頻恢複任務,如壓縮視頻增強。在NTIRE 2021年,BasicVSR++在視頻超分辨率和壓縮視頻增強挑戰中獲得三名冠軍和一名亞軍。代碼和模型將發布到MMEditing。
● 論文鏈接:https://arxiv.org/abs/2104.13371
● 論文代碼:https://github.com/open-mmlab/mmediting
● 作者單位:新加坡南洋理工大學

125.【聯合全局和局部層次先驗學習圖像壓縮】Joint Global and Local Hierarchical Priors for Learned Image Compression
● 論文摘要:近年來,學習的圖像壓縮方法與傳統的手工圖像編解碼器(包括BPG)相比,表現出了優越的性能。學習圖像壓縮的一個基本研究方向是建立熵模型,準確估計量化後的潛在表示的概率分布。與其他視覺任務一樣,最近學習的熵模型大多基於卷積神經網絡(convolutional neural networks, cnn)。然而,由於cnn的局部連通性,在建模遙遠區域之間的依賴關係方麵存在局限性,這可能是圖像壓縮中的一個重要瓶頸,而減少空間冗餘是圖像壓縮的關鍵。為了解決這個問題,我們提出了一種新的熵模型,稱為信息轉換器(Informer),它使用一種注意機製,以一種內容依賴的方式利用局部和全局信息。我們的實驗表明,在Kodak和Tecnick數據集上,Informer比最先進的方法提高了率失真性能,而沒有二次計算複雜性問題。
● 論文鏈接:https://arxiv.org/abs/2112.04487
● 作者單位:韓國延世大學、NAVER AI Lab

126.【基於隨時推理的類增量模糊任務配置的在線持續學習】Online Continual Learning on Class Incremental Blurry Task Configuration with Anytime Inference
● 論文摘要:盡管在持續學習方麵取得了快速進展,但仍有大量的研究致力於改善現有設施中的績效。雖然有一些工作確實提出了新的持續學習機製,但它們在某些方麵仍然缺乏實用性。為了更好的實用性,我們首先提出了一種新穎的持續學習設置,它是在線的,無任務的,類增量的,任務邊界模糊的,並隨時接受推理查詢。此外,我們還提出了一個新的度量指標,以更好地衡量推理查詢下的連續學習方法在任何時刻的性能。為了解決挑戰性的設置和評估協議,我們提出了一種有效的方法,采用了新的內存管理方案和新的學習技術。我們的實證驗證表明,所提出的方法優於現有的技術在很大程度上的優勢。
● 論文鏈接:https://arxiv.org/abs/2110.10031
● 作者單位:韓國光州科學技術學院(GIST)、NAVER AI Lab

127.【學習帶有部分標注組標簽的公平分類器】Learning Fair Classifiers with Partially Annotated Group Labels
● 論文摘要:最近,意識到公平的學習變得越來越重要,但我們注意到,這些方法中的大多數都是通過假設有完整注釋的組標簽的可用性來操作的。我們強調,這種假設對於現實世界的應用程序來說是不現實的,因為組標簽標注的開銷很大,而且可能與隱私問題相衝突。在本文中,我們考慮一個更實際的場景,稱為算法公平與部分標注組標簽(Fair-PG)。我們觀察到,在Fair-PG下,現有的公平性方法隻使用組標簽的數據,表現甚至比普通訓練更差,後者隻使用目標標簽的完整數據。為了解決這個問題,我們提出了一種簡單的基於信心的組標簽分配(CGL)策略,該策略可適用於任何公平意識學習方法。我們的CGL利用一個輔助組分類器來分配偽組標簽,其中隨機標簽被分配給低置信樣本。我們首先從理論上證明了我們的方法設計在公平性標準方麵優於普通的偽標記策略。然後,我們對UTKFace、CelebA和COMPAS數據集進行了實證研究,結果表明,通過將CGL和最先進的公平性感知內處理方法相結合,目標精度和公平性指標與基線方法相比都得到了改善。此外,我們令人信服地表明,我們的CGL能夠自然地擴大給定的組標記數據集與外部數據集隻與目標標簽,從而提高準確性和公平性指標。我們將公開發布我們的實施方案,讓未來的研究重現我們的成果。
● 論文鏈接:https://arxiv.org/abs/2111.14581
● 作者單位:國立首爾大學、NAVER AI Lab

128.【超越語義到實例分詞:基於語義知識轉移和自細化的弱監督實例分詞】Beyond Semantic to Instance Segmentation: Weakly-Supervised Instance Segmentation via Semantic Knowledge Transfer and Self-Refinement
● 論文摘要:弱監督實例分割(WSIS)被認為是一個比弱監督語義分割(WSSS)更具挑戰性的任務。與WSSS相比,WSIS需要基於實例的定位,這很難從圖像級標簽中提取。為了解決這個問題,大多數WSIS方法使用現成的提議技術,這些技術需要使用實例或對象級標簽進行預先訓練,偏離了完全圖像級監督設置的基本定義。在本文中,我們提出了一種包括兩個創新組件的新方法。首先,我們提出了一種語義知識轉移,通過將WSSS知識轉移到WSIS來獲取偽實例標簽,同時消除了對現成提議的需求。其次,我們提出了一種自細化方法來細化自監督方案中的偽實例標簽,並以在線方式使用細化後的標簽進行訓練。這裏,我們發現了一個錯誤的現象,語義漂移,它是由被歸類為背景類的偽實例標簽中缺失的實例引起的。這種語義漂移會在訓練中造成背景與實例的混淆,從而降低分割性能。我們將此問題稱為語義漂移問題,並證明我們所提出的自細化方法消除了語義漂移問題。在PASCAL VOC 2012和MS COCO上的大量實驗證明了我們的方法的有效性,並且我們在沒有現成的提案技術的情況下實現了相當大的性能。代碼很快就會發布。
● 論文鏈接:https://arxiv.org/abs/2109.09477
● 作者單位:NAVER CLOVA、NAVER AI Lab、仁荷大學、KAIST

129.【神經點光場】Neural Point Light Fields
● 論文摘要:我們引入了神經點光場,它隱式地用一個光場來表示稀疏點雲上的場景。將可微體繪製與學習的隱式密度表示相結合,可以為小場景的新穎視圖合成真實感圖像。由於神經體繪製方法需要對底層的功能性場景表示進行密集采樣,在沿著穿過體的光線投射的數百個樣本中,它們從根本上局限於將相同的對象投射到數百個訓練視圖中的小場景。將稀疏點雲推廣到神經隱式光場,使我們可以有效地表示大型場景,每條光線隻需要一個隱式采樣操作。這些點光場是光線方向和局部點特征鄰域的函數,允許我們插值光場條件下的訓練圖像,而沒有密集的物體覆蓋和視差。我們評估了所提出的方法在大型駕駛場景下的新視圖合成,在該場景中,我們合成了現有隱式方法無法表示的現實的未見視圖。我們驗證了神經點光場使沿著看不見的軌跡預測視頻成為可能,以前隻有通過顯式建模場景才能生成。
● 論文鏈接:https://arxiv.org/abs/2112.01473
● 作者單位:Algolux、McGill、美國普林斯頓大學

130.【帶有裏程碑的遠景和語言導航】One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones
● 論文摘要:我們研究開發自主智能體的問題,這些智能體可以按照人類的指示來推斷和執行一係列的行動來完成潛在的任務。近年來取得了重大進展,特別是在短期任務方麵。然而,當涉及到具有擴展的動作序列的長期任務時,代理很容易忽略一些指令,或者在長指令中間卡住,最終導致任務失敗。為了解決這一挑戰,我們提出了一個模型無關的基於裏程碑的任務跟蹤器(M-TRACK)來指導智能體並監控其進程。具體來說,我們提出了一個裏程碑構建器,它用智能體需要一步步完成的導航和交互裏程碑標記指令,以及一個裏程碑檢查器,係統地檢查智能體在當前裏程碑中的進展,並決定何時繼續下一個裏程碑。在具有挑戰性的阿爾弗雷德數據集上,我們的M-TRACK與兩種競爭性基礎模型相比,在看不見的成功率上有顯著的45%和70%的相對提高。
● 論文鏈接:https://arxiv.org/abs/2202.07028
● 作者單位:俄亥俄州立大學、美國陸軍研究實驗室

精品內容

CVPR2022論文列表出爐!2067篇論文都在這了!
專知會員服務
23+閱讀 · 6月6日
【CVPR2022】提示分布學習
專知會員服務
12+閱讀 · 5月17日
【CVPR2022】循環動態嵌入的視頻目標分割
專知會員服務
17+閱讀 · 5月16日
【CVPR2022-上海交大】可持續時空預測學習框架
專知會員服務
11+閱讀 · 5月14日
微信掃碼谘詢專知VIP會員
Top