https://github.com/JudasDie/SOTS

作者:Chao Liang , Zhipeng Zhang , Xue Zhou, Bing Li, Weiming Hu

02 從目標中學習: 用於小樣本語義分割的雙原型網絡 Learning from the Target: Dual Prototype Network for Few Shot Semantic Segmentation

研究簡介 由於標注樣本的稀缺,支持集和查詢集之間的樣本差異(目標的外觀,尺寸,視角等)成為小樣本語義分割的主要難點。現有的基於原型的方法大多隻從支持集特征中挖掘原型,而忽略了利用來自查詢集樣本的信息,因此無法解決這個由樣本間差異帶來的痛點。

在本文中,我們提出了一種雙原型網絡 (DPNet),它從一個新穎的角度來處理小樣本語義分割問題,即在從支持集中提取原型的基礎上,進一步提出了從查詢圖像中提取可靠的前景信息作為偽原型。

為了實現這一目的,我們設計了循環比較模塊,通過兩次匹配過程篩選出符合要求的前景查詢特征,並利用這些前景特征生成偽原型。然後根據原型與偽原型之間的內在關聯,利用原型交互模塊對原型與偽原型的信息進行交互整合。最後,引入一個多尺度融合模塊,在原型(偽原型)與查詢特征的密集比較過程中引入上下文信息,以獲得更好的分割結果。

在兩個標準數據集 (PASCAL-5i, COCO-20i)上進行的大量實驗表明,我們的方法取得了優越的性能,證明了提出方法的有效性。

作者:Binjie Mao,Xinbang Zhang,Lingfeng Wang,Qian Zhang, Shiming Xiang, Chunhong Pan

03 基於模態特定信息增強的多模態行人重識別

Interact, Embed, and EnlargE (IEEE): Boosting Modality-specific Representations for Multi-Modal Person Re-identification

研究簡介 多模態行人重識別通過引入模態互補信息來輔助傳統的單模態重識別任務。現有的多模態方法在融合不同模態特征的過程中忽略模態特異信息的重要性。為此,我們提出了一種新方法來增強多模態行人重識別的模態特定信息表示 (IEEE) :交互 (Interact) 、嵌入 (Embed) 和擴大 (EnlargE) 。

首先,提出了一種新穎的跨模態交互模塊,用於在特征提取階段在不同模態之間交換有用的信息。其次,提出了一種基於關係的嵌入模塊,通過將全局特征嵌入到細粒度的局部信息中來增強模態特異特征的豐富度。最後,提出了一種新穎的多模態邊界損失,通過擴大類內不同模態的差異來迫使網絡學習每種模態的模態特定信息。在真實的和構建的行人重識別數據集上優越性驗證了所提出方法的有效性。

作者:Zi Wang, Chenglong Li, Aihua Zheng, Ran He, Jin Tang

04 麵向人體活動識別的跨模態聯邦學習

Cross-Modal Federated Human Activity Recognition via Modality-Agnostic and Modality-Specific Representation Learning

研究簡介 為了在更多本地客戶端上進行人體活動識別,我們提出一個新的麵向人體活動識別的跨模態聯邦學習任務。為了解決這一新問題,我們提出一種特征解糾纏的活動識別網絡(FDARN),模型由共有特征編碼器、私有特征編碼器、模態判別器、共享活動分類器和私有活動分類器五個模塊組成。

共有特征編碼器的目標是協同學習不同客戶端樣本的模態無關特征;私有特征編碼器旨在學習不能在客戶端之間共享的模態獨有特征;模態鑒別器的作用是以對抗學習的方式指導共有特征編碼器和私有特征編碼器的參數學習。

通過采用球麵模態判別損失的去中心化優化,我們提出的方法可以綜合利用模態無關的客戶端共享特征以及模態特有的判別特征,因此可以得到在不同客戶端上具有更強泛化能力的模型。在四個數據集上的實驗結果充分表明了該方法的有效性。

作者:Xiaoshan Yang, Baochen Xiong, Yi Huang, Changsheng Xu

05 Evo-ViT:基於快速-慢速雙流更新的視覺Transformer動態加速策略

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

研究簡介 視覺Transformer通過自注意力機製捕獲長程視覺依賴的能力使其在各種計算機視覺任務中顯示出巨大的潛力,但是長程感受野同樣帶來了巨大的計算開銷,特別是對於高分辨率視覺任務。為了能夠在盡量保持原有模型準確率的前提下,降低模型計算複雜度,從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架,目前工作分為基於空間結構先驗的結構化壓縮和非結構化特征裁剪兩個主流方向。其中,非結構化的特征裁剪破壞了二維空間結構,使得這類裁剪方法不能適用於基於空間結構先驗的結構化壓縮的模型,而目前主流的先進視覺Transformer都應用了結構化壓縮。此外,直接裁剪帶來的不完整的信息流使得目前的特征裁剪方法無法直接訓練得到很好的效果,而要依賴於未裁剪的預訓練模型。

為了解決這些問題,我們提出了快速-慢速雙流標識更新策略,在保持了完整空間結構的同時給高信息量標識和低信息量標識分配不同的計算通道,從而在不改變網絡結構的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。不同於以往方法需要依靠外部的可學習網絡來對每一層的標識進行選擇,我們進一步提出了基於Transformer原生的全局類注意力的標識選擇策略來增強層間的通信聯係,從而使得我們的方法可以在穩定標識選擇的同時去除了外部可學習參數帶來的直接訓練難的問題。

該算法能夠在保證分類準確率損失較小的情況下,大幅提升各種結構Transformer的推理速度,如在ImageNet-1K數據集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。

作者:Yifan Xu, Zhijie Zhang, Mengdan Zhang, Kekai Sheng, Ke Li, Weiming Dong, Liqing Zhang, Changsheng Xu, Xing Sun

06 基於圖卷積網絡及熱力圖回歸的3D人臉關鍵點檢測

Learning to detect 3D facial landmarks via heatmap regression with Graph Convolutional Network

研究簡介 三維人臉關鍵點檢測廣泛應用於人臉配準、人臉形狀分析、人臉識別等多個研究領域。現有的關鍵點檢測方法大多涉及傳統特征和三維人臉模型(3DMM),其性能受限於手工製作的中間表征量。

本文提出了一種新的三維人臉關鍵點檢測的方法,該方法利用精心設計的圖卷積網絡,直接從三維點雲中定位關鍵點的坐標。熱力圖是三維人臉上每個地標距離的高斯函數,圖卷積網絡在構建的三維熱力圖的幫助下可以自適應學習幾何特征,用於三維人臉關鍵點檢測。在此基礎上,我們進一步探索了局部曲麵展開與曲麵配準模塊,從3D熱力圖中直接回歸3D坐標。

實驗證明,該方法在BU-3DFE和FRGC數據集上的關鍵點定位精度和穩定性明顯優於現有方法,並在最近的大規模數據集FaceScape上取得了較高的檢測精度。

作者:YuanWang, Min Cao, Zhenfeng Fan, Silong Peng

07 基於因果關聯及混雜因子傳遞解耦物理動力學的反事實預測

Deconfounding Physical Dynamics with Global Causal Relation and Confounder Transmission for Counterfactual Prediction

研究簡介 發現潛在的因果關係是推理周圍環境和預測物理世界未來狀態的基礎能力。基於視覺輸入的反事實預測根據過去未出現的情況推斷未來狀態,是因果關係任務中的重要組成部分。

本文研究了物理動力學中的混雜影響因子,包括質量、摩擦係數等,建立幹預變量和未來狀態之間的關聯關係,進而提出了一種包含全局因果關係注意力(GCRA)和混雜因子傳輸結構(CTS)的神經網絡框架。GCRA尋找不同變量之間的潛在因果關聯,通過捕獲空域和時序信息來估計混雜因子。CTS以殘差的方式整合和傳輸學習到的混雜因子,在反事實預測過程中,通過編碼對網絡中對象位置進行約束。

實驗證明,在混雜因子真實值未知的情況下,本文的方法能夠充分學習並利用混雜因子形成的約束,在相關數據集的預測任務上取得了目前最優的性能,並可以較好地泛化到新的環境,實現良好的預測精度。

作者:Zongzhao Li, Xiangyu Zhu, Zhen Lei(Corresponding author), Zhaoxiang Zhang

08 基於多相機係統的全局運動平均算法

MMA: Multi-camera Based Global Motion Averaging

研究簡介 為了實現三維場景的完全感知,在自動駕駛汽車和智能機器人等設備中通常會安裝多相機係統以觀察周圍360度的場景。基於多相機之間剛性固定的約束,我們提出了一種全局式的多相機運動平均算法,以實現全自動的大規模場景快速魯棒建模和多相機標定。

首先,根據拍攝相機的不同將圖像分為參考圖像和非參考圖像,進而將場景圖中的邊劃分成四類。針對每一類邊上的多相機相對極幾何約束,我們進行了重新的推導和展示。基於相對旋轉和絕對旋轉之間的約束,我們提出了一種基於多相機的旋轉平均算法,並通過一種兩階段(L1+IRLS)的方式對它進行求解。基於相對平移和絕對位置之間的約束,我們提出了一種基於多相機的平移平均算法,通過求解L1範數下的優化方程獲得所有的攝像機位姿。

我們在公開的自動駕駛數據集和多組自采的多相機數據集上進行了廣泛的測試和對比,顯示我們的建模精度和魯棒性要遠遠好於傳統方法。

作者:Hainan Cui, Shuhan Shen

09 基於解耦的屬性特征的魯棒的行人屬性識別

Learning Disentangled Attribute Representations for Robust Pedestrian Attribute Recognition

研究簡介 盡管學界已經提出了各種行人屬性識別的方法,但大多數研究都遵循相同的特征學習機製,即學習一個共享的行人圖像特征來對多個屬性進行分類。然而,這種機製導致了推理階段的低可信度預測和模型的非穩健性。

在本文中,我們研究了為什麼會出現這種情況。我們從數學上發現,核心原因是在最小化分類損失的情況下,最佳共享特征不能同時與多個分類器保持高相似度。此外,這種特征學習機製忽略了不同屬性之間的空間和語義區別。

為了解決這些局限性,我們提出了一個新穎的分離屬性特征學習(DAFL)框架,為每個屬性學習一個分離的特征,該框架利用了屬性的語義和空間特征。該框架主要由可學習的語義查詢、級聯式語義空間交叉注意(SSCA)模塊和群體注意合並(GAM)模塊組成。具體來說,基於可學習語義查詢,級聯式SSCA模塊迭代地增強了屬性相關區域的空間定位,並將區域特征聚合為多個分解的屬性特征,用於分類和更新可學習語義查詢。GAM模塊根據空間分布將屬性分成小組,並利用可靠的小組注意力來監督查詢注意力圖。在PETA、RAPv1、PA100k和RAPv2上的實驗表明,所提出的方法與最先進的方法相比表現良好。

作者:Jian Jia, Naiyu Gao, Fei He, Xiaotang Chen, Kaiqi Huang

10 基於對象查詢傳播的高性能視頻物體檢測

QueryProp: Object Query Propagation for High-Performance Video Object Detection

研究簡介 視頻物體檢測旨找出視頻每一幀中包含物體的位置和類別,是一個重要且具有挑戰性的任務。傳統方法主要聚焦於設計圖像級別或者物體框級別的相鄰幀信息傳播方法,以利用視頻時序信息來提升檢測器。本文認為,通過更有效和高效的特征傳播框架,視頻物體檢測器可以在準確性和速度方麵獲得提升。

為此,本文研究了對象級特征傳播,並提出了一種用於高性能視頻物體檢測的對象查詢傳播(QueryProp)框架。提出的QueryProp包含兩種傳播策略:1)對象查詢從稀疏關鍵幀傳播至密集非關鍵幀,以減少對非關鍵幀的冗餘計算;2)對象查詢從之前的關鍵幀傳播至當前關鍵幀,以建模時間上下文來提升特征表示。

為了進一步提升查詢傳播的質量,我們設計了自適應傳播門以實現靈活的關鍵幀選擇。我們在視頻物體檢測的大規模數據集 ImageNet VID 上進行了大量實驗。QueryProp 與當前最先進的方法實現了可比的準確性,並在準確性/速度之間取得了不錯的平衡。

作者:Fei He, Naiyu Gao, Jian Jia, Xin Zhao, Kaiqi Huang

11 基於空間相似性的完全稀疏訓練加速

Towards Fully Sparse Training: Information Restoration with Spatial Similarity

研究簡介 英偉達安培架構發布的2:4結構化稀疏模式,要求連續的四個值至少包含兩個零元素,可以使得矩陣乘法的計算吞吐量翻倍。最近的工作主要集中在通過2:4稀疏性來提高推理速度,而忽視了其在訓練加速方麵的潛力,因為反向傳播占據了大約70%的訓練時間。然而,與推理階段不同,由於需要保持梯度的保真度並減少在線執行2:4稀疏的額外開銷,用結構化剪枝來提高訓練速度是不容易的。

本文首次提出了完全稀疏訓練,其中"完全"是指在保持精度的同時,對前向和後向傳播的所有矩陣乘法進行結構化修剪。為此,我們從顯著性分析開始,研究不同的稀疏對象對結構化修剪的敏感性。基於對激活的空間相似性的觀察,我們提出用固定的2:4掩碼來修剪激活。此外,我們還提出了一個信息恢複模塊來恢複丟失的信息,該模塊可以通過有效的梯度移位操作來實現。對準確性和效率的評估表明,在具有挑戰性的大規模分類和檢測任務中,我們可以實現2倍的訓練加速,而準確性的下降可以忽略不計。

作者:Weixiang Xu, Xiangyu He, Ke Cheng, Peisong Wang, Jian Cheng

12 通過學習深度神經網絡在語義分割中學習噪聲標簽的元結構

Deep Neural Networks Learn Meta-Structures from Noisy Labels in Semantic Segmentatio

研究簡介 關於深度神經網絡(DNN)如何從帶噪標簽中進行學習,大部分研究聚焦於圖像分類而不是語義分割。迄今為止,我們對於深度神經網絡在噪聲分割標簽下的學習行為仍然知之甚少。

在本研究中,為填補這一空白,我們研究了生物顯微圖像的二類語義分割和自然場景圖像下的多類語義分割。通過從幹淨標簽中隨機抽樣一小部分(例如10%)或隨機翻轉一大部分(例如90%)像素標簽,我們合成了信噪比極低的噪聲標簽。當使用這些低信噪比標簽訓練DNN時,我們發現模型的分割性能幾乎沒有下降。這表明DNN在基於監督學習的語義分割中是從標簽中學習語義類別的結構信息,而不僅僅是像素信息。我們將上述標簽中隱含的結構信息稱為元結構。當我們對標簽中的元結構進行不同程度的擾動,我們發現模型的分割性能出現不同程度的下降。而當我們在標簽中融入元結構時,可以極大提高基於無監督學習的二類語義分割模型的性能。我們將元結構在數學上定義為點集的空間分布函數,並在理論上和實驗中證明該數學模型可以很好的解釋我們在本研究中觀察到的深度神經網絡的學習行為。

作者:Yaoru Luo, Guole Liu, Yuanhao Guo, Ge Yang

自然語言處理

01 基於參數分化的多語言神經機器翻譯

Parameter Differentiation based Multilingual Neural Machine Translation

研究簡介 多語言神經機器翻譯旨在通過一個共享的模型同時處理多個語言的翻譯,並通過共享的參數實現不同語言之間的知識遷移。但是,模型中哪些參數需要共享,哪些參數是語言獨有的,仍是一個開放性問題。目前,通常的做法是啟發式地設計或者搜索語言特定地模塊,但很難找到一個最優的參數共享策略。

在本文中,我們提出一個新穎的基於參數分化的方法,該方法允許模型在訓練的過程中決定哪些參數應該是語言特定的。受到細胞分化的啟發,在我們的方法中,每個通用的參數都可以動態分化為語言特定的參數。我們進一步將參數分化準則定義為任務間梯度相似性。如果一個參數上不同任務的梯度出現衝突,那麼這個參數更有可能分化為語言特定的類型。在多語言數據集上的實驗表明我們的方法相比於基線方法取得了較大的提升。分析實驗進一步揭示了我們的方法生成的參數共享策略和語言學特征的相似性具有緊密的關係。

作者:Qian Wang, Jiajun Zhang

02 基於特征消除方法的大腦詞彙語法表征研究

Probing Word Syntactic Representations in the Brain by a Feature Elimination Method

研究簡介 神經影像研究發現大腦在理解語言時,多個腦區與語義和語法處理相關。然而,現有的方法不能探索詞性和依存關係等細粒度詞彙語法特征的神經基礎。

本文提出了一種新的框架來研究不同詞彙語法特征在大腦中的表征。為了分離不同句法特征,我們提出了一種特征消除方法——均值向量零空間投影(MVNP),來消除詞向量中的某一特征。然後,我們分別將消除某一特征的詞向量和原始詞向量與大腦成像數據聯係起來,以探索大腦如何表示被消除的特征。本文首次在同一實驗中同時研究了多個細粒度語法特征的皮層表征,並提出了多個腦區在語法處理分工中的可能貢獻。這些發現表明,語法信息處理的大腦基礎可能比經典研究所涉及的更為廣泛。

作者:Xiaohan Zhang, Shaonan Wang, Nan Lin, Jiajun Zhang, Chengqing Zong

機器學習

01 多尺度動態編碼助力脈衝網絡實現高效強化學習

Multi-scale Dynamic Coding improved Spiking Actor Network for Reinforcement Learning

研究簡介 在深度神經網絡(DNN)的幫助下,深度強化學習 (DRL) 在許多複雜任務上取得了巨大成功,如遊戲任務和機器人控製任務。DNN被認為隻是部分受到了大腦結構和功能的啟發,與之相比,脈衝神經網絡 (Spiking Neural Network,SNN) 考慮了更多的生物細節,包括具有複雜動力學的脈衝神經元和生物合理的可塑性學習方法。

受生物大腦中細胞集群(Cell Assembly)高效計算的啟發,我們提出了一種多尺度動態編碼方法來提升脈衝人工網絡(MDC-SAN)模型,並應用於強化學習以實現高效決策。多尺度表現為網絡尺度的群體編碼和神經元尺度的動態神經元編碼(包含二階神經元動力學),可以幫助SNN形成更加強大的時空狀態空間表示。大量實驗結果表明,我們的 MDC-SAN 在 OpenAI Gym的四個連續控製任務上取得了相比無編碼SNN和相同參數下DNN更好的性能。

我們認為這是一次從生物高效編碼角度探討網絡性能提升的有效嚐試,就像在生物網絡中一樣,前期的複雜化信息編碼可以讓後期的智能決策變得更簡單。

作者:Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Bo Xu

AAAI 2022 | 多尺度動態編碼助力脈衝網絡實現高效強化學習

02 AlphaHoldem: 端到端強化學習驅動的高性能兩人無限注撲克人工智能

AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning

研究簡介 無限注德州撲克(HUNL)是一個典型的不完美信息博弈。之前的代表性工作如DeepStack和Libratus嚴重依賴於反事實遺憾最小化(CFR)算法及其變體來求解。然而,由於CFR迭代的計算成本高昂,使得後續研究人員很難在HUNL中學習CFR模型,並將該算法應用於其他實際問題。

在這項工作中,我們提出了一個高性能和輕量級的德州撲克人工智能AlphaHoldem。AlphaHolddem是一種端到端的自學習強化學習框架,采用了一種偽孿生網絡結構,通過將學習到的模型與不同的曆史版本進行對打,直接從輸入狀態信息學習到輸出的動作。

文章的主要技術貢獻包括一種新的手牌和投注信息的狀態表示、一種多任務的自我遊戲訓練損失函數,以及一種新的模型評估和選擇度量來生成最終的模型。在10萬手撲克的研究中,AlphaHoldem隻用了三天的訓練就擊敗了Slumbot和DeepStack。與此同時,AlphaHoldem隻使用一個CPU核心進行每個決策僅需要4毫秒,比DeepStack快1000多倍。我們將提供一個在線開放測試平台,以促進在這個方向上的進一步研究。

作者:Enmin Zhao, Renye Yan, Jinqiu Li, Kai Li, Junliang Xing

03 AutoCFR:通過學習設計反事實後悔值最小化算法

AutoCFR: Learning to Design Counterfactual Regret Minimization Algorithms

研究簡介 反事實遺憾最小化(Counterfactual Regret Minimization, CFR)算法是最常用的近似求解兩人零和不完美信息博弈的算法。近年來,人們提出了一係列新的CFR變體如CFR+、Lienar CFR、DCFR,顯著提高了樸素CFR算法的收斂速度。然而,這些新的變體大多是由研究人員基於不同的動機通過反複試錯來手工設計的,通常需要花費大量和時間精力和洞察力。

這項工作提出采用演化學習來元學習新的CFR算法,從而減輕人工設計算法的負擔。我們首先設計了一種豐富的搜素語言來表示現有的手工設計的CFR變體。然後我們利用可擴展的演化算法以及一係列加速技術,在這種語言所定義的算法的組合空間中進行高效地搜索。學習到的新的CFR算法可以泛化到訓練期間沒有見過的新的不完美信息博弈遊戲下,並與現有的的最先進的CFR變體表現相當或更好。

作者:Hang Xu, Kai Li, Haobo Fu, Qiang Fu, Junliang Xing

04 基於對戰老虎機方法學習頂級Elo評級 Learning to Identify Top Elo Ratings as A Dueling Bandits Problem

研究簡介 Elo 評分係統被廣泛用於評估(國際象棋)遊戲和體育競技中玩家的技能。最近,它還被集成到機器學習算法中,用於評估計算機化的 AI 智能體的性能。然而,準確估計 Elo 等級分(對於頂級玩家)通常需要較多輪比賽,而采集多輪對戰信息的代價可能是昂貴的。

在本文中,為了盡量減少比較次數並提高 Elo 評估的樣本效率(針對頂級玩家),我們提出了一種高效的在線匹配調度算法。具體來說,我們通過對戰老虎機(dueling bandits)框架識別和匹配頂級玩家,並根據 Elo 基於梯度的更新方式來設計老虎機算法。我們表明,與傳統的需要 O(t) 時間的最大似然估計相比,我們能夠將每步內存和時間複雜度降低到常數。我們的算法有一個遺憾(regret)保證 O ̃(√T) (O ̃忽略對數因子),與比賽輪數是次線性相關。並且算法已經被擴展到處理非傳遞性遊戲的多維 Elo 評級。實驗結果證明我們的方法在各種遊戲任務上實現了較優的收斂速度和時間效率。

作者:Xue Yan, Yali Du, Binxin Ru, Jun Wang, Haifeng Zhang, Xu Chen

05 DPNAS:麵向差分隱私深度學習的神經網絡結構搜索

DPNAS:Neural Architecture Search for Deep Learning with Differential Privacy

研究簡介 在保證有意義的差分隱私(DP)條件下訓練深度神經網絡(DNN)通常會嚴重降低模型的精度。在本文中我們指出,在麵向隱私保護的深度學習中,DNN的拓撲結構對訓練得到的模型精度有顯著影響,而這種影響在以前的研究中基本未被探索。

鑒於這一缺失,我們提出了第一個麵向隱私保護深度學習的神經網絡設計框架DPNAS。該框架采用神經網絡架構搜索來自動設計隱私保護深度學習模型。為了將隱私保護學習方法與網絡架構搜索相結合,我們精心設計了一個新的搜索空間,並提出了一種基於DP的候選模型訓練方法。我們通過實驗證明了所提出框架的有效性。搜索得到的模型DPNASNet實現了最先進的隱私/效用權衡,例如,在(ϵ,δ)=(3,1×10^-5)的隱私預算下,我們的模型在MNIST上的測試準確率為98.57%,在FashionMNIST上的測試準確率為88.09%,在CIFAR-10上的測試準確率為68.33%。此外,通過研究生成的網絡結構,我們提供了一些關於隱私保護學習友好的DNN的有趣發現,這可以為滿足差分隱私的深度學習模型設計提供新的思路。

作者:Anda Cheng, Jiaxing Wang, Xi Sheryl Zhang, Qiang Chen, Peisong Wang, Jian Cheng

圖片

"> 中科院自動化所19篇AAAI 2022論文速覽!從CV\NLP到機器學習 - 專知VIP

計算機視覺

01 基於再查詢機製的一體化多目標跟蹤算法One More Check: Making “Fake Background” Be Tracked Again

研究簡介 近年來,將檢測和ReID統一到一個網絡之中來完成多目標跟蹤的方法取得了巨大的突破,且引起了研究人員的廣泛關注。然而當前的一體化跟蹤器僅依賴於單幀圖片進行目標檢測,在遇到一些現實場景的幹擾,如運動模糊、目標相互遮擋時,往往容易失效。一旦檢測方法因為特征的不可靠而將當前幀的目標錯判成背景時,難免會破壞目標所對應的軌跡的連貫性。

在本文中,我們提出了一個再查詢網絡來召回被錯分為“假背景”的目標框。該再查詢網絡創新性地將ID向量的功能從匹配擴展到運動預測,從而實現以較小的計算開銷將已有目標的軌跡有效地傳播到當前幀。而通過ID向量為媒介進行時序信息傳播,所生成的遷移信息有效地防止了模型過度依賴於檢測結果。因此,再查詢網絡有助於一體化方法召回“假背景”同時修複破碎的軌跡。

基於已有的一體化方法CSTrack,本文構建了一個新穎且高性能的一體化跟蹤器,其在MOT16和MOT17兩個基準上分別取得了巨大的增益,即相比於CSTrack,MOTA分數從70.7/70.6提高到76.4/76.3。此外,它還取得了新SOTA的MOTA和IDF1性能。

其代碼已開源在:https://github.com/JudasDie/SOTS

作者:Chao Liang , Zhipeng Zhang , Xue Zhou, Bing Li, Weiming Hu

02 從目標中學習: 用於小樣本語義分割的雙原型網絡Learning from the Target: Dual Prototype Network for Few Shot Semantic Segmentation

研究簡介 由於標注樣本的稀缺,支持集和查詢集之間的樣本差異(目標的外觀,尺寸,視角等)成為小樣本語義分割的主要難點。現有的基於原型的方法大多隻從支持集特征中挖掘原型,而忽略了利用來自查詢集樣本的信息,因此無法解決這個由樣本間差異帶來的痛點。

在本文中,我們提出了一種雙原型網絡 (DPNet),它從一個新穎的角度來處理小樣本語義分割問題,即在從支持集中提取原型的基礎上,進一步提出了從查詢圖像中提取可靠的前景信息作為偽原型。

為了實現這一目的,我們設計了循環比較模塊,通過兩次匹配過程篩選出符合要求的前景查詢特征,並利用這些前景特征生成偽原型。然後根據原型與偽原型之間的內在關聯,利用原型交互模塊對原型與偽原型的信息進行交互整合。最後,引入一個多尺度融合模塊,在原型(偽原型)與查詢特征的密集比較過程中引入上下文信息,以獲得更好的分割結果。

在兩個標準數據集 (PASCAL-5i, COCO-20i)上進行的大量實驗表明,我們的方法取得了優越的性能,證明了提出方法的有效性。

作者:Binjie Mao,Xinbang Zhang,Lingfeng Wang,Qian Zhang, Shiming Xiang, Chunhong Pan

03 基於模態特定信息增強的多模態行人重識別

Interact, Embed, and EnlargE (IEEE): Boosting Modality-specific Representations for Multi-Modal Person Re-identification

研究簡介 多模態行人重識別通過引入模態互補信息來輔助傳統的單模態重識別任務。現有的多模態方法在融合不同模態特征的過程中忽略模態特異信息的重要性。為此,我們提出了一種新方法來增強多模態行人重識別的模態特定信息表示 (IEEE) :交互 (Interact) 、嵌入 (Embed) 和擴大 (EnlargE) 。

首先,提出了一種新穎的跨模態交互模塊,用於在特征提取階段在不同模態之間交換有用的信息。其次,提出了一種基於關係的嵌入模塊,通過將全局特征嵌入到細粒度的局部信息中來增強模態特異特征的豐富度。最後,提出了一種新穎的多模態邊界損失,通過擴大類內不同模態的差異來迫使網絡學習每種模態的模態特定信息。在真實的和構建的行人重識別數據集上優越性驗證了所提出方法的有效性。

作者:Zi Wang, Chenglong Li, Aihua Zheng, Ran He, Jin Tang

04 麵向人體活動識別的跨模態聯邦學習

Cross-Modal Federated Human Activity Recognition via Modality-Agnostic and Modality-Specific Representation Learning

研究簡介 為了在更多本地客戶端上進行人體活動識別,我們提出一個新的麵向人體活動識別的跨模態聯邦學習任務。為了解決這一新問題,我們提出一種特征解糾纏的活動識別網絡(FDARN),模型由共有特征編碼器、私有特征編碼器、模態判別器、共享活動分類器和私有活動分類器五個模塊組成。

共有特征編碼器的目標是協同學習不同客戶端樣本的模態無關特征;私有特征編碼器旨在學習不能在客戶端之間共享的模態獨有特征;模態鑒別器的作用是以對抗學習的方式指導共有特征編碼器和私有特征編碼器的參數學習。

通過采用球麵模態判別損失的去中心化優化,我們提出的方法可以綜合利用模態無關的客戶端共享特征以及模態特有的判別特征,因此可以得到在不同客戶端上具有更強泛化能力的模型。在四個數據集上的實驗結果充分表明了該方法的有效性。

作者:Xiaoshan Yang, Baochen Xiong, Yi Huang, Changsheng Xu

05 Evo-ViT:基於快速-慢速雙流更新的視覺Transformer動態加速策略

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

研究簡介 視覺Transformer通過自注意力機製捕獲長程視覺依賴的能力使其在各種計算機視覺任務中顯示出巨大的潛力,但是長程感受野同樣帶來了巨大的計算開銷,特別是對於高分辨率視覺任務。為了能夠在盡量保持原有模型準確率的前提下,降低模型計算複雜度,從而使得視覺 Transformer成為一種更加通用、高效、低廉的解決框架,目前工作分為基於空間結構先驗的結構化壓縮和非結構化特征裁剪兩個主流方向。其中,非結構化的特征裁剪破壞了二維空間結構,使得這類裁剪方法不能適用於基於空間結構先驗的結構化壓縮的模型,而目前主流的先進視覺Transformer都應用了結構化壓縮。此外,直接裁剪帶來的不完整的信息流使得目前的特征裁剪方法無法直接訓練得到很好的效果,而要依賴於未裁剪的預訓練模型。

為了解決這些問題,我們提出了快速-慢速雙流標識更新策略,在保持了完整空間結構的同時給高信息量標識和低信息量標識分配不同的計算通道,從而在不改變網絡結構的情況下,以極低的精度損失大幅提升直筒狀和金字塔壓縮型的Transformer模型推理性能。不同於以往方法需要依靠外部的可學習網絡來對每一層的標識進行選擇,我們進一步提出了基於Transformer原生的全局類注意力的標識選擇策略來增強層間的通信聯係,從而使得我們的方法可以在穩定標識選擇的同時去除了外部可學習參數帶來的直接訓練難的問題。

該算法能夠在保證分類準確率損失較小的情況下,大幅提升各種結構Transformer的推理速度,如在ImageNet-1K數據集下,Evo-ViT可以提升DeiT-S 60%推理速度的同時僅僅損失0.4%的精度。

作者:Yifan Xu, Zhijie Zhang, Mengdan Zhang, Kekai Sheng, Ke Li, Weiming Dong, Liqing Zhang, Changsheng Xu, Xing Sun

06 基於圖卷積網絡及熱力圖回歸的3D人臉關鍵點檢測

Learning to detect 3D facial landmarks via heatmap regression with Graph Convolutional Network

研究簡介 三維人臉關鍵點檢測廣泛應用於人臉配準、人臉形狀分析、人臉識別等多個研究領域。現有的關鍵點檢測方法大多涉及傳統特征和三維人臉模型(3DMM),其性能受限於手工製作的中間表征量。

本文提出了一種新的三維人臉關鍵點檢測的方法,該方法利用精心設計的圖卷積網絡,直接從三維點雲中定位關鍵點的坐標。熱力圖是三維人臉上每個地標距離的高斯函數,圖卷積網絡在構建的三維熱力圖的幫助下可以自適應學習幾何特征,用於三維人臉關鍵點檢測。在此基礎上,我們進一步探索了局部曲麵展開與曲麵配準模塊,從3D熱力圖中直接回歸3D坐標。

實驗證明,該方法在BU-3DFE和FRGC數據集上的關鍵點定位精度和穩定性明顯優於現有方法,並在最近的大規模數據集FaceScape上取得了較高的檢測精度。

作者:YuanWang, Min Cao, Zhenfeng Fan, Silong Peng

07 基於因果關聯及混雜因子傳遞解耦物理動力學的反事實預測

Deconfounding Physical Dynamics with Global Causal Relation and Confounder Transmission for Counterfactual Prediction

研究簡介 發現潛在的因果關係是推理周圍環境和預測物理世界未來狀態的基礎能力。基於視覺輸入的反事實預測根據過去未出現的情況推斷未來狀態,是因果關係任務中的重要組成部分。

本文研究了物理動力學中的混雜影響因子,包括質量、摩擦係數等,建立幹預變量和未來狀態之間的關聯關係,進而提出了一種包含全局因果關係注意力(GCRA)和混雜因子傳輸結構(CTS)的神經網絡框架。GCRA尋找不同變量之間的潛在因果關聯,通過捕獲空域和時序信息來估計混雜因子。CTS以殘差的方式整合和傳輸學習到的混雜因子,在反事實預測過程中,通過編碼對網絡中對象位置進行約束。

實驗證明,在混雜因子真實值未知的情況下,本文的方法能夠充分學習並利用混雜因子形成的約束,在相關數據集的預測任務上取得了目前最優的性能,並可以較好地泛化到新的環境,實現良好的預測精度。

作者:Zongzhao Li, Xiangyu Zhu, Zhen Lei(Corresponding author), Zhaoxiang Zhang

08 基於多相機係統的全局運動平均算法

MMA: Multi-camera Based Global Motion Averaging

研究簡介 為了實現三維場景的完全感知,在自動駕駛汽車和智能機器人等設備中通常會安裝多相機係統以觀察周圍360度的場景。基於多相機之間剛性固定的約束,我們提出了一種全局式的多相機運動平均算法,以實現全自動的大規模場景快速魯棒建模和多相機標定。

首先,根據拍攝相機的不同將圖像分為參考圖像和非參考圖像,進而將場景圖中的邊劃分成四類。針對每一類邊上的多相機相對極幾何約束,我們進行了重新的推導和展示。基於相對旋轉和絕對旋轉之間的約束,我們提出了一種基於多相機的旋轉平均算法,並通過一種兩階段(L1+IRLS)的方式對它進行求解。基於相對平移和絕對位置之間的約束,我們提出了一種基於多相機的平移平均算法,通過求解L1範數下的優化方程獲得所有的攝像機位姿。

我們在公開的自動駕駛數據集和多組自采的多相機數據集上進行了廣泛的測試和對比,顯示我們的建模精度和魯棒性要遠遠好於傳統方法。

作者:Hainan Cui, Shuhan Shen

09 基於解耦的屬性特征的魯棒的行人屬性識別

Learning Disentangled Attribute Representations for Robust Pedestrian Attribute Recognition

研究簡介 盡管學界已經提出了各種行人屬性識別的方法,但大多數研究都遵循相同的特征學習機製,即學習一個共享的行人圖像特征來對多個屬性進行分類。然而,這種機製導致了推理階段的低可信度預測和模型的非穩健性。

在本文中,我們研究了為什麼會出現這種情況。我們從數學上發現,核心原因是在最小化分類損失的情況下,最佳共享特征不能同時與多個分類器保持高相似度。此外,這種特征學習機製忽略了不同屬性之間的空間和語義區別。

為了解決這些局限性,我們提出了一個新穎的分離屬性特征學習(DAFL)框架,為每個屬性學習一個分離的特征,該框架利用了屬性的語義和空間特征。該框架主要由可學習的語義查詢、級聯式語義空間交叉注意(SSCA)模塊和群體注意合並(GAM)模塊組成。具體來說,基於可學習語義查詢,級聯式SSCA模塊迭代地增強了屬性相關區域的空間定位,並將區域特征聚合為多個分解的屬性特征,用於分類和更新可學習語義查詢。GAM模塊根據空間分布將屬性分成小組,並利用可靠的小組注意力來監督查詢注意力圖。在PETA、RAPv1、PA100k和RAPv2上的實驗表明,所提出的方法與最先進的方法相比表現良好。

作者:Jian Jia, Naiyu Gao, Fei He, Xiaotang Chen, Kaiqi Huang

10 基於對象查詢傳播的高性能視頻物體檢測

QueryProp: Object Query Propagation for High-Performance Video Object Detection

研究簡介 視頻物體檢測旨找出視頻每一幀中包含物體的位置和類別,是一個重要且具有挑戰性的任務。傳統方法主要聚焦於設計圖像級別或者物體框級別的相鄰幀信息傳播方法,以利用視頻時序信息來提升檢測器。本文認為,通過更有效和高效的特征傳播框架,視頻物體檢測器可以在準確性和速度方麵獲得提升。

為此,本文研究了對象級特征傳播,並提出了一種用於高性能視頻物體檢測的對象查詢傳播(QueryProp)框架。提出的QueryProp包含兩種傳播策略:1)對象查詢從稀疏關鍵幀傳播至密集非關鍵幀,以減少對非關鍵幀的冗餘計算;2)對象查詢從之前的關鍵幀傳播至當前關鍵幀,以建模時間上下文來提升特征表示。

為了進一步提升查詢傳播的質量,我們設計了自適應傳播門以實現靈活的關鍵幀選擇。我們在視頻物體檢測的大規模數據集 ImageNet VID 上進行了大量實驗。QueryProp 與當前最先進的方法實現了可比的準確性,並在準確性/速度之間取得了不錯的平衡。

作者:Fei He, Naiyu Gao, Jian Jia, Xin Zhao, Kaiqi Huang

11 基於空間相似性的完全稀疏訓練加速

Towards Fully Sparse Training: Information Restoration with Spatial Similarity

研究簡介 英偉達安培架構發布的2:4結構化稀疏模式,要求連續的四個值至少包含兩個零元素,可以使得矩陣乘法的計算吞吐量翻倍。最近的工作主要集中在通過2:4稀疏性來提高推理速度,而忽視了其在訓練加速方麵的潛力,因為反向傳播占據了大約70%的訓練時間。然而,與推理階段不同,由於需要保持梯度的保真度並減少在線執行2:4稀疏的額外開銷,用結構化剪枝來提高訓練速度是不容易的。

本文首次提出了完全稀疏訓練,其中"完全"是指在保持精度的同時,對前向和後向傳播的所有矩陣乘法進行結構化修剪。為此,我們從顯著性分析開始,研究不同的稀疏對象對結構化修剪的敏感性。基於對激活的空間相似性的觀察,我們提出用固定的2:4掩碼來修剪激活。此外,我們還提出了一個信息恢複模塊來恢複丟失的信息,該模塊可以通過有效的梯度移位操作來實現。對準確性和效率的評估表明,在具有挑戰性的大規模分類和檢測任務中,我們可以實現2倍的訓練加速,而準確性的下降可以忽略不計。

作者:Weixiang Xu, Xiangyu He, Ke Cheng, Peisong Wang, Jian Cheng

12 通過學習深度神經網絡在語義分割中學習噪聲標簽的元結構

Deep Neural Networks Learn Meta-Structures from Noisy Labels in Semantic Segmentatio

研究簡介 關於深度神經網絡(DNN)如何從帶噪標簽中進行學習,大部分研究聚焦於圖像分類而不是語義分割。迄今為止,我們對於深度神經網絡在噪聲分割標簽下的學習行為仍然知之甚少。

在本研究中,為填補這一空白,我們研究了生物顯微圖像的二類語義分割和自然場景圖像下的多類語義分割。通過從幹淨標簽中隨機抽樣一小部分(例如10%)或隨機翻轉一大部分(例如90%)像素標簽,我們合成了信噪比極低的噪聲標簽。當使用這些低信噪比標簽訓練DNN時,我們發現模型的分割性能幾乎沒有下降。這表明DNN在基於監督學習的語義分割中是從標簽中學習語義類別的結構信息,而不僅僅是像素信息。我們將上述標簽中隱含的結構信息稱為元結構。當我們對標簽中的元結構進行不同程度的擾動,我們發現模型的分割性能出現不同程度的下降。而當我們在標簽中融入元結構時,可以極大提高基於無監督學習的二類語義分割模型的性能。我們將元結構在數學上定義為點集的空間分布函數,並在理論上和實驗中證明該數學模型可以很好的解釋我們在本研究中觀察到的深度神經網絡的學習行為。

作者:Yaoru Luo, Guole Liu, Yuanhao Guo, Ge Yang

自然語言處理

01 基於參數分化的多語言神經機器翻譯

Parameter Differentiation based Multilingual Neural Machine Translation

研究簡介 多語言神經機器翻譯旨在通過一個共享的模型同時處理多個語言的翻譯,並通過共享的參數實現不同語言之間的知識遷移。但是,模型中哪些參數需要共享,哪些參數是語言獨有的,仍是一個開放性問題。目前,通常的做法是啟發式地設計或者搜索語言特定地模塊,但很難找到一個最優的參數共享策略。

在本文中,我們提出一個新穎的基於參數分化的方法,該方法允許模型在訓練的過程中決定哪些參數應該是語言特定的。受到細胞分化的啟發,在我們的方法中,每個通用的參數都可以動態分化為語言特定的參數。我們進一步將參數分化準則定義為任務間梯度相似性。如果一個參數上不同任務的梯度出現衝突,那麼這個參數更有可能分化為語言特定的類型。在多語言數據集上的實驗表明我們的方法相比於基線方法取得了較大的提升。分析實驗進一步揭示了我們的方法生成的參數共享策略和語言學特征的相似性具有緊密的關係。

作者:Qian Wang, Jiajun Zhang

02 基於特征消除方法的大腦詞彙語法表征研究

Probing Word Syntactic Representations in the Brain by a Feature Elimination Method

研究簡介 神經影像研究發現大腦在理解語言時,多個腦區與語義和語法處理相關。然而,現有的方法不能探索詞性和依存關係等細粒度詞彙語法特征的神經基礎。

本文提出了一種新的框架來研究不同詞彙語法特征在大腦中的表征。為了分離不同句法特征,我們提出了一種特征消除方法——均值向量零空間投影(MVNP),來消除詞向量中的某一特征。然後,我們分別將消除某一特征的詞向量和原始詞向量與大腦成像數據聯係起來,以探索大腦如何表示被消除的特征。本文首次在同一實驗中同時研究了多個細粒度語法特征的皮層表征,並提出了多個腦區在語法處理分工中的可能貢獻。這些發現表明,語法信息處理的大腦基礎可能比經典研究所涉及的更為廣泛。

作者:Xiaohan Zhang, Shaonan Wang, Nan Lin, Jiajun Zhang, Chengqing Zong

機器學習

01 多尺度動態編碼助力脈衝網絡實現高效強化學習

Multi-scale Dynamic Coding improved Spiking Actor Network for Reinforcement Learning

研究簡介 在深度神經網絡(DNN)的幫助下,深度強化學習 (DRL) 在許多複雜任務上取得了巨大成功,如遊戲任務和機器人控製任務。DNN被認為隻是部分受到了大腦結構和功能的啟發,與之相比,脈衝神經網絡 (Spiking Neural Network,SNN) 考慮了更多的生物細節,包括具有複雜動力學的脈衝神經元和生物合理的可塑性學習方法。

受生物大腦中細胞集群(Cell Assembly)高效計算的啟發,我們提出了一種多尺度動態編碼方法來提升脈衝人工網絡(MDC-SAN)模型,並應用於強化學習以實現高效決策。多尺度表現為網絡尺度的群體編碼和神經元尺度的動態神經元編碼(包含二階神經元動力學),可以幫助SNN形成更加強大的時空狀態空間表示。大量實驗結果表明,我們的 MDC-SAN 在 OpenAI Gym的四個連續控製任務上取得了相比無編碼SNN和相同參數下DNN更好的性能。

我們認為這是一次從生物高效編碼角度探討網絡性能提升的有效嚐試,就像在生物網絡中一樣,前期的複雜化信息編碼可以讓後期的智能決策變得更簡單。

作者:Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Bo Xu

AAAI 2022 | 多尺度動態編碼助力脈衝網絡實現高效強化學習

02 AlphaHoldem: 端到端強化學習驅動的高性能兩人無限注撲克人工智能

AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning

研究簡介 無限注德州撲克(HUNL)是一個典型的不完美信息博弈。之前的代表性工作如DeepStack和Libratus嚴重依賴於反事實遺憾最小化(CFR)算法及其變體來求解。然而,由於CFR迭代的計算成本高昂,使得後續研究人員很難在HUNL中學習CFR模型,並將該算法應用於其他實際問題。

在這項工作中,我們提出了一個高性能和輕量級的德州撲克人工智能AlphaHoldem。AlphaHolddem是一種端到端的自學習強化學習框架,采用了一種偽孿生網絡結構,通過將學習到的模型與不同的曆史版本進行對打,直接從輸入狀態信息學習到輸出的動作。

文章的主要技術貢獻包括一種新的手牌和投注信息的狀態表示、一種多任務的自我遊戲訓練損失函數,以及一種新的模型評估和選擇度量來生成最終的模型。在10萬手撲克的研究中,AlphaHoldem隻用了三天的訓練就擊敗了Slumbot和DeepStack。與此同時,AlphaHoldem隻使用一個CPU核心進行每個決策僅需要4毫秒,比DeepStack快1000多倍。我們將提供一個在線開放測試平台,以促進在這個方向上的進一步研究。

作者:Enmin Zhao, Renye Yan, Jinqiu Li, Kai Li, Junliang Xing

03 AutoCFR:通過學習設計反事實後悔值最小化算法

AutoCFR: Learning to Design Counterfactual Regret Minimization Algorithms

研究簡介 反事實遺憾最小化(Counterfactual Regret Minimization, CFR)算法是最常用的近似求解兩人零和不完美信息博弈的算法。近年來,人們提出了一係列新的CFR變體如CFR+、Lienar CFR、DCFR,顯著提高了樸素CFR算法的收斂速度。然而,這些新的變體大多是由研究人員基於不同的動機通過反複試錯來手工設計的,通常需要花費大量和時間精力和洞察力。

這項工作提出采用演化學習來元學習新的CFR算法,從而減輕人工設計算法的負擔。我們首先設計了一種豐富的搜素語言來表示現有的手工設計的CFR變體。然後我們利用可擴展的演化算法以及一係列加速技術,在這種語言所定義的算法的組合空間中進行高效地搜索。學習到的新的CFR算法可以泛化到訓練期間沒有見過的新的不完美信息博弈遊戲下,並與現有的的最先進的CFR變體表現相當或更好。

作者:Hang Xu, Kai Li, Haobo Fu, Qiang Fu, Junliang Xing

04 基於對戰老虎機方法學習頂級Elo評級Learning to Identify Top Elo Ratings as A Dueling Bandits Problem

研究簡介 Elo 評分係統被廣泛用於評估(國際象棋)遊戲和體育競技中玩家的技能。最近,它還被集成到機器學習算法中,用於評估計算機化的 AI 智能體的性能。然而,準確估計 Elo 等級分(對於頂級玩家)通常需要較多輪比賽,而采集多輪對戰信息的代價可能是昂貴的。

在本文中,為了盡量減少比較次數並提高 Elo 評估的樣本效率(針對頂級玩家),我們提出了一種高效的在線匹配調度算法。具體來說,我們通過對戰老虎機(dueling bandits)框架識別和匹配頂級玩家,並根據 Elo 基於梯度的更新方式來設計老虎機算法。我們表明,與傳統的需要 O(t) 時間的最大似然估計相比,我們能夠將每步內存和時間複雜度降低到常數。我們的算法有一個遺憾(regret)保證 O ̃(√T) (O ̃忽略對數因子),與比賽輪數是次線性相關。並且算法已經被擴展到處理非傳遞性遊戲的多維 Elo 評級。實驗結果證明我們的方法在各種遊戲任務上實現了較優的收斂速度和時間效率。

作者:Xue Yan, Yali Du, Binxin Ru, Jun Wang, Haifeng Zhang, Xu Chen

05 DPNAS:麵向差分隱私深度學習的神經網絡結構搜索

DPNAS:Neural Architecture Search for Deep Learning with Differential Privacy

研究簡介 在保證有意義的差分隱私(DP)條件下訓練深度神經網絡(DNN)通常會嚴重降低模型的精度。在本文中我們指出,在麵向隱私保護的深度學習中,DNN的拓撲結構對訓練得到的模型精度有顯著影響,而這種影響在以前的研究中基本未被探索。

鑒於這一缺失,我們提出了第一個麵向隱私保護深度學習的神經網絡設計框架DPNAS。該框架采用神經網絡架構搜索來自動設計隱私保護深度學習模型。為了將隱私保護學習方法與網絡架構搜索相結合,我們精心設計了一個新的搜索空間,並提出了一種基於DP的候選模型訓練方法。我們通過實驗證明了所提出框架的有效性。搜索得到的模型DPNASNet實現了最先進的隱私/效用權衡,例如,在(ϵ,δ)=(3,1×10^-5)的隱私預算下,我們的模型在MNIST上的測試準確率為98.57%,在FashionMNIST上的測試準確率為88.09%,在CIFAR-10上的測試準確率為68.33%。此外,通過研究生成的網絡結構,我們提供了一些關於隱私保護學習友好的DNN的有趣發現,這可以為滿足差分隱私的深度學習模型設計提供新的思路。

作者:Anda Cheng, Jiaxing Wang, Xi Sheryl Zhang, Qiang Chen, Peisong Wang, Jian Cheng

圖片

成為VIP會員查看完整內容
0
32
0

相關內容

中國科學院自動化研究所(以下簡稱自動化所)成立於195610月,是我國最早成立的國立自動化研究機構和最早開展類腦智能研究的國立研究機構。自動化所同時是中國科學院率先布局成立的“人工智能創新研究院”的總體牽頭單位,“腦科學與智能技術卓越創新中心”的依托單位之一,也是國內外首個“人工智能學院”牽頭承辦單位,具有從智能機理、智能芯片、智能算法到智能係統完整的學科分布和優勢領域。

六十多年來,自動化所為我國國民經濟建設、社會進步、科技發展和國家安全做出了重要的貢獻。建國發展初期,自動化所開拓了我國的控製科學,為“兩彈一星”做出了曆史性的貢獻;改革開放年代,自動化所開創了我國模式識別智能信息處理的新領域;1990年代,自動化所以控製科學為基礎,率先布局了人工智能研究;2010年起,自動化所率先布局類腦智能研究;2018年,自動化所開啟自主進化智能研究的新格局。

自動化所現設科研開發部門14個,包括模式識別國家重點實驗室、複雜係統管理與控製國家重點實驗室、國家專用集成電路設計工程技術研究中心、中國科學院分子影像重點實驗室、腦網絡組研究中心等科研部門。還有若幹與國際和社會其他創新單元共建的各類聯合實驗室和工程中心。

2018年底,自動化所共有在職職工898人。其中科技人員696人,包括中國科學院院士2人、發展中國家科學院院士1人、研究員及正高級工程技術人員103人、副研究員及高級工程技術人員221人;共有國家海外高層次人才引進計劃(“千人計劃”)入選者1人,青年千人計劃入選者1人;中國科學院“百人計劃”入選者23人(新增2人);IEEE Fellow9人(新增3人);國家傑出青年科學基金獲得者14人,“萬人計劃”入選者11人(新增5人);百千萬人才工程入選者10人,科技部中青年科技領軍人才5人(新增3人),國家優秀青年基金獲得者5人。

自動化研究所是1981年國務院學位委員會批準的博士、碩士學位授予權單位之一,現設有控製科學與工程等1個一級學科博士研究生培養點,計算機應用技術等1個二級學科博士研究生培養點,並設有控製科學與工程等1個一級學科博士後流動站,共有在學研究生722人(其中碩士生273人、博士生449人)。在站博士後81人。

自動化所長期堅持“智能科學與技術”研究,在生物特征識別、機器學習、視覺計算、自然語言處理、智能機器人和智能芯片等領域形成了係統的理論方法和體係,並取得豐富的研究成果;已形成從原始創新、核心關鍵技術研發到技術轉移轉化的智能技術生態,正在邁入國際上智能科學與技術領域具有重要影響的戰略高技術研究機構。

   近年來,自動化所共獲得省部級以上獎勵30餘項。發表論文數量逐年增加,質量不斷提高;專利申請和授權量連年攀升,多年位居北京市科研係統前十名。繪製的“腦網絡組圖譜”第一次建立了宏觀尺度上的活體全腦連接圖譜,獲得國際同行的廣泛關注和好評;量化神經處理器(QNPU)通過自主創新的架構設計和神經網絡優化技術,首次在資源受限的芯片上實現了大規模深度神經網絡的獨立計算,處於業界領先水平。生物特征識別技術實現了從中距離到遠距離的可識別生物特征信息(虹膜-人臉-步態)全覆蓋,研製成功一係列自主知識產權的遠距離虹膜人臉多模態身份識別產品,在國家重要安全領域推廣應用,相關技術入選2018年度“十大技術突破”;音智能處理整體解決方案已經受過大規模實際應用檢驗,係統接口已成為行業標準;基於自動化所語音識別技術的“紫冬語音雲”在淘寶、來往等阿裏巴巴旗下移動客戶端產品中得到推廣;“分子影像手術導航係統”通過國家藥監局醫療器械安全性及有效性檢測認證並進入臨床應用;“仿生機器魚高效與高機動控製的理論與方法”獲得2017年度國家自然科學獎二等獎,研製的機器海豚實現了1.5倍體長的最高直線遊速,並在國際上首次實現了機器海豚完全躍出水麵;“智能視頻監控技術”和“人臉識別技術”分別成功應用於2008年北京奧運會、2010年上海世博會的安保工作中,為社會安全貢獻自己的力量;研製的AI程序“CASIA-先知1.0”采用知識和數據混合驅動的體係架構,在2017首屆全國兵棋推演大賽總決賽中71的懸殊比分戰勝人類頂級選手,展示了人工智能技術在博弈對抗領域的強大實力;與中國日報社合作構建“全球媒體雲”綜合平台,受到廣泛好評;研製的電子光學玻璃印刷全自動AOI智能檢測設備,可全麵監控絲印關鍵製程品質情況,實現整個絲印工藝的全自動化生產,該技術一舉填補了電子玻璃行業空白;“基於ACP方法的石化企業智能管理係統及應用”先後應用於茂名石化、齊魯石化,為實現企業生產管理的精細化提供了有效的工具,並榮獲“中國石油與化工自動化行業科技進步一等獎”……

新的征程上,中國科學院自動化研究所努力創建規範高效、民主和諧、環境優美、具有強大科技創新和可持續發展能力的國際知名的國家研究所,為我國科技事業的發展、為全麵建設小康社會做出新的更大的貢獻!

【導讀】作為計算機視覺領域的三大國際頂會之一,ICCV 每年都會吸引全球領域眾多專業人士參與。不久前,ICCV2021接收結果已經公布,本次ICCV共計 6236 篇有效提交論文,其中有 1617 篇論文被接收,接收率為25.9%。

為此,專知小編為大家整理了五篇 ICCV 2021 語義分割(Semantic Segmentation)相關研究和應用,這塊這幾年一直比較受關注——弱監督語義分割、半監督語義分割、無監督語義分割、少樣本語義分割、實例分割

CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation

作者:Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Ferdous Sohel, Dan Xu

摘要:在缺乏大量標記數據的情況下,語義分割是一項具有挑戰性的任務。僅依靠具有圖像級標簽的類激活圖 (CAM) 作為語義分割的監督信息是遠遠不夠的。因此,先前的工作用預訓練的模型來生成粗粒度的顯著圖(Saliency Map),以指導偽分割標簽的生成。然而,常用的離線啟發式生成過程不能充分利用這些粗顯著圖的優點。受顯著的任務間相關性的啟發,本文提出了一種新的弱監督多任務框架,稱為AuxSegNet,利用顯著性檢測和多標簽圖像分類作為輔助任務,僅使用圖像級真實標簽來改進語義分割的主要任務。受它們相似的結構化語義的啟發,本文還提出從顯著性和分割表示中學習跨任務全局像素級親和圖。學習到的跨任務親和性可用於改進顯著性預測,並傳播 CAM 映射,從而為這兩個任務提供改進的偽標簽。偽標簽更新和跨任務親和學習之間的相互促進,使得分割性能得到迭代改進。大量實驗證明了本文所提出的輔助學習網絡結構和跨任務親和學習方法的有效性。該方法在具有挑戰性的PASCAL VOC 2012和MS COCO基準測試中達到了最先進的弱監督分割性能。

論文:https://arxiv.org/abs/2107.11787

代碼:https://github.com/xulianuwa/AuxSegNet

2. Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation

作者:Ruifei He, Jihan Yang, Xiaojuan Qi

摘要:雖然自訓練具有先進的半監督語義分割,但它嚴重受到現實世界語義分割數據集上的長尾類分布的影響,導致偽標記數據偏向於多數類。本文提出了一種簡單而有效的分布對齊和隨機采樣 (DARS) 方法,來生成無偏偽標簽,來與標記數據中估計的真實類別分布匹配。此外,本文還提供了漸進式數據增強和標記策略,以促進使用偽標記數據進行模型訓練。Cityscapes 和 PASCAL VOC 2012 數據集的實驗證明了本文方法的有效性。盡管很簡單,但與最先進的方法相比,本文的方法表現不錯。

論文:https://arxiv.org/abs/2107.11279

代碼:https://github.com/CVMI-Lab/DARS

3. Labels4Free: Unsupervised Segmentation using StyleGAN

作者:Rameen Abdal, Peihao Zhu, Niloy Mitra, Peter Wonka

摘要:

本文為StyleGAN生成的目標對象提出了一個無監督的分割框架。本文基於兩個主要觀察結果。首先,StyleGAN生成的特征包含有價值的信息,可用於訓練分割網絡。其次,前景和背景通常可以被視為在很大程度上是獨立的,並以不同的方式合成。對於本文的解決方案,本文提出使用分割分支來增強StyleGAN2生成器架構,並將生成器拆分為前景和背景網絡。這使本文能夠以無監督的方式為前景對象生成軟分割掩碼。在多個對象類別上,本文報告了與最先進的監督分割網絡的可比結果,而與最佳的無監督分割方法相比,本文在定性和定量指標上都表現出了明顯的改進。

論文:https://arxiv.org/abs/2103.14968

4. Mining Latent Classes for Few-shot Segmentation

作者:Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao

摘要:少樣本分割(FSS)旨在僅在給定幾個帶注釋的樣本的情況下分割不可見的類。現有方法存在特征破壞的問題,即在訓練階段將潛在的新類作為背景。本文的方法旨在緩解這個問題並增強潛在新類的特征嵌入。在本文的工作中,本文提出了一種新穎的聯合訓練框架。基於對支持-查詢對的常規情景訓練,本文添加了一個額外的挖掘分支,該分支通過可轉移的子集群利用潛在的新類,並在背景和前景類別上采用新校正技術,以得到更穩定的原型。除此之外,本文的可轉移子集群能夠利用額外的未標記數據來進一步增強特征。在兩個 FSS 基準測試中的大量實驗表明,本文的方法在PASCAL-5i上mIOU提升3.7%,在COCO-20i上的mIOU提升7.0%,大幅優於以前的最先進技術,參數減少了74%,推理速度提升2.5 倍。

論文:https://arxiv.org/abs/2103.15402

5. Rank & Sort Loss for Object Detection and Instance Segmentation

作者:Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan

摘要:本文提出Rank & Sort (RS) Loss,作為基於排序的損失函數來訓練深度目標檢測和實例分割方法(即視覺檢測器)。RS Loss監督分類器,分類器是這些方法的一個子網絡,來將每個正例排在所有負例之上,並根據(wrt.)它們的連續定位質量(例如 Intersection-over-Union - IoU)在它們之間對正例進行排序。為了解決排序和排序的不可區分性,本文將錯誤驅動更新與反向傳播的結合重新製定為Identity Update,這使本文能夠對正樣本中的新排序錯誤進行建模。使用 RS Loss,本文顯著地簡化了訓練:(i)由於本文的排序目標,分類器優先考慮正例,而無需額外的輔助頭(例如,centerness、IoU、mask-IoU),(ii)由於基於排序的性質,RS Loss對類不平衡具有魯棒性,因此,不需要采樣啟發式(iii)本文使用無微調任務平衡係數來解決視覺檢測器的多任務性質。使用 RS Loss,本文僅通過調整學習率來訓練七個不同的視覺檢測器,並表明它始終優於基線:例如本文的 RS Loss將 (i) 在 COCO 數據集上,Faster R-CNN 上box AP提高了3,而 aLRP Loss(基於排名的基線)提高了2,(ii)LVIS 數據集上,具有重複因子采樣(RFS)的 Mask R-CNN 上mask AP提高了 3.5(稀有類約為 7);並且也優於所有同行。

論文:https://arxiv.org/abs/2107.11669

代碼:https://github.com/kemaloksuz/RankSortLoss

成為VIP會員查看完整內容
1
23
0

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的隻有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基於3D視覺目標學習(3D Object Learning)相關的接受paper很多,3D視覺,比如點雲分析、3D目標檢測和分類等等一些列前沿的方法和應用受到了很多人的關注,也是當前比較火的topic。

為此,這期小編為大家奉上AAAI 2021必讀的五篇3D視覺目標學習相關論文——增量式3D目標學習、幾何解糾纏表示、魯棒3D形狀表示、3D點雲檢測、高性能基於Voxel 3D目標檢測

AAAI 2021 Accepted Papers :https://aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI

1. I3DOL: Incremental 3D Object Learning without Catastrophic Forgetting

作者:Jiahua Dong, Yang Cong, Gan Sun, Bingtao Ma, Lichen Wang

摘要:3D目標分類在學術研究和工業應用中引起了人們的關注。但是,當麵對常見的現實場景時,大多數現有方法都需要訪問過去3D目標類的訓練數據:新的3D目標類按順序到達。此外,由於3D點雲數據的不規則和冗餘幾何結構,對於過去學習的已知類(即災難性遺忘),先進方法的性能會大大降低。為了解決這些挑戰,我們提出了一種新的增量式3D目標學習(即I3DOL)模型,這是不斷學習新類別的3D目標的首次探索。具體來說,自適應幾何質心模塊被設計用來構造可區分的局部幾何結構,從而可以更好地表征3D目標的不規則點雲表示。然後,為防止冗餘幾何信息帶來的災難性遺忘,我們開發了一種幾何感知注意力機製來量化局部幾何結構的貢獻,並探索對類別增量學習具有高貢獻的獨特3D幾何特征。同時,提出了一種分數公平性補償策略,通過在驗證階段補償新類的偏向預測,進一步減輕了過去和新類3D目標之間數據不平衡所導致的災難性遺忘。在3D代表性數據集上進行的實驗驗證了I3DOL框架的優越性。

圖片 網址:

https://arxiv.org/abs/2012.09014

2. Learning Geometry-Disentangled Representation for Complementary Understanding of 3D Object Point Cloud

作者:Mutian Xu, Junhao Zhang, Zhipeng Zhou, Mingye Xu, Xiaojuan Qi, Yu Qiao

網址:在2D圖像處理中,一些嚐試將圖像分解為高頻和低頻分量,分別描述邊緣和平滑部分。類似地,3D目標的輪廓和平坦區域(例如椅子的邊界和座椅區域)描述了不同但互補的幾何形狀。但是,這樣的研究在以前的深層網絡中丟失了,這些深層網絡通過直接平等地對待所有點或局部麵來理解點雲。為了解決這個問題,我們提出了幾何分離注意力網絡(GDANet)。GDANet引入了Geometry-Disentangle模塊,可將點雲動態分解為3D目標的輪廓和平坦部分,分別由清晰而柔和的變化分量表示。然後,GDANet利用Sharp-Gentle Complementary Attention模塊,該模塊將銳利和柔和變化成分的特征視為兩個整體表示,並在將它們分別與原始點雲特征融合時給予了不同的關注。通過這種方式,我們的方法從兩個不同的解纏組件中捕獲並完善了整體和互補的3D幾何語義,以補充局部信息。關於3D目標分類和細分基準的大量實驗表明,GDANet使用更少的參數即可實現最新技術。

圖片 網址:

https://arxiv.org/abs/2012.10921

3. Learning Local Neighboring Structure for Robust 3D Shape Representation

作者:Zhongpai Gao, Junchi Yan, Guangtao Zhai, Juyong Zhang, Yiyan Yang, Xiaokang Yang

摘要:網格(Mesh)是用於3D形狀的強大數據結構。3D網格的表示學習在許多計算機視覺和圖形應用中很重要。卷積神經網絡(CNN)在結構化數據(例如圖像)方麵的最新成功表明,將CNN的洞察力應用於3D形狀具有重要意義。但是,由於每個節點的鄰居都是無序的,因此3D形狀數據是不規則的。已經開發出了用於3D形狀的各種圖神經網絡以克服圖中的節點不一致問題,例如:具有各向同性過濾器或預定義局部坐標係。但是,各向同性過濾器或預定義的局部坐標係會限製表示能力。在本文中,我們提出了一種局部結構感知anisotropic卷積運算(LSA-Conv),該算法根據局部鄰近結構為每個節點學習自適應加權矩陣,並執行共享anisotropic濾波器。實際上,可學習的加權矩陣類似於隨機合成器中的注意力矩陣-一種用於自然語言處理(NLP)的新型Transformer模型。全麵的實驗表明,與最新方法相比,我們的模型在3D形狀重建中產生了顯著改善。

圖片 網址:

https://arxiv.org/abs/2004.09995

4. PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection

作者:Yanan Zhang, Di Huang, Yunhong Wang

摘要:基於LiDAR的3D目標檢測是自動駕駛的一項重要任務,當前的方法遭受著遙遠和被遮擋目標的稀疏和部分點雲的困擾。在本文中,我們提出了一種新穎的兩階段方法,即PC-RGNN,它通過兩個特定的解決方案來應對此類挑戰。一方麵,我們引入了點雲完成模塊,以恢複密集點和保留原始結構的整個視圖的高質量建議。另一方麵,設計了一個神經網絡模塊,該模塊通過局部全局注意力機製以及基於多尺度圖的上下文聚合來全麵捕獲點之間的關係,從而大大增強了編碼特征。在KITTI基準上進行的大量實驗表明,所提出的方法以顯著優勢超越了之前的最新基準。

圖片 網址:

https://arxiv.org/abs/2012.10412

5. Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection

作者:Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li

摘要:3D目標檢測的最新進展在很大程度上取決於如何表示3D數據,即,基於體素(voxel-based)或基於點的表示。許多現有的高性能3D檢測器都是基於點的,因為這種結構可以更好地保留精確的點位置。但是,由於無序存儲,點級特征能會導致較高的計算開銷。相反,基於voxel的結構更適合特征提取,但由於輸入數據被劃分為網格,因此通常產生較低的精度。在本文中,我們采取了略有不同的觀點-我們發現原始點的精確定位對於高性能3D目標檢測不是必需的,並且粗體素粒度還可以提供足夠的檢測精度。牢記這一觀點,我們設計了一個簡單但有效的基於voxel的框架,名為Voxel R-CNN。通過在兩階段方法中充分利用體素特征,我們的方法可與基於點的最新模型實現可比的檢測精度,但計算成本卻很小。Voxel R-CNN由3D骨幹網絡,2D鳥瞰(bird-eye-view, BEV)候選區域網絡和檢測頭組成。設計了體素RoI池以直接從體素特征中提取RoI特征,以進行進一步優化。在廣泛使用的KITTI數據集和最新的Waymo Open數據集上進行了廣泛的實驗。我們的結果表明,與現有的基於體素的方法相比,Voxel R-CNN在保持實時幀處理速率的同時,在NVIDIA RTX 2080 Ti GPU上以25 FPS的速度提供了更高的檢測精度。該代碼將很快發布。

網址:https://arxiv.org/abs/2012.15712

成為VIP會員查看完整內容
0
23
0

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的隻有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現基於視頻理解(Video Understanding)相關的接受paper很多,視頻理解,比如視頻分割、視頻分類以及視頻描述生成等等一些列前沿的方法和應用受到了很多人的關注。

為此,這期小編為大家奉上AAAI 2021必讀的六篇視頻理解相關論文——視頻實例分割、無監督視頻目標分割、粗到細視頻描述生成、時空圖神經網絡視頻目標分割、視頻情感分析

AAAI 2021 Accepted Papers :https://aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI

1. CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentatio

作者:Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi

摘要:視頻實例分割是一項複雜的任務,我們需要針對任何給定視頻對每個目標進行檢測,分割和跟蹤。先前的方法僅將單幀特征用於目標的檢測,分割和跟蹤,並且當遇到諸如運動模糊和劇烈的外觀變化之類情形,它們在視頻場景中會遭受損失。為了消除僅通過使用單幀特征引入的歧義,我們提出了一種新穎的綜合特征聚合方法(comprehensive feature aggregation, CompFeat),以利用時間和空間上下文信息在幀級和目標級完善特征。我們使用新的注意力機製精心設計了聚合過程,該機製會顯著提高學習特征的判別力。通過合並特征相似性和空間相似性,我們通過siamese設計進一步提高了模型的跟蹤能力。在YouTubeVIS數據集上進行的實驗驗證了我們提出的CompFeat的有效性。

圖片 代碼:

https://github.com/SHI-Labs/CompFeat-for-Video-Instance-Segmentation.

網址:

https://arxiv.org/abs/2012.03400

2. F2Net: Learning to Focus on the Foreground for Unsupervised Video Object Segmentation

作者:Daizong Liu, Dongdong Yu, Changhu Wang, Pan Zhou

摘要:盡管基於深度學習的方法在無監督的視頻目標分割中取得了很大的進步,但是仍然不能很好地處理困難的場景(例如,視覺相似性,遮擋和外觀變化)。為了緩解這些問題,我們提出了一種新穎的Focus on Foreground Network(F2Net),該框架深入研究了前景目標的幀間細節,從而有效地提高了分割性能。具體來說,我們提出的網絡由三個主要部分組成:siamese編碼器模塊,中心指導外觀擴散( Center Guiding Appearance Diffusion)模塊和動態信息融合模塊。首先,我們使用siamese編碼器提取成對幀(參考幀和當前幀)的特征表示。然後,設計了中心指導外觀擴散方式,以捕獲幀間特征(參考幀與當前幀之間的密集對應關係),幀內特征(當前幀中的密集對應關係)以及當前幀的原始語義特征。具體來說,我們建立了一個中心預測分支來預測當前目標在當前幀中的中心位置,並在增強幀間和幀內特征提取之前利用中心點信息作為空間指導,因此特征表示相當集中在前景目標上。最後,我們提出了一種動態信息融合模塊,可以通過上述三個不同級別的特征自動選擇相對重要的特征。在DAVIS2016,Youtube-object和FBMS數據集上進行的大量實驗表明,我們提出的F2Net可以實現最先進的性能,並且具有顯著的改進。

圖片 網址:

https://arxiv.org/abs/2012.02534

3. Non-Autoregressive Coarse-to-Fine Video Captioning

作者:Bang Yang, Yuexian Zou, Fenglin Liu, Can Zhang

摘要:目前在橋接視頻(bridge videos)和自然語言方麵取得了很不錯的進展。然而,由於自動回歸解碼的順序方式,主流視頻字幕生成方法的推理速度較慢,並且由於對視覺單詞(例如,名詞和動詞)的訓練不足和解碼範式不足,更傾向於生成一般描述。在本文中,我們提出了一種基於非自回歸解碼的模型,該模型具有從粗到精的字幕處理程序,可以緩解這些缺陷。在實現中,我們采用基於雙向自注意力的網絡作為我們的語言模型,以實現推理速度的提高,在此基礎上,我們將視頻描述生成過程分解為兩個階段,其中模型具有不同的聚焦點。具體而言,鑒於視覺單詞決定字幕的語義正確性,我們設計了一種生成視覺單詞的機製,不僅可以促進與場景相關的單詞的訓練,而且可以從視頻中捕獲相關細節以構建粗粒度的句子“模板”。此後,我們設計了專用的解碼算法,該算法用合適的詞填充“模板”,並通過迭代細化修改不適當的措詞以獲得細粒度的描述。在兩個主流視頻字幕基準(即MSVD和MSR-VTT)上進行的大量實驗表明,我們的方法可實現最先進的性能,生成多種描述並獲得較高的推理效率。

圖片 網址:

https://arxiv.org/abs/1911.12018

4. Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation

作者:Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan Zhou

摘要:本文解決了在半監督環境中分割與類無關的目標的任務。盡管以前的基於檢測的方法實現了相對較好的性能,但是這些方法通過貪婪策略提取了最佳proposal,這可能會丟失所選候選目標之外的局部patch的詳細信息。在本文中,我們提出了一種新穎的時空圖神經網絡(STG-Net),以重建用於視頻目標分割的更準確的掩碼(masks),該掩碼通過利用所有proposal來捕獲局部上下文。在空間圖中,我們將一幀的目標proposal作為節點對待,並使用用於掩碼上下文聚合的邊緣權重策略表示它們的相關性。為了從先前的幀中捕獲時間信息,我們使用記憶網絡通過檢索時間圖中的曆史掩碼來細化當前幀的掩碼。局部補丁細節和時間關係的共同使用使我們能夠更好地解決諸如目標遮擋和丟失之類的挑戰。在沒有在線學習和微調的情況下,我們的STG網絡在四個大型基準(DAVIS,YouTube-VOS,SegTrackv2和YouTube-Objects)上實現了最先進的性能,證明了該方法的有效性。

網址:

https://arxiv.org/abs/2012.05499

5. Quantum Cognitively Motivated Decision Fusion for Video Sentiment Analysis

作者:Dimitris Gkoumas, Qiuchi Li, Shahram Dehdashti, Massimo Melucci, Yijun Yu, Dawei Song

摘要:視頻情感分析作為一個決策過程,其本質是複雜的,涉及多種模態的決策和由此引起的認知偏差的融合。受量子認知(quantum cognition)最新進展的啟發,我們表明一種模態的情感判斷可能與另一種模態的判斷不兼容,即順序很重要,無法共同衡量它們以做出最終決定。因此,認知過程表現出經典概率理論無法捕捉到的“量子式”偏見。因此,我們提出了一種根本上新穎的,量子認知動機的融合策略,用於預測情感判斷。特別地,我們在具有正算子值測度的複值希爾伯特空間上,將話語表述為正負情緒判斷的量子疊加狀態,將單模態分類器表述為互不相容的可觀測量。在兩個基準數據集上進行的實驗表明,我們的模型明顯優於各種現有決策級別和一係列最新的內容級別融合方法。結果還表明,不兼容的概念允許有效處理所有組合模態,包括所有單峰分類器錯誤預測的極端情況。

圖片 網址:

https://arxiv.org/abs/2101.04406

成為VIP會員查看完整內容
4
40
0

【導讀】人工智能頂級會議AAAI2021接收結果已經公布,本次AAAI 2021一共收到9034篇論文提交,其中有效審稿的隻有7911篇,最終錄取的數量為1692篇,接收率為21.4%,相比去年的20.6%高0.8%,競爭越來越激烈。近期,所有paper list 放出,小編發現對比學習(Contrastive Learning)相關的投稿paper很多,這塊研究方向這幾年受到了學術界的廣泛關注,並且在CV、NLP等領域也應用頗多。

為此,這期小編為大家奉上AAAI 2021必讀的五篇對比學習相關論文——Aspect檢測、對比生成GCN、自監督對應性學習、梯度正則對比學習、多選視頻問答、

AAAI 2021 Accepted Papers :https://aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

ICLR2020CI、ICML2020CI

1. A Simple and Effective Self-Supervised Contrastive Learning Framework for Aspect Detection

作者:Tian Shi, Liuqing Li, Ping Wang, Chandan K. Reddy

摘要:無監督aspect檢測(Unsupervised aspect detection, UAD)的目的是自動提取可解釋的aspect,並從在線評論中識別aspect特定的片段(例如句子)。但是,最近的基於深度學習的主題模型,特別是基於aspect的自動編碼器,遇到了一些問題,例如提取嘈雜的aspect以及將模型發現的aspect映射到感興趣的aspect的情況很差。為了解決這些挑戰,在本文中,我們首先提出一種自監督的對比學習框架和一種基於注意力的模型,該模型具有用於UAD任務的新型平滑自注意(smooth self-attention, SSA)模塊,以便學習aspect和review segments的更好表示。其次,我們引入了高分辨率選擇性映射(high-resolution selective mapping, HRSMap)方法,以將模型發現的aspect有效地分配給感興趣的aspect。我們還建議使用知識蒸餾技術來進一步提高aspect檢測性能。在公開可用的基準用戶評論數據集上,我們的方法優於幾種最近的非監督和弱監督方法。實驗中aspect的解釋結果表明,提取的aspect有意義,覆蓋範圍廣,並且可以輕鬆映射到感興趣的aspect。消融研究和注意力權重可視化還證明了SSA和知識蒸餾方法的有效性。

網址:https://arxiv.org/abs/2009.09107

2. Contrastive and Generative Graph Convolutional Networks for Graph-based Semi-Supervised Learning

作者:Sheng Wan, Shirui Pan, Jian Yang, Chen Gong

摘要:基於圖的半監督學習(SSL)旨在通過圖將少量標記數據的標簽轉移到其餘大量未標記數據。作為最流行的基於圖的SSL方法之一,最近提出的圖卷積網絡(GCN)通過將神經網絡的聲音表達能力與圖結構相結合而取得了顯著進步。然而,現有的基於圖的方法不能直接解決SSL的核心問題,即缺乏監督,因此它們的性能仍然非常有限。為了解決這個問題,本文提出了一種新穎的基於GCN的SSL算法,通過利用數據相似性和圖結構來豐富監督信號。首先,通過設計一個半監督的對比損失,可以通過最大化相同數據的不同視圖或相同類數據之間的一致性來生成改進的節點表示。因此,豐富的未標記數據和稀缺而有價值的標記數據可以共同提供豐富的監督信息,以學習判別性節點表示形式,有助於改善後續的分類結果。其次,通過使用與輸入特征有關的圖生成損失,將數據特征與輸入圖形拓撲之間的潛在確定性關係提取為SSL的補充監督信號。與其他最新方法相比,在各種實際數據集上進行的大量實驗結果堅定地證明了我們算法的有效性。

網址:https://arxiv.org/abs/2009.07111

3. Contrastive Transformation for Self-supervised Correspondence Learning

作者:Ning Wang, Wengang Zhou, Houqiang Li

摘要:在本文中,我們專注於使用未標記的視頻來進行視覺對應性自監督學習。我們的方法同時考慮了視頻內和視頻間表示關聯,以進行可靠的對應估計。視頻內學習通過幀對相似性在單個視頻內的各個幀之間轉換圖像內容。為了獲得實例級分離的判別表示,我們在視頻內分析的基礎上,構建了視頻間親和性,以促進跨不同視頻的對比轉換。通過強製視頻內和視頻間級別之間的轉換一致性,可以很好地保留細粒度的對應關係,並有效地增強實例級的特征辨別力。我們的簡單框架優於包括視頻目標跟蹤(VOT),視頻目標分割(VOS),姿勢關鍵點跟蹤等在內的可視任務的自監督通信方法。值得一提的是,與完全監督的親和力表示(例如ResNet)並執行與針對特定任務(例如VOT和VOS)設計的最新有監督算法相比,我們的方法也具有相應的競爭力。

網址:https://arxiv.org/abs/2012.05057

4. Gradient Regularized Contrastive Learning for Continual Domain Adaptation

作者:Peng Su, Shixiang Tang, Peng Gao, Di Qiu, Ni Zhao, Xiaogang Wang

摘要:人類可以利用學習經驗來快速適應環境變化。但是,適應動態環境的能力較弱仍然是AI模型麵臨的主要挑戰。為了更好地理解此問題,我們研究了連續域自適應問題,其中模型帶有標記的源域和一係列未標記的目標域。這個問題有兩個主要障礙:領域轉移和災難性遺忘。在這項工作中,我們提出了梯度正則化對比學習(Gradient Regularized Contrastive Learnin)來解決上述障礙。在我們方法的核心中,梯度正則化扮演兩個關鍵角色:(1)強製進行對比損失的梯度,不增加源域上的監督訓練損失,從而保持學習特征的判別力;(2)規範了新域上的梯度更新,而不會增加舊目標域上的分類損失,這使模型能夠適應傳入的目標域,同時保留先前觀察到的域的性能。因此,我們的方法可以通過標記的源域和未標記的目標域共同學習語義上的區別和領域不變的特征。與最新技術相比,在Digits,DomainNet和Office-Caltech基準測試中的實驗證明了我們方法的強大性能。

網址:https://arxiv.org/abs/2007.12942

5. Self-supervised Pre-training and Contrastive Representation Learning for Multiple-choice Video QA

作者:Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang, Nojun Kwak

摘要:視頻問答(Video QA)要求對視頻和語言模態有深入的了解,才能回答給定的問題。在本文中,我們提出了一種新的針對多選視頻問答的訓練方案,該方案以自監督的預訓練階段和主要階段的監督對比學習作為輔助學習。在自監督的預訓練階段,我們將預測正確答案的原始問題格式轉換為預測相關問題的格式,以提供具有更廣泛上下文輸入的模型,而無需任何其他數據集或注釋。為了在主要階段進行對比學習,我們在與真實答案相對應的輸入中添加了掩碼噪聲,並將真實答案的原始輸入視為正樣本,而將其餘答案視為負樣本。通過將正樣本映射到更接近被屏蔽的輸入,我們表明模型性能得到了改善。我們進一步采用局部對齊的注意力來更有效地專注於與給定的對應字幕句子特別相關的視頻幀。我們在與多選Video QA相關的基準數據集TVQA,TVQA +和DramaQA上評估了我們提出的模型。實驗結果表明,我們的模型在所有數據集上均達到了最先進的性能。我們還將通過進一步的分析來驗證我們的方法。

網址:https://arxiv.org/abs/2009.08043

成為VIP會員查看完整內容
2
45
1

【導讀】IJCAI(國際人工智能聯合會議,International Joint Conferences on Artificial Intelligence)作為人工智能領域最頂級的國際學術會議之一,IJCAI 的舉辦自然備受矚目。第29屆國際人工智能聯合會議和第17屆環太平洋國際人工智能會議原定於2020年7月11日在日本橫濱召開,但由於疫情影響,將延期半年,至 2021年1月召開。近期,IJCAI 2020 論文集已經放出來。在 4717 份有效投稿中,最終僅有 592 篇被接收,接收率為 12.6%,這也是 IJCAI 史上最低的接收率。我們發現在今年的IJCAI 2020會議上圖神經網絡相關的論文非常多,今天小編專門整理最新6篇圖神經網絡(GNN)應用在自然語言處理上的相關論文——AMR-to-text生成、Path GCN、圖互注意力網絡、常識知識、有向超圖GCN

IJCAI 2020 Accepted Paper:https://www.ijcai.org/Proceedings/2020/

IJCAI2020GNN_Part1、ICML2020GNN_Part1、KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、

1、Better AMR-To-Text Generation with Graph Structure Reconstruction作者:Tianming Wang, Xiaojun Wan, Shaowei Yao

摘要:AMR-to-text 生成是一項艱巨的任務,它需要從基於圖的語義表示中生成文本。最近的研究將這一任務看作是圖到序列的學習問題,並使用各種圖神經網絡來建模圖結構。在本文中,我們提出了一種新的方法,在重構輸入圖結構的同時,從AMR圖中生成文本。我們的模型使用圖注意力機製來聚合信息以對輸入進行編碼。此外,通過優化兩個簡單而有效的輔助重構目標:鏈接預測目標(需要預測節點之間的語義關係)和距離預測目標(需要預測節點之間的距離),能夠學習到更好的節點表示。在兩個基準數據集上的實驗結果表明,我們提出的模型在強基線上有很大的改善,並達到了新的技術水平。

網址:https://www.ijcai.org/Proceedings/2020/0542.pdf

2、Multi-hop Reading Comprehension across Documents with Path-based Graph Convolutional Network

作者:Zeyun Tang, Y ongliang Shen, Xinyin Ma, Wei Xu, Jiale Yu, Weiming Lu

摘要:跨多個文檔的多跳(Multi-hop )閱讀理解近年來備受關注。在本文中,我們提出了一種新的方法來解決這個多跳閱讀理解問題。受人類推理過程的啟發,我們從支持文檔(supporting documents)中構造了一個基於路徑的推理圖。該推理圖結合了基於圖的方法和基於路徑的方法的思想,更適合於多跳推理。同時,我們提出了GATED-RGCN在基於路徑的推理圖上積累證據,GATED-RGCN包含了一種新的問題感知門控機製,以規範跨文檔傳播信息的有用性,並在推理過程中添加問題信息。我們在WikiHop數據集上對我們的方法進行了評估,與以前發布的方法相比,我們的方法達到了最先進的準確性。特別值得一提的是,我們的集成模型比人類的表現高出4.2%。

網址:https://www.ijcai.org/Proceedings/2020/540

3、The Graph-based Mutual Attentive Network for Automatic Diagnosis

作者:Quan Yuan, Jun Chen, Chao Lu, Haifeng Huang 摘要:自動診斷一直存在缺乏可靠語料庫來訓練可信預測模型的問題。此外,以往的基於深度學習的診斷模型大多采用序列學習技術(CNN或RNN),難以提取關鍵醫療實體之間的複雜結構信息(如圖結構)。本文提出基於真實醫院的高標準電子病曆文檔建立的診斷模型,以提高模型的準確性和可信度。同時,我們將圖卷積網絡引入到該模型中,緩解了稀疏特征的問題,便於提取用於診斷的結構信息。此外,我們還提出了mutual注意網絡來增強輸入的表示,以獲得更好的模型性能。我們在真實電子病曆文檔( EMR documents)上進行實驗,結果表明與以往基於序列學習的診斷模型相比,該模型具有更高的準確性。我們提出的模型已被集成到中國數百家初級衛生保健機構的信息係統中,以協助醫生進行診斷。

網址:https://www.ijcai.org/Proceedings/2020/0469.pdf

4、TransOMCS: From Linguistic Graphs to Commonsense Knowledge

作者:Hongming Zhang, Daniel Khashabi, Yangqiu Song, Dan Roth

摘要:常識知識獲取是人工智能的關鍵問題。傳統獲取常識知識的方法通常需要昂貴的人工注釋並且費力,在大範圍內是不可行的。本文探索了一種從語言圖中挖掘常識知識的實用方法,目的是將從語言模式中獲得的廉價知識轉化為昂貴的常識知識。其結果是將大規模的選擇偏好知識資源ASER[Zhang et al., 2020]轉換為TransOMCS,其表示與ConceptNet[Liu and Singh,2004]相同,但比ConceptNet大兩個數量級。實驗結果表明,語言知識可以轉化為常識知識,並且該方法在數量、新穎性和質量方麵都是有效的。

代碼:https://github.com/HKUSTKnowComp/TransOMCS

網址:

https://www.ijcai.org/Proceedings/2020/0554.pdf

5、Two-Phase Hypergraph Based Reasoning with Dynamic Relations for Multi-Hop KBQA

作者:Jiale Han, Bo Cheng, Xu Wang

摘要:多跳知識庫問答(KBQA)旨在通過跨多個三元組的推理來尋找事實問題的答案。值得注意的是,當人類執行多跳推理時,傾向於在不同的跳中集中於特定的關係,並精確定位由該關係連接的一組實體。與利用成對連接來模擬人類執行多跳推理不同,超圖卷積網絡(HGCN)可以通過利用超邊連接兩個以上的節點。然而,HGCN是針對無向圖的,沒有考慮信息傳遞的方向。為了適應具有方向性的知識圖,我們引入了有向HGCN(Directed-HGCN, DHGCN)。受人類逐跳推理的啟發,我們提出了一種基於DHGCN的可解釋KBQA模型,即基於動態關係的兩階段超圖推理,該模型顯式更新關係信息,動態關注不同跳點的不同關係。此外,該模型逐跳預測關係以生成中間關係路徑。我們在兩個廣泛使用的多跳KBQA數據集上進行了大量的實驗,以證明該模型的有效性。

網址:https://www.ijcai.org/Proceedings/2020/0500.pdf

成為VIP會員查看完整內容
1
67
0

盡管近年來計算機視覺技術已經取得了長足的進步,但是對於複雜視覺場景 的感知和理解,目前的計算機模型表現還遠遠沒有達到大規模普及和落地應用的 水平。為了充分地利用日常生活中海量的視覺媒體數據,複雜視覺場景的感知和理 解已經逐漸成為計算機視覺領域的一個研究熱點。

本文將針對四個不同層次的視覺場景理解(物體級別識別、場景級別識別、場 景級別理解和場景級別推理),逐步地對複雜視覺場景中視覺內容的識別、檢測和 推理進行研究。本文的關鍵技術線路主要聚焦於零樣本物體分類、圖像場景圖生 成、圖像描述生成、視頻片段檢索和視覺問答等具體視覺場景理解任務。在此研究 技術路線下,本文主要的研究內容和貢獻如下:

1)針對零樣本物體分類模型中普遍存在的語義丟失問題,本文提出一種全新 的零樣本學習網絡。該網絡首次引入兩個相互獨立的映射網絡分支,將圖像分類和 圖像重建兩個原本相互衝突的任務分離出來。同時借助對抗學習,實現重建網絡分 支和分類網絡分支之間的屬性遷移。

2)針對圖像場景圖生成模型中優化目標通常忽略不同物體的重要性差異的問 題,本文提出一種全新的訓練框架,首次將圖像場景圖生成任務轉化成一個多智能 體協同決策問題,從而可以直接將整個圖像場景圖質量作為模型的優化目標。同 時,本文還提出了一個反事實基準模型,可以有效地計算出每個物體類別預測對整 體場景圖生成質量的局部貢獻。

3)參考現有的空間注意力機製,本文首次提出通道注意力機製。同時,通過 充分挖掘卷積神經網絡的特征圖的三個不同維度(空間、通道和層級)之間的聯係, 提出一種全新的空間和通道注意力網絡。在圖像描述生成任務中,該網絡不僅極大 地提升了描述語句的生成質量,同時幫助人們理解在語句生成過程中特征圖的變 化過程。

4)針對目前視頻片段檢索任務中兩種主流框架(自頂向下和稀疏型自底向上) 的設計缺陷,本文提出了一種全新的密集型自底向上的框架。通過將動作邊界定位問題分解成相關性預測和邊界回歸兩個子問題,顯著地降低了動作邊界定位的難 度。同時,本文提出一個基於圖卷積的特征金字塔層,來進一步增強骨幹網絡編碼 能力。

5)針對目前視覺問答模型忽略的兩個重要特性(視覺可解釋性和問題敏感性), 本文提出了一種通用的反事實樣本生成機製。通過遮蓋圖像中的重要區域或問題 中的重要單詞,同時更改標準答案,來合成全新的反事實訓練樣本。通過使用原始 訓練樣本和反事實訓練樣本一起對模型進行訓練,迫使視覺問答模型關注被遮蓋 的重要內容,提升模型的視覺可解釋性和問題敏感性。

地址:

https://zjuchenlong.github.io/

成為VIP會員查看完整內容
3
84
0

【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。近期,一些Paper放出來,專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的五篇論文,供大家參考—點雲分析、視頻描述生成、軌跡預測、場景圖生成、視頻理解等。

1. Grid-GCN for Fast and Scalable Point Cloud Learning

作者:Qiangeng Xu, Xudong Sun, Cho-Ying Wu, Panqu Wang and Ulrich Neumann

摘要:由於點雲數據的稀疏性和不規則性,越來越多的方法直接使用點雲數據。在所有基於point的模型中,圖卷積網絡(GCN)通過完全保留數據粒度和利用點間的相互關係表現出顯著的性能。然而,基於點的網絡在數據結構化(例如,最遠點采樣(FPS)和鄰接點查詢)上花費了大量的時間,限製了其速度和可擴展性。本文提出了一種快速、可擴展的點雲學習方法--Grid-GCN。Grid-GCN采用了一種新穎的數據結構策略--Coverage-Aware Grid Query(CAGQ)。通過利用網格空間的效率,CAGQ在降低理論時間複雜度的同時提高了空間覆蓋率。與最遠的點采樣(FPS)和Ball Query等流行的采樣方法相比,CAGQ的速度提高了50倍。通過網格上下文聚合(GCA)模塊,Grid-GCN在主要點雲分類和分割基準上實現了最先進的性能,並且運行時間比以前的方法快得多。值得注意的是,在每個場景81920個點的情況下,Grid-GCN在ScanNet上的推理速度達到了50fps。

網址:https://arxiv.org/abs/1912.02984

2. Object Relational Graph with Teacher-Recommended Learning for Video Captioning

作者:Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu and Zhengjun Zha

摘要:充分利用視覺和語言的信息對於視頻字幕任務至關重要。現有的模型由於忽視了目標之間的交互而缺乏足夠的視覺表示,並且由於長尾(long-tailed)問題而對與內容相關的詞缺乏足夠的訓練。在本文中,我們提出了一個完整的視頻字幕係統,包括一種新的模型和一種有效的訓練策略。具體地說,我們提出了一種基於目標關係圖(ORG)的編碼器,該編碼器捕獲了更詳細的交互特征,以豐富視覺表示。同時,我們設計了一種老師推薦學習(Teacher-Recommended Learning, TRL)的方法,充分利用成功的外部語言模型(ELM)將豐富的語言知識整合到字幕模型中。ELM生成了在語義上更相似的單詞,這些單詞擴展了用於訓練的真實單詞,以解決長尾問題。 對三個基準MSVD,MSR-VTT和VATEX進行的實驗評估表明,所提出的ORG-TRL係統達到了最先進的性能。 廣泛的消去研究和可視化說明了我們係統的有效性。

網址:https://arxiv.org/abs/2002.11566

3. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction

作者:Abduallah Mohamed and Kun Qian

摘要:有了更好地了解行人行為的機器可以更快地建模智能體(如:自動駕駛汽車)和人類之間的特征交互。行人的運動軌跡不僅受行人自身的影響,還受與周圍物體相互作用的影響。以前的方法通過使用各種聚合方法(整合了不同的被學習的行人狀態)對這些交互進行建模。我們提出了社交-時空圖卷積神經網絡(Social-STGCNN),它通過將交互建模為圖來代替聚合方法。結果表明,最終位偏誤差(FDE)比現有方法提高了20%,平均偏移誤差(ADE)提高了8.5倍,推理速度提高了48倍。此外,我們的模型是數據高效的,在隻有20%的訓練數據上ADE度量超過了以前的技術。我們提出了一個核函數來將行人之間的社會交互嵌入到鄰接矩陣中。通過定性分析,我們的模型繼承了行人軌跡之間可以預期的社會行為。

網址:https://arxiv.org/abs/2002.11927

代碼鏈接:

https://github.com/abduallahmohamed/Social-STGCNN

4. Unbiased Scene Graph Generation from Biased Training

作者:Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi and Hanwang Zhang

摘要:由於嚴重的訓練偏差,場景圖生成(SGG)的任務仍然不夠實際,例如,將海灘上的各種步行/坐在/躺下的人簡化為海灘上的人。基於這樣的SGG,VQA等下遊任務很難推斷出比一係列對象更好的場景結構。然而,SGG中的debiasing 是非常重要的,因為傳統的去偏差方法不能區分好的和不好的偏差,例如,好的上下文先驗(例如,人看書而不是吃東西)和壞的長尾偏差(例如,將在後麵/前麵簡化為鄰近)。與傳統的傳統的似然推理不同,在本文中,我們提出了一種新的基於因果推理的SGG框架。我們首先為SGG建立因果關係圖,然後用該因果關係圖進行傳統的有偏差訓練。然後,我們提出從訓練好的圖中提取反事實因果關係(counterfactual causality),以推斷應該被去除的不良偏差的影響。我們使用Total Direct Effect作為無偏差SGG的最終分數。我們的框架對任何SGG模型都是不可知的,因此可以在尋求無偏差預測的社區中廣泛應用。通過在SGG基準Visual Genome上使用我們提出的場景圖診斷工具包和幾種流行的模型,與以前的最新方法相比有顯著提升。

網址:https://arxiv.org/abs/2002.11949

代碼鏈接:

https://github.com/KaihuaTang/Scene-Graph-Benchmark.pytorch

5. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences

作者:Zhu Zhang, Zhou Zhao, Yang Zhao, Qi Wang, Huasheng Liu and Lianli Gao

摘要:在本文中,我們考慮了一項用於多形式句子(Multi-Form Sentences)的時空Video Grounding(STVG)的任務。 即在給定未剪輯的視頻和描述對象的陳述句/疑問句,STVG旨在定位所查詢目標的時空管道(tube)。STVG有兩個具有挑戰性的設置:(1)我們需要從未剪輯的視頻中定位時空對象管道,但是對象可能隻存在於視頻的一小段中;(2)我們需要處理多種形式的句子,包括帶有顯式賓語的陳述句和帶有未知賓語的疑問句。 由於無效的管道預生成和缺乏對象關係建模,現有方法無法解決STVG任務。為此,我們提出了一種新穎的時空圖推理網絡(STGRN)。首先,我們構建時空區域圖來捕捉具有時間對象動力學的區域關係,包括每幀內的隱式、顯式空間子圖和跨幀的時間動態子圖。然後,我們將文本線索加入到圖中,並開發了多步跨模態圖推理。接下來,我們引入了一種具有動態選擇方法的時空定位器,該定位器可以直接檢索時空管道,而不需要預先生成管道。此外,我們在視頻關係數據集Vidor的基礎上構建了一個大規模的video grounding數據集VidSTG。大量的實驗證明了該方法的有效性。

網址:https://arxiv.org/abs/2001.06891

成為VIP會員查看完整內容
1
74
0

1、3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions

作者:Dong Wook Shu, Sung Woo Park, Junseok Kwon;

摘要:本文提出了一種新的三維點雲生成對抗網絡(GAN),稱為tree-GAN。為了實現多類三維點雲生成的最優性能,引入了一種樹狀圖卷積網絡(TreeGCN)作為tree-GAN的生成工具。因為TreeGCN在樹中執行圖卷積,所以它可以使用ancestor信息來增強特性的表示能力。為了準確評估三維點雲的GAN,我們提出了一種新的評價指標,稱為Fr'echet點雲距離(FPD)。實驗結果表明,所提出的tree-GAN在傳統度量和FPD方麵都優於最先進的GAN,並且可以在不需要先驗知識的情況下為不同的語義部分生成點雲。

網址://www.webtourguide.com/paper/ade9cbf39f5984d62fb0569c60038853

2、Exploiting Spatial-temporal Relationships for 3D Pose Estimation via Graph Convolutional Networks

作者:Yujun Cai, Liuhao Ge, Jun Liu, Jianfei Cai, Tat-Jen Cham, Junsong Yuan, Nadia Magnenat Thalmann;

摘要:盡管單視圖圖像或視頻的三維姿態估計取得了很大的進展,但由於深度模糊和嚴重的自聚焦,這仍然是一個具有挑戰性的任務。為了有效地結合空間相關性和時間一致性來緩解這些問題,我們提出了一種新的基於圖的方法來解決短序列二維關節檢測的三維人體和三維手部姿態估計問題。特別是將人手(身體)構型的領域知識顯式地融入到圖卷積運算中,以滿足三維姿態估計的特定需求。此外,我們還介紹了一個從局部到全局的網絡架構,該架構能夠學習基於圖表示的多尺度特性。我們評估了所提出的方法在具有挑戰性的基準數據集的三維手部姿態估計和三維身體位姿估計。實驗結果表明,我們的方法在兩種任務上都達到了最先進的性能。

網址:<https://cse.buffalo.edu/~jsyuan/papers/2019/Exploiting_Spatial-temporal_Relationships_for_3D_Pose_Estimation_via_Graph_Convolutional_Networks.pdf>

3、Graph Convolutional Networks for Temporal Action Localization

作者:Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, Chuang Gan;

摘要:大多數最先進的行為定位係統都是單獨處理每個動作proposal,而不是在學習過程中顯式地利用它們之間的關係。然而,proposal之間的關係實際上在行動定位中扮演著重要的角色,因為一個有意義的行動總是由一個視頻中的多個proposal組成。在本文中,我們提出利用圖卷積網絡(GCNs)來挖掘proposal - proposal關係。首先,我們構造一個action proposal圖,其中每個proposal表示為一個節點,兩個proposal之間的關係表示為一條邊。這裏,我們使用兩種類型的關係,一種用於捕獲每個proposal的上下文信息,另一種用於描述不同action之間的關聯。我們在圖上應用GCN,以對不同proposal之間的關係進行建模,學習了動作分類和定位的強大表示。實驗結果表明,我們的方法在THUMOS14上顯著優於最先進的方法(49.1% versus42.8%)。此外,ActivityNet上的增強實驗也驗證了action proposal關係建模的有效性。代碼可以在https://github.com/alvinzeng/pgcn上找到。

網址:<//www.webtourguide.com/paper/a537a2f765073948121b7b4eee4a2070>

4、Graph-Based Object Classification for Neuromorphic Vision Sensing

作者:Yin Bi, Aaron Chadha, Alhabib Abbas, Eirina Bourtsoulatze, Yiannis Andreopoulos;

摘要:神經形態視覺傳感(NVS)設備將視覺信息表示為異步離散事件的序列(也稱為“spikes”),以響應場景反射率的變化。與傳統的有源像素傳感器(APS)不同,NVS允許更高的事件采樣率,大大提高了能源效率和對光照變化的魯棒性。然而,使用NVS流的對象分類不能利用最先進的卷積神經網絡(CNNs),因為NVS不產生幀表示。為了避免感知和處理與CNNs之間的不匹配,我們提出了一種用於NVS的緊湊圖表示方法。我們將其與新穎的殘差圖CNN體係結構相結合,結果表明,當對時空NVS數據進行訓練用於對象分類時,這種殘差圖CNN保持了spike事件的時空一致性,同時所需的計算和內存更少。最後,為了解決缺乏用於複雜識別任務的大型真實世界NVS數據集的問題,我們提出並提供了一個100k的美國手語字母NVS記錄數據集,該數據集是在真實世界條件下使用iniLabs DAVIS240c設備獲得的。

網址:<//www.webtourguide.com/paper/51c73c6d562857328fac4166392bf720>

5、Learning Semantic-Specific Graph Representation for Multi-Label Image Recognition

作者:Tianshui Chen, Muxin Xu, Xiaolu Hui, Hefeng Wu, Liang Lin;

摘要:識別圖像中的多個標簽是一項現實而富有挑戰性的任務,通過搜索語義感知區域和對標簽依賴關係建模,已經取得了顯著的進展。然而,由於缺乏局部層次的監督和語義指導,現有的方法無法準確定位語義區域。此外,它們不能充分挖掘語義區域之間的相互作用,也不能顯式地對標簽的共現進行建模。為了解決這些問題,我們提出了一個語義特定的圖表示學習(SSGRL)框架,該框架由兩個關鍵模塊組成:1)一個語義解耦模塊,該模塊集成了範疇語義以指導學習語義特定的表示;2)一個語義交互模塊。它將這些表示與建立在統計標簽共現上的圖相關聯,並通過圖傳播機製探索它們的交互作用。在公共基準上的大量實驗表明,我們的SSGRL框架在很大程度上優於當前最先進的方法,例如,在PASCAL VOC 2007 & 2012, Microsoft-COCO and Visual Genome benchmarks數據集上,mAP的性能分別提高了2.5%、2.6%、6.7%和3.1%。我們的代碼和模型可以在https://github. com/HCPLab-SYSU/SSGRL上獲得。

網址:<//www.webtourguide.com/paper/267160da377a31b8978cdde8775c359e>

6、Relation-Aware Graph Attention Network for Visual Question Answering

作者:Linjie Li, Zhe Gan, Yu Cheng, Jingjing Liu;

摘要:為了解決圖像的語義複雜問題,視覺問答模型需要充分理解圖像中的視覺場景,特別是不同對象之間的交互動態。我們提出了一個關係感知圖注意網絡(ReGAT),它通過圖注意機製將每個圖像編碼成一個圖,並建立多類型的對象間關係模型,以學習問題的自適應關係表示。研究了兩種類型的視覺對象關係:(1)表示幾何位置的顯式關係和對象之間的語義交互;(2)捕捉圖像區域間隱藏動態的隱式關係。實驗表明,ReGAT在VQA2.0和VQA2-CP v2數據集上的性能都優於現有的最新方法。我們進一步證明了ReGAT與現有的VQA體係結構兼容,可以作為一個通用的關係編碼器來提高VQA的模型性能。

網址:<//www.webtourguide.com/paper/dadba65800545e02199beffbef4004bc>

7、Symmetric Graph Convolutional Autoencoder for Unsupervised Graph Representation Learning

作者:Jiwoong Park, Minsik Lee, Hyung Jin Chang, Kyuewang Lee, Jin Young Choi;

摘要:我們提出了一種對稱圖卷積自編碼器,它能從圖中產生低維的潛在表示。與現有的具有非對稱解碼部分的圖自編碼器相比,本文提出的圖自動編碼器有一個新的解碼器,它構建了一個完全對稱的圖自編碼器形式。針對節點特征的重構,設計了一種基於拉普拉斯銳化的解碼器,作為編碼器拉普拉斯平滑的對應,使圖結構在所提出的自編碼體係結構的整個過程中得到充分利用。為了避免拉普拉斯銳化引入網絡的數值不穩定性,我們進一步提出了一種新的結合符號圖的拉普拉斯銳化的數值穩定形式。此外,為了提高圖像聚類任務的性能,設計了一種新的成本函數,該函數能同時發現一個潛在的表示形式和一個潛在的affinity矩陣。在聚類、鏈路預測和可視化任務上的實驗結果表明,我們所提出的模型是穩定的,並且性能優於各種最先進的算法。

網址:<//www.webtourguide.com/paper/52860855eb72bb6deb51e9be8cafa73d>

8、Learning Combinatorial Embedding Networks for Deep Graph Matching

作者:Runzhong Wang, Junchi Yan, Xiaokang Yang;

摘要:圖匹配是指尋找圖之間的節點對應關係,使對應的節點與邊的親和性(affinity)最大化。此外,由於NP完備性的性質之外,另一個重要的挑戰是對圖之間的節點和結構親和性及其結果目標進行有效建模,以指導匹配過程有效地找到針對噪聲的真實匹配。為此,本文設計了一個端到端可微的深度網絡pipeline來學習圖匹配的親和性。它涉及與節點對應有關的有監督置換損失,以捕捉圖匹配的組合性質。同時采用深度圖嵌入模型來參數化圖內和圖間親和性函數,而不是傳統的如高斯核等淺層、簡單的參數化形式。嵌入也能有效地捕獲二階邊緣以外的高階結構。置換損失模型與節點數量無關,嵌入模型在節點之間共享,這樣網絡就允許在圖中使用不同數量的節點進行訓練和推理。此外,我們的網絡是類不可知的,具有跨不同類別的泛化能力。所有這些特性在實際應用中都受到歡迎。實驗表明,該方法優於目前最先進的圖匹配學習方法。

網址:<//www.webtourguide.com/paper/527a4ecad51e741f25b5dbc42e97b3e8>

成為VIP會員查看完整內容
1
26
0

1、DeepGCNs:Can GCNs Go as Deep as CNNs

作者:Guohao Li , Matthias Müller , Ali Thabet Bernard Ghanem;

摘要:卷積神經網絡(CNNs)在廣泛的領域中取得了令人印象深刻的性能。他們的成功得益於一個巨大的推動,當非常深入的CNN模型能夠可靠的訓練。盡管CNNs有其優點,但它不能很好地解決非歐幾裏德數據的問題。為了克服這一挑戰,圖形卷積網絡(GCNS)構建圖形來表示非歐幾裏德數據,借用CNNs的概念,並將它們應用於訓練。GCNs顯示出有希望的結果,但由於消失梯度問題,它們通常僅限於非常淺的模型(見圖1)。因此,最先進的GCN模型不超過3層或4層。在這項工作中,我們提出了新的方法來成功地訓練非常深的GCNs。我們通過借鑒CNNs的概念來做到這一點,特別是剩餘/密集連接和擴展卷積,並將它們應用到GCN架構中。大量的實驗證明了這些深度GCN框架的積極作用。最後,我們使用這些新的概念來構建一個非常深的56層GCN,並展示了它如何在點雲語義分割任務中顯著提升性能(+ 3.7% Miou-Unice狀態)。我們相信公眾可以從這項工作中受益,因為它為推進基於GCN的研究提供了許多機會。

網站://www.webtourguide.com/paper/c1e02bdee9efe20fd0a53d23883901c3

2、Dynamic Graph Attention for Referring Expression Comprehension

作者:Sibei Yang, Guanbin Li, Yizhou Yu;

摘要:引用表達式理解的目的是在圖像中定位由自然語言描述的對象實例。這項任務是合成的,本質上需要在圖像中對象之間關係的基礎上進行視覺推理。同時,視覺推理過程是由指稱表達式的語言結構來指導的。然而,現有的方法孤立地對待對象,或者隻探索對象之間的一階關係,而不與表達式的潛在複雜性對齊。因此,他們很難適應複雜的參考表達的基礎。本文從語言驅動的視覺推理的角度,探討了表達理解的問題,並提出了一種動態圖形注意力網絡,通過對圖像中的對象之間的關係和表達的語言結構進行建模來進行多步推理。特別地,我們構造了具有對應於對象和它們的關係的節點和邊緣的圖像,提出了一種差分分析器來預測語言製導的視覺推理過程,並在圖的頂部執行逐步推理,以更新每個節點上的複合對象表示。實驗結果表明,所提出的方法在三個共同的基準數據集不僅可以顯著超越所有現有的最先進的算法,而且還能產生可解釋的視覺證據,以逐步定位複雜的語言描述的對象。

網址://www.webtourguide.com/paper/1199b7e507d8a9755dc1e1393f821d94

3、Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning

作者:Lifeng Fan, Wenguan Wang, Siyuan Huang, Xinyu Tang, Song-Chun Zhu;

摘要:本文從原子層次和事件層次兩個方麵探討了社會視頻中人的注釋交流這一新問題,對研究人類的社會互動具有重要意義。為了解決這一新穎而具有挑戰性的問題,我們貢獻了一個大規模的視頻數據集,VACATION,涵蓋不同的日常社會場景和注釋交流行為,並在原子級和事件級對物體和人臉、人類注意力、交流結構和標簽進行了完整的注釋。結合VACATION,我們提出了一個時空圖神經網絡,明確地表示社會場景中不同的注釋交互,並通過消息傳遞來推斷原子級的注視交流。在此基礎上,進一步提出了一種基於編碼-解碼器結構的事件網絡來預測事件級注視通信。我們的實驗表明,該模型在預測原子級和事件級注釋通信時顯著地改進了各種基線。

網址://www.webtourguide.com/paper/2f4739c0d443734235de98bf900fb936

4、SceneGraphNet Neural Message Passing for 3D Indoor Scene Augmentation

作者:Yang Zhou, Zachary While, Evangelos Kalogerakis;

摘要:在本文中,我們提出了一種神經消息傳遞方法,以增加輸入三維室內場景中與周圍環境匹配的新對象。給定一個輸入,可能是不完整的,三維場景和一個查詢位置(圖1),我們的方法預測在該位置上適合的對象類型上的概率分布。我們的分布是通過在稠密圖中傳遞學習信息來預測的,其節點表示輸入場景中的對象,並且邊緣表示空間和結構關係。通過一個注意力機製對消息進行加權,我們的方法學會將注意力集中在最相關的周圍場景上下文,從而預測新的場景對象。基於我們在SUNCG數據集中的實驗,我們發現我們的方法在正確預測場景中丟失的對象方麵明顯優於最先進的方法。我們還演示了我們的方法的其他應用,包括基於上下文的3D對象識別和迭代場景生成。

網址://www.webtourguide.com/paper/269b2ab31a49b5d29166ed480bf38d58

5、Language-Conditioned Graph Networks for Relational Reasoning

作者:Ronghang Hu, Anna Rohrbach, Trevor Darrell, Kate Saenko ;

摘要:解決基於語言任務通常需要對給定任務上下文中對象之間的關係進行推理。例如,要回答盤子上的杯子是什麼顏色??我們必須檢查特定杯子的顏色,以滿足盤子上的關係。最近的工作提出了各種複雜關係推理的方法。然而,它們的能力大多在推理結構上,而場景則用簡單的局部外觀特征來表示。在本文中,我們采取另一種方法,建立一個視覺場景中的對象的上下文化表示,以支持關係推理。我們提出了一個通用的語言條件圖網絡(LCGN)框架,其中每個節點代表一個對象,並通過文本輸入的迭代消息傳遞來描述相關對象的感知表示。例如,調節與plate的on關係,對象mug收集來自對象plate的消息,以將其表示更新為mug on the plate,這可以很容易地被簡單分類器用於答案預測。我們的實驗表明,我們的LCGN方法有效地支持關係推理,並在多個任務和數據集上提高了性能。我們的代碼可以在http://ronghanghu.com/lcgn上獲得。

網址://www.webtourguide.com/paper/5a8a5edf8c004b9f42814ae915220943

成為VIP會員查看完整內容
3
12
0

【導讀】自然語言處理國際頂級會議EMNLP 2019於11月3日至11月7日在中國香港舉行。為了帶大家領略高質量論文,專知小編特意整理了六篇EMNLP 2019GNN相關論文,並附上論文鏈接供參考——命名實體識別、情感分類、對話圖卷積網絡、數據生成文本、短文本分類、Aspect-level情感分類等。

1、A Lexicon-Based Graph Neural Network for Chinese NER

作者:Tao Gui, Yicheng Zou, Qi Zhang;

摘要:遞歸神經網絡(RNN)用於中文命名實體識別(NER)中,能夠對文字信息進行順序跟蹤,取得了很大的成功。然而,由於鏈式結構的特點和缺乏全局語義,基於RNN的模型容易產生歧義。本文試圖通過引入一種全局語義的基於詞典的圖神經網絡來解決這一問題,該網絡利用詞典知識連接字符來捕獲局部成分,而全局中繼節點則可以捕獲全局句子語義和長距離依賴。基於字符、潛在單詞和整個句子語義之間的多重交互,可以有效地解決單詞歧義。在4個NER數據集的實驗表明,該模型與其他基線模型相比有顯著的改進。

網址:

http://qizhang.info/paper/emnlp-2019.ner.pdf

2、Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

作者:Chen Zhang, Qiuchi Li, Dawei Song;

摘要:注意機製和卷積神經網絡(CNNs)由於其固有的方麵和上下文詞的語義對齊能力,被廣泛應用於基於方麵的情感分類。然而,這些模型缺乏一種機製來解釋相關的句法約束和長距離的詞語依賴,因此可能會錯誤地將句法無關的上下文詞作為判斷方麵情緒的線索。為了解決這個問題,我們提出在句子的依存樹上建立一個圖卷積網絡(GCN),以利用句法信息和詞的依存關係。在此基礎上,提出了一種新的麵向方麵的情感分類框架。在三個基準集合上的實驗表明,我們所提出的模型比一係列最先進的模型更具有相當的有效性,並且進一步證明了圖卷積結構能夠恰當地捕獲語法信息和長距離字的依賴關係。

網址://www.webtourguide.com/paper/c995fe87d66236f1a22ba1c861647085

3、DialogueGCN A Graph Convolutional Neural Network for Emotion Recognition in Conversation

作者:Deepanway Ghosal, Navonil Majumder, Soujanya Poria, Niyati Chhaya, Alexander Gelbukh;

摘要:會話情感識別(ECC)由於其在醫療、教育、人力資源等多個領域的廣泛應用,近年來受到了研究者的廣泛關注。在本文中,我們提出了對話圖卷積網絡(DialogueGCN),基於圖神經網絡的ERC方法。我們利用對話者的自言和對話人之間的依賴關係來為情緒識別建立會話環境模型。DialogueGCN通過圖形網絡解決了當前基於RNN的方法中存在的上下文傳播問題。我們經驗表明,這種方法緩解了這樣的問題,同時在一些基準的情緒分類數據集上超過了目前的狀態。

網址://www.webtourguide.com/paper/d1c2ea04a1170cd5a5541f606186a125

4、Enhancing AMR-to-Text Generation with Dual Graph Representations

作者:Leonardo F. R. Ribeiro, Claire Gardent, Iryna Gurevych;

摘要:基於圖的數據生成文本,如抽象意義表示(AMR),是一個具有挑戰性的任務,因為如何正確地對具有標記邊的圖的結構進行編碼存在固有的困難。為了解決這一難題,我們提出了一種新的圖-序列模型,該模型對AMR圖中包含的結構信息的不同但互補的透視圖進行編碼。該模型學習節點的自頂向下和自下而上的並行表示,以捕獲圖的對比視圖。我們還研究了不同節點消息傳遞策略的使用,使用不同的最先進的圖形編碼器來計算基於傳入和傳出透視圖的節點表示。在我們的實驗中,我們證明了對偶圖表示法可以改進AMR到文本的生成,從而在兩個AMR數據集上取得了最先進的效果。

網址:https://arxiv.org/abs/1909.00352

5、Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification

作者:Linmei Hu, Tianchi Yang, Chuan Shi, Houye Ji, Xiaoli Li ;

摘要:短文本分類在新聞和推特標記中得到了豐富而重要的應用,以幫助用戶查找相關信息。由於在許多實際用例中缺乏標記的訓練數據,因此迫切需要研究半監督短文本分類。現有的研究大多集中在長文本上,由於標記數據的稀疏性和局限性,在短文本上的表現不盡人意。本文提出了一種新的基於異構圖神經網絡的半監督短文本分類方法,該方法充分利用了標記數據少和未標記數據大的優點,實現了信息在圖上的傳播。特別是,我們提出了一種靈活的HIN(異構信息網絡)框架,用於建模短文本,它可以集成任何類型的附加信息,並捕獲它們之間的關係來解決語義稀疏性。然後,我們提出了基於節點級和類型級注意的雙重注意機製的異構圖注意網絡(HGAT)嵌入HIN進行短文本分類。注意機製可以學習不同相鄰節點的重要性,以及不同節點(信息)類型對當前節點的重要性。大量的實驗結果表明,我們提出的模型在6個基準數據集上的性能顯著優於最先進的方法。

網址:http://shichuan.org/doc/74.pdf

6、Syntax-Aware Aspect Level Sentiment Classification with Graph Attention Networks

作者:Binxuan Huang, Kathleen M. Carley ;

摘要:Aspect-level情感分類旨在識別向上下文語句給出的aspect表達的情緒。以往的基於神經網絡的方法在很大程度上忽略了句子的句法結構。在本文中,我們提出了一種新的目標依賴圖注意力網絡(TD-GAT)來進行方麵層次的情感分類,該網絡明確利用了詞語之間的依賴關係。使用依賴圖,它直接從一個方麵目標的語法上下文傳播情感特征。在我們的實驗中,我們證明了我們的方法優於使用GloVe嵌入的多個基線。我們還證明了使用BERT表示可以進一步顯著地提高性能。

網址:

//www.webtourguide.com/paper/f1eb3b3fe03a1b84427aaebb68021054

成為VIP會員查看完整內容
0
63
0
小貼士
相關VIP內容
專知會員服務
23+閱讀 · 2021年8月20日
專知會員服務
40+閱讀 · 2021年1月19日
專知會員服務
45+閱讀 · 2021年1月5日
專知會員服務
67+閱讀 · 2020年8月18日
專知會員服務
74+閱讀 · 2020年3月3日
八篇 ICCV 2019 【圖神經網絡(GNN)+CV】相關論文
專知會員服務
26+閱讀 · 2020年1月10日
五篇 ICCV 2019 的【圖神經網絡(GNN)+CV】相關論文
專知會員服務
12+閱讀 · 2020年1月9日
六篇 EMNLP 2019【圖神經網絡(GNN)+NLP】相關論文
專知會員服務
63+閱讀 · 2019年11月3日
相關論文
微信掃碼谘詢專知VIP會員
Top