https://mp.weixin.qq.com/s/yKzMxJ2pwwLYSO8ry0sJIQ

2、Attention Mechanisms in Computer Vision: A Survey(注意力機製)

清華&南開最新「視覺注意力機製Attention」綜述論文,帶你全麵了解六大類注意力機製方法

作者: Meng-Hao Guo, Tian-Xing Xu, Jiang-Jiang Liu, Zheng-Ning Liu, Peng-Tao Jiang, Tai-Jiang Mu, Song-Hai Zhang, Ralph R. Martin, Ming-Ming Cheng, Shi-Min Hu

摘要:人類可以自然有效地在複雜的場景中找到顯著區域。在這種觀察的推動下,注意力機製被引入到計算機視覺中,目的是模仿人類視覺係統的這方麵。這種注意力機製可以看作是一個基於輸入圖像特征的動態權值調整過程。注意力機製在圖像分類、目標檢測、語義分割、視頻理解、圖像生成、三維視覺、多模態任務和自監督學習等視覺任務中取得了巨大的成功。本文綜述了計算機視覺中的各種注意力機製,並對其進行了分類,如通道注意力、空間注意力、時間注意力和分支注意力; 相關的存儲庫https://github.com/MenghaoGuo/Awesome-Vision-Attentions專門用於收集相關的工作。本文還提出了注意機力製研究的未來方向。

網址: //www.webtourguide.com/paper/2329d809f32ca0840bd93429d1cef0fe

3、Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges(幾何深度學習)

重磅!《幾何深度學習》新書發布,帝國理工/DeepMind等圖ML大牛共同撰寫,160頁pdf闡述幾何DL基礎原理和統一框架

幾何深度學習是一種從對稱性和不變性的角度對大量ML問題進行幾何統一的嚐試。這些原理不僅奠定了卷積神經網絡的突破性性能和最近成功的圖神經網絡的基礎,而且也提供了一種原則性的方法來構建新型的問題特定的歸納偏差。

在本文中,我們做了一個適度的嚐試,將Erlangen項目的思維模式應用到深度學習領域,最終目標是獲得該領域的係統化和“連接點”。我們將這種幾何化嚐試稱為“幾何深度學習”,並忠實於Felix Klein的精神,提出從對稱性和不變性的原則推導出不同的歸納偏差和網絡架構。特別地,我們將重點放在一類用於分析非結構集、網格、圖和流形的神經網絡上,並表明它們可以被統一地理解為對應這些域的結構和對稱性的方法。

我們相信這篇文章將吸引深度學習研究人員、實踐者和愛好者的廣泛受眾。新手可以用它來概述和介紹幾何深度學習。經驗豐富的深度學習專家可能會發現從基本原理推導熟悉架構的新方法,也許還會發現一些令人驚訝的聯係。實踐者可以獲得如何解決各自領域問題的新見解。

https://geometricdeeplearning.com/

網址:

//www.webtourguide.com/paper/1f6bbac326bd8b7c0c8554acaa169012

4、A Survey of Transformers(Transformer綜述論文)

複旦大學邱錫鵬教授等「Transformers全麵綜述」論文

作者:Tianyang Lin,Yuxin Wang,Xiangyang Liu,Xipeng Qiu

摘要:Transformers 在自然語言處理、計算機視覺和音頻處理等許多人工智能領域都取得了巨大的成功。因此,自然會引起學術界和工業界研究人員的極大興趣。到目前為止,各種各樣的Transformer變種(即X-formers)已經被提出,但是,關於這些Transformer器變種的係統和全麵的文獻綜述仍然缺乏。在這項綜述中,我們提供了一個全麵的Transformer綜述。我們首先簡單介紹了普通的Transformer,然後提出了一個x-former的新分類。接下來,我們將從三個方麵介紹不同的x -former架構修改,預訓練和應用。最後,展望了未來的研究方向。

網址: //www.webtourguide.com/paper/f03a47eb6ddb5d23c07f51662f3220a0

5、Model Complexity of Deep Learning: A Survey(深度學習模型複雜性)

裴健等發布首篇「深度學習模型複雜性」綜述論文,44頁pdf闡述深度學習模型框架、模型規模、優化過程和數據複雜性

作者:Xia Hu,Lingyang Chu,Jian Pei,Weiqing Liu,Jiang Bian

摘要:

模型複雜性是深度學習的一個基本問題。

本文對深度學習中模型複雜性的最新研究進行了係統的綜述。深度學習的模型複雜度可分為表達能力和有效模型複雜度。

從模型框架、模型規模、優化過程和數據複雜性四個方麵回顧了現有的研究成果。我們還討論了深度學習模型複雜性的應用,包括理解模型泛化能力、模型優化、模型選擇和設計。

最後,我們提出幾個有趣的未來方向。

網址: //www.webtourguide.com/paper/f7c683dfd6eb2f07eba0ed31d337345c

6、Towards Out-Of-Distribution Generalization: A Survey(分布外泛化)

清華大學崔鵬等最新「分布外泛化(Out-Of-Distribution Generalization)」 綜述論文

作者:Zheyan Shen,Jiashuo Liu,Yue He,Xingxuan Zhang,Renzhe Xu,Han Yu,Peng Cui

摘要: 經典的機器學習方法是建立在i.i.d.假設的基礎上的,即訓練和測試數據是獨立同分布的。然而,在真實場景中,i.i.d.假設很難得到滿足,導致經典機器學習算法在分布移位下的性能急劇下降,這表明研究非分布泛化問題的重要性。Out-of-Distribution分布外 (OOD)泛化問題解決了測試分布未知且與訓練不同的挑戰性設置。本文首次係統、全麵地探討了OOD泛化問題,從定義、方法、評價到啟示和未來發展方向。首先,給出了OOD泛化問題的形式化定義。其次,根據現有方法在整個學習流程中的位置,將其分為無監督表示學習、有監督模型學習與優化三部分,並詳細討論了每一類的典型方法。然後,我們展示了不同類別的理論聯係,並介紹了常用的數據集和評價指標。最後,對全文文獻進行了總結,並對OOD泛化問題提出了未來的研究方向。本次綜述OOD泛化文獻可在http://out-of-distribution-generalization.com上找到。

網址: //www.webtourguide.com/paper/ba690c59e0f80fc34e779b1daa769988

7、Deep Long-Tailed Learning: A Survey(深度長尾學習)

NUS顏水成等發布首篇《深度長尾學習》綜述,20頁pdf172篇文獻闡述長尾類別深度學習進展

作者:Yifan Zhang, Bingyi Kang, Bryan Hooi, Shuicheng Yan, Jiashi Feng

摘要:深度長尾學習是視覺識別中最具挑戰性的問題之一,其目標是從大量遵循長尾類分布的圖像中訓練出性能良好的深度模型。在過去的十年中,深度學習已經成為一種學習高質量圖像表示的強大的識別模型,並導致了一般視覺識別的顯著突破。然而,長尾類不平衡是實際視覺識別任務中普遍存在的問題,這種不平衡往往限製了基於深度網絡的識別模型在實際應用中的實用性,因為長尾類容易偏向主導類,在尾類上的表現較差。為了解決這一問題,近年來人們進行了大量的研究,在深度長尾學習領域取得了可喜的進展。鑒於該領域的快速發展,本文對深度長尾學習的最新進展進行了綜述。具體地說,我們將已有的深度長尾學習研究分為三類(即類重平衡、信息增強和模塊改進),並根據這三類對這些方法進行了詳細的回顧。之後,我們通過一種新提出的評價指標,即相對準確性,來評估它們在多大程度上解決了階級失衡問題,從而對幾種最先進的方法進行了實證分析。最後,我們強調了深度長尾學習的重要應用,並確定了未來研究的幾個有前景的方向。

網址: //www.webtourguide.com/paper/195ac6db0eea180eb9d5b5ef8f4ab0f4

8、Trustworthy AI: From Principles to Practices(可信人工智能)

京東等學者發布《可信賴人工智能》綜述論文,62頁pdf449篇文獻全麵闡述可信賴AI的理論與方法

作者:Bo Li,Peng Qi,Bo Liu,Shuai Di,Jingen Liu,Jiquan Pei,Jinfeng Yi,Bowen Zhou

摘要: 人工智能(AI)技術的發展使各種應用係統得以應用於現實世界,影響著人們的日常生活。然而,目前很多人工智能係統被發現容易受到無形的攻擊,對弱勢群體存在偏見,缺乏對用戶隱私的保護等,這不僅降低了用戶體驗,也侵蝕了社會對所有人工智能係統的信任。在這篇綜述中,我們努力為人工智能從業者提供一個全麵的指南,以構建可信賴的人工智能係統。我們首先介紹了人工智能可信度的重要方麵的理論框架,包括穩健性、泛化性、可解釋性、透明度、再現性、公平性、隱私保護、與人類價值觀的一致性和問責性。然後我們調研了行業中在這些方麵的領先方法。為了統一目前零散的人工智能方法,我們提出了一種係統的方法,考慮人工智能係統的整個生命周期,從數據采集到模型開發,到開發和部署,最後到持續監測和治理。在這個框架中,我們向從業者和社會利益相關者(如研究人員和監管機構)提供具體的行動項目,以提高人工智能的可信度。最後,我們確定可信賴的人工智能係統未來發展的關鍵機遇和挑戰,我們確定需要向全麵可信賴的人工智能係統轉變範式。

網址:

//www.webtourguide.com/paper/00386996069b8168827d03f0c809a462

9、Masked Autoencoders Are Scalable Vision Learners(簡單實用的自監督學習掩碼自編碼MAE)

何愷明最新一作論文:簡單實用的自監督學習掩碼自編碼MAE,ImageNet-1K 87.8%!

作者:Kaiming He,Xinlei Chen,Saining Xie,Yanghao Li,Piotr Dollár,Ross Girshick

摘要:

何愷明提出一種用於計算機視覺的可擴展自監督學習方案Masked AutoEncoders(MAE)。所提MAE極為簡單:對輸入圖像進行塊隨機mask並對遺失像素進行重建。它基於以下兩個核心設計:

我們設計了一種非對稱編解碼架構,其中編碼器僅作用於可見塊(無需mask信息),而解碼器則通過隱表達與mask信息進行原始圖像重建;

我們發現對輸入圖像進行高比例mask(比如75%)可以產生一項重要且有意義的自監督任務。

上述兩種設計促使我們可以更高效的訓練大模型:我們加速訓練達3x甚至更多,同時提升模型精度。所提方案使得所得高精度模型具有很好的泛化性能:僅需ImageNet-1K,ViT-Huge取得了87.8%的top1精度 。下遊任務的遷移取得了優於監督訓練的性能,證實了所提方案的可擴展能力。 網址:

//www.webtourguide.com/paper/1dbb3e8f5e16dc9a048a02ceee8eb617

10、徐宗本院士談人工智能的10個重大數理基礎問題

徐宗本院士:人工智能的10個重大數理基礎問題

作為新一代信息技術的代表,人工智能已經廣泛應用於科學、社會、經濟、管理的方方麵麵,已經和正在成為創新驅動發展的核心驅動力之一。然而,就其技術發展而言,人工智能還隻是突破了從“不可用” 到“可以用”的技術拐點,從“可以用”到“很好用” “用得好”還存在諸多技術瓶頸,正呼喚重大技術變革。

技術變革的先導是理論創新,即基礎研究。它是指對事物本質和規律的科學化探尋和揭示,是啟發、促動技術變革的激發源和理論依據。理論創新既應包括對原有理論體係或框架的新突破、對原有理論 和方法的新修正和新發展,也包括對理論禁區和未知領域的新探索。

本文主要關注人工智能技術發展當前亟待解決的重大數理基礎問題。為什麼要特別關注 AI 的數理基礎問題呢?這是因為當前人工智能技術和發展主要是靠“算例、算法、算力”所驅動的,其基礎是數據,其核心是算法,這二者都深刻地以數學為基礎。數學主要提供對所研究問題的形式化手段、模型化工具和科學化語言。沒有形式化就沒有程式化和計算機化,沒有模型化就沒有定量化和知識化,沒有科學化就沒有係統化和現代化。所以,數學在科學技術中具有獨特的作用和價值。對人工智能而言,數學不僅僅是工具,還是技術內涵本身, 而且常常也是最能體現本質、原始創新的部分。

本文提出並闡述人工智能研究與應用中凾待解決的10個重大數理基礎問題,包括:

(1) 大數據的統計學基礎; (2) 大數據計算的基礎算法; (3) 數據空間的結構與特性; (4) 深度學習的數學機理; (5) 非正規約束下的最優輸運; (6) 如何學習學習方法論; (7) 如何突破機器學習的先驗假設; (8) 機器學習的自動化; (9) 知識推理與數據學習的融合; (10) 智能尋優與人工智能芯片問題.

"> 2021->2022必看的十篇「深度學習領域綜述」論文 - 專知VIP

1、周誌華教授:關於深度學習的一點思考

作者:周誌華

摘要:深度學習已被廣泛應用到涉及圖像、視頻、語音等的諸多任務中並取得巨大成功。如 果我們問“深度學習是什麼?”很可能會得到這樣的回答:“深度學習就是深度神經網 絡”。至少在目前,當“深度學習”作為一個術語時幾乎就是“深度神經網絡”的同義詞, 而當它指向一個技術領域時則如 SIAM News 頭版文章所稱[1],是“機器學習中使用深度 神經網絡的子領域”。關於深度學習有很多問題還不清楚。例如深度神經網絡為什麼要“深”?它成功背 後的關鍵因素是什麼?深度學習隻能是深度神經網絡嗎?本文將分享一些我們關於深度 學習的粗淺思考。

網址:https://mp.weixin.qq.com/s/yKzMxJ2pwwLYSO8ry0sJIQ

2、Attention Mechanisms in Computer Vision: A Survey(注意力機製)

清華&南開最新「視覺注意力機製Attention」綜述論文,帶你全麵了解六大類注意力機製方法

作者: Meng-Hao Guo, Tian-Xing Xu, Jiang-Jiang Liu, Zheng-Ning Liu, Peng-Tao Jiang, Tai-Jiang Mu, Song-Hai Zhang, Ralph R. Martin, Ming-Ming Cheng, Shi-Min Hu

摘要:人類可以自然有效地在複雜的場景中找到顯著區域。在這種觀察的推動下,注意力機製被引入到計算機視覺中,目的是模仿人類視覺係統的這方麵。這種注意力機製可以看作是一個基於輸入圖像特征的動態權值調整過程。注意力機製在圖像分類、目標檢測、語義分割、視頻理解、圖像生成、三維視覺、多模態任務和自監督學習等視覺任務中取得了巨大的成功。本文綜述了計算機視覺中的各種注意力機製,並對其進行了分類,如通道注意力、空間注意力、時間注意力和分支注意力; 相關的存儲庫https://github.com/MenghaoGuo/Awesome-Vision-Attentions專門用於收集相關的工作。本文還提出了注意機力製研究的未來方向。

網址://www.webtourguide.com/paper/2329d809f32ca0840bd93429d1cef0fe

3、Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges(幾何深度學習)

重磅!《幾何深度學習》新書發布,帝國理工/DeepMind等圖ML大牛共同撰寫,160頁pdf闡述幾何DL基礎原理和統一框架

幾何深度學習是一種從對稱性和不變性的角度對大量ML問題進行幾何統一的嚐試。這些原理不僅奠定了卷積神經網絡的突破性性能和最近成功的圖神經網絡的基礎,而且也提供了一種原則性的方法來構建新型的問題特定的歸納偏差。

在本文中,我們做了一個適度的嚐試,將Erlangen項目的思維模式應用到深度學習領域,最終目標是獲得該領域的係統化和“連接點”。我們將這種幾何化嚐試稱為“幾何深度學習”,並忠實於Felix Klein的精神,提出從對稱性和不變性的原則推導出不同的歸納偏差和網絡架構。特別地,我們將重點放在一類用於分析非結構集、網格、圖和流形的神經網絡上,並表明它們可以被統一地理解為對應這些域的結構和對稱性的方法。

我們相信這篇文章將吸引深度學習研究人員、實踐者和愛好者的廣泛受眾。新手可以用它來概述和介紹幾何深度學習。經驗豐富的深度學習專家可能會發現從基本原理推導熟悉架構的新方法,也許還會發現一些令人驚訝的聯係。實踐者可以獲得如何解決各自領域問題的新見解。

https://geometricdeeplearning.com/

網址:

//www.webtourguide.com/paper/1f6bbac326bd8b7c0c8554acaa169012

4、A Survey of Transformers(Transformer綜述論文)

複旦大學邱錫鵬教授等「Transformers全麵綜述」論文

作者:Tianyang Lin,Yuxin Wang,Xiangyang Liu,Xipeng Qiu

摘要:Transformers 在自然語言處理、計算機視覺和音頻處理等許多人工智能領域都取得了巨大的成功。因此,自然會引起學術界和工業界研究人員的極大興趣。到目前為止,各種各樣的Transformer變種(即X-formers)已經被提出,但是,關於這些Transformer器變種的係統和全麵的文獻綜述仍然缺乏。在這項綜述中,我們提供了一個全麵的Transformer綜述。我們首先簡單介紹了普通的Transformer,然後提出了一個x-former的新分類。接下來,我們將從三個方麵介紹不同的x -former架構修改,預訓練和應用。最後,展望了未來的研究方向。

網址://www.webtourguide.com/paper/f03a47eb6ddb5d23c07f51662f3220a0

5、Model Complexity of Deep Learning: A Survey(深度學習模型複雜性)

裴健等發布首篇「深度學習模型複雜性」綜述論文,44頁pdf闡述深度學習模型框架、模型規模、優化過程和數據複雜性

作者:Xia Hu,Lingyang Chu,Jian Pei,Weiqing Liu,Jiang Bian

摘要:

模型複雜性是深度學習的一個基本問題。

本文對深度學習中模型複雜性的最新研究進行了係統的綜述。深度學習的模型複雜度可分為表達能力和有效模型複雜度。

從模型框架、模型規模、優化過程和數據複雜性四個方麵回顧了現有的研究成果。我們還討論了深度學習模型複雜性的應用,包括理解模型泛化能力、模型優化、模型選擇和設計。

最後,我們提出幾個有趣的未來方向。

網址://www.webtourguide.com/paper/f7c683dfd6eb2f07eba0ed31d337345c

6、Towards Out-Of-Distribution Generalization: A Survey(分布外泛化)

清華大學崔鵬等最新「分布外泛化(Out-Of-Distribution Generalization)」 綜述論文

作者:Zheyan Shen,Jiashuo Liu,Yue He,Xingxuan Zhang,Renzhe Xu,Han Yu,Peng Cui

摘要: 經典的機器學習方法是建立在i.i.d.假設的基礎上的,即訓練和測試數據是獨立同分布的。然而,在真實場景中,i.i.d.假設很難得到滿足,導致經典機器學習算法在分布移位下的性能急劇下降,這表明研究非分布泛化問題的重要性。Out-of-Distribution分布外 (OOD)泛化問題解決了測試分布未知且與訓練不同的挑戰性設置。本文首次係統、全麵地探討了OOD泛化問題,從定義、方法、評價到啟示和未來發展方向。首先,給出了OOD泛化問題的形式化定義。其次,根據現有方法在整個學習流程中的位置,將其分為無監督表示學習、有監督模型學習與優化三部分,並詳細討論了每一類的典型方法。然後,我們展示了不同類別的理論聯係,並介紹了常用的數據集和評價指標。最後,對全文文獻進行了總結,並對OOD泛化問題提出了未來的研究方向。本次綜述OOD泛化文獻可在http://out-of-distribution-generalization.com上找到。

網址://www.webtourguide.com/paper/ba690c59e0f80fc34e779b1daa769988

7、Deep Long-Tailed Learning: A Survey(深度長尾學習)

NUS顏水成等發布首篇《深度長尾學習》綜述,20頁pdf172篇文獻闡述長尾類別深度學習進展

作者:Yifan Zhang, Bingyi Kang, Bryan Hooi, Shuicheng Yan, Jiashi Feng

摘要:深度長尾學習是視覺識別中最具挑戰性的問題之一,其目標是從大量遵循長尾類分布的圖像中訓練出性能良好的深度模型。在過去的十年中,深度學習已經成為一種學習高質量圖像表示的強大的識別模型,並導致了一般視覺識別的顯著突破。然而,長尾類不平衡是實際視覺識別任務中普遍存在的問題,這種不平衡往往限製了基於深度網絡的識別模型在實際應用中的實用性,因為長尾類容易偏向主導類,在尾類上的表現較差。為了解決這一問題,近年來人們進行了大量的研究,在深度長尾學習領域取得了可喜的進展。鑒於該領域的快速發展,本文對深度長尾學習的最新進展進行了綜述。具體地說,我們將已有的深度長尾學習研究分為三類(即類重平衡、信息增強和模塊改進),並根據這三類對這些方法進行了詳細的回顧。之後,我們通過一種新提出的評價指標,即相對準確性,來評估它們在多大程度上解決了階級失衡問題,從而對幾種最先進的方法進行了實證分析。最後,我們強調了深度長尾學習的重要應用,並確定了未來研究的幾個有前景的方向。

網址://www.webtourguide.com/paper/195ac6db0eea180eb9d5b5ef8f4ab0f4

8、Trustworthy AI: From Principles to Practices(可信人工智能)

京東等學者發布《可信賴人工智能》綜述論文,62頁pdf449篇文獻全麵闡述可信賴AI的理論與方法

作者:Bo Li,Peng Qi,Bo Liu,Shuai Di,Jingen Liu,Jiquan Pei,Jinfeng Yi,Bowen Zhou

摘要: 人工智能(AI)技術的發展使各種應用係統得以應用於現實世界,影響著人們的日常生活。然而,目前很多人工智能係統被發現容易受到無形的攻擊,對弱勢群體存在偏見,缺乏對用戶隱私的保護等,這不僅降低了用戶體驗,也侵蝕了社會對所有人工智能係統的信任。在這篇綜述中,我們努力為人工智能從業者提供一個全麵的指南,以構建可信賴的人工智能係統。我們首先介紹了人工智能可信度的重要方麵的理論框架,包括穩健性、泛化性、可解釋性、透明度、再現性、公平性、隱私保護、與人類價值觀的一致性和問責性。然後我們調研了行業中在這些方麵的領先方法。為了統一目前零散的人工智能方法,我們提出了一種係統的方法,考慮人工智能係統的整個生命周期,從數據采集到模型開發,到開發和部署,最後到持續監測和治理。在這個框架中,我們向從業者和社會利益相關者(如研究人員和監管機構)提供具體的行動項目,以提高人工智能的可信度。最後,我們確定可信賴的人工智能係統未來發展的關鍵機遇和挑戰,我們確定需要向全麵可信賴的人工智能係統轉變範式。

網址:

//www.webtourguide.com/paper/00386996069b8168827d03f0c809a462

9、Masked Autoencoders Are Scalable Vision Learners(簡單實用的自監督學習掩碼自編碼MAE)

何愷明最新一作論文:簡單實用的自監督學習掩碼自編碼MAE,ImageNet-1K 87.8%!

作者:Kaiming He,Xinlei Chen,Saining Xie,Yanghao Li,Piotr Dollár,Ross Girshick

摘要:

何愷明提出一種用於計算機視覺的可擴展自監督學習方案Masked AutoEncoders(MAE)。所提MAE極為簡單:對輸入圖像進行塊隨機mask並對遺失像素進行重建。它基於以下兩個核心設計:

我們設計了一種非對稱編解碼架構,其中編碼器僅作用於可見塊(無需mask信息),而解碼器則通過隱表達與mask信息進行原始圖像重建;

我們發現對輸入圖像進行高比例mask(比如75%)可以產生一項重要且有意義的自監督任務。

上述兩種設計促使我們可以更高效的訓練大模型:我們加速訓練達3x甚至更多,同時提升模型精度。所提方案使得所得高精度模型具有很好的泛化性能:僅需ImageNet-1K,ViT-Huge取得了87.8%的top1精度 。下遊任務的遷移取得了優於監督訓練的性能,證實了所提方案的可擴展能力。 網址:

//www.webtourguide.com/paper/1dbb3e8f5e16dc9a048a02ceee8eb617

10、徐宗本院士談人工智能的10個重大數理基礎問題

徐宗本院士:人工智能的10個重大數理基礎問題

作為新一代信息技術的代表,人工智能已經廣泛應用於科學、社會、經濟、管理的方方麵麵,已經和正在成為創新驅動發展的核心驅動力之一。然而,就其技術發展而言,人工智能還隻是突破了從“不可用” 到“可以用”的技術拐點,從“可以用”到“很好用” “用得好”還存在諸多技術瓶頸,正呼喚重大技術變革。

技術變革的先導是理論創新,即基礎研究。它是指對事物本質和規律的科學化探尋和揭示,是啟發、促動技術變革的激發源和理論依據。理論創新既應包括對原有理論體係或框架的新突破、對原有理論 和方法的新修正和新發展,也包括對理論禁區和未知領域的新探索。

本文主要關注人工智能技術發展當前亟待解決的重大數理基礎問題。為什麼要特別關注 AI 的數理基礎問題呢?這是因為當前人工智能技術和發展主要是靠“算例、算法、算力”所驅動的,其基礎是數據,其核心是算法,這二者都深刻地以數學為基礎。數學主要提供對所研究問題的形式化手段、模型化工具和科學化語言。沒有形式化就沒有程式化和計算機化,沒有模型化就沒有定量化和知識化,沒有科學化就沒有係統化和現代化。所以,數學在科學技術中具有獨特的作用和價值。對人工智能而言,數學不僅僅是工具,還是技術內涵本身, 而且常常也是最能體現本質、原始創新的部分。

本文提出並闡述人工智能研究與應用中凾待解決的10個重大數理基礎問題,包括:

(1) 大數據的統計學基礎; (2) 大數據計算的基礎算法; (3) 數據空間的結構與特性; (4) 深度學習的數學機理; (5) 非正規約束下的最優輸運; (6) 如何學習學習方法論; (7) 如何突破機器學習的先驗假設; (8) 機器學習的自動化; (9) 知識推理與數據學習的融合; (10) 智能尋優與人工智能芯片問題.

成為VIP會員查看完整內容
4
65
0

相關內容

機器學習的一個分支,它基於試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一係列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

近幾年來,將深度學習應用到處理和圖結構數據相關的任務中越來越受到人們的關注.圖神經 網絡的出現使其在上述任務中取得了重大突破,比如在社交網絡、自然語言處理、計算機視覺甚至生命 科學等領域得到了非常廣泛的應用.圖神經網絡可以把實際問題看作圖中節點之間的連接和消息傳播 問題,對節點之間的依賴關係進行建模,從而能夠很好地處理圖結構數據.鑒於此,係統綜述了圖神經網絡模型以及應用.首先從譜域、空間域和池化3方麵對圖卷積神經網絡進行了闡述.然後,描述了基於注意 力機製和自編碼器的圖神經網絡模型,並補充了一些其他方法實現的圖神經網絡.其次,總結了針對圖 神經網絡能不能做大做深等問題的討論分析.進而,概括了圖神經網絡的4個框架.還詳細說明了在圖 神經網絡在自然語言處理、計算機視覺等方麵的應用.最後,對圖神經網絡未來的研究進行了展望和總 結.相較於已有的圖神經網絡綜述文章,詳細闡述了譜理論知識,並對基於譜域的圖卷積神經網絡體係 進行全麵總結.同時,給出了針對空間域圖卷積神經網絡效率低的改進模型這一新的分類標準.並總結 了針對圖神經網絡表達能力、理論保障等的討論分析,增加了新的框架模型.在應用部分,闡述了圖神經 網絡的最新應用.

在過去幾年,深度學習已經在人工智能和機器 學習上取得了成功,給社會帶來了巨大的進步.深度 學習的特點是堆積多層的神經網絡層,從而具有更 好的學 習 表 示 能 力.卷 積 神 經 網 絡 (convolutional neuralnetwork,CNN)的飛速發展更是將深度學習 帶上了一個新的台階[1G2].CNN 的平移不變性、局部 性和組合性使其天然適用於處理像圖像這樣的歐氏 結構數據的任務中[3G4],同時也可以應用於機器學習 的其他各個領域[5G7].深度學習的成功一部分源自於 可以從歐氏數據中提取出有效的數據表示,從而對 其進行高效的處理.另一個原因則是得益於 GPU 的 快速發展,使得計算機具有強大的計算和存儲能力, 能夠在大規模的數據集中訓練和學習深度學習模 型.這使得深度學習在自然語言處理[8]、機器視覺[9] 和推薦係統[10]等領域都表現出了良好的性能.

但是, 現有的神經網絡隻能對常規的歐氏結構 數據進行處理.如圖1(a)歐氏數據結構,其特點就是 節點有固定的排列規則和順序,如2維網格和1維 序列.而當前越來越多的實際應用問題必須要考慮 非歐氏數據,如圖1(b)非歐氏數據結構中節點沒有 固定的排列規則和順序,這就使得不能直接將傳統 的深度學習模型遷移到處理非歐氏結構數據的任務 中.如若直接將 CNN 應用到其中,由於非歐氏數據中心節點的鄰居節點數量和排列順序不固定,不滿 足平移不變性,這就很難在非歐氏數據中定義卷積 核.針對圖神經網絡(graphneuralnetwork,GNN) 的研究工作,最開始就是在如何固定鄰居節點數量 以及如何給鄰居節點排序展開的,比如 PATCHYG SAN [11],LGCN [12],DCNN [13]方法等.完成上述2項 工作之後,非歐氏結構數據就轉化為歐氏結構數據, 然後就可以利用 CNN 處理.圖是具有點和邊的典型 非歐氏數據,在實際中可以將各種非歐氏數據問題 抽象為圖結構.比如在交通係統中,利用基於圖的學 習模型可以對路況信息進行有效的預測[14].在計算 機視覺中,將人與物的交互看作一種圖結構,可以對 其進行有效地識別[15]。

近期已有一些學者對圖神經網絡及其圖卷積神經網絡分支進行了綜述[16G19].本文的不同之處在於,首先由於經典模型是很多變體模型的基石,所以給 出了經典模型的理論基礎以及詳細推理步驟.在1.2 節基於空間方法的圖卷積神經網絡中,多用圖的形 式列出模型的實現過程,使模型更加通俗易懂.文獻 [16G19]並未對目前廣大學者熱點討論的問題進行 總結,所以在第5節針對圖神經網絡的討論部分,首 次列出了目前研究學者對 GNN 的熱點關注問題, 比如其表達能力、過平滑問題等.然後,在第6節中 總結了圖神經網絡新框架.同時,針對圖神經網絡的 應用,在第7節中較全麵地介紹了 GNN 的應用場 景.最後,列出了圖神經網絡未來的研究方向.在圖2 中列出了本文的主體結構.

研究圖神經網絡對推動深度學習的發展以及人 類的進步具有重大意義.首先,現實中越來越多的問 題可以抽象成非歐氏結構數據,由於圖數據的不規 則性,傳統的深度學習模型已經不能處理這種數據, 這就亟需研究設計一種新的深度神經網絡.而 GNN 所處理的數據對象就是具有不規則結構的圖數據,GNN 便在這種大背景下應運而生[20G21].然後,圖數 據的結構和任務是十分豐富的.這種豐富的結構和 任務也正是和人們生活中要處理的實際問題相貼合 的.比如,圖數據有異質性以及邊的有向連接特性, 這和推薦係統中的場景完全類似.圖數據處理任務 中節點級別、邊級別以及整圖級別也同樣可以應用到深度學習的各個應用場景中.所以,GNN 的研究 為解決生活中的實際問題找到了一種新的方法和途 徑.最後,GNN 的應用領域是十分廣泛的,能夠處理 各種能抽象成圖數據的任務.不管是在傳統的自然 語言處理領域[22G24]或者圖像領域[25G26],還是在新興 的生化領域[27G28],GNN都能表現出強大的性能.

1 圖卷積神經網絡

CNN 已經在圖像識別、自然語言處理等多個領 域取得了不俗的成績,但其隻能高效地處理網格和 序列等這樣規則的歐氏數據.不能有效地處理像社 交多媒體網絡數據、化學成分結構數據、生物蛋白數 據以及知識圖譜數據等圖結構的非歐氏數據.為此, 無數學者經過不懈努力,成功地將 CNN 應用到圖 結構的非歐氏數據上,提出了圖卷積神經網絡(graph convolutionalnetwork,GCN).GCN 是 GNN 中一 個重要分支,現有的大多數模型基本上都是在此基 礎上變化推導而來.下麵我們將按照從基於譜方法、 空間方法和池化3方麵對 GCN 進行總結和概括.

2 基於注意力實現的圖神經網絡

注意力機製在處理序列任務已經表現出強大的 能力[60],比如在機器閱讀和學習 句 子 表 征 的 任 務 中.其強大的優勢在於允許可變大小的輸入,然後利 用注意力機製隻關心最重要的部分,最後做出決策處理.一些研究發現,注意力機製可以改進卷積方 法,從而可以構建一個強大的模型,在處理一些任務 時能夠取得更好的性能.為此,文獻[61]將注意力機 製引入到了圖神經網絡中對鄰居節點聚合的過程 中,提出了圖注意力網絡(graphattentionnetworks, GAT).在傳統的 GNN 框架中,加入了注意力層,從 而可以學習出各個鄰居節點的不同權重,將其區別對待.進而在聚合鄰居節點的過程中隻關注那些作 用比較大的節點,而忽視一些作用較小的節點.GAT 的核心思想是利用神經網絡學習出各個鄰居節點的 權重,然後利用不同權重的鄰居節點更新出中心節 點的表示。

3 基於自編碼器實現的圖神經網絡

在無監督學習任務中,自編碼器(autoencoder, AE)及其變體扮演者非常重要的角色,它借助於神 經網絡模型實現隱表示學習,具有強大的數據特征 提取能力.AE 通過編碼器和解碼器實現對輸入數 據的有效表示學習,並且學習到的隱表示的維數可 以遠遠小於輸入數據的維數,實現降維的目的.AE 是目前隱表示學習的首選深度學習技術,當我們把 具有某些聯係的原始數據(X1,X2,…,Xn)輸入到 AE中進行重構學習時,可以完成特征提取的任務. 自編碼器的應用場景是非常廣泛的,經常被用於數據去噪、圖像重構以及異常檢測等任務中.除此之 外,當 AE被用於生成與訓練數據類似的數據時, 稱之為生成式模型.由於 AE具有上述優點,一些學 者便將 AE 及其變體模型應用到圖神經網絡當中 來.文 獻 [69]第 1 個 提 出 了 基 於 變 分 自 編 碼 器 (variationalautoencoder,VAE)的變分圖自編碼器 模型 (variationalgraphautoencoder,VGAE),將 VAE應用到對圖結構數據的處理上.VGAE利用隱 變量學習出無向圖的可解釋隱表示,使用了圖卷積 網絡編碼器和一個簡單的內積解碼器來實現這個模 型.

4. 未來研究展望 GNN

雖然起步較晚, 但由於其強大的性能, 已經取得了不俗的表現, 並且也在例如計算機視覺和推薦係統等實際應用中發揮著巨大的作用.不難發現, GNN 確實更符合當前實際應用的發展趨勢, 所 以 在 近 幾 年 才 會 得 到 越 來 越 多 人 的 關 注.但 是, GNN 畢竟起步較晚,還沒有時間積累,研究的深度 和領域還不夠寬廣.目前來看,它依然麵臨著許多亟 待解決的問題,本節總結了 GNN 以後的研究趨勢.

1) 動態圖.目前,GNN 處理的圖結構基本上都 是靜態圖,涉及動態圖結構的模型較少[138G139],處理 動態圖對 GNN 來說是一個不小的挑戰.靜態圖的 圖結構是靜態不變的,而動態圖的頂點和邊是隨機 變化的,甚至會消失,並且有時還沒有任何規律可 循.目前針對 GNN 處理動態圖結構的研究還是比 較少的,還不夠成熟.如果 GNN 能夠成功應用於動 態圖結構上,相信這會使 GNN 的應用領域更加寬 廣.將 GNN 模型成功地推廣到動態圖模型是一個 熱點研究方向.

2) 異質圖.同質圖是指節點和邊隻有一種類型, 這種數據處理起來較容易.而異質圖則是指節點和 邊的類型不隻一種,同一個節點和不同的節點連接 會表現出不同的屬性,同一條邊和不同的節點連接 也會表現出不同的關係,這種異質圖結構處理起來 就相對複雜.但異質圖卻是和實際問題最為貼切的 場景,比如在社交網絡中,同一個人在不同的社交圈 中可能扮演著父親、老師等不同的角色.對於異質圖 的研究還處在剛起步的階段[140G141],模型方法還不 夠完善.所以,處理異質圖也是將來研究的一個熱點.

3) 構建更深的圖神經網絡模型.深度學習的強 大優勢在於能夠形成多層的不同抽象層次的隱表 示,從而才能表現出優於淺層機器學習的強大優勢. 但對於圖深度學習來說,現有的圖神經網絡模型大 多還是隻限於淺層的結構.通過實驗發現,當構造多 層的神經網絡時,實驗結果反而變差.這是由過平滑 現象造成的,GNN 的本質是通過聚合鄰居節點信息 來表征中心節點.當構造多層的神經網絡之後,中心 節點和鄰 居 節 點 的 差 異 就 會 變 得 微 乎 其 微,從 而 會導致分類結果變差.如何解決過平滑現象,使圖神 經網絡能夠應用於更多層的結構,從而發揮出深度 學習的強大優勢.雖然已有文獻對其進行了討論[91], 但構建更深的圖神經網絡模型仍是值得深入研究的 問題.

4) 將圖神經網絡應用到大圖上.隨著互聯網的 普及,圖神經網絡處理的數據也變得越來越大,致使 圖中的節點數量變得巨大,這就給圖神經網絡的計 算帶來了不小的挑戰.雖然一些學者對該問題進行 了研究改進[142],但針對將圖神經網絡應用到大圖 上的研究同樣是將來研究的熱點問題,在這方麵,引 入摘要數據結構,構造局部圖數據,並能適當地融合 局部圖結構,形成整體圖神經網絡的表示是可能的 思路.

5) 探索圖中更多有用的信息.在當前諸多學者 對於圖神經網絡模型的研究中,僅僅利用了圖中節 點之間有無連接這一拓撲結構信息.但是,圖是一個 非常複雜的數據結構,裏麵還有很多有用的信息未 被人們發現利用.比如,圖中節點的位置信息.中心 節點的同階鄰居節點處於不同位置,距離中心節點 的遠近不同應該會對中心節點產生的影響程度不 同.如果能夠探索出圖中更多的有用信息,必會將圖 神經網絡的性能提升一個層次,這是一個非常值得 探討的問題.

6) 設計圖神經網絡的數學理論保障體係.任何 神經網絡模型必須有強大的數學理論支撐才能發展 得更快,走得更遠.現在對於圖神經網絡模型的設 計,大多還隻是依靠研究者的經驗和基於機理邏輯 設計出來的,並且對於圖神經網絡模型的性能分析 僅僅是從實驗結果中得來,並沒有從數學理論層麵 給出 一 個 合 理 的 解 釋.目 前,該 領 域 已 有 一 些 研 究[90G91],但為圖神經網絡設計出強大的數學理論,指 導圖神經網絡的構造、學習和推理過程.能夠給出圖 神經網絡學習結果正確性的數學理論保障,仍是未 來發展的一個重要方向.

  1. 圖神經網絡的工業落地.當前對於圖神經網 絡的研究大多還隻是停留在理論層麵,首先設計出模型,然後在公開數據集上進行測試驗證,鮮有把工 業的實際情況考慮在內.雖然圖神經網絡在工業上 已有一小部分的實際應用,但還遠沒有達到大規模 應用的程度.任何研究隻有真正地在工業界落地,才 能發揮它的應用價值,反之也會促進其進一步的研 究發展.盡快將圖神經網絡應用到實際的工業場景 中,是一個亟需解決的問題.
成為VIP會員查看完整內容
5
55
0

開放型對話是對話係統的一個重要分支,有著極強的應用前景。它不同於任務型對話,具有較強的隨機性和不確定性。該文從回複方式驅動對話技術發展這個角度切入,進行開放型對話技術發展過程的梳理,緊扣序列到序列及其改良模型在對話生成場景中應用的這條主要線索,對開放型對話的關鍵技術進行了探討和研究。上述研究勾畫出了從單輪對話到多輪對話發展的主要研究主線。為進一步探索對話技術發展的內在規律和發展趨勢,通過研究發現,基於序列到序列的生成模型在麵向多輪對話生成的任務場景時,顯現出模型實現特點和應用場景不完全匹配的問題。因此,在該文的最後,從引入外部知識、改寫機製及代理機製三個角度切入,初步探索了相關技術針對多輪對話生成的可能改進方向。

http://jcip.cipsc.org.cn/CN/abstract/abstract3213.shtml

成為VIP會員查看完整內容
0
24
0

摘要

人類可以自然有效地在複雜的場景中找到顯著區域。在這種觀察的推動下,注意力機製被引入到計算機視覺中,目的是模仿人類視覺係統的這方麵。這種注意力機製可以看作是一個基於輸入圖像特征的動態權值調整過程。注意力機製在圖像分類、目標檢測、語義分割、視頻理解、圖像生成、三維視覺、多模態任務和自監督學習等視覺任務中取得了巨大的成功。本文綜述了計算機視覺中的各種注意力機製,並對其進行了分類,如通道注意力、空間注意力、時間注意力和分支注意力; 相關的存儲庫https://github.com/MenghaoGuo/Awesome-Vision-Attentions專門用於收集相關的工作。本文還提出了注意機力製研究的未來方向。

//www.webtourguide.com/paper/2329d809f32ca0840bd93429d1cef0fe

引言

將注意力轉移到圖像中最重要的區域而忽略不相關部分的方法稱為注意力機製; 人類視覺係統使用一個[1],[2],[3],[4]來幫助高效和有效地分析和理解複雜的場景。這反過來也啟發了研究人員將注意力機製引入計算機視覺係統,以提高它們的表現。在視覺係統中,注意力機製可以看作是一個動態選擇過程,根據輸入的重要性自適應加權特征來實現。注意力機製在許多視覺任務中提供了好處,例如:圖像分類[5],[6],目標檢測[7],[8],語義分割[9],[10],人臉識別[11],[12],人再識別[13],[14],動作識別[15],[16],少樣本學習[17],[18],醫學圖像處理[19],[20],圖像生成[21],[22],姿態估計[23],超分辨率[24],[25],3D視覺[26],[27],多模態任務[28],[29]。

圖1 注意力機製可以根據數據域進行分類。其中包括通道注意力、空間注意力、時間注意力和分支注意力四大類基本注意力,以及通道&空間注意力和空間&時間注意力相結合的兩大類混合注意力。∅表示此組合不存在。

在過去的十年中,注意機製在計算機視覺中發揮著越來越重要的作用; 圖3,簡要總結了深度學習時代計算機視覺中基於注意的模型的曆史。進展大致可分為四個階段。第一階段從RAM[31]開始,這是一項將深度神經網絡與注意力機製結合起來的開創性工作。它通過策略梯度對重要區域進行循環預測,並對整個網絡進行端到端更新。後來,各種工作[21],[35]采用了類似的視覺注意力策略。在這個階段,循環神經網絡(RNNs)是注意機製的必要工具。在第二階段的開始,Jaderberg等人[32]提出判別歧視性輸入特征是第二階段的主要特征; DCNs[7]、[36]是代表性工作。第三階段以SENet[5]開始,該網絡提出了一種新的管道段的代表作。最後一個階段是自注意力時代。自注意力最早在[33]中提出,並迅速在自然語言處理領域取得了巨大進展。Wang et al.[15]率先將自注意力引入計算機視覺,提出了一種新型的非局部網絡,在視頻理解和目標檢測方麵取得了巨大成功。隨後進行了EMANet[40]、CCNet[41]、HamNet[42]和單機網絡[43]等一係列工作,提高了速度、結果質量和泛化能力。近年來,各種純深度自注意力網絡(視覺變換器)很明顯,基於注意力的模型有潛力取代卷積神經網絡,成為計算機視覺中更強大、更通用的架構。

本文的目的是對當前計算機視覺中的注意力方法進行總結和分類。我們的方法如圖1所示,並在圖2中進一步解釋 :它是基於數據域的。有些方法考慮重要數據何時出現的問題,或者它在哪裏出現的問題,等等,並相應地嚐試查找數據中的關鍵時間或位置。我們將現有的注意力方法分為六類,其中包括四種基本類別:通道注意力(注意力什麼[50])、空間注意力(注意什麼地方)、時間注意力(注意力什麼時間)和分支通道(注意力什麼地方),以及兩種混合組合類別:通道&空間注意力和空間&時間注意力。這些觀點和相關工作在表2中進行了進一步的簡要總結。

  • 對視覺注意力方法的係統綜述,包括注意力機製的統一描述、視覺注意機製的發展以及當前的研究;

  • 根據他們的數據域對注意力方法進行分類分組,使我們能夠獨立於特定的應用程序將視覺注意力方法聯係起來

  • 對未來視覺注意力研究的建議。

成為VIP會員查看完整內容
3
57
0

摘要: 卷積神經網絡是深度學習算法應用最廣泛的方向之一,目前卷積神經網絡的應用不僅僅是停留在科技領域,已經擴展到醫學、軍事等領域,並且已在相關領域發揮著巨大的作用。卷積是卷積神經網絡中最為核心的一部分,卷積運算占整個網絡70%以上的時間,所以針對卷積運算的加速研究就顯得十分重要。首先介紹近年來的卷積算法,並對其複雜度進行分析,總結了這些算法各自的優點和不足,最後對其理論研究和應用領域可能存在的突破進行了探討和展望。

http://manu46.magtech.com.cn/ces/CN/Y2021/V43/I10/1711

成為VIP會員查看完整內容
1
19
0

【導讀】倫敦帝國理工學院教授Michael Bronstein等人撰寫了一本關於幾何深度學習係統性總結的書,提出從對稱性和不變性的原則推導出不同的歸納偏差和網絡架構。非常值得關注!

重磅!《幾何深度學習》新書發布,帝國理工/DeepMind等圖ML大牛共同撰寫,160頁pdf闡述幾何DL基礎原理和統一框架

作為非洲機器智能碩士課程(AMMI 2021)的一部分,我們提供了一門關於幾何深度學習(GDL100)的課程,它緊跟我們的GDL原型書的內容。我們使所有的材料和課件從這門課程公開可用,作為我們的原型書的同伴材料,以及一種方式深入到一些內容的未來迭代的書。

幾何深度學習是從對稱性和不變性的角度對廣泛的ML問題進行幾何統一的嚐試。這些原理不僅是卷積神經網絡的突破性性能和圖神經網絡的近期成功的基礎,而且還為構造新型的特定於問題的歸納偏差提供了一種有原則的方法。

深度(表示)學習領域的現狀讓我們想起了19世紀的幾何情況:一方麵,在過去的十年中,深度學習在數據科學領域帶來了一場革命, 以前認為可能無法完成的許多任務-無論是計算機視覺,語音識別,自然語言翻譯還是alpha Go。另一方麵,我們現在擁有一個針對不同類型數據的不同神經網絡體係結構的動物園,但統一原理很少。結果,很難理解不同方法之間的關係,這不可避免地導致相同概念的重新發明。

幾何深度學習是我們在[5]中引入的總稱,指的是最近提出的ML幾何統一的嚐試,類似於Klein的Erlangen計劃。它有兩個目的:首先,提供一個通用的數學框架以推導最成功的神經網絡體係結構;其次,給出一個建設性的程序,以有原則的方式構建未來的體係結構。

https://geometricdeeplearning.com/lectures/

成為VIP會員查看完整內容
0
51
0

深度學習(Deep Learning,DL)是機器學習(Machine Learning,ML)領域中的一個研 究方向,作用是幫助機器學習項目更接近於人工智能(Artificial Intelligence)。深度學習主要是學習樣本數據的內在規律和表示層次,學習過程中獲得的信息對諸如文 字、圖像和聲音等數據的解釋很有幫助。深度學習的最終目標是讓機器能夠像人一樣具備分 析能力,可以自動識別文字、圖像和聲音等數據。深度學習是一個複雜的機器學習算法,目前在搜索技術、數據挖掘、機器學習、機器翻 譯、自然語言處理、多媒體學習、語音、推薦和個性化技術,以及其他相關領域都取得了令 人矚目的成果。深度學習解決了很多複雜的模式識別難題,使得人工智能相關技術取得了很 大進步。

成為VIP會員查看完整內容
2
69
0

幾何深度學習是一種從對稱性和不變性的角度對大量ML問題進行幾何統一的嚐試。這些原理不僅奠定了卷積神經網絡的突破性性能和最近成功的圖神經網絡的基礎,而且也提供了一種原則性的方法來構建新型的問題特定的歸納偏差。Simone Scardapane講述關於圖與幾何深度學習的報告。圖神經網絡是一種功能強大的深度學習模型。

https://www.sscardapane.it/

成為VIP會員查看完整內容
3
60
0

深度學習在計算機視覺和語言理解領域取得了驚人的成功,受此影響,推薦研究已經轉向了基於神經網絡的新推薦模型的發明。

近年來,神經網絡推薦模型的發展取得了顯著的進展,由於神經網絡具有強大的表示能力,使得傳統的推薦模型得到了推廣和超越。

在本文中,我們對神經推薦模型進行了係統性回顧,旨在對該領域進行總結,以促進未來的發展。與現有的基於深度學習技術分類法對現有方法進行分類的調研不同,我們從推薦建模的角度對該領域進行了總結,這可能對研究推薦係統的研究者和從業者更有指導意義。

具體來說,我們根據他們用於推薦建模的數據將工作分為三種類型:

  1. 協同過濾模型,它利用了用戶-物品交互數據;

  2. 內容豐富模型,利用與用戶和物品相關的側麵信息,如用戶檔案和物品知識圖譜;

3)上下文豐富模型,它解釋了與互動相關的上下文信息,如時間、地點和過去的互動。

在回顧了每種類型的代表性工作後,我們最後討論了該領域的一些有前途的方向,包括標杆推薦係統、基於圖推理的推薦模型,以及可解釋和公平的社會公益推薦。

//www.webtourguide.com/paper/cbf33028b44f85138520717fd1d72792

由於互聯網的擴散,信息過載在人們的每一個生活中都是一個日益嚴重的問題。與搜索引擎一樣,推薦係統是緩解信息過載問題的有效解決方案,方便用戶尋找所需信息,增加服務提供商的流量和收入。它已經被廣泛應用於電子商務、社交媒體網站、新聞門戶、應用商店、數字圖書館等。它是現代信息係統中最普遍的以用戶為中心的人工智能應用之一。

關於推薦的研究可以追溯到20世紀90年代的[1],在那個年代早期的工作開發了許多基於內容的啟發式和協同過濾(CF)[2]。由於Netflix的挑戰,Matrix Factorization (MF)[3]後來很長一段時間(從2008年到2016年)成為主流推薦模型[4],[5]。然而,因子分解模型的線性性質使其在處理大而複雜的數據時效率較低。複雜的用戶-物品交互,這些物品可能包含複雜的語義(例如,文本和圖像),這需要對它們進行徹底的理解。大約在2010年中期的同一時期,機器學習領域的深度神經網絡(deep neural networks,又稱“深度神經網絡”)興起。(比如深度學習)已經在語音識別、計算機視覺和自然語言處理等領域產生了革命性的變化。深度學習的巨大成功源於神經網絡相當大的表達能力,尤其有利於從具有複雜模式的大數據中學習。這自然為推薦技術的發展帶來了新的機會。毫不奇怪,在過去的幾年中出現了很多關於開發神經網絡方法的推薦係統的工作。在這項工作中,我們的目的是提供一個係統的回顧推薦模型使用神經網絡-稱為“神經推薦模型”。這是當前推薦研究中最熱門的話題,不僅近年來取得了許多令人興奮的進展,而且顯示出了成為下一代推薦係統的技術基礎的潛力。

我們專注於物品推薦的一般任務,即向用戶推薦項目,而忽略了對其他推薦任務的討論,如向一組用戶推薦物品、特定領域推薦(如教育推薦和時尚推薦)。此外,我們專注於利用單個域的數據的工作,而忽略了關於跨域推薦[8]的討論。我們的目標是提供一個單一領域的一般性項目推薦的全麵綜述,並幫助青年研究者掌握該領域的主要研究方向。

本次綜述的組織結構如下。在第2節中,我們將回顧使用ID和交互曆史進行建模的協同過濾模型。在第3節中,我們回顧了將用戶和商品的側麵信息整合到推薦中的模型,如用戶簡介和社交網絡、商品屬性和知識圖譜。我們將它們稱為內容豐富的模型,它通過集成側信息自然地擴展了CF。在第4節中,我們將回顧解釋上下文信息的模型。上下文數據與每個用戶-項目交互相關聯,例如時間、位置和過去的交互序列。上下文感知模型基於上下文數據進行預測。由於頁麵限製,我們主要關注時間信息,這是最常見的上下文數據之一。最後,對研究結果進行了總結,並提出了展望。

成為VIP會員查看完整內容
1
42
0

【導讀】倫敦帝國理工學院教授Michael Bronstein等人撰寫了一本關於幾何深度學習係統性總結的書,提出從對稱性和不變性的原則推導出不同的歸納偏差和網絡架構。非常值得關注!

幾何深度學習是一種從對稱性和不變性的角度對大量ML問題進行幾何統一的嚐試。這些原理不僅奠定了卷積神經網絡的突破性性能和最近成功的圖神經網絡的基礎,而且也提供了一種原則性的方法來構建新型的問題特定的歸納偏差。

在本文中,我們做了一個適度的嚐試,將Erlangen項目的思維模式應用到深度學習領域,最終目標是獲得該領域的係統化和“連接點”。我們將這種幾何化嚐試稱為“幾何深度學習”,並忠實於Felix Klein的精神,提出從對稱性和不變性的原則推導出不同的歸納偏差和網絡架構。特別地,我們將重點放在一類用於分析非結構集、網格、圖和流形的神經網絡上,並表明它們可以被統一地理解為尊重這些域的結構和對稱性的方法。

我們相信這篇文章將吸引深度學習研究人員、實踐者和愛好者的廣泛受眾。新手可以用它來概述和介紹幾何深度學習。經驗豐富的深度學習專家可能會發現從基本原理推導熟悉架構的新方法,也許還會發現一些令人驚訝的聯係。實踐者可以獲得如何解決各自領域問題的新見解。

一些重要論述:

  • 我們研究了流行的深度學習架構(CNNs, GNNs, transformer, LSTMs)的本質,並意識到,隻要有一組合適的對稱,我們就可以等價它們,它們都可以用一個通用的幾何框架來表達。

  • 更進一步,我們在一些不太標準的領域(如同質群和流形)上使用了我們的框架,這表明框架可以很好地表達這些領域的最新進展,如球形CNN, SO(3)-變換器,和規範-等變網格CNNs。

  • 幾何深度學習的“5G”:網格、組(具有全局對稱性的齊次空間)、圖(以及作為特定情況的集)和流形,其中幾何先驗通過全局等距不變(可以用測地線表示)和局部規範對稱來表現。
成為VIP會員查看完整內容
8
197
0

摘要: 圖像分類的應用場景非常廣泛, 很多場景下難以收集到足夠多的數據來訓練模型, 利用小樣本學習進行圖像分類可解決訓練數據量小的問題. 本文對近年來的小樣本圖像分類算法進行了詳細綜述, 根據不同的建模方式, 將現有算法分為卷積神經網絡模型和圖神經網絡模型兩大類, 其中基於卷積神經網絡模型的算法包括四種學習範式: 遷移學習、元學習、對偶學習和貝葉斯學習; 基於圖神經網絡模型的算法原本適用於非歐幾裏得結構數據, 但有部分學者將其應用於解決小樣本下歐幾裏得數據的圖像分類任務, 有關的研究成果目前相對較少. 此外, 本文彙總了現有文獻中出現的數據集並通過實驗結果對現有算法的性能進行了比較. 最後, 討論了小樣本圖像分類技術的難點及未來研究趨勢.

成為VIP會員查看完整內容
1
61
0
小貼士
相關主題
相關VIP內容
專知會員服務
55+閱讀 · 1月9日
專知會員服務
24+閱讀 · 2021年12月28日
專知會員服務
19+閱讀 · 2021年10月25日
專知會員服務
69+閱讀 · 2021年6月19日
專知會員服務
60+閱讀 · 2021年6月14日
專知會員服務
42+閱讀 · 2021年5月4日
專知會員服務
197+閱讀 · 2021年4月29日
專知會員服務
61+閱讀 · 2021年3月15日
微信掃碼谘詢專知VIP會員
Top