Model complexity is a fundamental problem in deep learning. In this paper we conduct a systematic overview of the latest studies on model complexity in deep learning. Model complexity of deep learning can be categorized into expressive capacity and effective model complexity. We review the existing studies on those two categories along four important factors, including model framework, model size, optimization process and data complexity. We also discuss the applications of deep learning model complexity including understanding model generalization capability, model optimization, and model selection and design. We conclude by proposing several interesting future directions.

0
23
下載
關閉預覽

相關內容

ACM/IEEE第23屆模型驅動工程語言和係統國際會議,是模型驅動軟件和係統工程的首要會議係列,由ACM-SIGSOFT和IEEE-TCSE支持組織。自1998年以來,模型涵蓋了建模的各個方麵,從語言和方法到工具和應用程序。模特的參加者來自不同的背景,包括研究人員、學者、工程師和工業專業人士。MODELS 2019是一個論壇,參與者可以圍繞建模和模型驅動的軟件和係統交流前沿研究成果和創新實踐經驗。今年的版本將為建模社區提供進一步推進建模基礎的機會,並在網絡物理係統、嵌入式係統、社會技術係統、雲計算、大數據、機器學習、安全、開源等新興領域提出建模的創新應用以及可持續性。 官網鏈接:http://www.modelsconference.org/

摘要

一個綜合的人工智能係統不僅需要用不同的感官(如視覺和聽覺)感知環境,還需要推斷世界的條件(甚至因果)關係和相應的不確定性。在過去的十年裏,我們看到了許多感知任務的重大進展,比如視覺對象識別和使用深度學習模型的語音識別。然而,對於更高層次的推理,具有貝葉斯特性的概率圖模型仍然更加強大和靈活。近年來,貝葉斯深度學習作為一種將深度學習與貝葉斯模型緊密結合的統一的概率框架出現了。在這個總體框架中,利用深度學習對文本或圖像的感知可以提高更高層次推理的性能,推理過程的反饋也可以增強文本或圖像的感知。本文對貝葉斯深度學習進行了全麵的介紹,並對其在推薦係統主題模型控製等方麵的最新應用進行了綜述。此外,我們還討論了貝葉斯深度學習與其他相關課題如神經網絡的貝葉斯處理之間的關係和區別。

介紹

在過去的十年中,深度學習在許多流行的感知任務中取得了顯著的成功,包括視覺對象識別、文本理解和語音識別。這些任務對應於人工智能(AI)係統的看、讀、聽能力,它們無疑是人工智能有效感知環境所必不可少的。然而,要建立一個實用的、全麵的人工智能係統,僅僅有感知能力是遠遠不夠的。首先,它應該具備思維能力。

一個典型的例子是醫學診斷,它遠遠超出了簡單的感知:除了看到可見的症狀(或CT上的醫學圖像)和聽到患者的描述,醫生還必須尋找所有症狀之間的關係,最好推斷出它們的病因。隻有在那之後,醫生才能給病人提供醫療建議。在這個例子中,雖然視覺和聽覺的能力讓醫生能夠從病人那裏獲得信息,但醫生的思維能力才是關鍵。具體來說,這裏的思維能力包括識別條件依賴、因果推理、邏輯演繹、處理不確定性等,顯然超出了傳統深度學習方法的能力。幸運的是,另一種機器學習範式,概率圖形模型(PGM),在概率或因果推理和處理不確定性方麵表現出色。問題在於,PGM在感知任務上不如深度學習模型好,而感知任務通常涉及大規模和高維信號(如圖像和視頻)。為了解決這個問題,將深度學習和PGM統一到一個有原則的概率框架中是一個自然的選擇,在本文中我們稱之為貝葉斯深度學習(BDL)。 在上麵的例子中,感知任務包括感知病人的症狀(例如,通過看到醫學圖像),而推理任務包括處理條件依賴性、因果推理、邏輯推理和不確定性。通過貝葉斯深度學習中有原則的整合,將感知任務和推理任務視為一個整體,可以相互借鑒。具體來說,能夠看到醫學圖像有助於醫生的診斷和推斷。另一方麵,診斷和推斷反過來有助於理解醫學圖像。假設醫生可能不確定醫學圖像中的黑點是什麼,但如果她能夠推斷出症狀和疾病的病因,就可以幫助她更好地判斷黑點是不是腫瘤。 再以推薦係統為例。一個高精度的推薦係統需要(1)深入了解條目內容(如文檔和電影中的內容),(2)仔細分析用戶檔案/偏好,(3)正確評價用戶之間的相似度。深度學習的能力有效地處理密集的高維數據,如電影內容擅長第一子任務,而PGM專攻建模條件用戶之間的依賴關係,項目和評分(參見圖7為例,u, v,和R是用戶潛在的向量,項目潛在的向量,和評級,分別)擅長其他兩個。因此,將兩者統一在一個統一的概率原則框架中,可以使我們在兩個世界中都得到最好的結果。這種集成還帶來了額外的好處,可以優雅地處理推薦過程中的不確定性。更重要的是,我們還可以推導出具體模型的貝葉斯處理方法,從而得到更具有魯棒性的預測。

作為第三個例子,考慮根據從攝像機接收到的實時視頻流來控製一個複雜的動態係統。該問題可以轉化為迭代執行兩項任務:對原始圖像的感知和基於動態模型的控製。處理原始圖像的感知任務可以通過深度學習來處理,而控製任務通常需要更複雜的模型,如隱馬爾科夫模型和卡爾曼濾波器。由控製模型選擇的動作可以依次影響接收的視頻流,從而完成反饋回路。為了在感知任務和控製任務之間實現有效的迭代過程,我們需要信息在它們之間來回流動。感知組件將是控製組件估計其狀態的基礎,而帶有動態模型的控製組件將能夠預測未來的軌跡(圖像)。因此,貝葉斯深度學習是解決這一問題的合適選擇。值得注意的是,與推薦係統的例子類似,來自原始圖像的噪聲和控製過程中的不確定性都可以在這樣的概率框架下自然地處理。 以上例子說明了BDL作為一種統一深度學習和PGM的原則方式的主要優勢:感知任務與推理任務之間的信息交換、對高維數據的條件依賴以及對不確定性的有效建模。關於不確定性,值得注意的是,當BDL應用於複雜任務時,需要考慮三種參數不確定性:

  1. 神經網絡參數的不確定性
  2. 指定任務參數的不確定性
  3. 感知組件和指定任務組件之間信息交換的不確定性

通過使用分布代替點估計來表示未知參數,BDL提供了一個很有前途的框架,以統一的方式處理這三種不確定性。值得注意的是,第三種不確定性隻能在BDL這樣的統一框架下處理;分別訓練感知部分和任務特定部分相當於假設它們之間交換信息時沒有不確定性。注意,神經網絡通常是過參數化的,因此在有效處理如此大的參數空間中的不確定性時提出了額外的挑戰。另一方麵,圖形模型往往更簡潔,參數空間更小,提供了更好的可解釋性。

除了上述優點之外,BDL內建的隱式正則化還帶來了另一個好處。通過在隱藏單元、定義神經網絡的參數或指定條件依賴性的模型參數上施加先驗,BDL可以在一定程度上避免過擬合,尤其是在數據不足的情況下。通常,BDL模型由兩個組件組成,一個是感知組件,它是某種類型神經網絡的貝葉斯公式,另一個是任務特定組件,使用PGM描述不同隱藏或觀察變量之間的關係。正則化對它們都很重要。神經網絡通常過度參數化,因此需要適當地正則化。正則化技術如權值衰減和丟失被證明是有效地改善神經網絡的性能,他們都有貝葉斯解釋。在任務特定組件方麵,專家知識或先驗信息作為一種正規化,可以在數據缺乏時通過施加先驗來指導模型。 在將BDL應用於實際任務時,也存在一些挑戰。(1)首先,設計一個具有合理時間複雜度的高效的神經網絡貝葉斯公式並非易事。這一行是由[42,72,80]開創的,但是由於缺乏可伸縮性,它沒有被廣泛采用。幸運的是,這個方向的一些最新進展似乎為貝葉斯神經網絡的實際應用提供了一些啟示。(2)第二個挑戰是如何確保感知組件和任務特定組件之間有效的信息交換。理想情況下,一階和二階信息(例如,平均值和方差)應該能夠在兩個組件之間來回流動。一種自然的方法是將感知組件表示為PGM,並將其與特定任務的PGM無縫連接,如[24,118,121]中所做的那樣。 本綜述提供了對BDL的全麵概述,以及各種應用程序的具體模型。綜述的其餘部分組織如下:在第2節中,我們將回顧一些基本的深度學習模型。第3節介紹PGM的主要概念和技術。這兩部分作為BDL的基礎,下一節第4節將演示統一BDL框架的基本原理,並詳細說明實現其感知組件和特定於任務的組件的各種選擇。第5節回顧了應用於不同領域的BDL模型,如推薦係統、主題模型和控製,分別展示了BDL在監督學習、非監督學習和一般表示學習中的工作方式。第6部分討論了未來的研究問題,並對全文進行了總結。

結論和未來工作

BDL致力於將PGM和NN的優點有機地整合在一個原則概率框架中。在這項綜述中,我們確定了這種趨勢,並回顧了最近的工作。BDL模型由感知組件和任務特定組件組成;因此,我們分別描述了過去幾年開發的兩個組件的不同實例,並詳細討論了不同的變體。為了學習BDL中的參數,人們提出了從塊坐標下降、貝葉斯條件密度濾波、隨機梯度恒溫器到隨機梯度變分貝葉斯等多種類型的算法。 BDL從PGM的成功和最近在深度學習方麵有前景的進展中獲得了靈感和人氣。由於許多現實世界的任務既涉及高維信號(如圖像和視頻)的有效感知,又涉及隨機變量的概率推理,因此BDL成為利用神經網絡的感知能力和PGM的(條件和因果)推理能力的自然選擇。在過去的幾年中,BDL在推薦係統、主題模型、隨機最優控製、計算機視覺、自然語言處理、醫療保健等各個領域都有成功的應用。在未來,我們不僅可以對現有的應用進行更深入的研究,還可以對更複雜的任務進行探索。此外,最近在高效BNN (BDL的感知組件)方麵的進展也為進一步提高BDL的可擴展性奠定了基礎。

成為VIP會員查看完整內容
5
152
0

本文綜述了元學習在圖像分類、自然語言處理和機器人技術等領域的應用。與深度學習不同,元學習使用較少的樣本數據集,並考慮進一步改進模型泛化以獲得更高的預測精度。我們將元學習模型歸納為三類: 黑箱適應模型、基於相似度的方法模型和元學習過程模型。最近的應用集中在將元學習與貝葉斯深度學習和強化學習相結合,以提供可行的集成問題解決方案。介紹了元學習方法的性能比較,並討論了今後的研究方向。

成為VIP會員查看完整內容
5
216
0

標題

真實機器學習,264頁pdf,Real-World Machine Learning

關鍵詞

機器學習,人工智能,書籍教材

目錄

  • What is machine learning?
  • Real-world data
  • Modeling and prediction
  • Model evaluation and optimization
  • Basic feature engineering
  • Example: NYC taxi data
  • Advanced feature engineering
  • Advanced NLP example: movie review sentiment
  • Scaling machine-learning workflows
  • Example: digital display advertising

作者

Henrik Brink,Joseph W. Richards,Mark Fetherolf

成為VIP會員查看完整內容
2
74
0

題目:Natural Language Processing Advancements By Deep Learning: A Survey

摘要:自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基於語言的人機交流。算力的最新發展和語言大數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由於深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本綜述對得益於深度學習的NLP的不同方麵和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,並描述了深度學習方法和模型如何推進這些領域。我們並進一步分析和比較不同的方法和最先進的模型。

成為VIP會員查看完整內容
5
64
0

主題:On the information bottleneck theory of deep learning

摘要:深度神經網絡的實際成功並沒有得到令人滿意地解釋其行為的理論進展。在這項工作中,我們研究了深度學習的信息瓶頸理論,它提出了三個具體的主張:第一,深度網絡經曆了兩個不同的階段,分別是初始擬合階段和隨後的壓縮階段;第二,壓縮階段與深網絡良好的泛化性能有著因果關係;第三,壓縮階段是由隨機梯度下降的類擴散行為引起的。在這裏,我們證明這些聲明在一般情況下都不成立,而是反映了在確定性網絡中計算有限互信息度量的假設。當使用簡單的binning進行計算時,我們通過分析結果和模擬的結合證明,在先前工作中觀察到的信息平麵軌跡主要是所采用的神經非線性的函數:當神經激活進入飽和時,雙邊飽和非線性如產生壓縮相但線性激活函數和單邊飽和非線性(如廣泛使用的ReLU)實際上沒有。此外,我們發現壓縮和泛化之間沒有明顯的因果關係:不壓縮的網絡仍然能夠泛化,反之亦然。接下來,我們表明,壓縮階段,當它存在時,不產生從隨機性在訓練中,通過證明我們可以複製IB發現使用全批梯度下降,而不是隨機梯度下降。最後,我們證明當輸入域由任務相關信息和任務無關信息的子集組成時,隱藏表示確實壓縮了任務無關信息,盡管輸入的總體信息可能隨著訓練時間單調增加,並且這種壓縮與擬合過程同時發生而不是在隨後的壓縮期間。

成為VIP會員查看完整內容
1
47
0

《Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation》K Murray, J Kinnison, T Q. Nguyen, W Scheirer, D Chiang [University of Notre Dame] (2019)

成為VIP會員查看完整內容
1
26
0

《Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation》I Oksuz, J R. Clough, B Ruijsink, E P Anton, A Bustin, G Cruz, C Prieto, A P. King, J A. Schnabel [King’s College London] (2019)

成為VIP會員查看完整內容
0
23
0

Deep Learning with Python introduces the field of deep learning using the Python language and the powerful Keras library. Written by Keras creator and Google AI researcher François Chollet, this book builds your understanding through intuitive explanations and practical examples.

成為VIP會員查看完整內容
17
87
0

Deep Learning in Computer Vision: Methods, Interpretation, Causation, and Fairness Deep learning models have succeeded at a variety of human intelligence tasks and are already being used at commercial scale. These models largely rely on standard gradient descent optimization of function parameterized by , which maps an input to an output . The optimization procedure minimizes the loss (difference) between the model output and actual output . As an example, in the cancer detection setting, is an MRI image, and is the presence or absence of cancer. Three key ingredients hint at the reason behind deep learning’s power: (1) deep architectures that are adept at breaking down complex functions into a composition of simpler abstract parts; (2) standard gradient descent methods that can attain local minima on a nonconvex Loss function that are close enough to the global minima; and (3) learning algorithms that can be executed on parallel computing hardware (e.g., graphics processing units), thus making the optimization viable over hundreds of millions of observations . Computer vision tasks, where the input is a high-dimensional image or video, are particularly suited to deep learning application. Recent advances in deep architectures (i.e., inception modules, attention networks, adversarial networks and DeepRL) have opened up completely new applications that were previously unexplored. However, the breakneck progress to replace human tasks with deep learning comes with caveats. These deep models tend to evade interpretation, lack causal relationships between input and output , and may inadvertently mimic not just human actions but also human biases and stereotypes. In this tutorial, we provide an intuitive explanation of deep learning methods in computer vision as well as limitations in practice.

成為VIP會員查看完整內容
10
46
0

機器學習可解釋性,Interpretability and Explainability in Machine Learning

  • Overview As machine learning models are increasingly being employed to aid decision makers in high-stakes settings such as healthcare and criminal justice, it is important to ensure that the decision makers (end users) correctly understand and consequently trust the functionality of these models. This graduate level course aims to familiarize students with the recent advances in the emerging field of interpretable and explainable ML. In this course, we will review seminal position papers of the field, understand the notion of model interpretability and explainability, discuss in detail different classes of interpretable models (e.g., prototype based approaches, sparse linear models, rule based techniques, generalized additive models), post-hoc explanations (black-box explanations including counterfactual explanations and saliency maps), and explore the connections between interpretability and causality, debugging, and fairness. The course will also emphasize on various applications which can immensely benefit from model interpretability including criminal justice and healthcare.
成為VIP會員查看完整內容
2
58
0
小貼士
相關論文
Arxiv
35+閱讀 · 2021年5月3日
Arxiv
16+閱讀 · 2021年1月25日
Recent advances in deep learning theory
Arxiv
41+閱讀 · 2020年12月20日
Arxiv
5+閱讀 · 2020年10月7日
A Survey on Bayesian Deep Learning
Arxiv
48+閱讀 · 2020年7月2日
A Comprehensive Survey on Transfer Learning
Arxiv
91+閱讀 · 2019年11月7日
Arxiv
40+閱讀 · 2018年12月11日
Arxiv
12+閱讀 · 2018年2月7日
相關資訊
多任務學習(Multi-task Learning)方法總結
極市平台
5+閱讀 · 2020年4月26日
局部學習的特征選擇:Local-Learning-Based Feature Selection
我愛讀PAMI
10+閱讀 · 2019年9月20日
Hierarchically Structured Meta-learning
CreateAMind
13+閱讀 · 2019年5月22日
小樣本學習(Few-shot Learning)綜述
PaperWeekly
119+閱讀 · 2019年4月1日
Unsupervised Learning via Meta-Learning
CreateAMind
32+閱讀 · 2019年1月3日
Disentangled的假設的探討
CreateAMind
8+閱讀 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+閱讀 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500頁
CreateAMind
9+閱讀 · 2018年4月27日
Hierarchical Disentangled Representations
CreateAMind
3+閱讀 · 2018年4月15日
【論文】圖上的表示學習綜述
機器學習研究會
9+閱讀 · 2017年9月24日
Top
微信掃碼谘詢專知VIP會員
Top