伊利諾伊大學香檳分校(University of Illinois - Urbana - Champaign),位於美國伊利諾伊州南部安靜幽雅的雙子城-厄巴納和香檳市,建立於1867年,是美國中西部“大十盟校”(TheBig Ten Conference)成員,是全美最優秀的工科大學之一。擁有美國第三大大學圖書館,僅次於哈佛和耶魯。學校學科專業設置齊全,共有近200個專業學科,其最好的學科是工學和商科。

VIP內容

題目:Optimization for deep learning: theory and algorithms

摘要:

什麼時候以及為什麼能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先,我們討論了梯度爆炸、消失問題,然後討論了實際的解決方案,包括初始化和歸一化方法。其次,我們回顧了用於訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和分布式方法以及這些算法的理論結果。第三,我們回顧了現有的關於神經網絡訓練的全局問題的研究,包括局部極值的結果、模式連接、無限寬度分析。

作者:

Ruoyu Sun是伊利諾伊大學厄本那香檳分校 (UIUC)電子與計算機工程係的助理教授,研究優化和機器學習,尤其是深度學習。最近,一直在研究深度學習中的最優化,例如神經網絡,GANs和Adam。

摘要

什麼時候以及為什麼能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先,我們討論了梯度爆炸/消失問題和更一般的不期望譜問題,然後討論了實際的解決方案,包括仔細的初始化和歸一化方法。其次,我們回顧了用於訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和分布式方法,以及這些算法的現有理論結果。第三,我們回顧了現有的關於神經網絡訓練的全局問題的研究,包括局部極值的結果、模式連接、彩票假設和無限寬度分析。

  1. 概述

本文的一個主要主題是了解成功訓練神經網絡的實際組成部分,以及可能導致訓練失敗的因素。假設你在1980年試圖用神經網絡解決一個圖像分類問題。如果你想從頭開始訓練一個神經網絡,很可能你最初的幾次嚐試都沒有得到合理的結果。什麼本質的變化使算法能有效進行?在高層次上,你需要三樣東西(除了強大的硬件): 合適的神經網絡、合適的訓練算法和合適的訓練技巧。

合適的神經網絡。這包括神經結構和激活功能。對於神經結構,您可能想要用一個至少有5層和足夠神經元的卷積網絡來替換一個完全連接的網絡。為了獲得更好的性能,您可能希望將深度增加到20甚至100,並添加跳躍skip連接。對於激活函數,一個好的起點是ReLU激活,但是使用tanh或swish激活也是合理的。

訓練算法。一個大的選擇是使用隨機版本的梯度下降(SGD)並堅持它。良好調整的步長足夠好,而動量和自適應步長可以提供額外的好處。

訓練技巧。適當的初始化對於算法的訓練是非常重要的。要訓練一個超過10層的網絡,通常需要兩個額外的技巧:添加規範化層和添加跳過連接。

哪些設計選擇是必要的?目前我們已經了解了一些設計選擇,包括初始化策略、規範化方法、跳過連接、參數化(大寬度)和SGD,如圖1所示。我們將優化優勢大致分為三部分: 控製Lipschitz常數、更快的收斂速度和更好的landscape。還有許多其他的設計選擇是很難理解的,尤其是神經架構。無論如何,似乎不可能理解這個複雜係統的每個部分,目前的理解已經可以提供一些有用的見解。

圖1: 成功訓練具有理論理解的神經網絡的幾個主要設計選擇。它們對算法收斂的三個方麵有影響:使收斂成為可能、更快的收斂和更好的全局解。這三個方麵有一定的聯係,隻是一個粗略的分類。請注意,還有其他一些重要的設計選擇,特別是神經體係結構,它們在理論上還沒有被理解,因此在該圖中被省略了。還有其他好處,比如泛化,也被忽略了。

為了使綜述調查簡單,我們將重點研究前饋神經網絡的監督學習問題。我們將不討論更複雜的公式,如GANs(生成對抗網絡)和深度強化學習,也不討論更複雜的體係結構,如RNN(遞歸神經網絡)、attention和Capsule。在更廣泛的背景下,監督學習理論至少包含表示、優化和泛化(參見1.1節),我們不詳細討論表示和泛化。一個主要的目標是理解神經網絡結構(由許多變量連接的參數化)如何影響優化算法的設計和分析,這可能會超越監督學習。

這篇文章是為那些對神經網絡優化的理論理解感興趣的研究人員寫的。關於優化方法和基礎理論的先驗知識將非常有幫助(參見,[24,200,29]的準備)。現有的關於深度學習優化的調查主要針對一般的機器學習受眾,如Goodfellow等[76]的第8章。這些綜述通常不深入討論優化的理論方麵。相反,在這篇文章中,我們更多地強調理論結果,同時努力使它對非理論讀者具有可訪問性。如果可能的話,我們將提供一些簡單的例子來說明這種直覺,我們將不解釋定理的細節。

1.1 大景觀:分解理論

分解是發展理論的一個有用且流行的元方法。首先簡要回顧了優化在機器學習中的作用,然後討論了如何分解深度學習的優化理論。

表示、優化和泛化。監督學習的目標是根據觀察到的樣本找到一個近似底層函數的函數。第一步是找到一個豐富的函數家族(如神經網絡),可以代表理想的函數。第二步是通過最小化某個損失函數來識別函數的參數。第三步是使用第二步中找到的函數對不可見的測試數據進行預測,產生的錯誤稱為測試錯誤。測試誤差可以分解為表示誤差、優化誤差和泛化誤差,分別對應這三個步驟引起的誤差。

在機器學習中,表示、優化和泛化這三個學科經常被分開研究。例如,在研究一類函數的表示能力時,我們往往不關心優化問題能否很好地解決。在研究泛化誤差時,我們通常假設已經找到了全局最優值(概化調查見[95])。類似地,在研究優化屬性時,我們通常不明確地考慮泛化誤差(但有時我們假定表示誤差為零)。

優化問題的分解。深度學習的優化問題比較複雜,需要進一步分解。優化的發展可以分為三個步驟。第一步是使算法開始運行,並收斂到一個合理的解,如一個固定點。第二步是使算法盡快收斂。第三步是確保算法收斂到一個低目標值的解(如全局極小值)。要獲得良好的測試精度,還有一個額外的步驟,但是這超出了優化的範圍。簡而言之,我們將優化問題分為三個部分: 收斂性、收斂速度和全局質量。

大部分工作的回顧分為三個部分: 第四部分,第五部分和第六部分。大致說來,每個部分主要是由優化理論的三個部分之一。然而,這種劃分並不精確,因為這三個部分之間的邊界是模糊的。例如,第4節中討論的一些技術也可以提高收斂速度,第6節中的一些結果解決了收斂問題和全局問題。劃分的另一個原因是它們代表了神經網絡優化的三個相當獨立的子領域,並且在一定程度上是獨立發展的。

1.2 文章結構

這篇文章的結構如下。在第二節中,我們提出了一個典型的監督學習神經網絡優化問題。在第三節中,我們提出了反向傳播(BP),並分析了將經典收斂分析應用於神經網絡梯度下降的困難。在第四節中,我們將討論訓練神經網絡的神經網絡特定技巧,以及一些基本理論。這些是神經網絡相關的方法,打開了神經網絡的黑盒子。特別地,我們討論了一個主要的挑戰,稱為梯度爆炸/消失和一個更普遍的挑戰,控製頻譜,並回顧了主要的解決方案,如仔細的初始化和歸一化方法。在第五節中,我們討論了將神經網絡視為一般非凸優化問題的泛型算法設計。特別地,我們回顧了SGD的各種學習速率調度、自適應梯度方法、大規模分布式訓練、二階方法以及現有的收斂和迭代複雜度結果。在第六節中,我們回顧了神經網絡的全局優化研究,包括全局景觀、模式連接、彩票假設和無限寬度分析(如神經正切核)。

更多請下載論文查看

便捷下載,請關注專知公眾號(點擊上方藍色專知關注)

後台回複“

成為VIP會員查看完整內容
0
48
3

最新論文

We address the problem of decomposing a single image into reflectance and shading. The difficulty comes from the fact that the components of image---the surface albedo, the direct illumination, and the ambient illumination---are coupled heavily in observed image. We propose to infer the shading by ordering pixels by their relative brightness, without knowing the absolute values of the image components beforehand. The pairwise shading orders are estimated in two ways: brightness order and low-order fittings of local shading field. The brightness order is a non-local measure, which can be applied to any pair of pixels including those whose reflectance and shading are both different. The low-order fittings are used for pixel pairs within local regions of smooth shading. Together, they can capture both global order structure and local variations of the shading. We propose a Consistency-aware Selective Fusion (CSF) to integrate the pairwise orders into a globally consistent order. The iterative selection process solves the conflicts between the pairwise orders obtained by different estimation methods. Inconsistent or unreliable pairwise orders will be automatically excluded from the fusion to avoid polluting the global order. Experiments on the MIT Intrinsic Image dataset show that the proposed model is effective at recovering the shading including deep shadows. Our model also works well on natural images from the IIW dataset, the UIUC Shadow dataset and the NYU-Depth dataset, where the colors of direct lights and ambient lights are quite different.

0
0
0
下載
預覽
Top