Classic machine learning methods are built on the $i.i.d.$ assumption that training and testing data are independent and identically distributed. However, in real scenarios, the $i.i.d.$ assumption can hardly be satisfied, rendering the sharp drop of classic machine learning algorithms' performances under distributional shifts, which indicates the significance of investigating the Out-of-Distribution generalization problem. Out-of-Distribution (OOD) generalization problem addresses the challenging setting where the testing distribution is unknown and different from the training. This paper serves as the first effort to systematically and comprehensively discuss the OOD generalization problem, from the definition, methodology, evaluation to the implications and future directions. Firstly, we provide the formal definition of the OOD generalization problem. Secondly, existing methods are categorized into three parts based on their positions in the whole learning pipeline, namely unsupervised representation learning, supervised model learning and optimization, and typical methods for each category are discussed in detail. We then demonstrate the theoretical connections of different categories, and introduce the commonly used datasets and evaluation metrics. Finally, we summarize the whole literature and raise some future directions for OOD generalization problem. The summary of OOD generalization methods reviewed in this survey can be found at http://out-of-distribution-generalization.com.

1
25
下載
關閉預覽

相關內容

摘要

經典的機器學習方法是建立在i.i.d.假設的基礎上的,即訓練和測試數據是獨立同分布的。然而,在真實場景中,i.i.d.假設很難得到滿足,導致經典機器學習算法在分布移位下的性能急劇下降,這表明研究非分布泛化問題的重要性。Out-of-Distribution分布外 (OOD)泛化問題解決了測試分布未知且與訓練不同的挑戰性設置。本文首次係統、全麵地探討了OOD泛化問題,從定義、方法、評價到啟示和未來發展方向。首先,給出了OOD泛化問題的形式化定義。其次,根據現有方法在整個學習流程中的位置,將其分為無監督表示學習、有監督模型學習與優化三部分,並詳細討論了每一類的典型方法。然後,我們展示了不同類別的理論聯係,並介紹了常用的數據集和評價指標。最後,對全文文獻進行了總結,並對OOD泛化問題提出了未來的研究方向。本次綜述OOD泛化文獻可在http://out-of-distribution-generalization.com上找到。

引言

現代機器學習技術在計算機視覺、自然語言處理和推薦等領域表現出了出色的能力。許多研究在實驗條件下獲得了著超越人類的表現,但也揭示了機器學習模型在暴露於不同分布數據時的脆弱性。如此巨大的差距是由於違背了訓練和測試數據是相同且獨立分布的基本假設(又名i.i.d.假設),而大多數現有的學習模型都是基於這個假設開發的。在許多難以滿足i.i.d.假設的實際案例中,尤其是醫療、軍事和自動駕駛等高風險應用中,與訓練分布內的泛化相比,分布轉移下的泛化能力更為重要。因此,對分布外泛化問題的研究在學術界和工業界都具有重要的現實意義。

盡管OOD泛化問題很重要,但是經典的監督學習方法並不能直接解決這個問題。從理論上講,經典的監督學習最基本的假設之一是i.i.d.假設,它假設訓練和測試數據是獨立的、同分布的。然而,在OOD泛化問題中,分布偏移是不可避免的,這破壞了i.i.d.假設,使得經典的學習理論不再適用。從經驗上看,經典的監督學習方法通常通過最小化訓練誤差來優化,這些誤差貪心式地吸收數據中發現的所有相關性來進行預測。雖然在i.i.d設置中被證明是有效的,但它會在分布變化下損害性能,因為不是所有的相關性將在看不見的測試分布中保持。如[1],[2],[3],[4],[5]等文獻所示,當涉及到強分布轉移時,僅考慮訓練誤差的優化模型會顯著失敗,有時甚至比隨機猜測更糟糕,這說明設計OOD泛化問題的方法迫在眉睫。

為了解決OOD泛化問題,還存在幾個關鍵問題有待解決。首先,由於訓練和測試數據可以從不同的分布中提取,因此如何形式化地描述分布偏移仍然是一個懸而未決的問題。在OOD泛化文獻中,不同的方法分支采用不同的方法來模擬潛在測試分布。領域泛化方法[6],[7],[8],[9]主要關注真實場景,利用不同領域的數據。因果學習方法[2],[10],[11]製定了具有因果結構的訓練和測試分布,分布轉移主要來源於幹預或混雜因素。穩定學習方法[4],[12],[13]通過選擇偏差引入分布偏移。其次,如何設計一種具有良好OOD泛化性能的算法是目前研究的熱點,方法有很多分支,研究重點不同,包括無監督表示學習方法、有監督學習模型和優化方法。第三,不同方法的OOD性能評價仍然具有挑戰性,這需要特定的數據集和評價指標,因為經典的i.i.d.設置方法在分布轉移下不適用。這也促使了不同數據集的生成和評估。

在本文中,我們旨在提供一個相當廣泛的意義上的OOD泛化係統的全麵研究成果,涵蓋了從定義,方法,評價的整個生命周期的OOD問題的影響和未來的方向。據我們所知,我們是第一個在如此大的範圍和自成一體的形式中討論分布外泛化的努力。在此之前,已有一些著作對相關問題進行了討論。如[14]、[15]主要討論領域泛化;[16]討論OOD泛化的評價基準。之前的每一篇作品都是整個非分布泛化問題的一塊拚圖,而在這篇作品中,我們以清晰簡潔的方式將所有成分有機地整合在一起。具體來說,我們根據現有方法在整個學習流程中的位置將其分為三類。我們還通過因果關係的視角闡述了不同方法之間的理論聯係。為了促進OOD泛化研究的進一步深入,本文對分布偏移下的學習方法評價進行了詳盡的綜述。

為了應對未知分布偏移帶來的挑戰,人們在分布外泛化方麵做了大量的工作,相關方法的文獻也非常豐富。所采用的技術從因果關係到表示學習,從基於結構到基於優化,各有不同。然而,就我們所知,很少有人從廣義的OOD泛化的角度對這些不同的方法進行係統和全麵的考察,並闡明這些工作之間的區別和聯係。在本文中,我們試圖首先通過回顧OOD泛化的相關方法來填補這一空白。

一般來說,定義為式1的監督學習問題可以分為三個相對獨立的分量,即(1)特征X的表示(如g(X)); (2)從特征X(或g(X))到標號Y的映射函數fθ(X),一般又稱模型或歸納偏差; (3)優化目標的製定。因此,我們根據現有方法在整個學習流程中的位置,將其分為三個部分:

  • 麵向OOD泛化的無監督表示學習:包括解糾纏表示學習和因果表示學習,它們利用無監督表示學習技術(如變分貝葉斯)將先驗知識嵌入到學習過程中。

  • 麵向OOD泛化的監督模型學習:包括因果學習、穩定學習和領域泛化,設計各種模型體係結構和學習策略來實現OOD泛化。

  • OOD泛化優化:包括分布魯棒優化和基於不變的優化,直接製定OOD泛化目標,並在理論上保證OOD最優性的前提下進行優化。

成為VIP會員查看完整內容
1
29
0
  1. 圖神經網絡是一種功能強大的深度學習模型,驚人地普遍存在。

  2. 擴展和包含時間或異構信息是具有挑戰性的。

  3. 多種應用研究

成為VIP會員查看完整內容
0
49
0

What is Linux Linux file system Basic commands File permissions Variables Use HPC clusters Processes and jobs File editing

成為VIP會員查看完整內容
3
45
0

題目:AutoML: A Survey of the State-of-the-Art

摘要:

深度學習(DL)技術已滲透到我們生活的方方麵麵,並為我們帶來了極大的便利。但是,針對特定任務構建高質量的DL係統高度依賴於人類的專業知識,這阻礙了DL在更多領域的應用。自動機器學習(AutoML)成為在無需人工協助的情況下構建DL係統的有前途的解決方案,並且越來越多的研究人員專注於AutoML。在本文中,對AutoML中的最新技術(SOTA)進行了全麵而最新的回顧。首先,根據管道介紹AutoML方法,涵蓋數據準備,特征工程,超參數優化和神經體係結構搜索(NAS)。我們更加關注NAS,因為它是AutoML的非常熱門的子主題。然後總結了具有代表性的NAS算法在CIFAR-10和ImageNet數據集上的性能,並進一步討論了NAS方法的一些值得研究的方向:一階段/兩階段NAS,單次NAS以及聯合超參數和體係結構優化。最後,討論了現有AutoML方法的一些未解決的問題,以供將來研究。

成為VIP會員查看完整內容
0
61
0

考慮到當今使用的各種大數據應用程序的複雜性,cpu密集型的數據處理任務已經變得至關重要。降低每個進程的CPU利用率對於提高應用程序的總體速度非常重要。

這本書將教你如何執行計算的並行執行,將它們分布在一台機器的多個處理器上,從而提高大數據處理任務的整體性能。我們將討論同步和異步模型、共享內存和文件係統、各種進程之間的通信、同步等等。

你會學到什麼

  • 介紹並行計算和分布式計算
  • 同步和異步編程
  • 探索Python中的並行性
  • 分布式應用
  • 雲中的Python
  • 在HPC集群上的Python
  • 測試和調試分布式應用程序
成為VIP會員查看完整內容
2
64
0

題目:A Survey on Deep Geometry Learning: From a Representation Perspective

摘 要:

目前,研究人員已經在利用深度學習處理二維圖像方麵取得了很大的成功。近年來,三維計算機視覺和幾何深度學習越來越受到人們的重視。針對不同的應用,提出了許多先進的三維造型技術。與二維圖像可以由像素的規則網格統一表示不同,三維圖形具有多種表示,如深度和多視圖圖像、基於體素的表示、基於點的表示、基於網格的表示、隱式的表麵表示等。然而,不同應用程序的性能在很大程度上取決於所使用的表示,並且沒有一種惟一的表示可以適用於所有應用程序。因此,在本次調查中,我們從表象的角度回顧了三維幾何深度學習的最新發展,總結了不同表象在不同應用中的優缺點。我們也提出現有的數據集在這些表示和進一步討論未來的研究方向。

成為VIP會員查看完整內容
2
39
0

題目:A Survey on Distributed Machine Learning

簡介:在過去十年中,對人工智能的需求已顯著增長,並且這種增長得益於機器學習技術的進步以及利用硬件加速的能力,但是,為了提高預測質量並在複雜的應用程序中提供可行的機器學習解決方案,需要大量的訓練數據。盡管小型機器學習模型可以使用一定數量的數據進行訓練,但用於訓練較大模型(例如神經網絡)的輸入與參數數量成指數增長。由於處理訓練數據的需求已經超過了計算機器的計算能力的增長,因此急需在多個機器之間分配機器學習工作量,並將集中式的精力分配到分配的係統上。這些分布式係統提出了新的挑戰,最重要的是訓練過程的科學並行化和相關模型的創建。本文通過概述傳統的(集中的)機器學習方法,探討了分布式機器學習的挑戰和機遇,從而對當前的最新技術進行了廣泛的概述,並對現有的技術進行研究。

成為VIP會員查看完整內容
1
86
0

*《Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs》A Jolicoeur-Martineau, I Mitliagkas [Mila] (2019)

成為VIP會員查看完整內容
0
17
0

The tutorial is written for those who would like an introduction to reinforcement learning (RL). The aim is to provide an intuitive presentation of the ideas rather than concentrate on the deeper mathematics underlying the topic. RL is generally used to solve the so-called Markov decision problem (MDP). In other words, the problem that you are attempting to solve with RL should be an MDP or its variant. The theory of RL relies on dynamic programming (DP) and artificial intelligence (AI). We will begin with a quick description of MDPs. We will discuss what we mean by “complex” and “large-scale” MDPs. Then we will explain why RL is needed to solve complex and large-scale MDPs. The semi-Markov decision problem (SMDP) will also be covered.

The tutorial is meant to serve as an introduction to these topics and is based mostly on the book: “Simulation-based optimization: Parametric Optimization techniques and reinforcement learning” [4]. The book discusses this topic in greater detail in the context of simulators. There are at least two other textbooks that I would recommend you to read: (i) Neuro-dynamic programming [2] (lots of details on convergence analysis) and (ii) Reinforcement Learning: An Introduction [11] (lots of details on underlying AI concepts). A more recent tutorial on this topic is [8]. This tutorial has 2 sections: • Section 2 discusses MDPs and SMDPs. • Section 3 discusses RL. By the end of this tutorial, you should be able to • Identify problem structures that can be set up as MDPs / SMDPs. • Use some RL algorithms.

成為VIP會員查看完整內容
3
79
0

With the rise and development of deep learning, computer vision has been tremendously transformed and reshaped. As an important research area in computer vision, scene text detection and recognition has been inescapably influenced by this wave of revolution, consequentially entering the era of deep learning. In recent years, the community has witnessed substantial advancements in mindset, approach and performance. This survey is aimed at summarizing and analyzing the major changes and significant progresses of scene text detection and recognition in the deep learning era. Through this article, we devote to: (1) introduce new insights and ideas; (2) highlight recent techniques and benchmarks; (3) look ahead into future trends. Specifically, we will emphasize the dramatic differences brought by deep learning and the grand challenges still remained. We expect that this review paper would serve as a reference book for researchers in this field. Related resources are also collected and compiled in our Github repository:https://github.com/Jyouhou/SceneTextPapers.

成為VIP會員查看完整內容
2
48
0
小貼士
相關資訊
深度自進化聚類:Deep Self-Evolution Clustering
我愛讀PAMI
11+閱讀 · 2019年4月13日
逆強化學習-學習人先驗的動機
CreateAMind
6+閱讀 · 2019年1月18日
強化學習的Unsupervised Meta-Learning
CreateAMind
7+閱讀 · 2019年1月7日
無監督元學習表示學習
CreateAMind
22+閱讀 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
32+閱讀 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字閨中
10+閱讀 · 2018年12月24日
Disentangled的假設的探討
CreateAMind
8+閱讀 · 2018年12月10日
disentangled-representation-papers
CreateAMind
24+閱讀 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
3+閱讀 · 2018年4月15日
【論文】變分推斷(Variational inference)的總結
機器學習研究會
24+閱讀 · 2017年11月16日
Top
微信掃碼谘詢專知VIP會員
Top