近年來,人工智能領域,在開發人工智能係統方麵取得了巨大進展,這些係統可以從大量精心標記的數據中學習。這種監督學習範式在訓練專門的模型方麵性能極好,在它們訓練的任務上往往能夠獲得極高的性能表現。

但不幸的是,僅靠監督學習,人工智能領域難以走遠。

監督學習在構建更智能的通用模型上存在本質上的瓶頸,例如處理多任務問題,或者通過大量存在的無標簽數據學習新技能等。實際上,我們不可能對世界上一切事物都做標注;即使可以標注,但數量也可能並不足夠,例如低資源語言翻譯任務。

如果人工智能係統能夠在訓練數據集之外,對現實世界能夠有更深入、更細致的理解,顯然它們將更有用,最終也將使人工智能更接近人類層麵的智能。

人類嬰兒學習世界運作,主要是通過觀察。我們會通過學習物體的持久性、重力等概念,從而形成關於世界上物體的廣義預測模型。在隨後的人生裏,我們不斷觀察世界,然後對它進行作用,然而再觀察作用的效果等等,通過反複嚐試,從而建立假設,解釋我們的行動如何能夠改變我們的環境。

一種有效的假設是,人類和動物的生物智能,主要的成分是由關於世界的普遍知識或常識構成的,這種常識在生物智能中會被默認為自然而存在的背景。但對於人工智能來說,如何構建這種常識卻一直是一個開放的挑戰難題。在某種程度上,常識正是人工智能的暗物質。

常識可以幫助人們學習新技能,而無需為每項任務做大量的監督訓練。

例如,我們隻需要給小孩子看幾張奶牛的圖畫,他們以後便可以輕鬆地識別出任何奶牛。相比之下,經過監督學習訓練的人工智能係統,則需要許多奶牛的標注圖像,即使這樣,訓練出的模型在一些特殊情況下,依然無法做出準確判斷。

人類通過 20 個小時的練習,便能夠學會駕駛汽車,但人類司機數千小時的數據卻無法訓練出一個很好的自動駕駛係統。

答案很簡單:人類借助了他們以前獲得的關於世界如何運作的背景知識。

我們如何讓機器也能這樣做呢?

我們認為,自我監督學習(self-supervised learning)是建立這種背景知識和近似人工智能係統中一種常識的最有前途的方法之一。

自我監督學習使人工智能係統能夠從數量級更大的數據中學習,這對於識別和理解世界更微妙、更不常見的表示模式很重要。

長期以來,自我監督學習在推進自然語言處理(NLP)領域取得了巨大成功,包括 Collobert-Weston 2008 model,Word2Vec,GloVE,fastText 以及最近的BERT,RoBERTa,XLM-R等。通過這些方法訓練的係統,會比以監督學習的方式訓練的係統,性能要高得多。

我們最新的研究項目 SEER 利用 SwAV 和其他方法,在10億張隨機的未標記圖像上預訓練了一個大型網絡,在各種視覺任務上獲得了最高的精度。這一進展表明,在複雜的現實環境中,自監督學習也可以在 CV 任務中有出色表現。

在接下來的這篇文章中,我們將講述,為什麼自監督學習可能有助於解開智能暗物質,以及為什麼它將是人工智能的下一個前沿。我們也將列出一些有前途的新方向,包括:在存在不確定性的情況下,基於能量的預測模型、聯合嵌入方法、人工智能係統中用於自監督學習和推理的隱變量體係結構等。

目錄內容:人類和動物如何快速學習? 自監督學習 基於能量的模型 EBM Architectures for multimodal prediction Non-Contrastive EBM Training Architectural EBM Generative Regularized Latent-Variable Architectures Amortized Inference: Learning to predict the latent variable

成為VIP會員查看完整內容
0
46
0

相關內容

自監督學習(self-supervised learning)可以被看作是機器學習的一種“理想狀態”,模型直接從無標簽數據中自行學習,無需標注數據。

動機 大型知識圖通常會增長以存儲時態事實,這些時間事實對實體沿時間線的動態關係或交互進行建模。因為這樣的時態知識圖經常遭受不完全性的困擾,所以開發有助於推斷缺失的時態事實的時間感知表示學習模型是很重要的。雖然時間事實通常是不斷演變的,但據觀察,許多事實往往沿著時間線呈現出重複的模式,例如經濟危機和外交活動。這一觀察表明,一個模型可能從曆史上出現的已知事實中學到很多東西。為此,作者基於一種新穎的時間感知拷貝生成機製,提出了一種新的時態知識圖表示學習模型——CyGNet。CyGNet不僅能夠從整個實體詞彙中預測未來的事實,而且能夠通過重複識別事實,並相應地參考過去已知的事實來預測未來的事實。實驗使用五個基準數據集在知識圖完成任務上評估了所提出的方法。大量的實驗證明了CyGNet預測未來重複事實和從頭預測事實的有效性。

亮點 CyGNet的亮點主要包括:

(1)研究重複的時間事實的潛在現象,並建議在TKGs(temporal knowledge graphs,時態知識圖譜)中學習推斷未來事實時參考曆史上已知的事實;

(2)作者通過時間感知複製生成機製提出了一個新的TKG嵌入模型CyGNet,它結合了兩種推理模式,基於曆史詞彙或整個實體詞彙進行預測,因此更符合前麵提到的TKG事實的演化模式。

概念及模型 CyGNet模型主要結合了兩種推理模式,即複製模式和生成模式,前者試圖從特定的曆史詞彙中選擇實體,形成曆史中的重複事實,而後者從整個實體詞彙中預測實體。模型整體框架如下:

成為VIP會員查看完整內容
0
17
0

借助現代的高容量模型,大數據已經推動了機器學習的許多領域的革命,但標準方法——從標簽中進行監督學習,或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富,獲得明確指定模型必須做什麼的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對於數百萬計的示例來說是不可能的,結構化輸出(場景解釋、交互、演示)要糟糕得多,尤其是當數據分布是非平穩的時候。

自監督學習是一個很有前途的替代方法,其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習,這有助於對感興趣的任務的下遊性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。

自監督學習(self-supervised learning, SSL)領域正在迅速發展,這些方法的性能逐漸接近完全監督方法。

成為VIP會員查看完整內容
0
114
1

【導讀】在最新AAAI2020的邀請嘉賓報告上,Facebook人工智能總監、圖靈獎得主Yann Lecun給了自監督學習的報告《Self-Supervised Learning 》,44頁ppt,介紹了深度學習麵臨的挑戰,自監督學習的光明前景,基於能量學習的因變量模型,介紹最新自監督學習的進展與問題,是非常值得看的報告。

自監督學習 Self-Supervised Learning

計算機感知、語音識別和自然語言處理的最新進展幾乎都是建立在有監督的深度學習的基礎上的,在這種學習中,機器預測需要人類提供的標注。如今,DL係統已經成為搜索引擎和社交網絡內容過濾和檢索、醫學圖像分析、駕駛輔助以及許多科學領域的核心。但是,最好的機器學習方法仍然需要比人類和動物學習多得多的數據或與環境的交互。我們如何讓機器像動物和人類一樣,通過獨立於任務的觀察來學習關於世界如何運作的大量背景知識?一種有前途的方法是自監督學習(SSL),即機器從輸入的其他部分預測輸入的一部分。SSL已經在離散領域帶來了巨大的進步,例如語言理解。問題是如何在音頻、圖像和視頻等高維連續域中使用SSL。

成為VIP會員查看完整內容
0
141
18
小貼士
相關論文
Prakhar Gupta,Martin Jaggi
0+閱讀 · 6月8日
Debjit Paul,Anette Frank
0+閱讀 · 6月7日
Ji-Ung Lee,Jan-Christoph Klie,Iryna Gurevych
0+閱讀 · 6月4日
Francesco Marchetti,Federico Becattini,Lorenzo Seidenari,Alberto Del Bimbo
0+閱讀 · 6月3日
Generalization and Regularization in DQN
Jesse Farebrother,Marlos C. Machado,Michael Bowling
5+閱讀 · 2019年1月30日
Yang Feng,Lin Ma,Wei Liu,Jiebo Luo
6+閱讀 · 2018年11月27日
Eliyahu Kiperwasser,Miguel Ballesteros
5+閱讀 · 2018年4月24日
Ling Zhang,Vissagan Gopalakrishnan,Le Lu,Ronald M. Summers,Joel Moss,Jianhua Yao
4+閱讀 · 2018年1月25日
Aidan N. Gomez,Sicong Huang,Ivan Zhang,Bryan M. Li,Muhammad Osama,Lukasz Kaiser
11+閱讀 · 2018年1月15日
Ting-Hao 'Kenneth' Huang,Joseph Chee Chang,Jeffrey P. Bigham
6+閱讀 · 2018年1月10日
Top