Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

人工智能和強化學習領域中一些最令人興奮的成功故事都發生在遊戲領域。主要的例子是最近的AlphaZero程序(它下國際象棋),以及早期(1990年代)結構類似的TD-Gammon程序(它下西洋雙陸棋)。這些程序經過離線的廣泛訓練,使用複雜的自演化/近似策略迭代算法和神經網絡。然而,在離線情況下獲得的AlphaZero玩家並不會在在線遊戲中直接使用(由於離線神經網絡訓練固有的近似錯誤,它太不準確了)。取而代之的是一個單獨的在線玩家,它是基於多步預測和一個經過離線訓練的終端位置評估器,在線玩家執行一種形式的策略改進,這與離線玩家不同,它不會因神經網絡近似而退化。因此,它大大提高了性能。

類似地,TD-Gammon使用沒有被神經網絡近似退化的前瞻最小化在線執行一個策略改進步驟。為此,它使用了一個經過離線神經網絡訓練的終端位置評估器,重要的是,它還通過rollout擴展了其在線前向(使用基於位置評估器的一步前向播放器進行仿真)。AlphaZero和TD-Gammon的一個重要教訓是,離線訓練的控製器的性能可以通過在線遊戲、長時間的前瞻性(包括最小化或推出離線獲得的策略,或兩者都有)和離線獲得的終端成本近似大大提高。這種性能的提高通常是戲劇性的,這是由於一個簡單的事實,這是我們工作的中心:在線遊戲相當於求解Bellman方程的牛頓方法的一個步驟,而牛頓步驟的起點是基於離線訓練的結果,並可能通過更長的前瞻性和在線推出得到增強。這個過程可以用動態規劃的抽象模型和簡單的幾何結構來理解。它在一定程度上體現在模型預測控製中,但它似乎還沒有在決策和控製社區中得到充分的認識。

在這項工作中,我們的目標是提供洞察力(通常基於可視化),解釋在線決策對離線訓練的有益影響。雖然我們將不再強調數學證明,但有相當多的相關分析,支持我們的結論,可以在作者最近的RL書籍[Ber19a], [Ber20a]中找到。我們的主要目標之一是通過抽象DP的統一原則表明,AlphaZero/TD-Gammon逼近值空間和rollout的思想非常廣泛地應用於確定性和隨機最優控製問題,包括離散和連續搜索空間。此外,這些思想可以有效地與模型預測控製、自適應控製、分散控製、離散和貝葉斯優化、基於神經網絡的值和策略逼近、啟發式算法等其他重要方法相結合。

http://web.mit.edu/dimitrib/www/abstractdp_MIT.html

"> 美國工程院院士MIT教授Dimitri《AlphaZero最優模型預測與自適應控製》2022新書,(附書稿PDF&講義) - 專知VIP

MIT科學家Dimitri P. Bertsekas今日發布了一份2022即將出版的《Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control》書稿及講義,該專著為強化學習進階,目的在於通過從AlphaZero獲取經驗教訓,涵蓋最優模型預測與自適應控製。

Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control

人工智能和強化學習領域中一些最令人興奮的成功故事都發生在遊戲領域。主要的例子是最近的AlphaZero程序(它下國際象棋),以及早期(1990年代)結構類似的TD-Gammon程序(它下西洋雙陸棋)。這些程序經過離線的廣泛訓練,使用複雜的自演化/近似策略迭代算法和神經網絡。然而,在離線情況下獲得的AlphaZero玩家並不會在在線遊戲中直接使用(由於離線神經網絡訓練固有的近似錯誤,它太不準確了)。取而代之的是一個單獨的在線玩家,它是基於多步預測和一個經過離線訓練的終端位置評估器,在線玩家執行一種形式的策略改進,這與離線玩家不同,它不會因神經網絡近似而退化。因此,它大大提高了性能。

類似地,TD-Gammon使用沒有被神經網絡近似退化的前瞻最小化在線執行一個策略改進步驟。為此,它使用了一個經過離線神經網絡訓練的終端位置評估器,重要的是,它還通過rollout擴展了其在線前向(使用基於位置評估器的一步前向播放器進行仿真)。AlphaZero和TD-Gammon的一個重要教訓是,離線訓練的控製器的性能可以通過在線遊戲、長時間的前瞻性(包括最小化或推出離線獲得的策略,或兩者都有)和離線獲得的終端成本近似大大提高。這種性能的提高通常是戲劇性的,這是由於一個簡單的事實,這是我們工作的中心:在線遊戲相當於求解Bellman方程的牛頓方法的一個步驟,而牛頓步驟的起點是基於離線訓練的結果,並可能通過更長的前瞻性和在線推出得到增強。這個過程可以用動態規劃的抽象模型和簡單的幾何結構來理解。它在一定程度上體現在模型預測控製中,但它似乎還沒有在決策和控製社區中得到充分的認識。

在這項工作中,我們的目標是提供洞察力(通常基於可視化),解釋在線決策對離線訓練的有益影響。雖然我們將不再強調數學證明,但有相當多的相關分析,支持我們的結論,可以在作者最近的RL書籍[Ber19a], [Ber20a]中找到。我們的主要目標之一是通過抽象DP的統一原則表明,AlphaZero/TD-Gammon逼近值空間和rollout的思想非常廣泛地應用於確定性和隨機最優控製問題,包括離散和連續搜索空間。此外,這些思想可以有效地與模型預測控製、自適應控製、分散控製、離散和貝葉斯優化、基於神經網絡的值和策略逼近、啟發式算法等其他重要方法相結合。

http://web.mit.edu/dimitrib/www/abstractdp_MIT.html

成為VIP會員查看完整內容
2
100
0

相關內容

這本書的代碼已經全部開放,讀者可以邊看邊實踐,學會實現「深度生成模型」。

今天,阿姆斯特丹自由大學助理教授、前高通 AI 研究中心研究員 Jakub Tomczak 在推特上公布了全新著作《深度生成模型》的進展,目前這本書已經正式出版。

書籍訪問地址:https://link.springer.com/book/10.1007/978-3-030-93158-2

在書的最開始,阿姆斯特丹大學機器學習研究主席、前高通技術副總裁、現微軟阿姆斯特丹實驗室首席科學家 Max Welling 寫下了序言:

過去的十年中,隨著深度學習的發展,機器學習領域取得了巨大的進步,並徹底改變了人工智能的分支領域,如計算機視覺、語音識別和自然語言處理。同時,更多的領域正在被重塑,包括機器人技術、無線通信和自然科學。

此前,大多數的進步來自監督學習,輸入 (例如一張圖片) 和目標標簽 (例如「貓」) 即可用於訓練。深度神經網絡在預測視覺場景中的物體和語言之間的轉換方麵表現得出奇優秀,但是獲得標簽來訓練這樣的模型通常是耗時的、昂貴的,甚至是不道德的或者根本不可能的。

所以,研究者們已經認識到無監督 (或自監督) 方法是取得進一步進展的關鍵。這和人類的學習過程沒有什麼不同: 當人類的孩子長大後,Ta 為了理解這個世界所消耗的信息量大部分是無標簽的。又有多少人會真正告訴你「你在這個世界上看到或聽到了什麼?」人們必須在無監督的情況下學習世界的規律,通過在數據中搜索模式和結構來做到這一點,這就是人工智能模型需要借鑒的地方。

當然,對於機器人來說,理解世界是更困難的。實用的學習方法是使用大量數據的非監督式學習。這個領域已經獲得了巨大的關注,並且近來取得了驚人的進步。非監督式學習有很多種,這本書是關於概率生成模型的那一類。其目標是預估一個輸入數據的概率模型,一旦有了這樣一個模型,就可以從中生成新的樣本(比如不存在的人的新麵孔圖像)。

在《深度生成模型》這本書中,作者通過結合概率模型和深度學習來處理構建人工智能係統的問題。此外,它超越了典型的預測模型,將監督學習和非監督學習結合在一起。由此產生的範式稱為「深度生成模型」,它從生成視角感知周圍的世界。該方法假設每個現象都是由一個潛在的生成過程驅動的,這個生成過程定義了隨機變量及其隨機相互作用的聯合分布,即事件發生的方式和順序。「深度」的形容來自於一個事實,即分布是用深度神經網絡參數化的。

深度生成模型有兩個顯著的特點。首先,深度神經網絡的應用允許豐富而靈活的參量化分布;其次,使用概率論建立隨機依賴關係的原則性方式確保了嚴格的公式化,並防止了推理中的潛在缺陷;此外,概率論提供了一個統一的框架,其中似然函數在量化不確定性和定義目標函數中起著關鍵作用。

《深度生成模型》這本書旨在吸引對該領域感興趣的學生、工程師和研究人員,他們在本科微積分、線性代數、概率論、機器學習、深度學習、 Python 和 PyTorch (或其他深度學習庫)編程方麵有一定的數學背景。本書將吸引來自不同背景但希望了解深度生成模型的學生和研究人員,包括計算機科學、工程學、數據科學、物理學和生物信息學領域。

這本書用具體的例子和代碼片段介紹了基本概念。每個章節中涉及的代碼都已經在 Github 上公布:https://github.com/jmtomczak/intro_dgm

作者介紹

自 2019 年 11 月以來,Jakub Tomczak 是阿姆斯特丹自由大學計算智能小組的人工智能助理教授。此前,他是阿姆斯特丹高通 AI 研究中心的深度學習研究員。2016 年 10 月至 2018 年 9 月,他是阿姆斯特丹大學 Max Welling 教授小組的 Marie Sklodowska-Curie 個人研究員。

Jakub Tomczak 在波蘭的弗羅茨瓦夫大學獲得了機器學習博士學位。他的研究興趣包括概率建模、深度學習、近似貝葉斯模型和深度生成模型(特別關注變分自動編碼器和基於流的模型)。

書籍目錄

本書的目的是概述深度生成模型中最重要的技術,讓讀者能夠搭建新的模型並實現它們。書由八章組成,可以單獨閱讀,並且幾乎能夠按任何順序閱讀。第一章介紹了主題,重點介紹了深度生成模型和一般概念的重要類別。第二、三、四章討論了邊際分布的建模問題。第五章和第六章概述了聯合分布模型的內容。第七章提出了一種不通過基於似然的目標學習的潛在變量模型。最後一章闡述了深度生成模型在快速發展的神經壓縮領域中的應用。

成為VIP會員查看完整內容
34
55
0

這本書是作為《統計與R專門化》課程貝葉斯統計的伴讀而寫的。我們開發這門課程的目標是在不需要微積分的情況下提供一個關於決策中的貝葉斯推理的介紹,書中提供了更多關於貝葉斯推理的細節和背景。在寫這篇文章的時候,我們希望它可以作為使用R的貝葉斯推理的開放入門,供任何有興趣學習貝葉斯統計的人使用。本課程將更廣泛地討論教材和範例,並提供額外的範例和練習。雖然我們不要求學習者有任何微積分或線性代數的背景,但對於那些有此背景並有興趣深入學習的人,我們在每一章中都包含了可選的子部分,以提供額外的數學細節和一些關鍵結果的推導。

https://statswithr.github.io/book/

成為VIP會員查看完整內容
2
48
0

用於機器學習的貝葉斯方法已經被廣泛研究,產生了將先驗信息納入推理算法的原則方法。本文對貝葉斯方法在強化學習(RL)範式中的作用進行了深入的評述。在RL中整合貝葉斯推理的主要動機是,它提供了一種優雅的行動選擇(探索/開發)方法,作為學習中的不確定性的函數,並且它提供了一種將先驗知識整合到算法中的機製。

貝葉斯強化學習:綜述首先討論了簡單單步Bandit模型中的貝葉斯推理模型和方法。然後回顧了最近關於基於模型的RL的貝葉斯方法的廣泛文獻,其中先驗信息可以表達在馬爾可夫模型的參數上。它還提出了無模型RL的貝葉斯方法,其中先驗是在值函數或策略類上表示的。

《貝葉斯強化學習》是一個全麵的參述,為學生和研究人員與興趣的貝葉斯RL算法及其理論和經驗性質。

成為VIP會員查看完整內容
6
66
0

這本書的目的是提供一個從零開始全麵的貝葉斯優化介紹,並細致闡述所有關鍵的想法。目標受眾是機器學習、統計和相關領域的研究生和研究人員。然而,我也希望來自其他領域的從業者和研究人員能在這裏找到一些用處。

https://bayesoptbook.com/

本書分為三個主要部分,包括:

  • 高斯過程建模的理論與實踐,
  • Bayesian方法用於序列決策
  • 實現切實有效的優化策略。

還包括一些其他的主題:

  • 理論收斂結果的概述,
  • 一項關於引人注目的擴展的調研,
  • 貝葉斯優化的全麵曆史
  • 應用的帶注釋的參考書目。

目錄內容: Introduction Gaussian Processes Modeling with Gaussian Processes Model Assessment, Selection, and Averaging Decision Theory for Optimization Utility Functions for Optimization Common Bayesian Optimization Policies Computing Policies with Gaussian Processes Implementation Theoretical Analysis Extensions and Related Settings A Brief History of Bayesian Optimization

引言概述

在機器學習的背景下,貝葉斯優化是一個古老的想法。盡管貝葉斯優化的曆史已經很長,但在過去的十年裏,它經曆了一段複興和快速發展的時期。這種複興的主要驅動力是計算方麵的進步,這使得貝葉斯建模和推理的工具越來越複雜。

這本書的目的是提供一個從零開始的全麵的貝葉斯優化介紹,並細致闡述所有的關鍵思想。這種自下而上的方法允許我們在貝葉斯優化算法中確定統一的主題,這些主題可能在以往的調研文獻時丟失。

這本書分為三個主要部分。第2-4章涵蓋了高斯過程建模的理論和實踐方麵。這類模型是貝葉斯優化文獻中最受歡迎的,其中包含的材料對接下來的幾章至關重要。

第5-7章介紹了序列決策理論及其在優化中的應用。雖然這個理論需要一個目標函數的模型和我們對它的觀察,介紹是不可知的模型的選擇,可以獨立地閱讀前幾章的高斯過程。這些內容是在第8-10章中介紹的,討論了使用高斯過程模型的貝葉斯優化的細節。第8-9章討論了計算和實現的細節,第10章討論了貝葉斯優化算法的理論性能界限,其中大多數結果密切依賴於目標函數的高斯過程模型或相關的重新生成核希爾伯特空間。

一些應用的細微差別需要修改基本序列優化方案(這是前幾章的重點),第11章介紹了對這一基本設置的幾個值得注意的擴展。每一個都是通過貝葉斯決策理論的統一視角係統地呈現出來的,以說明一個人在麵對新情況時應該如何處理。最後,第12章提供了一個簡單和獨立的貝葉斯曆史介紹。

成為VIP會員查看完整內容
3
64
0

AlphaZero、Leela Chess Zero和Stockfish NNUE徹底改變了計算機象棋。這本書對這種發動機的內部技術工作作了全麵的介紹。

這本書分為四個章節:

第一章介紹了神經網絡,涵蓋了所有用於構建深度網絡(如AlphaZero所使用的)的基本構建模塊。內容包括感知器、反向傳播和梯度下降、分類、回歸、多層perpectron、矢量化技術、卷積網絡、擠壓和激勵網絡、全連接網絡、批量歸一化和修正線性單元、殘差層、過擬合和欠擬合。

第二章介紹了國際象棋引擎以及AlphaZero所使用的經典搜索技術。內容包括極大極小值、alpha-beta搜索和蒙特卡羅樹搜索。

第三章介紹了現代象棋引擎的設計。除了開創性的AlphaGo, AlphaGo Zero和AlphaZero,我們還介紹了Leela Chess Zero, Fat Fritz, Fat Fritz 2和efficient Updateable Neural Networks (NNUE)以及Maia。

第四章是實現一個小型化的AlphaZero。AlphaZero,國際象棋的簡化版本,就是一個例子。采用極大極小搜索法求解六爪,生成有監督學習的訓練位置。然後作為比較,一個類似AlphaZero的訓練循環是通過結合強化學習的自我遊戲來完成的。最後,比較了AlphaZero類訓練和監督式訓練。

https://github.com/asdfjkl/neural_network_chess

成為VIP會員查看完整內容
1
26
0

為藥物開發人員而不是計算機科學家寫的,這一專論采用了一種係統的方法來挖掘科學數據源,涵蓋了從化合物篩選到先導化合物選擇和個性化藥物的合理藥物發現的所有關鍵步驟。第一部分明確地分為四個部分,討論了不同的可用的數據來源,包括商業和非商業的,而下一節著眼於數據挖掘在藥物發現中的作用和價值。第三部分比較了多藥理學最常見的應用和策略,其中數據挖掘可以大大提高研究工作。書的最後一部分是致力於複合測試的係統生物學方法。

在整本書中,工業和學術藥物發現策略被處理,貢獻者來自兩個領域,使一個知情的決定,何時和哪些數據挖掘工具使用自己的藥物發現項目。

一般來說,從數據庫中提取信息稱為數據挖掘。數據庫是一種數據集合,其組織方式允許方便地訪問、管理和更新其內容。數據挖掘包括數字和統計技術,可以應用於許多領域的數據,包括藥物發現。數據挖掘的功能定義是使用數值分析、可視化或統計技術來識別數據集中重要的數值關係,從而更好地理解數據並預測未來的結果。通過數據挖掘,我們可以得到一個模型,該模型將一組分子描述符與諸如功效或ADMET特性等生物關鍵屬性聯係起來。所得模型可用於預測新化合物的關鍵屬性值,為後續篩選確定優先級,並深入了解化合物的構效關係。數據挖掘模型範圍從簡單的、由線性技術導出的參數方程到複雜的、由非線性技術導出的非線性模型。文獻[1-7]提供了更詳細的信息。

這本書分為四個部分。第一部分涉及藥物發現中使用的不同數據來源,例如,蛋白質結構數據庫和主要的小分子生物活性數據庫。第二部分重點介紹數據分析和數據豐富的不同方法。在這裏,我們提出了對HTS數據挖掘和識別不同目標命中的工業見解。另一章展示了強大的數據可視化工具在簡化這些數據方麵的優勢,從而促進了它們的解釋。第三部分包括多種藥理學的一些應用。例如,在化學基因組學時代,數據挖掘可以為配體分析和目標捕捉帶來積極的結果。最後,在第四部分,係統生物學方法被考慮。例如,讀者被介紹到綜合和模塊化分析方法,以挖掘大分子和表型數據。結果表明,該方法能夠降低高維數據的複雜性,並為整合不同類型的組學數據提供了一種方法。在另一章中,建立了一套新的方法,定量地衡量化學品對生物係統的生物影響。

成為VIP會員查看完整內容
2
56
0

《凸優化理論》力圖以簡潔的篇幅,介紹凸優化的一個完整理論分析框架。凸優化理論的基石在於對偶。作者選取了相交點的幾何框架(簡稱MC/MC框架)作為凸優化問題的對偶性分析的基礎框架。相比於基於函數共軛性的代數框架,MC/MC框架更適用於直觀地分析和理解各種重要的優化問題,也更適合初學者學習和理解凸優化理論。《凸優化理論/信息技術和電氣工程學科國際知名教材中譯本係列》可以作為高年級本科生、研究生運籌學優化類課程的教材或相關研究人員的參考書。

http://www.athenasc.com/convexduality.html

Dimitri P.Bertsekas,畢業於希臘雅典國立技術大學,主修機械與電氣工程專業,在麻省理工學院係統科學專業獲得博士學位,他曾經在斯坦福大學工程與經濟係統係、伊利諾伊大學香檳分校電氣工程係任教.從1979年起,他在麻省理工學院電氣工程與計算機科學係任教,目前是McAfee工程講座教授。   他的教學科研領域包括:確定性優化、動態規劃與隨機控製、大規模及分布式計算以及數據通信網絡.他發表和合著了大量研究論文,出版專著14本,其中部分專著被麻省理工學院作為教材使用,包括《非線性規劃》、《數據網絡》、《概率論入門》以及該書,他經常為企業進行谘詢,並為若幹學術期刊做編輯工作。   由於在他的著作《神經元動態規劃》(與John Tsitsiklis合著)中反映出的在運籌學與計算機科學結合方麵的出色研究成果,Bertsekas教授獲得了1997年的INFORMS獎,他還因運籌學研究獲得過2000年度希臘國家獎章和2001年ACC John R.Ragazzini教育獎.2001年,他當選為美國工程院院士。

成為VIP會員查看完整內容
0
45
0

強化學習是一種學習範式,它關注的是如何控製一個係統,從而最大化一個表示長期目標的數值性能度量。強化學習與監督學習的區別在於,對於學習器的預測,隻會給予部分反饋。此外,這些預測可能通過影響被控製係統的未來狀態而產生長期影響。因此,時間扮演著特殊的角色。強化學習的目標是發展有效的學習算法,以及了解算法的優點和局限性。強化學習之所以引起人們極大的興趣,是因為它可以用於解決大量的實際應用,從人工智能到運籌學或控製工程的問題。在這本書中,我們專注於那些建立在強大的動態規劃理論基礎上的強化學習算法。我們給出了一個相當全麵的學習問題的目錄,描述了核心思想,關注大量的最先進的算法,然後討論了它們的理論性質和局限性。

https://sites.ualberta.ca/~szepesva/rlbook.html

成為VIP會員查看完整內容
1
65
0

【摘 要】移動通信技術走過了37年的發展曆程,人工智能技術也已走過了64年的發展曆程。從早期的各自獨立演進,到5G與人工智能開始深度融合發展,“5G與人工智能”已被業界視為一組最新的通用目的技術組合,對垂直行業的發展起到提振生產力與賦能的作用。首先介紹了早期移動通信和人工智能各自的發展路線,並重點回顧了人工智能與通信技術在3G到5G階段開始融合發展。針對通信人工智能,詳細闡述了當前人工智能技術在移動通信生態係統中各領域的發展情況,包括通信網絡基礎設施、網絡管理與運營、電信業務管理、跨領域融合智能化、垂直行業與專網等,並總結了通信國際標準組織對人工智能技術在移動通信係統中的分級定義與演進路線。麵向下一個十年,展望了通信人工智能未來的發展路線與演進趨勢,並結合 3GPP與ITU-R的5G/6G時間表,前瞻性探索了基於3GPP和O-RAN路線的網絡智能化、基於體驗感知與意圖的網絡管理與運營係統的發展、網絡AI信令體係、麵向智慧中台演進的電信業務與支撐體係、跨領域融合的智能化體驗管理與策略管理、從SLA向ELA的演進以及麵向垂直行業的智能專網等。最後建議行業達成共識,在下一個十年中全麵加速推進人工智能在通信生態領域的發展。

http://www.infocomm-journal.com/dxkx/CN/10.11959/j.issn.1000-0801.2021055

成為VIP會員查看完整內容
1
24
0

深度生成建模是一類訓練深度神經網絡對訓練樣本分布進行建模的技術。

研究已經分成了各種相互關聯的方法,每一種方法都進行了權衡,包括運行時、多樣性和體係結構限製。

特別是,本綜述涵蓋了基於能量的模型、變分自編碼器、生成對抗網絡、自回歸模型、規格化流,以及許多混合方法。這些技術是在一個單一的內聚框架下繪製的,比較和對比來解釋每種技術背後的前提,同時回顧當前最先進的進展和實現。

引言

使用神經網絡的生成式建模起源於上世紀80年代,目的是在沒有監督的情況下學習數據,可能為標準分類任務提供好處。這是因為收集無監督學習的訓練數據自然要比收集標記數據花費更少的精力和成本,但仍然有大量可用的信息表明生成模型對於各種各樣的應用是至關重要的。

除此之外,生成模型有很多直接的應用;最近的一些工作包括圖像生成:超分辨率,文本到圖像和圖像到圖像轉換,修複,屬性操作,姿態估計; 視頻:合成與重定向;音頻:語音和音頻合成;文本:生成、翻譯;強化學習;計算機圖形學:快速渲染、紋理生成、人物運動、液體模擬;醫學:藥物合成、方式轉換;密度估計;數據增加;特征生成。

生成模型的核心思想是訓練一個生成模型,其樣本x ~ pθ(x )來自與訓練數據分布相同的分布,x ~ pd(x)。第一個神經生成模型,即基於能量的模型,通過在與似然成比例的數據點上定義能量函數來實現這一點,然而,這些模型難以縮放到複雜的高維數據,如自然圖像,並且在訓練和推理過程中都需要蒙特卡羅馬爾可夫鏈(MCMC)采樣,這是一個緩慢的迭代過程。近年來,人們對生成模型重新產生了興趣,總的來說,這是由於大型免費數據集的出現,以及通用深度學習架構和生成模型的進步,在視覺保真度和采樣速度方麵開辟了新領域。在許多情況下,這是通過使用潛在變量z來實現的,這很容易從樣本和/或計算密度,而不是學習p(x, z);這就需要對未觀察到的潛在變量進行邊緣化,然而,一般來說,這很難做到。因此,生成模型通常會在執行時間、架構或優化代理功能方麵進行權衡。選擇優化的對象對樣本質量有重要影響,直接優化可能性往往導致樣本質量顯著低於替代函數。

有許多綜述論文關注於特定的生成模型,如歸一化流[108],[157],生成對抗網絡[60],[219]和基於能量的模型[180],然而,這些自然地深入到各自方法的複雜性,而不是與其他方法進行比較;此外,有些人關注的是應用而不是理論。雖然最近有一個關於生成模型作為一個整體的綜述[155],但它深入研究了一些特定的實現,而不是檢查整個領域。

本綜述提供了生成建模趨勢的全麵概述,引入新的讀者到該領域,通過在單一統計框架下的方法,比較和對比,以便解釋建模決策背後的每個各自的技術。從理論上講,為了讓讀者了解最新的研究成果,本文對新舊文獻進行了討論。特別地,本調查涵蓋了基於能量的模型(第2節)、典型的單一非歸一化密度模型、變分自編碼器(第3節)、基於潛在模型的後驗的變分近似、生成對抗網絡(第4節)、在最小-最大博弈中設置的兩個模型、自回歸模型(第5節)、將模型數據分解為條件概率的產品,以及歸一化流(第6節)、使用可逆轉換的精確似然模型。這種細分被定義為與研究中的典型劃分緊密匹配,然而,存在著許多模糊這些界限的混合方法,這些將在最相關的章節中討論,或者在合適的情況下兩者都討論。

為了簡單地了解不同架構之間的差異,我們提供了表1,通過容易比較的星級評級對比了各種不同的技術。具體來說,訓練速度是根據報告的總訓練時間來評估的,因此要考慮多種因素,包括架構、每一步的函數評估數量、優化的便捷性和所涉及的隨機性;樣本速度是基於網絡速度和所需評估的數量;參數效率是由訓練數據集所需的參數總數決定的,而功能更強大的模型通常會有更多的參數,在模型類型之間與質量的相關性不強;一星-一些結構/紋理被捕捉,二星-一個場景可識別但缺少全局結構/細節,三星-重要結構被捕捉但場景看起來“怪異”,四星-與真實圖像的差別是可識別的,五星-差別是完全不可察覺的

成為VIP會員查看完整內容
0
34
0
小貼士
相關VIP內容
專知會員服務
48+閱讀 · 2021年12月11日
專知會員服務
66+閱讀 · 2021年11月21日
專知會員服務
64+閱讀 · 2021年10月11日
專知會員服務
26+閱讀 · 2021年10月4日
專知會員服務
56+閱讀 · 2021年9月20日
專知會員服務
45+閱讀 · 2021年8月28日
專知會員服務
65+閱讀 · 2021年8月25日
專知會員服務
24+閱讀 · 2021年5月12日
專知會員服務
34+閱讀 · 2021年3月16日
微信掃碼谘詢專知VIP會員
Top