自動機器學習(AutoML)是將機器學習應用於實際問題的過程的自動化過程。AutoML涵蓋了從原始數據集到可部署的機器學習模型的完整管道。提出將AutoML作為基於人工智能的解決方案來應對不斷增長的應用機器學習的挑戰。 AutoML的高度自動化允許非專家使用機器學習模型和技術,而無需首先成為該領域的專家。 從機器學習角度講,AutoML 可以看作是一個在給定數據和任務上學習和泛化能力非常強大的係統。但是它強調必須非常容易使用;從自動化角度講,AutoML 則可以看作是設計一係列高級的控製係統去操作機器學習模型,使得模型可以自動化地學習到合適的參數和配置而無需人工幹預。

VIP內容

【導讀】ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)是世界數據挖掘領域的最高級別的學術會議,由 ACM 的數據挖掘及知識發現專委會(SIGKDD)主辦,被中國計算機協會推薦為 A 類會議。自 1995 年以來,KDD 已經連續舉辦了26屆,今年將於2021年8月14日至18日舉辦,今年的會議主辦地在新加坡。

來自阿裏巴巴和ETH的研究人員在KDD2021上將給出關於自動機器學習的教程,非常值得關注!

從社交網絡、在線圖像/視頻分享平台、電子商務到教育、醫療保健等,機器學習方法已被用於各種現實世界的應用。然而,機器學習方法的幾個組成部分,包括數據表示、超參數和模型體係架構,會在很大程度上影響它們在實踐中的性能。此外,數據規模和模型規模的爆炸式增長,使得機器學習開發人員對這些組件的優化越來越費時。為了應對這些挑戰,自動化機器學習(AutoML)旨在自動化應用機器學習方法解決現實應用任務的過程,在保持良好性能的同時減少機器學習方法的調試時間。在本教程中,我們將介紹AutoML的主要研究主題,包括超參數優化、神經架構搜索和元學習。AutoML的兩個新興主題,基於DNN的特征生成和機器學習引導的數據庫,也將被討論,因為它們是真實應用的重要組件。對於每一個主題,我們都將以來自行業的例子來激勵它,說明最先進的方法,並從行業和學術界的角度討論它們的優缺點。我們還將根據我們在業界的經驗和學術界的趨勢討論一些未來的研究方向。

https://joneswong.github.io/KDD21AutoMLTutorial/

我們將首先從雲計算和機器學習作為一種服務的角度,通過真實世界的例子來引出對AutoML的研究。然後介紹了AutoML的主要研究課題,包括超參數優化、神經結構搜索和元學習。我們還將涵蓋AutoML的兩個新興主題,自動特征生成和機器學習引導數據庫,這是現實世界工業應用的重要組成部分。

超參數優化

我們將現有的HPO方法大致分為超參數配置搜索和超參數調度搜索兩類。超參數配置搜索方法假設最優超參數是一組固定值,而超參數調度搜索方法放寬了這一假設,允許超參數在單個軌跡中改變。對於超參數配置搜索方法,我們將把現有方法作為三個子類進行討論:無模型[5,8]、貝葉斯優化[19]和基於梯度的方法。對於超參數調度,兩種具有代表性的超參數改變方法是基於梯度的方法,如自調整網絡[13]和基於突變的方法,如基於群體的訓練[7]和HyperMutation[21]。

神經架構搜索 NAS

我們從三個方麵討論了現有的神經結構搜索算法的特點,即搜索空間、搜索策略和評估策略。對於搜索空間,我們不僅回顧了確定架構所考慮的維度,還強調了精細化的搜索空間,希望它在實踐中帶來一個競爭性的架構,盡管它在理論上不是最優的。對於搜索策略,我們將簡要介紹進化、強化學習和抽樣算法,但重點是可微分的方法,這是大多數商業客戶在工業中負擔得起的。在設計評估策略時,最關鍵的因素是考慮精度和效率之間的權衡。因此,我們將回顧加速性能估計的方法,包括學習曲線外推、低保真度估計和權重共享,其中權重共享的不穩定性問題將被詳細討論。

元學習

作為一個深刻的研究主題,對元學習的全麵回顧超出了本教程的範圍。相反,我們將集中討論它在AutoML中的應用。從雲計算的角度來看,雲服務提供商可以為上述討論的任務積累大量的示例。雖然每個例子的學習任務可能不同,但元學習提供了一種從收集的例子中提取整體元知識的方法,這樣我們就可以用較少的嚐試來尋找新的學習任務的最優配置。一般來說,元學習假設的是獲得一堆來自相同分布的任務,由於學習任務的異質性,這在這種設置下不能完全滿足。因此,我們全麵回顧了最近提出的針對新任務定製全局元知識的方法,包括MAML[3]、Reptile[16]、SNAIL[15]和Relational Meta-Learning[25]。

自動特征生成目前關於自動特征生成的研究大致可以分為兩類:基於搜索的和基於DNN的。基於搜索的方法[12]專注於設計不同的搜索策略,盡可能多地剔除待評估的候選對象,同時保持最有用的交互特性。盡管這些機製可以減少要遍曆的搜索空間,但由於它們的反複試驗性質,在實踐中所需的時間和計算資源通常是無法忍受的。另一方麵,基於DNN的方法[10,20]設計特定的神經結構來表達不同特征之間的相互作用。但這一優勢是以隱式特性交互為代價的,因為很難從注意力權重[23]中準確解釋哪些交互特性是有用的。我們將從雲客戶的角度進一步討論這兩類產品,為研究院提供補充意見。

機器學習引導數據庫

最近,有許多利用機器學習促進數據庫組件的工作,如索引[2,4,6,9],查詢優化[14,22],和選擇性估計[24]。盡管在過去的幾十年裏,數據庫社區已經對這些組件進行了廣泛的研究,但在機器學習的幫助下,通過學習隱藏的但有用的數據分布並將這些信息合並到數據庫係統中,有可能實現這些組件的自動化,這將帶來很有希望的性能改進。

目錄:

13:00PM--13:10PM Welcome from Organizers 13:10PM--13:40PM Hyperparameter Optimization (HPO) 13:40PM--14:10PM Neural Architecture Search (NAS) 14:10PM--14:30PM Meta-learning 14:30PM--15:00PM Auto Feature Generation 15:00PM--15:25PM End-to-End AutoML 15:25PM--15:50PM ML-Guided Database 15:50PM--15:55PM AutoML Tools 15:55PM--16:00PM Closing Remarks

成為VIP會員查看完整內容
0
59
0

最新內容

Action recognition is a crucial task for video understanding. In this paper, we present AutoVideo, a Python system for automated video action recognition. It currently supports seven action recognition algorithms and various pre-processing modules. Unlike the existing libraries that only provide model zoos, AutoVideo is built with the standard pipeline language. The basic building block is primitive, which wraps a pre-processing module or an algorithm with some hyperparameters. AutoVideo is highly modular and extendable. It can be easily combined with AutoML searchers. The pipeline language is quite general so that we can easily enrich AutoVideo with algorithms for various other video-related tasks in the future. AutoVideo is released under MIT license at https://github.com/datamllab/autovideo

0
0
0
下載
預覽

最新論文

Action recognition is a crucial task for video understanding. In this paper, we present AutoVideo, a Python system for automated video action recognition. It currently supports seven action recognition algorithms and various pre-processing modules. Unlike the existing libraries that only provide model zoos, AutoVideo is built with the standard pipeline language. The basic building block is primitive, which wraps a pre-processing module or an algorithm with some hyperparameters. AutoVideo is highly modular and extendable. It can be easily combined with AutoML searchers. The pipeline language is quite general so that we can easily enrich AutoVideo with algorithms for various other video-related tasks in the future. AutoVideo is released under MIT license at https://github.com/datamllab/autovideo

0
0
0
下載
預覽
Top