機器學習和數據科學金融藍圖/Machine Learning and Data Science Blueprints for Finance,施普林格國際出版社,2020年4月出版。

在接下來的幾十年中,機器學習和數據科學將改變金融業。通過這本實用書籍,分析師、交易員、研究人員和開發人員將學習到如何構建對該行業至關重要的機器學習算法。你可以在有監督、無監督和強化學習以及自然語言處理(NLP)中研究ML概念和20多個案例研究。本書非常適合對衝基金、投資和零售銀行以及金融科技公司的專業人士使用,它還深入研究了投資組合管理,算法交易,衍生產品定價,欺詐檢測,資產價格預測,情緒分析以及機器人顧問和聊天機器人開發。您將探索從業人員麵臨的現實問題,並學習由代碼和示例支持的科學合理的解決方案。

  • 用於交易策略、衍生品定價和投資組合管理的監督學習回歸模型
  • 用於信用違約風險預測、欺詐檢測和交易策略的監督學習分類模型
  • 用於投資組合管理、交易策略、收益率曲線施工的降維技術
  • 在交易策略與案例研究和投資組合管理的尋找相似對象的算法和聚類技術
  • 強化學習模型和技術用於建立交易策略,衍生品對衝,和投資組合管理
  • 使用Python庫(如NLTK和scikit-learn)將文本轉換為有意義的表示的NLP技術

成為VIP會員查看完整內容
0
84
0
計算機視覺是一門研究如何使機器“看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數據中獲取‘信息’的人工智能係統。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

隨著機器學習模型越來越多地用於在醫療保健和刑事司法等高風險環境中幫助決策者,確保決策者(最終用戶)正確理解並因此信任這些模型的功能是很重要的。本課程旨在讓學生熟悉可解釋和可解釋ML這一新興領域的最新進展。在本報告中,我們將回顧該領域的重要論文,理解模型可解釋和可解釋的概念,詳細討論不同類別的可解釋模型(如基於原型的方法、稀疏線性模型、基於規則的技術、廣義可加性模型),事後解釋(黑箱解釋包括反事實解釋和顯著性圖),並探索可解釋性與因果關係、調試和公平性之間的聯係。該課程還將強調各種應用,可以極大地受益於模型的可解釋性,包括刑事司法和醫療保健。

https://himalakkaraju.github.io/

成為VIP會員查看完整內容
0
62
1

小樣本學習旨在通過少量樣本學習到解決問題的模型.近年來在大數據訓練模型的趨勢下,機器學習和深度學習在許多領域中取得了成功.但是在現實世界中的很多應用場景中,樣本量很少或者標注樣本很少,而對大量無標簽樣本進行標注工作將會耗費很大的人力.所以,如何用少量樣本進行學習就成為了目前人們需要關注的問題.本文係統梳理了當前小樣本學習的相關工作,具體介紹了基於模型微調、基於數據增強和基於遷移學習三大類小樣本學習模型與算法的研究進展;本文將基於數據增強的方法細分為基於無標簽數據、基於數據合成和基於特征增強三類,將基於遷移學習的方法細分為基於度量學習、基於元學習和基於圖神經網絡三類.本文還總結了目前常用的小樣本數據集,以及代表性的小樣本學習模型在這些數據集上的實驗結果,隨後對小樣本學習的現狀和挑戰進行了概述,最後展望了小樣本學習的未來發展方向.

http://www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=6138&journal_id=jos

隨著大數據時代的到來,深度學習模型已經在圖像分類、文本分類等任務中取得了先進成果.但深度學習模型的成功很大程度 上依賴於大量訓練數據,而在現實世界的真實場景中某些類別隻有少量數據或少量標注數據,而對無標簽數據進行標注將會消耗 大量的時間和人力.與此相反,人類隻需要通過少量數據就能做到快速學習.例如一個五六歲的小孩子從未見過企鵝,但如果給他看 過一張企鵝的圖像,當他進入動物園看到真正的企鵝時,就會馬上認出這是自己曾經在圖像上見過的“企鵝”,這就是機器學習和人類學習之間存在的差距.受到人類學習觀點的啟發[1],小樣本學習[2] [3](few-shot learning)的概念被提出,使得機器學習更加靠近人類思維.

早在 20 世紀八九十年代,就有一些研究人員注意到了單樣本學習(one-shot learning)的問題,直到 2003 年 Li 等[4]才正式提出了 單樣本學習的概念.他們認為當新的類別隻有一個或幾個帶標簽的樣本時,已經學習到的舊類別可以幫助預測新類別[5].小樣本學 習也叫作少樣本學習(low-shot learning) [7],其目標是從少量樣本中學習到解決問題的方法.與小樣本學習相關的概念還有零樣本學 習(zero-shot learning)等.零樣本學習是指在沒有訓練數據的情況下,利用類別的屬性等信息訓練模型,從而識別新類別.

小樣本學習的概念最早從計算機視覺(Computer Vision) [8]領域興起,近幾年受到廣泛關注,在圖像分類任務中已有很多性能優 異的算法模型[34][37][45].但是在自然語言處理領域(Natural Language Processing) [9]的發展較為緩慢,原因在於圖像和語言特性不同.圖 像相比文本更為客觀,所以當樣本數量較少時,圖像的特征提取比文本更加容易[87].不過近年來小樣本學習在自然語言處理領域也 有了一些研究和發展[10][46][48].根據所采用方法的不同,本文將小樣本學習分為基於模型微調、基於數據增強和基於遷移學習三種. 基於模型微調的方法首先在含有大量數據的源數據集上訓練一個分類模型,然後在含有少量數據的目標數據集上對模型進行微 調.但這種做法可能導致模型過擬合,因為少量數據並不能很好地反映大量數據的真實分布情況.為解決上述過擬合的問題,基於數 據增強和基於遷移學習的小樣本學習方法被提出.基於數據增強的方法是利用輔助數據集或者輔助信息增強目標數據集中樣本的 特征或擴充對目標數據集,使模型能更好地提取特征.本文根據學習方法不同,將基於數據增強的小樣本學習方法進一步細分為基 於無標簽數據、基於數據合成和基於特征增強三類方法.基於遷移學習的方法是目前比較前沿的方法,是指將已經學會的知識遷移 到一個新的領域中.本文根據學習框架將基於遷移學習的方法細分為基於度量學習、基於元學習和基於圖神經網絡(Graph Neural Networks)的方法.在度量學習的框架下目前已有許多性能較好的小樣本學習模型,例如比較著名的原型網絡(Prototypical Networks) [34]和匹配網絡(Matching Networks) [31]等.基於元學習的方法不僅在目標任務上訓練模型,而是從許多不同的任務中學習 元知識,當一個新的任務到來時,利用元知識調整模型參數,使模型能夠快速收斂.近年來隨著圖神經網絡的興起,研究者將圖神經網 絡也應用到小樣本學習中,取得了先進的結果.

除了圖像分類和文本分類這兩個主要任務,許多其他任務也麵臨著小樣本問題.在計算機視覺應用中,利用小樣本學習進行人臉識別[8][60][82]、食品識別[61]、表情識別[66]、手寫字體識別[70][79]以及其他的圖像識別[65]. 在自然語言處理應用中,使用小樣本方法 實現對話係統[67]、口語理解[62],或者完成 NLP 的基本任務,例如 word embedding[63].在多媒體領域應用中,可以使用小樣本方法實現 影像提取[73]和聲紋識別[80]等.在生物與醫學領域,可以應用於疾病診斷[71][72]、臨床實驗[84]、護士能力評價[75]、農作物病害識別[69][81]、 水量分析[76]等.在經濟領域,可應用於產品銷量預測[77]等.在工業與軍事領域,可應用於齒輪泵壽命預測[78]、軍事目標識別[74]和目標 威脅評估[83]等.

本文首先從基於模型微調、基於數據增強和基於遷移學習三種方法介紹小樣本學習的研究進展,總結小樣本學習的幾個著名數據集以及已有模型在這些數據集上的實驗結果;接下來,本文對小樣本學習的研究現狀和主要挑戰進行總結;最後展望了未來的 發展趨勢.

成為VIP會員查看完整內容
0
59
0

內容簡介

要想在數據科學、機器學習、計算機圖形學和密碼學方麵工作,需要強大的數學技能。

本書教授這些熱門職業所需的數學,專注於您作為開發人員需要了解的內容。這本書充滿了大量有用的圖形和200多個練習及迷你項目,為當今一些最熱門的編程領域中的有趣且有利可圖的職業開啟了大門。

關於技術

大多數企業意識到他們需要應用數據科學和有效的機器學習來獲得並保持競爭優勢。要構建這些應用程序,他們需要開發人員輕鬆編寫代碼並使用沉浸在統計,線性代數和微積分中的工具。

數學在其他現代應用中也扮演著不可或缺的角色,如遊戲開發,計算機圖形和動畫,圖像和信號處理,定價引擎和股票市場分析。無論你是一個沒有核心大學數學基礎的自學成才的程序員,還是你隻需要重新點燃數學餘燼,這本書就是激發你技能的好方法。

關於本書

Math for Programmers教你解決代碼中的數學問題。由於作者的幽默和引人入勝的風格,你會喜歡像程序員一樣思考數學。通過可訪問的示例,場景和練習,非常適合工作開發人員,您將首先探索2D和3D中的函數和幾何。

有了這些基本構建模塊,您將進入機器學習和遊戲編程的麵包和黃油數學,包括矩陣和線性變換,導數和積分,微分方程,概率,分類算法等。不要擔心它聽起來令人生畏,或者更糟糕的是,無聊!編碼和數學家保羅奧蘭德會讓學習這些重要概念變得相關和有趣!

本實踐教程中的實際示例包括構建和渲染3D模型,使用矩陣變換的動畫,操縱圖像和聲波,以及為視頻遊戲構建物理引擎。在此過程中,你將通過大量練習來測試自己,以確保牢牢掌握這些概念。當你完成後,你將擁有當今最流行的技術趨勢所必需的數學技能的堅實基礎。

你將學到

  • 2D和3D矢量數學
  • 矩陣和線性變換
  • 線性代數的核心概念
  • 具有一個或多個變量的微積分
  • 回歸,分類和聚類的算法
  • 有趣的現實世界的例子
  • 超過200個練習和迷你項目
成為VIP會員查看完整內容
0
55
1

因果學習

因果推理在許多領域都很重要,包括科學、決策製定和公共政策。確定因果關係的金標準方法使用隨機控製擾動實驗。然而,在許多情況下,這樣的實驗是昂貴的、耗時的或不可能的。從觀察數據中獲得因果信息是可替代的一種選擇,也就是說,從通過觀察感興趣係統獲得的數據中獲得而不使其受到幹預。在這次演講中,我將討論從觀察數據中進行因果學習的方法,特別關注因果結構學習和變量選擇的結合,目的是估計因果效果。我們將用例子來說明這些概念。

成為VIP會員查看完整內容
0
46
2

https://gm-neurips-2020.github.io/

在這次演講中,Graph Mining team的創始人Vahab對本圖挖掘和學習進行了高層次的介紹。這個演講涉及到什麼是圖,為什麼它們是重要的,以及它們在大數據世界中的位置。然後討論了組成圖挖掘和學習工具箱的核心工具,並列出了幾個規範的用例。它還討論了如何結合算法、係統和機器學習來在不同的分布式環境中構建一個可擴展的圖學習係統。最後,它提供了關於Google一個簡短的曆史圖挖掘和學習項目。本次演講將介紹接下來的演講中常見的術語和主題。

成為VIP會員查看完整內容
0
43
1

許多重要的問題都涉及不確定性下的決策,包括飛機碰撞避免、災害管理和災難反應。在設計自動化決策係統或決策支持係統時,在做出或推薦決策時考慮各種不確定性來源是很重要的。考慮到這些不確定性的來源並仔細平衡係統的多個目標是非常具有挑戰性的。我們將從計算的角度討論這些挑戰,旨在提供決策模型和計算方法背後的理論。本章介紹了不確定性下的決策問題,提供了一些應用實例,並概述了可能的計算方法的空間。本章總結了各種學科對我們理解智能決策的貢獻,並強調了潛在社會影響的領域。我們以本書其餘部分的大綱結束。

https://github.com/sisl/algorithmsbook

成為VIP會員查看完整內容
0
42
0

這本書介紹了金融中的機器學習方法。它為量化金融提出了一個統一的處理機器學習和各種統計計算學科,如金融計量經濟學和離散時間隨機控製,並強調為金融數據建模和決策如何進行理論和假設檢驗做出算法的選擇。隨著計算資源和數據集的增加,機器學習已經成為金融業的一項重要技能。這本書是為在金融計量經濟學,金融數學和應用統計學的高級研究生和學者寫的,此外還包括在定量金融領域的定量和數據科學家。

金融中的機器學習:從理論到實踐分為三個部分,每個部分包括理論和應用。第一篇從貝葉斯和頻率論的角度介紹了對橫斷麵數據的監督學習。更高級的材料強調神經網絡,包括深度學習,以及高斯過程,在投資管理和衍生建模的例子。第二部分介紹了時間序列數據的監督學習,這是金融領域最常用的數據類型,並舉例說明了交易、隨機波動和固定收益模型。最後,第三部分介紹了強化學習及其在交易、投資和財富管理中的應用。還提供了Python代碼示例,以支持讀者對方法和應用的理解。這本書還包括超過80個數學和編程練習例子,與工作的解決方案可提供給教師。作為這一新興領域研究的橋梁,最後一章從研究人員的角度介紹了金融機器學習的前沿,強調了統計物理中有多少眾所周知的概念可能會作為金融機器學習的重要方法出現。

https://www.springer.com/gp/book/9783030410674

代碼:https://github.com/mfrdixon/ML_Finance_Codes

成為VIP會員查看完整內容
1
38
1

知識圖譜推理是一個基礎問題,在電子商務推薦、生物醫學知識圖譜藥品再利用等領域有著重要的應用。在本教程中,我將全麵介紹知識圖譜推理的最新進展,包括:(1)知識圖譜嵌入的方法(如TransE、TransR和RotatE);(2)傳統的歸納邏輯規劃方法和最新的神經邏輯規劃方法;(3)結合神經和符號邏輯方法進行知識圖譜推理的最新進展。

地址:https://hub.baai.ac.cn/view/3865

成為VIP會員查看完整內容
0
34
1

Meta-learning in natural and artificial intelligence

元學習,或學會學習,近年來在人工智能領域重新引起了人們的興趣。然而,元學習在自然界中令人難以置信地普遍,它深深植根於認知科學和心理學,目前在神經科學中以各種形式被研究。在這次演講中,我將從元學習的角度討論最近的研究,包括之前的神經科學發現,以及通過元- RL訓練的深度學習係統執行更複雜認知形式的能力,比如因果決策。

論文

元學習在自然界與人工智能

元學習,或學會學習,近年來在人工智能領域重新引起了人們的興趣。然而,元學習在自然界中非常普遍,它深深植根於認知科學和心理學,目前在神經科學中以各種形式被研究。這篇綜述的目的是在元學習的視角下重塑以前的生物智能研究路線,將這些工作置於一個共同的框架中。人工智能和神經科學之間的互動,以及在這個觀點下出現的有趣的新方向將被討論。

//www.webtourguide.com/paper/bc03479e66cb604fc0ce3e6ef066cb8e

成為VIP會員查看完整內容
0
32
0

這本書的主要目的是提出一個連貫的介紹圖論,適合作為一本教科書為高等本科和在數學和計算機科學研究生。它提供了一個係統的處理圖的理論,而不犧牲其直觀和審美的吸引力。大量使用的證明技術被描述和說明,並且提供了大量的練習——不同難度的練習——幫助讀者掌握這些技術並加強他們對材料的掌握。

Individual chapters: Preface Contents Chapter 1: Graphs and Subgraphs Chapter 2: Trees Chapter 3: Connectivity Chapter 4: Euler Tours and Hamilton Cycles Chapter 5: Matchings Chapter 6: Edge Colourings Chapter 7: Independent Sets and Cliques Chapter 8: Vertex Colourings Chapter 9: Planar Graphs Chapter 10: Directed Graphs Chapter 11: Networks Chapter 12: The Cycle Space and Bond Space Appendix 1: Hints to Starred Exercises Appendix II: Four Graphs and a Table of their Properties Appendix III: Some Interesting Graphs Appendix IV: Unsolved Problems Appendix V: Suggestions for Further Reading Glossary of Symbols Index

成為VIP會員查看完整內容
0
32
0

圖神經網絡為根據特定任務將真實世界的圖嵌入低維空間提供了一個強大的工具包。到目前為止,已經有一些關於這個主題的綜述。然而,它們往往側重於不同的角度,使讀者看不到圖神經網絡的全貌。本論文旨在克服這一局限性,並對圖神經網絡進行了全麵的綜述。首先,我們提出了一種新的圖神經網絡分類方法,然後參考了近400篇相關文獻,全麵展示了圖神經網絡的全貌。它們都被分類到相應的類別中。為了推動圖神經網絡進入一個新的階段,我們總結了未來的四個研究方向,以克服所麵臨的挑戰。希望有越來越多的學者能夠理解和開發圖神經網絡,並將其應用到自己的研究領域。

導論

圖作為一種複雜的數據結構,由節點(或頂點)和邊(或鏈接)組成。它可以用於建模現實世界中的許多複雜係統,如社會網絡、蛋白質相互作用網絡、大腦網絡、道路網絡、物理相互作用網絡和知識圖等。因此,分析複雜網絡成為一個有趣的研究前沿。隨著深度學習技術的快速發展,許多學者采用深度學習體係結構來處理圖形。圖神經網絡(GNN)就是在這種情況下出現的。到目前為止,GNN已經發展成為一種流行和強大的計算框架,用於處理不規則數據,如圖形和流形。

GNN可以通過層次迭代算子學習任務特定的節點/邊/圖表示,從而利用傳統的機器學習方法執行與圖相關的學習任務,如節點分類、圖分類、鏈路預測和聚類等。盡管GNNs在圖形相關學習任務上取得了很大的成功,但他們仍然麵臨著巨大的挑戰。首先,圖數據結構的複雜性給大型圖數據帶來了昂貴的計算代價。其次,擾動圖結構和/或初始特征會導致性能急劇下降。第三,wesfeiller - leman (WL)圖同構檢驗阻礙了GNNs的性能提升。最後,GNN的黑盒工作機製阻礙了將其安全部署到實際應用中。

本文將傳統的深度體係結構推廣到非歐氏域,總結了圖神經網絡的體係結構、擴展和應用、基準和評估缺陷以及未來的研究方向。到目前為止,已經對GNN進行了幾次調查。然而,他們通常從不同的角度、不同的側重點來討論GNN模型。據我們所知,關於GNN的第一次調查是由Michael M. Bronstein等人進行的。Peng Cui等[2]從三個方麵綜述了應用於圖形的各種深度學習模型: 包括圖卷積神經網絡在內的半監督學習方法,包括圖自動編碼器在內的非監督學習方法,以及包括圖循環神經網絡和圖強化學習在內的最新進展。本研究側重於半監督學習模型,即空間圖和光譜圖卷積神經網絡,而對其他兩個方麵的研究相對較少。由於篇幅有限,本調查隻列出了GNNs的幾個關鍵應用,但忽略了應用的多樣性。孫茂鬆等人[3]從圖類型、傳播步驟和訓練方法三個方麵詳細回顧了光譜和空間圖卷積神經網絡,並將其應用分為結構場景、非結構場景和其他場景三種場景。然而,這篇文章沒有涉及其他GNN架構,如圖形自動編碼器,圖形循環神經網絡和圖形生成網絡。Philip S. Yu等人[4]對圖神經網絡進行了全麵的調查,並調查了可用的數據集、開源實現和實際應用。然而,對於每個研究主題,他們隻列出了少量的核心文獻。Davide Bacciu等人[367]溫和地介紹了圖形數據的深度學習領域。本文的目的是介紹為圖數據構造神經網絡的主要概念和構建模塊,因此它沒有對最近的圖神經網絡工作進行闡述。

值得注意的是,上述所有調研都不涉及GNN的能力和可解釋性、概率推理和GNN的組合以及對圖的對抗攻擊。本文從架構、擴展和應用、基準測試和評估缺陷、未來研究方向四個方麵為讀者提供了GNN的全景圖,如圖1所示。對於GNNs的結構,我們研究了圖卷積神經網絡(GCNNs)、圖池算子、圖注意機製和圖循環神經網絡(GRNNs)等方麵的研究。通過對上述體係結構的集成,實現了GNNs的擴展和應用,展示了一些值得關注的研究課題。具體來說,這一視角包括深度圖表示學習、深度圖生成模型、概率推理(PI)和gnn的組合、GNN的對抗攻擊、圖神經結構搜索和圖強化學習和應用。綜上所述,本文對GNNs進行了完整的分類,並對GNNs的研究現狀和發展趨勢進行了全麵的綜述。這些是我們與上述調查的主要不同之處。

我們的主要貢獻可以歸結為以下三個方麵。

  1. 我們提出了一種新的GNN分類方法,它有三個層次。第一個包括架構、基準測試和評估缺陷以及應用程序。體係結構分為9類,基準測試和評估缺陷分為2類,應用程序分為10類。此外,圖卷積神經網絡作為一種經典的GNN體係結構,又被分為6類。

  2. 我們提供了GNN的全麵回顧。所有的文獻都屬於相應的類別。希望讀者通過閱讀本概覽,不僅了解GNNs的全貌,而且了解GNNs的基本原理和各種計算模塊。

3.根據目前GNNs所麵臨的挑戰,我們總結了未來四個研究方向,其中大部分在其他研究中沒有提及。希望通過克服這些挑戰,使GNNs的研究進入一個新的階段

未來研究方向:

盡管GNNs在許多領域取得了巨大的成功,但仍存在一些有待解決的問題。本節總結了GNNs未來的研究方向。

  • 高度可伸縮的GNN。現實世界的圖通常包含數億個節點和邊,並具有動態演化的特征。事實證明,現有的GNN架構很難擴展到巨大的真實世界圖。這促使我們設計高度可伸縮的GNN架構,能夠高效和有效地學習節點/邊/圖表示為巨大的動態演化圖。

  • 健壯的GNN。現有的GNN架構容易受到對抗性攻擊。也就是說,一旦輸入圖的結構和/或初始特征受到攻擊,GNN模型的性能就會急劇下降。因此,我們應該將攻擊防禦機製整合到GNN體係結構中,即構建健壯的GNN體係結構,以增強其對抗攻擊的能力。

  • GNNs超過WL測試。空間廣義網格網絡的性能受單WL的限製,而高階WL檢驗的計算代價昂貴。因此,在適當的條件下,兩個非同構圖將產生相同的節點/邊/圖表示。這促使我們開發一個超越WL測試的新的GNN框架,或者設計一個優雅的高階GNN架構來對應高階WL測試。

  • 可解釋的GNN。現有的GNN在一個黑盒中工作。我們不明白為什麼它們在節點分類任務、圖分類任務和圖嵌入任務等方麵都能達到如此先進的性能。可解釋性已經成為將GNNs應用於現實問題的一個主要障礙。雖然已有一些研究對某些特定的GNN模型進行了解釋,但它們不能解釋一般的GNN模型。這促使我們為gnn構建一個統一的可解釋框架。

成為VIP會員查看完整內容
0
30
1

新型深度學習模型的研究

深度學習是近年來機器學習領域中的熱點研究領域。深度森林模型是一 種新型深度學習模型,擴展了深度學習的內涵和適用範圍。本文開展深度森 林方麵的相關研究工作,主要取得了以下創新結果:

  • 1.基於森林的多層分布表示。多層分布式表示學習被認為是神經網絡獨有的 特性,本文提出了基於森林的多層模型 mGBDT,第一次顯示出多層分布 式表示通過森林模型也能進行。在表格數據和混合數據等各類建模任務 上,mGBDT 展示了其兼具表示學習和離散數據建模的能力。

  • 2.基於森林的自編碼器模型。自編碼器被認為是隻能通過神經網絡實現的獨 有模型,本文工作提出了第一個基於森林的自編碼器 eForest,在多類數 據上均取得了優異的性能體現。與此同時,還利用 Intel 眾核芯片 KNL, 通過多進程,向量化和編譯器優化等技術,獲得了近線性加速比,為大規 模應用提供了基礎。

    1. 基於自編碼器的毒化訓練。毒化訓練指對深度學習模型的訓練過程進行攻 擊,使得訓練好的模型存在攻擊者希望的缺陷。本文主要討論通過設計新 型自編碼器,通過對訓練樣本進行對抗表示學習,以實現毒化訓練。本文 同時將算法擴展到了聯邦學習框架下,驗證了該算法在具備數據隱私保護 的分布式場景下依舊有效。
    1. 多示例多標記的深度模型。多標記多示例 (MIML) 學習是麵向多義性對象 的新型機器學習框架,本文設計了第一個 MIML 深度模型,可自動從原 始數據中學習出多示例的樣本表示。與此同時,通過預訓練 DeepMIML 模型同多標記深度森林模型相結合,在一係列任務中取得了優異的性能。

成為VIP會員查看完整內容
0
31
0

來自Google研究科學家Mathieu Blondel的《梯度下降》教程,

成為VIP會員查看完整內容
0
30
0

隨著機器學習模型越來越多地用於在醫療保健和刑事司法等高風險環境中幫助決策者,確保決策者(最終用戶)正確理解並因此信任這些模型的功能是很重要的。本報告旨在讓學生熟悉可解釋和可解釋ML這一新興領域的最新進展。在本報告中,我們將回顧該領域的重要論文,理解模型可解釋和可解釋的概念,詳細討論不同類別的可解釋模型(如基於原型的方法、稀疏線性模型、基於規則的技術、廣義可加性模型),事後解釋(黑箱解釋包括反事實解釋和顯著性圖),並探索可解釋性與因果關係、調試和公平性之間的聯係。該課程還將強調各種應用,可以極大地受益於模型的可解釋性,包括刑事司法和醫療保健。

https://himalakkaraju.github.io/

成為VIP會員查看完整內容
0
30
0

這篇書冊以技術型的方式介紹了神經網絡結構的三種最常見形式:前饋、卷積和循環。對於每個網絡,它們的基本構建模塊都有詳細說明。然後,完整地推導出反向傳播算法的前向傳遞和更新規則。

https://arxiv.org/abs/1709.01412

成為VIP會員查看完整內容
0
28
1

組合優化問題廣泛存在於國防、交通、工業、生活等各個領域, 幾十年來, 傳統運籌優化方法是解決組合優化問題的主要手段, 但隨著實際應用中問題規模的不斷擴大、求解實時性的要求越來越高, 傳統運籌優化算法麵臨著很大的計算壓力, 很難實現組合優化問題的在線求解. 近年來隨著深度學習技術的迅猛發展, 深度強化學習在圍棋、機器人等領域的矚目成果顯示了其強大的學習能力與序貫決策能力. 鑒於此, 近年來湧現出了多個利用深度強化學習方法解決組合優化問題的新方法, 具有求解速度快、模型泛化能力強的優勢, 為組合優化問題的求解提供了一種全新的思路. 因此本文總結回顧近些年利用深度強化學習方法解決組合優化問題的相關理論方法與應用研究, 對其基本原理、相關方法、應用研究進行總結和綜述, 並指出未來該方向亟待解決的若幹問題.

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200551

成為VIP會員查看完整內容
0
29
0

這本書係統性講述了統計學理論,包括概率理論、分布式理論與統計模型,基本統計理論、貝葉斯理論、無偏點估計、最大似然統計推斷、統計假設與置信集、非參與魯棒推斷。

第一門課程以對統計中有用的測量論概率論的概念和結果的簡要概述開始。隨後討論了統計決策理論和推理中的一些基本概念。探討了估計的基本方法和原理,包括各種限製條件下的最小風險方法,如無偏性或等方差法,最大似然法,以及矩法和其他插件方法等函數法。然後詳細地考慮了貝葉斯決策規則。詳細介紹了最小方差無偏估計的方法。主題包括統計量的充分性和完全性、 Fisher信息、估計量的方差的界、漸近性質和統計決策理論,包括極大極小和貝葉斯決策規則。

第二門課程更詳細地介紹了假設檢驗和置信集的原理。我們考慮了決策過程的表征,內曼-皮爾森引理和一致最有力的測試,置信集和推理過程的無偏性。其他主題包括等方差、健壯性和函數估計。

除了數理統計的經典結果外,還討論了馬爾可夫鏈蒙特卡洛理論、擬似然、經驗似然、統計泛函、廣義估計方程、折刀法和自舉法。

http://mason.gmu.edu/~jgentle/books/MathStat.pdf

成為VIP會員查看完整內容
0
28
1

我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基於相似性模型的研究方法和目前主流的基於語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然後與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.

http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

成為VIP會員查看完整內容
0
29
0

我們給出了一個關於調查透明度和可解釋性的前沿教程,因為它們與NLP有關。研究團體和業界都在開發新的技術,以使黑箱型NLP模型更加透明和可解釋。來自社會科學、人機交互(HCI)和NLP研究人員的跨學科團隊的報告,我們的教程有兩個組成部分:對可解釋的人工智能(XAI)的介紹和對NLP中可解釋性研究的最新回顧; 研究結果來自一個大型跨國技術和谘詢公司在現實世界中從事NLP項目的個人的定性訪談研究。第一部分將介紹NLP中與可解釋性相關的核心概念。然後,我們將討論NLP任務的可解釋性,並對AI、NLP和HCI會議上的最新文獻進行係統的文獻綜述。第二部分報告了我們的定性訪談研究,該研究確定了包括NLP在內的現實世界開發項目中出現的實際挑戰和擔憂。

自然語言處理中可解釋AI的現狀調研

近年來,最領先的模型在性能上取得了重要的進步,但這是以模型變得越來越難以解釋為代價的。本調研提出了可解釋AI (XAI)的當前狀態的概述,在自然語言處理(NLP)領域內考慮。我們討論解釋的主要分類,以及解釋可以達到和可視化的各種方式。我們詳細介紹了目前可用來為NLP模型預測生成解釋的操作和可解釋性技術,以作為社區中模型開發人員的資源。最後,我們指出了在這個重要的研究領域目前的挑戰和未來可能工作方向。

//www.webtourguide.com/paper/377e285abccf56a823a3fd0ad7a3f958

成為VIP會員查看完整內容
0
28
0
登錄查看的更多。 返回頂部
本周薈萃主題
深度學習
機器學習的一個分支,它基於試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一係列算法。
機器學習
“機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。機器學習理論主要是設計和分析一些讓 可以自動“ 學習”的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯係尤為密切,也被稱為統計學習理論。算法設計方麵,機器學習理論關注可以實現的,行之有效的學習算法。很多 推論問題屬於 無程序可循難度,所以部分的機器學習研究是開發容易處理的近似算法。”

——中文維基百科
強化學習
強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習範式之一。 強化學習與監督學習的不同之處在於,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在於,後者不假設MDP的確切數學模型,並且針對無法采用精確方法的大型MDP。
推薦係統
推薦係統,是指根據用戶的習慣、偏好或興趣,從不斷到來的大規模信息中識別滿足用戶興趣的信息的過程。推薦推薦任務中的信息往往稱為物品(Item)。根據具體應用背景的不同,這些物品可以是新聞、電影、音樂、廣告、商品等各種對象。推薦係統利用電子商務網站向客戶提供商品信息和建議,幫助用戶決定應該購買什麼產品,模擬銷售人員幫助客戶完成購買過程。個性化推薦是根據用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。隨著電子商務規模的不斷擴大,商品個數和種類快速增長,顧客需要花費大量的時間才能找到自己想買的商品。這種瀏覽大量無關的信息和產品過程無疑會使淹沒在信息過載問題中的消費者不斷流失。為了解決這些問題,個性化推薦係統應運而生。個性化推薦係統是建立在海量數據挖掘基礎上的一種高級商務智能平台,以幫助電子商務網站為其顧客購物提供完全個性化的決策支持和信息服務。
卷積神經網絡
在深度學習中,卷積神經網絡(CNN或ConvNet)是一類深度神經網絡,最常用於分析視覺圖像。基於它們的共享權重架構和平移不變性特征,它們也被稱為位移不變或空間不變的人工神經網絡(SIANN)。它們在圖像和視頻識別,推薦係統,圖像分類,醫學圖像分析,自然語言處理,和財務時間序列中都有應用。
命名實體識別
命名實體識別(NER)(也稱為實體標識,實體組塊和實體提取)是信息抽取的子任務,旨在將非結構化文本中提到的命名實體定位和分類為預定義類別,例如人員姓名、地名、機構名、專有名詞等。
機器翻譯
機器翻譯,又稱為自動翻譯,是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智能的終極目標之一,具有重要的科學研究價值。
計算機視覺
計算機視覺是一門研究如何使機器“看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數據中獲取‘信息’的人工智能係統。
新聞
新聞,是指報紙、電台、電視台、互聯網等媒體經常使用的記錄與傳播信息的 [2] 一種文體,是反映時代的一種文體。新聞概念有廣義與狹義之分。廣義上:除了發表於報刊、廣播、互聯網、電視上的評論與專文外的常用文本都屬於新聞,包括消息、通訊、特寫、速寫(有的將速寫納入特寫之列)等等; [3] 狹義上:消息是用概括的敘述方式,以較簡明扼要的文字,迅速及時地報道附近新近發生的、有價值的事實,使一定人群了解。新聞一般包括標題、導語、主體、背景和結語五部分。前三者是主要部分,後二者是輔助部分。寫法以敘述為主兼或有議論、描寫、評論等。新聞是包含海量資訊的新聞服務平台,真實反映每時每刻的重要事件。您可以搜索新聞事件、熱點話題、人物動態、產品資訊等,快速了解它們的最新進展。
圖靈獎
圖靈獎(A.M. Turing Award,又譯“杜林獎”),由 美國計算機協會(ACM)於1966年設立,又叫“A.M. 圖靈獎”,專門獎勵那些對計算機事業作出重要貢獻的個人。其名稱取自計算機科學的先驅、英國科學家 阿蘭·麥席森·圖靈
Top