“機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。機器學習理論主要是設計和分析一些讓可以自動“學習”的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯係尤為密切,也被稱為統計學習理論。算法設計方麵,機器學習理論關注可以實現的,行之有效的學習算法。很多推論問題屬於無程序可循難度,所以部分的機器學習研究是開發容易處理的近似算法。” ——中文維基百科

知識薈萃

機器學習課程 專知搜集

  1. 機器學習視頻課程彙集: ML入門、數據挖掘、數據科學、 概率圖模型、深度學習、強化學習、高級機器學習、基於ML的自然語言處理與計算機視覺、時序分析
  2. cs229 機器學習 吳恩達
  3. 台大 李宏毅 機器學習
  4. 愛丁堡大學 機器學習與模式識別
  5. Courses on machine learning
  6. CSC2535 -- Spring 2013 Advanced Machine Learning
  7. Stanford CME 323: Distributed Algorithms and Optimization
  8. University at Buffalo CSE574: Machine Learning and Probabilistic Graphical Models Course
  9. Stanford CS229: Machine Learning Autumn 2015
  10. Stanford / Winter 2014-2015 CS229T/STATS231: Statistical Learning Theory
  11. CMU Fall 2015 10-715: Advanced Introduction to Machine Learning
  12. 2015 Machine Learning Summer School: Convex Optimization Short Course
  13. STA 4273H [Winter 2015]: Large Scale Machine Learning
  14. University of Oxford: Machine Learning: 2014-2015
  15. Computer Science 294: Practical Machine Learning [Fall 2009]
  1. Statistics, Probability and Machine Learning Short Course
  2. Statistical Learning
  3. Machine learning courses online
  4. Build Intelligent Applications: Master machine learning fundamentals in five hands-on courses
  5. Machine Learning
  6. Princeton Computer Science 598D: Overcoming Intractability in Machine Learning
  7. Princeton Computer Science 511: Theoretical Machine Learning
  8. MACHINE LEARNING FOR MUSICIANS AND ARTISTS
  9. CMSC 726: Machine Learning
  10. MIT: 9.520: Statistical Learning Theory and Applications, Fall 2015
  11. CMU: Machine Learning: 10-701/15-781, Spring 2011
  12. NLA 2015 course material
  13. CS 189/289A: Introduction to Machine Learning[with videos]
  14. An Introduction to Statistical Machine Learning Spring 2014 [for ACM Class]
  15. CS 159: Advanced Topics in Machine Learning [Spring 2016]
  16. Advanced Statistical Computing [Vanderbilt University]
  17. Stanford CS229: Machine Learning Spring 2016
  18. Machine Learning: 2015-2016
  19. CS273a: Introduction to Machine Learning
  20. Machine Learning CS-433
  21. Machine Learning Introduction: A machine learning course using Python, Jupyter Notebooks, and OpenML
  22. Advanced Introduction to Machine Learning
  23. STA 4273H [Winter 2015]: Large Scale Machine Learning
  24. Statistical Learning Theory and Applications [MIT]
  25. Regularization Methods for Machine Learning
  1. Convex Optimization: Spring 2015
  2. CMU: Probabilistic Graphical Models [10-708, Spring 2014]
  3. Advanced Optimization and Randomized Methods
  4. Machine Learning for Robotics and Computer Vision
  5. Statistical Machine Learning
  6. Probabilistic Graphical Models [10-708, Spring 2016]

數學基礎

Calculus

  1. Khan Academy Calculus [https://www.khanacademy.org/math/calculus-home]

Linear Algebra

  1. Khan Academy Linear Algebra
  2. Linear Algebra MIT 目前最好的線性代數課程

Statistics and probability

  1. edx Introduction to Statistics [https://www.edx.org/course/introduction-statistics-descriptive-uc-berkeleyx-stat2-1x]
  2. edx Probability [https://www.edx.org/course/introduction-statistics-probability-uc-berkeleyx-stat2-2x]
  3. An exploration of Random Processes for Engineers [http://www.ifp.illinois.edu/~hajek/Papers/randomprocDec11.pdf]
  4. Information Theory [http://colah.github.io/posts/2015-09-Visual-Information/]

VIP內容

【作者簡介】

Solon Barocas:微軟研究紐約實驗室首席研究員,康奈爾大學信息科學係兼職助理教授,哈佛大學伯克曼·克萊因互聯網與社會中心教員助理。目前的研究探索了人工智能中的倫理和政策問題,特別是機器學習中的公平性,將問責製引入自動化決策的方法,以及推理的隱私影響。與人共同創辦了機器學習中的公平、問責和透明度研討會(FAT/ML),建立了ACM的公平、問責和透明度會議(FAccT)。

Moritz Hardt:加州大學伯克利分校電氣工程和計算機科學係的助理教授。研究算法和機器學習,重點關注可靠性、有效性和社會影響。在獲得普林斯頓大學計算機科學博士學位後,他曾在 IBM Research Almaden、Google Research 和 Google Brain 任職。

Arvind Narayanan:普林斯頓大學計算機科學副教授。研究與有關人員的大型數據集相關的風險:匿名、隱私和偏見。領導普林斯頓網絡透明度和問責製項目,以揭示公司如何收集和使用我們的個人信息。博士研究表明了去識別化的基本局限性。共同創建了一個大規模開放在線課程以及一本關於比特幣和加密貨幣技術的教科書。Narayanan 是總統科學家和工程師早期職業獎的獲得者。

【書稿簡介】

這本書給出了一個關於機器學習的觀點,它將公平視為一個核心問題,而不是事後的想法。我們將以突出道德挑戰的方式回顧機器學習的實踐。然後,我們將討論緩解這些問題的方法。 我們的目標是讓本書盡可能地廣泛普及,同時保持技術嚴謹性並解決算法決策中出現的困難道德問題。

這本書不會對公平有一個包羅萬象的正式定義,也不會對社會對自動化決策的擔憂進行快速的技術解決。解決公平問題需要仔細了解機器學習工具的範圍和局限性。本書對當前的機器學習實踐進行了批判性分析,並提出了實現公平的技術修複。它沒有提供任何簡單的答案。盡管如此,我們希望您會發現這本書在深入了解如何負責任地練習機器學習方麵既有趣又有用。

為什麼現在?
機器學習在從視頻監控到自動簡曆篩選等社會技術係統方麵取得了快速進展。與此同時,公眾對數字技術對社會的影響也越來越關注。

這兩種趨勢導致社會技術係統作為研究領域的公平、問責、透明度迅速出現。雖然令人興奮,但這導致了術語的激增、重新發現和同時發現、學科觀點之間的衝突以及其他類型的混淆。

本書旨在通過將長期存在的知識體係(例如因果推理)與社區最近的工作相結合,並加入我們自己的一些觀察,從而推動對話向前發展。

這本書是怎麼來的?
在 2017 年秋季學期,三位作者分別教授了機器學習中的公平和道德課程:康奈爾大學的巴羅卡斯、伯克利的哈特和普林斯頓大學的納拉亞南。我們每個人都從不同的角度來探討這個話題。我們還介紹了兩個教程:NIPS 2017 上的 Barocas 和 Hardt,以及 FAT* 2018 上的 Narayanan。這本書源於我們為這三個課程創建的筆記,是我們之間持續對話的結果。

這本書用戶是誰? 我們編寫這本書的目的是為了對多位讀者有用。您可能是機器學習的學生或實踐者,在日常工作中麵臨道德問題。您也可能是一名倫理學者,希望將您的專業知識應用於新興技術的研究。或者你可能是一個關心自動化係統將如何塑造社會的公民,並且想要比你從新聞報道中獲得的更深入的了解。

我們假設您熟悉介紹性計算機科學和算法。了解如何編碼並不是閱讀本書所必需的,但可以讓你充分利用它。我們還將假設您熟悉基本統計數據和概率。在整本書中,我們將包括指向這些主題的介紹性材料的指針。

另一方麵,您不需要任何機器學習知識來閱讀本書:我們包含了一個介紹基本機器學習概念的附錄。我們還提供了關於公平背後的哲學和法律概念的基本討論。

這本書裏有什麼? 本書有意縮小範圍:您可以在此處查看大綱。這本書的大部分內容都是關於公平的,但我們包括一章這涉及到一些相關的概念:隱私、可解釋性、可解釋性、透明度和問責製。我們忽略了關於機器學習和人工智能的大量倫理問題,包括自動化導致的勞動力流失、對抗性機器學習和人工智能安全。

同樣,我們討論了狹義的公平決策中的公平幹預。我們承認幹預可能采取許多其他形式:製定更好的政策、改革機構或顛覆社會的基本結構。

機器學習倫理的狹隘框架可能會吸引技術人員和企業作為一種專注於技術幹預同時回避有關權力和問責製的更深層次問題的方式。我們告誡不要這種誘惑。例如,減少人臉識別係統準確性方麵的種族差異雖然很有價值,但並不能替代關於此類係統是否應該部署在公共場所以及我們應該實施什麼樣的監督的辯論。

【書稿提綱】 1 介紹

2 分類

引入正式的非歧視標準,建立它們之間的關係,並說明它們的局限性。

3 法律背景和規範性問題
我們調查了法律、社會學和哲學中關於歧視的文獻。然後,我們將討論在將這些公平理念轉化為統計決策設定時所麵臨的挑戰。

4 因果關係
我們深入研究了因果推理的豐富技術庫,以及它如何幫助闡明和解決分類範式的缺點,同時提出新的概念和規範問題。

5 在實踐中測試歧視
我們將歧視測試係統化,並討論將它們應用於傳統決策係統和算法係統的實際複雜性。

6 更廣泛的歧視觀
我們回顧了社會中的結構性、組織性和人際歧視,機器學習如何與它們相互作用,並討論了一係列廣泛的潛在幹預措施。

7 數據集
數據集是機器學習研究和開發的支柱。我們批判性地檢查他們的角色、與數據相關的危害,並調查數據實踐中的改進。

8 算法幹預
我們調查並係統化了一組新興的算法幹預,旨在促進公平,同時強調這種範式的局限性。

@book{barocas-hardt-narayanan,

title = {Fairness and Machine Learning}, author = {Solon Barocas and Moritz Hardt and Arvind Narayanan}, publisher = {fairmlbook.org}, note = {\url{http://www.fairmlbook.org}}, year = {2019} }

成為VIP會員查看完整內容
1
2
0

最新論文

We develop an exact and scalable algorithm for one-dimensional Gaussian process regression with Mat\'ern correlations whose smoothness parameter $\nu$ is a half-integer. The proposed algorithm only requires $\mathcal{O}(\nu^3 n)$ operations and $\mathcal{O}(\nu n)$ storage. This leads to a linear-cost solver since $\nu$ is chosen to be fixed and usually very small in most applications. The proposed method can be applied to multi-dimensional problems if a full grid or a sparse grid design is used. The proposed method is based on a novel theory for Mat\'ern correlation functions. We find that a suitable rearrangement of these correlation functions can produce a compactly supported function, called a "kernel packet". Using a set of kernel packets as basis functions leads to a sparse representation of the covariance matrix that results in the proposed algorithm. Simulation studies show that the proposed algorithm, when applicable, is significantly superior to the existing alternatives in both the computational time and predictive accuracy.

0
0
0
下載
預覽
微信掃碼谘詢專知VIP會員
Top