主題模型,顧名思義,就是對文字中隱含主題的一種建模方法。“蘋果”這個詞的背後既包含是蘋果公司這樣一個主題,也包括了水果的主題。   在這裏,我們先定義一下主題究竟是什麼。主題就是一個概念、一個方麵。它表現為一係列相關的詞語。比如一個文章如果涉及到“百度”這個主題,那麼“中文搜索”、“李彥宏”等詞語就會以較高的頻率出現,而如果涉及到“IBM”這個主題,那麼“筆記本”等就會出現的很頻繁。如果用數學來描述一下的話,主題就是詞彙表上詞語的條件概率分布 。與主題關係越密切的詞語,它的條件概率越大,反之則越小。

基礎入門

  • 中英文博客以及基礎文章
  1. Topic model 介紹 簡介:簡要了解主題模型是什麼意思,最基本的概念https://en.wikipedia.org/wiki/Topic_model

  2. 概率主題模型簡介 Introduction to Probabilistic Topic Models 簡介:一步讓你知道什麼是lda,翻譯了提出主題模型大神對概率主題模型的描述。中文文檔更適合入門。David M. Blei所寫的《Introduction to Probabilistic Topic Models》的譯文http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html

  3. 主題模型-LDA淺析:簡述了LDA的基礎概念,描述了模型的生成過程,幫助你進一步了解主題模型~!http://blog.csdn.net/huagong_adu/article/details/7937616

  4. Latent dirichlet allocation:開山之作LDA原論文。了解了主題模型的基礎知識之後可以開始看原論文了。原文看不太懂也不要著急,可以先看個大概~ 作者:David M. Blei, Andrew Y. Ng, and Michael I. Jordan 順便介紹一下Blei大神:David M. Blei Professor in the Statistics and Computer Science departments at Columbia University. Prior to fall 2014 he was an Associate Professor in the Department of Computer Science at Princeton University. His work is primarily in machine learninghttp://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

  5. Rickjin 騰訊的rickjin大神:LDA數學八卦 簡介:傳說中的“上帝擲骰子”的來源之處。這篇文章是一個連載的科普性博客,作者是rickjin,文章分為7個章節,主要5個章節講得是Gamma函數、Beta/Dirichlet函數、MCMC和Gibbs采樣、文本建模、LDA文本建模,對於想要了解和LDA的同學來說,是一篇很好的入門教程,建議結合Blei的開山之作一起看。http://download.csdn.net/download/happyer88/8791493

  6. LDA漫遊指南 作者:馬晨 清華大學在讀博士,畢業於北京郵電大學碩士,曾任新浪網公司自然語言處理算法工程師。 簡介:完全明白主題模型的必備之路:一份從數學基礎開始講的教程,與LDA數學八卦可以互為補充。https://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a.html###

  7. 《Supervised topic models》: 有監督主題模型,提出SLDA,實現有監督學習。 作者:David M. Bleihttps://research.googleblog.com/2016/09/show-and-tell-image-captioning-open.html

  8. 《Fast collapsed gibbs sampling for latent dirichlet allocation》:快速推理算法,在參數推理上提出更容易理解的方法。更加實用。事實上,由於方法相對更好理解,現在更多的主題模型都采用這種方法求解。 作者:I Porteous,D Newman,A Ihler A Asuncion P Smythhttps://www.researchgate.net/publication/221653277_Fast_collapsed_Gibbs_sampling_for_latent_Dirichlet_allocation

  9. LDA-math-MCMC 和 Gibbs Sampling簡介:rickjin大神對馬爾科夫鏈蒙特卡洛采樣和吉布斯采樣的描述,講的非常清晰明白。可以幫助大家更好的理解采樣。https://cosx.org/2013/01/lda-math-mcmc-and-gibbs-sampling/

  10. **用變分推理求解LDA模型的參數 ** 簡介:LDA原文中采用的變分算法求解,想要了解變分算法可以看一下這篇文章。 作者:斯瑋Fantastichttps://zhuanlan.zhihu.com/p/28794694

  11. 早期文本模型的簡介https://zhuanlan.zhihu.com/p/28777266

  12. Gensim簡介、LDA編程實現、LDA主題提取效果圖展 示https://zhuanlan.zhihu.com/p/28830480

  13. 圖模型學習http://blog.csdn.net/pipisorry/article/category/6241251

  14. Gaussian LDA: Gaussian LDA簡介, 介紹主題模型和詞向量結合的一些工作, 比較有意思,建議看一下 [http://blog.csdn.net/u011414416/article/details/51188483]

綜述

  1. Probabilistic Topic Models: Origins and Challenges 權威綜述,介紹了很多基本的主題模型,還包括這些模型之間漸進的關係 作者:David M. Bleihttp://www.cs.columbia.edu/~blei/talks/Blei_Topic_Modeling_Workshop_2013.pdf
  2. Probabilistic Topic Models 作者:David M. Bleihttp://www.cs.columbia.edu/~blei/talks/Blei_MLSS_2012.pdf
  3. 通俗理解LDA主題模型 相對簡單一些的中文綜述,可以幫助讀者迅速理解各種基本概念。 作者:v_JULY_vhttp://blog.csdn.net/v_july_v/article/details/41209515

Tutorials

  1. Courses 哥倫比亞大學給出的教程,David M. Blei的課程http://www.cs.columbia.edu/~blei/courses.html

  2. EMNLP 2018A Tutorial on Deep Latent Variable Models of Natural Language

https://arxiv.org/pdf/1812.06834.pdf

  1. LDA漫遊指南 完全明白主題模型的必備之路:一份從數學基礎開始講的教程,與LDA數學八卦可以互為補充。 作者:馬晨 清華大學在讀博士,畢業於北京郵電大學碩士,曾任新浪網公司自然語言處理算法工程師。https://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a.html###

  2. MIT自然語言處理第三講:概率語言模型 很係統的英文教程,這裏給出了第一部分,後邊幾部分在52nlp也有翻譯,可以對照去看看。 作者:Regina Barzilay(MIT,EECS Department, November 15, 2004) /52nlp上的翻譯版本http://people.csail.mit.edu/regina/6881/http://www.52nlp.cn/mit-nlp-third-lesson-probabilistic-language-modeling-first-part

  3. 斯坦福大學深度學習與自然語言處理第二講:詞向量 這裏給出了整個深度學習與自然語言處理的連接。很適合想要做主題模型與深度學習相結合的人看。 作者:Richard Socher 斯坦福大學青年才俊http://cs224d.stanford.edu/

  4. topic_modeling_tutorial 除了基本的概念還包括在python上實現的流程。指導編程實現。 作者:piskvorkyhttps://github.com/piskvorky/topic_modeling_tutorial

  5. LDA數學八卦 傳說中的“上帝擲骰子”的來源之處。這篇文章是一個連載的科普性博客,作者是rickjin,文章分為7個章節,主要5個章節講得是Gamma函數、Beta/Dirichlet函數、MCMC和Gibbs采樣、文本建模、LDA文本建模,對於想要了解和LDA的同學來說,是一篇很好的入門教程,建議結合Blei的開山之作一起看。 作者:Rickjin 騰訊的rickjin大神http://download.csdn.net/download/happyer88/8791493

進階論文

  • 實踐以及一些變形方法
  1. 如何計算兩個文檔的相似度(一)簡介:52nlp上的文章,從最簡單的tf-idf到SVD和LSI再到) LDA,可以說是形成了一條邏輯線,一步一步說明算法的發展過程,同時也方便對比各種算法的優缺點。另外,從實踐的角度出發。迅速上手!用到了python裏的gensim,這是一個非常好用的庫,實踐必不可少。http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%80

  2. 如何計算兩個文檔的相似度(二)從gensim最基本的安裝講起,然後舉一個非常簡單的例子用以說明如何使用gensim,可以跟著教程做一下實驗,肯定會有更好地體會http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%BA%8C

  3. 文章說了很多實驗的細節,講了如何數據預處理,解決了很多理論類文章中不會提到的技術細節。NTLK是著名的Python自然語言處理工具包,在這也講了怎麼去用這些工具。http://www.52nlp.cn/%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E4%B8%A4%E4%B8%AA%E6%96%87%E6%A1%A3%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E4%B8%89

  4. A correlated topic model of scienceBlei的大作,引入了主題之間的關聯。考慮到了潛在主題的子集將是高度相關的。http://www.cs.columbia.edu/~blei/papers/BleiLafferty2007.pdf(ppt)http://www-users.cs.umn.edu/~banerjee/Teaching/Fall07/talks/Muhammed_slides.pdf

  5. Topic Models over Text Streams: A Study of Batch and Online Unsupervised Learning.文本流推理 作者:A Banerjee , S Basuhttp://www-users.cs.umn.edu/~banerjee/papers/07/sdm-topics-long.pdf

  6. Topical n-grams: Phrase and topic discovery, with an application to information retrieval在LDA基礎上考慮了詞與詞之間的順序 作者:X Wang , A Mccallum , X Weihttp://www.cs.cmu.edu/~xuerui/papers/ngram_tr.pdf

  7. Hierarchical Dirichlet processes.基於DirichletProcess的變形,即HDP模型,可以自動的學習出主題的數目。該方法:1、在一定程度之上解決了主題模型中自動確定主題數目這個問題,2、代價是必須小心的設定、調整參數的設置,3、實際中運行複雜度更高,代碼複雜難以維護。 所以在實際中,往往取一個折中,看看自動確定主題數目這個問題對於整個應用的需求到底有多嚴格,如果經驗設定就可以滿足的話,就不用采用基於非參數貝葉斯的方法了,但是如果為了引入一些先驗隻是或者結構化信息,往往非參數是優先選擇,例如樹狀層次的主題模型和有向無環圖的主題模型 作者:Yee Whye Michael I. Jordan J Beal David M. Bleihttps://people.eecs.berkeley.edu/~jordan/papers/hdp.pdf

  8. Modeling online reviews with multi-grain topic models

從用戶評論數據中進行無監督主題抽取,考慮了一個多級背景主題模型:詞~句子~段落~文檔,解決了傳統LDA模型提出的主題往往對應品牌而不是可以ratable的主題。 作者:I Titov , R Mcdonaldhttp://delivery.acm.org/10.1145/1370000/1367513/p111-titov.pdf

  1. A joint model of text and aspect ratings for sentiment summarization.本文將一些具有結構化信息的特征融入到主題模型中,具體來說,我們同時關聯兩個生成過程,一個就是文檔中詞的生成,另一個就是這些結構化特征的生成。 作者:Titov , Ivan , McDonald , Ryanhttp://www.aclweb.org/anthology/P08-1036

  2. Comparing twitter and traditional media using topic models.用於社交媒體研究的方法,提出Twtter-LDA,傳統LDA並不適用於短文本,這篇論文解決了這一缺點。 作者:WX Zhao J Jiang,J Weng, J H EP Limhttps://link.springer.com/chapter/10.1007%2F978-3-642-20161-5_34

主題模型的應用場景

  1. Multi-modal Multi-view Topic-opinion Mining for Social Event Analysis. 將主題模型用於多媒體分析,同時考慮了opinion,view,collection等因素 作者:Shengsheng Qian Tianzhu Zhang Changsheng Xuhttp://delivery.acm.org/10.1145/2970000/2964294/p2-qian.pdf

  2. TopicRNN: A Recurrent Neural Network with Long-Range Semantic Dependency RNN與主題模型結合,結合了主題模型的全局信息和RNN的局部特征。 作者:AB Dieng, C Wang, J Gao, J Paisleyhttps://arxiv.org/pdf/1611.01702.pdf

  3. Cross-media Topic Detection with Refined CNN based Image-Dominant Topic Model CNN與主題模型結合 作者:Z Wang, L Li , Q Huanghttp://delivery.acm.org/10.1145/2810000/2806309/p1171-wang.pdf

  4. Gaussian LDA for Topic Models with Word Embeddings word embedding 應用於LDA變形 作者:R Das, M Zaheer, C Dyerhttp://rajarshd.github.io/papers/acl2015.pdf

Papers for NLP

  1. Topic modeling: beyond bag-of-words 為文本語料庫建模提供了一種替代方法。 作者:Hanna M. Wallachhttp://delivery.acm.org/10.1145/1150000/1143967/p977-wallach.pdfhttps://people.cs.umass.edu/~wallach/talks/beyond_bag-of-words.pdf(ppt)
  2. Topical n-grams: Phrase and topic discovery, with an application to information retrieval 本文介紹了主題n-gram即一個發現主題以及主題短語的主題模型。 作者:Andrew McCallum, Xing Wei University of Massachusettshttp://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=4470313
  3. A topic model for word sense disambiguation 用WORDNET(LDAWN)開發LDA 作者:JL Boyd-Graber , DM Blei , X Zhuhttp://www.aclweb.org/anthology/D07-1109

Papers for opinion mining

  1. Topic sentiment mixture: modeling facets and opinions in weblogs 定義了Weblogs主題情感分析的問題,並提出了一種概率模型來同時捕捉主題和情緒的混合。 作者:Qiaozhu Mei, Xu Ling, Matthew Wondra, Hang Su, Chengxiang Zhaihttp://delivery.acm.org/10.1145/1250000/1242596/p171-mei.pdf
  2. A joint model of text and aspect ratings for sentiment summarization 提出一個統計模型,能夠在文本中發現相應的主題,並從支持每個方麵評級的評論中提取文本證據。 作者:Titov, Ivan, McDonald, Ryanhttp://www.aclweb.org/anthology/P08-1036
  3. Current State of Text Sentiment Analysis from Opinion to Emotion Mining 較新的文章,很全麵的介紹了opinion挖掘的當前狀況。 作者:OR Zaiane
    http://delivery.acm.org/10.1145/3060000/3057270/a25-yadollahi.pdf

Papers for retrieval

  1. LDA-based document models for ad-hoc retrieval 在語言建模框架內提出基於LDA的文檔模型,並對幾個TREC集合進行評估。 作者:X Wei , WB Crofthttp://delivery.acm.org/10.1145/1150000/1148204/p178-wei.pdf
  2. Probabilistic Models for Expert Finding 設計算法找到某個領域的專家。 作者:Hui Fang ChengXiang Zhaihttps://link.springer.com/chapter/10.1007%2F978-3-540-71496-5_38
  3. Thread-based probabilistic models for expert finding in enterprise Microblogs. 提出一個概率文件候選模型,該模型可以在企業微博中找到更多專家。 作者:Zhe Xu Jay Ramanathan Computer Science and Engineering, The Ohio State University, Columbus, OH 43210, United Stateshttps://ac.els-cdn.com/S0957417415004406/1-s2.0-S0957417415004406-main.pdf

Papers for information extraction

  1. Employing Topic Models for Pattern-based Semantic Class Discovery 從語義類的角度出發,做信息提取。具體可以參考ppt 作者:Huibin Zhang Nankai University Mingjie Zhu University of Science and Technology of China huming Shi Ji-Rong Wen Microsoft Research Asiahttp://www.aclweb.org/anthology/P09-1052https://pdfs.semanticscholar.org/604b/c2fb02b48d6d106215955a6a30629314df14.pdf(ppt)

  2. Combining Concept Hierarchies and Statistical Topic Models 提供一個通用的數據驅動框架,用於從大量文本文檔中自動發現高級知識。 作者:C Chemudugunta , P Smyth , M Steyvershttp://delivery.acm.org/10.1145/1460000/1458337/p1469-chemudugunta.pdf

  3. An Unsupervised Framework for Extracting and Normalizing Product Attributes from Multiple Web Sites 開發了一個無監督的框架,用於從源自不同站點的多個網頁同時提取和歸一化產品的屬性。 作者:Tak-Lam Wong Wai Lam The Tik-Shun Wong The Chinese University of Hong Kong, Hong Kong, Hong Konghttp://delivery.acm.org/10.1145/1400000/1390343/p35-wong.pdf

視頻教程

  1. Probabilistic topic modelshttp://delivery.acm.org/10.1145/2110000/2107741/tutorial-6-part1.mp4

  2. Probabilistic topic modelshttp://delivery.acm.org/10.1145/2110000/2107741/tutorial-6-part2.mp4

  3. a 2008 talk on dynamic and correlated topic models applied to the journal Science .http://www.cs.columbia.edu/~blei/talks/Blei_Science_2008.pdf

代碼

  1. Topic modeling softwarehttps://github.com/Blei-Lab

  2. blei的github主頁,有大量代碼 lda-c(Latent Dirichlet allocation)LDA代碼http://www.cs.columbia.edu/~blei/lda-c/index.html

  3. Supervised topic models for classification 有監督LDAhttp://www.cs.cmu.edu/~chongw/slda/

  4. R package for Gibbs sampling in many models 吉布斯采樣代碼https://cran.r-project.org/web/packages/lda/

  5. online lda 在線ldahttp://www.cs.princeton.edu/~blei/downloads/onlineldavb.tar

  6. Online inference for the HDPHierarchical Dirichlet processes.http://www.cs.cmu.edu/~chongw/software/onlinehdp.tar.gz

  7. Collaborative modeling for recommendation關聯主題模型http://www.cs.cmu.edu/~chongw/citeulike/

  8. Dynamic topic models and the influence model動態主題模型https://code.google.com/archive/p/princeton-statistical-learning/downloads

領域專家

  1. David M. Blei

    • LDA開上鼻祖,哥倫比亞大學統計與計算機科學係教授。曾在普林斯頓大學計算機科學係擔任副教授。 他的工作主要是機器學習。他的博客中包含很多主題模型的知識,也可以很快地了解主題模型的發展方向。http://www.cs.columbia.edu/~blei/
  2. Michael Jordan

    • LDA作者之一,David M. Blei導師,機器學習泰鬥,美國科學院/工程院/藝術科學院三院院士,ACM/AAAI Fellow,認知科學最高獎Rumelhart Prize得主,美國人工智能協會的艾倫獎得主,2016年入選最有影響力的計算機科學家
  3. Ivan Titov Иван Титов 圖模型方麵的專家,有許多高水平論文。博客中有很多好的資源可以使讀者了解主題模型的發展。http://www.ivan-titov.org/

  4. Eric xing

    • My principal research interests lie in the development of machine learning and statistical methodology, andlarge-scale computational system and architecture, for solving problems involving automated learning, reasoning, and decision-making in high-dimensional, multimodal, and dynamic possible worlds in artificial, biological, and social systems.http://www.cs.cmu.edu/~epxing/
  5. 朱軍

    • My research focuses on developing statistical machine learning methods to understand complex scientific and engineering data. My current interests are in latent variable models, large-margin learning, Bayesian nonparametrics, and deep learning. Before joining Tsinghua in 2011, I was a post-doc researcher and project scientist at the Machine Learning Department in Carnegie Mellon University.http://ml.cs.tsinghua.edu.cn/~jun/index.shtml
  6. Alexander J. Smola

    • Professor, Carnegie Mellon University, CEO, Marianas Labs, 亞馬遜雲服務(AWS)機器學習總監
    • http://alex.smola.org/
    • Alex Smola,1996 年畢業於慕尼黑工業大學,獲物理學碩士學位。1998年在柏林工業大學取得計算機科學博士學位。之後,他在澳大利亞國立大學擔任研究院和研究小組組長。2004 - 2008年,Alex Smola 在NICTA研究中心統計機器學習項目擔任項目負責人。2008 年,他加入雅虎,後於 2012 年加入穀歌從事研究工作。他是加州大學伯克利分校的兼職教授,目前擔任卡內基梅隆大學機器學習教授。2015 年,他與人聯合創立了 Marianas 實驗室。2016 年,Alex 加入亞馬遜,目前擔任亞馬遜 AWS 機器學習總監。迄今為止共發表超過 200 篇論文並參與編寫 5 本學術專著。他的研究興趣包括:算法的可擴展性,SVM、高斯過程和條件隨機場等核方法,統計建模以及用戶建模、文檔分析、時序模型等各種機器學習應用。
    • 他最近的一篇工作比較有意思,Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequence Data把LDA 和 LSTM 結合一起,讚。

初步版本,水平有限,有錯誤或者不完善的地方,歡迎大家提建議和補充,會一直保持更新,敬請關注//www.webtourguide.com和關注專知公眾號,獲取第一手AI相關知識

最近更新:2019-12-09

成為VIP會員查看完整內容
Top