自然語言處理(NLP)是語言學,計算機科學,信息工程和人工智能的一個子領域,與計算機和人類(自然)語言之間的相互作用有關,尤其是如何對計算機進行編程以處理和分析大量自然語言數據 。

自然語言處理(NLP) 專知薈萃

入門學習

  1. 《數學之美》吳軍 這個書寫得特別生動形象,沒有太多公式,科普性質。看完對於nlp的許多技術原理都會有初步認識。可以說是自然語言處理最好的入門讀物。

  2. 如何在NLP領域第一次做成一件事 by 周明 微軟亞洲研究院首席研究員、自然語言處理頂會ACL候任主席:

  3. 深度學習基礎

  4. Deep learning for natural language processing 自然語言處理中的深度學習 by 邱錫鵬

    • 主要討論了深度學習在自然語言處理中的應用。其中涉及的模型主要有卷積神經網絡,遞歸神經網絡,循環神經網絡網絡等,應用領域主要包括了文本生成,問答係統,機器翻譯以及文本匹配等。
    • [http://nlp.fudan.edu.cn/xpqiu/slides/20160618_DL4NLP@CityU.pdf]
  5. Deep Learning, NLP, and Representations (深度學習,自然語言處理及其表達)

  6. 《中文信息發展報告》 by 中國中文信息學會 2016年12月

  7. Deep Learning in NLP (一)詞向量和語言模型 by Lai Siwei(來斯惟) 中科院自動化所 2013

  8. 語義分析的一些方法(一,二,三) by 火光搖曳 騰訊廣點通

  9. 我們是這樣理解語言的-3 神經網絡語言模型 by 火光搖曳 騰訊廣點通

  10. 深度學習word2vec筆記之基礎篇 by falao_beiliu

  11. Understanding Convolutional Neural Networks for NLP 卷積神經網絡在自然語言處理的應用 by WILDML

  12. The Unreasonable Effectiveness of Recurrent Neural Networks. 循環神經網絡驚人的有效性 by Andrej Karpathy

  13. Understanding LSTM Networks 理解長短期記憶網絡(LSTM NetWorks) by colah

  14. 注意力機製(Attention Mechanism)在自然語言處理中的應用 by robert_ai _

  15. 初學者如何查閱自然語言處理(NLP)領域學術資料 劉知遠

綜述

  1. A Primer on Neural Network Models for Natural Language Processing Yoav Goldberg. October 2015. No new info, 75 page summary of state of the art.
  2. Deep Learning for Web Search and Natural Language Processing - [https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/wsdm2015.v3.pdf]
  3. Probabilistic topic models
  4. Natural language processing: an introduction
  5. A unified architecture for natural language processing: Deep neural networks with multitask learning
  6. A Critical Review of Recurrent Neural Networksfor Sequence Learning - [http://arxiv.org/pdf/1506.00019v1.pdf]
  7. Deep parsing in Watson - [http://nlp.cs.rpi.edu/course/spring14/deepparsing.pdf]
  8. Online named entity recognition method for microtexts in social networking services: A case study of twitter
  9. 《基於神經網絡的詞和文檔語義向量表示方法研究》 by Lai Siwei(來斯惟) 中科院自動化所 2016
    • 來斯惟的博士論文基於神經網絡的詞和文檔語義向量表示方法研究,全麵了解詞向量、神經網絡語言模型相關的內容。
    • [https://arxiv.org/pdf/1611.05962.pdf]

進階論文

Word Vectors

  1. Word2vecEfficient Estimation of Word Representations in Vector Space
  2. ** Doc2vec** Distributed Representations of Words and Phrases and their Compositionality
  3. Word2Vec tutorial
  4. GloVe: Global vectors for word representation
  5. How to Generate a Good Word Embedding? 怎樣生成一個好的詞向量? Siwei Lai, Kang Liu, Liheng Xu, Jun Zhao
  6. tweet2vec
  7. tweet2vec
  8. author2vec
  9. item2vec
  10. lda2vec
  11. illustration2vec
  12. tag2vec
  13. category2vec
  14. topic2vec
  15. image2vec
  16. app2vec
  17. prod2vec
  18. metaprod2vec
  19. sense2vec
  20. node2vec
  21. subgraph2vec
  22. wordnet2vec
  23. doc2sent2vec
  24. context2vec
  25. rdf2vec
  26. hash2vec
  27. query2vec
  28. gov2vec
  29. novel2vec
  30. emoji2vec
  31. video2vec
  32. video2vec
  33. sen2vec
  34. content2vec
  35. cat2vec
  36. diet2vec
  37. mention2vec
  38. POI2vec
  39. wang2vec
  40. dna2vec
  41. pin2vec
  42. paper2vec
  43. struc2vec
  44. med2vec
  45. net2vec
  46. sub2vec
  47. metapath2vec
  48. concept2vec
  49. graph2vec
  50. doctag2vec
  51. skill2vec
  52. style2vec
  53. ngram2vec

Machine Translation

  1. Neural Machine Translation by jointly learning to align and translate
  2. Sequence to Sequence Learning with Neural Networks
  3. Cross-lingual Pseudo-Projected Expectation Regularization for Weakly Supervised Learning
  4. Generating Chinese Named Entity Data from a Parallel Corpus
  5. IXA pipeline: Efficient and Ready to Use Multilingual NLP tools

Summarization

  1. Extraction of Salient Sentences from Labelled Documents
  2. A Neural Attention Model for Abstractive Sentence Summarization. EMNLP 2015. Facebook AI Research
  3. A Convolutional Attention Network for Extreme Summarization of Source Code
  4. Abstractive Text Summarization Using SequencetoSequence RNNs and Beyond. BM Watson & Université de Montréal
  5. textsum: Text summarization with TensorFlow
  6. How to Run Text Summarization with TensorFlow

Text Classification

  1. Convolutional Neural Networks for Sentence Classification
  2. Recurrent Convolutional Neural Networks for Text Classification
  3. Characterlevel Convolutional Networks for Text Classification.NIPS 2015. "Text Understanding from Scratch"
  4. A CLSTM Neural Network for Text Classification
  5. Text classification using DIGITS and Torch7
  6. Recurrent Neural Network for Text Classification with MultiTask Learning
  7. Deep MultiTask Learning with Shared Memory. EMNLP 2016
  8. Virtual Adversarial Training for SemiSupervised Text
  9. Bag of Tricks for Efficient Text Classification. Facebook AI Research
  10. Actionable and Political Text Classification using Word Embeddings and LSTM
  11. fancycnn: Multiparadigm Sequential Convolutional Neural Networks for text classification
  12. Convolutional Neural Networks for Text Categorization: Shallow Wordlevel vs. Deep Characterlevel
  13. Hierarchical Attention Networks for Document Classification. NAACL 2016
  14. ACBLSTM: Asymmetric Convolutional Bidirectional LSTM Networks for Text Classification
  15. Generative and Discriminative Text Classification with Recurrent Neural Networks. DeepMind
  16. Adversarial Multitask Learning for Text Classification. ACL 2017
  17. Deep Text Classification Can be Fooled. Renmin University of China
  18. Deep neural network framework for multilabel text classification
  19. MultiTask Label Embedding for Text Classification

Dialogs

  1. A Neural Network Approach toContext-Sensitive Generation of Conversational Responses. by Sordoni 2015. Generates responses to tweets.
  2. Neural Responding Machine for Short-Text Conversation
  3. A Neural Conversation Model
  4. Visual Dialog
  5. Papers, code and data from FAIR for various memory-augmented nets with application to text understanding and dialogue.
  6. Neural Emoji Recommendation in Dialogue Systems

Reading Comprehension

  1. Text Understanding with the Attention Sum Reader Network. ACL 2016
  2. A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task
  3. Consensus Attentionbased Neural Networks for Chinese Reading Comprehension
  4. Separating Answers from Queries for Neural Reading Comprehension
  5. AttentionoverAttention Neural Networks for Reading Comprehension
  6. Teaching Machines to Read and Comprehend CNN News and Children Books using Torch
  7. Reasoning with Memory Augmented Neural Networks for Language Comprehension
  8. Bidirectional Attention Flow: Bidirectional Attention Flow for Machine Comprehension
  9. NewsQA: A Machine Comprehension Dataset
  10. GatedAttention Readers for Text Comprehension
  11. Get To The Point: Summarization with PointerGenerator Networks. ACL 2017. Stanford University & Google Brain

Memory and Attention Models

  1. Reasoning, Attention and Memory RAM workshop at NIPS 2015.
  2. Memory Networks. Weston et. al 2014
  3. End-To-End Memory Networks
  4. Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks
  5. Evaluating prerequisite qualities for learning end to end dialog systems
  6. Neural Turing Machines
  7. Inferring Algorithmic Patterns with Stack-Augmented Recurrent Nets
  8. Reasoning about Neural Attention
  9. A Neural Attention Model for Abstractive Sentence Summarization
  10. Neural Machine Translation by Jointly Learning to Align and Translate
  11. Recurrent Continuous Translation Models
  1. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
  1. Teaching Machines to Read and Comprehend

Reinforcement learning in nlp

  1. Generating Text with Deep Reinforcement Learning - [https://arxiv.org/abs/1510.09202]
  2. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning
  3. Language Understanding for Text-based Games using Deep Reinforcement Learning
  4. On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems
  5. Deep Reinforcement Learning with a Natural Language Action Space
  6. 基於DQN的開放域多輪對話策略學習 宋皓宇, 張偉男 and 劉挺 SMP2017 最佳論文獎 2017

GAN for NLP

  1. Generating Text via Adversarial Training
  2. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
  3. Adversarial Learning for Neural Dialogue Generation
  4. GANs for sequence of discrete elements with the Gumbel-softmax distribution
  5. Connecting generative adversarial network and actor-critic methods

視頻課程

  1. Introduction to Natural Language Processing(自然語言處理導論) 密歇根大學 - [https://www.coursera.org/learn/natural-language-processing]
  2. 斯坦福 cs224d 2015年課程 Deep Learning for Natural Language Processing by Richard Socher [2015 classes] - [https://www.youtube.com/playlist?list=PLmImxx8Char8dxWB9LRqdpCTmewaml96q]
  3. 斯坦福 cs224d 2016年課程 Deep Learning for Natural Language Processing by Richard Socher. Updated to make use of Tensorflow.
  4. 斯坦福 cs224n 2017年課程 Deep Learning for Natural Language Processing by Chris Manning Richard Socher
  5. Natural Language Processing - by 哥倫比亞大學 Mike Collins - [https://www.coursera.org/learn/nlangp]
  6. NLTK with Python 3 for Natural Language Processing by Harrison Kinsley. Good tutorials with NLTK code implementation.
  7. Computational Linguistics by Jordan Boyd-Graber . Lectures from University of Maryland.
  8. Natural Language Processing - Stanford by Dan Jurafsky & Chris Manning.

Tutorial

  1. Deep Learning for Natural Language Processing (without Magic)

  2. A Primer on Neural Network Models for Natural Language Processing

  3. Deep Learning for Natural Language Processing: Theory and Practice [Tutorial]

  4. Recurrent Neural Networks with Word Embeddings

  5. LSTM Networks for Sentiment Analysis

  6. Semantic Representations of Word Senses and Concepts 語義表示 ACL 2016 Tutorial by José Camacho-Collados, Ignacio Iacobacci, Roberto Navigli and Mohammad Taher Pilehvar

  7. ACL 2016 Tutorial: Understanding Short Texts 短文本理解

  8. Practical Neural Networks for NLP EMNLP 2016

  9. Structured Neural Networks for NLP: From Idea to Code

  10. Understanding Deep Learning Models in NLP

  11. Deep learning for natural language processing, Part 1

  12. TensorFlow Tutorial on Seq2Seq Models

  13. Natural Language Understanding with Distributed Representation Lecture Note by Cho

  14. Michael Collins

  15. Several tutorials by Radim Řehůřek[https://radimrehurek.com/gensim/tutorial.html] on using Python and genism

  16. Natural Language Processing in Action

圖書

  1. 《數學之美》(吳軍)
    • 科普性質,看完對於nlp的許多技術原理都會有初步認識
  2. 《自然語言處理綜論》(Daniel Jurafsky)
    • 這本書是馮誌偉老師翻譯的 作者是Daniel Jurafsky,在coursera上麵有他的課程。
    • 本書第三版正尚未出版,但是英文版已經全部公開。
    • Speech and Language Processing (3rd ed. draft) by Dan Jurafsky and James H. Martin
    • [https://web.stanford.edu/~jurafsky/slp3/]
  3. 《自然語言處理簡明教程》(馮誌偉)
  4. 《統計自然語言處理(第2版)》(宗成慶)
  5. 清華大學劉知遠老師等合著的《互聯網時代的機器學習和自然語言處理技術大數據智能》,科普性質。

領域專家

國內

  1. 清華大學
    • NLP研究:孫茂鬆主要從事一些中文文本處理工作,比如中文文本分類,中文分詞。劉知遠從事關鍵詞抽取,表示學習,知識圖譜以及社會計算。劉洋從事數據驅動的機器學習。
    • 情感分析:黃民烈
    • 信息檢索:劉奕群、馬少平
    • 語音識別——王東
    • 社會計算:唐傑
  2. 哈爾濱工業大學
    • 社會媒體處理:劉挺、丁效
    • 情感分析:秦兵 車萬翔
  3. 中科院
    • 語言認知模型:王少楠,宗成慶
    • 信息抽取:孫樂、韓先培
    • 信息推薦與過濾:王斌(中科院信工所)、魯驍(國家計算機網絡應急中心)
    • 自動問答:趙軍、劉康,何世柱(中科院自動化研究所)
    • 機器翻譯:張家俊、宗成慶(中科院自動化研究所)
    • 語音 合成——陶建華(中科院自動化研究所)
    • 文字識別:劉成林(中科院自動化研究所)
    • 文本匹配:郭嘉豐
  4. 北京大學
    • 篇章分析:王厚峰、李素建
    • 自動文摘,情感分析:萬小軍、姚金戈
    • 語音技術:說話人識別——鄭方
    • 多模態信息處理:陳曉鷗
    • 馮岩鬆
  5. 複旦大學
    • 語言表示與深度學習:黃萱菁、邱錫鵬
  6. 蘇州大學
    • 詞法與句法分析:李正華、陳文亮、張民
    • 語義分析:周國棟、李軍
    • 機器翻譯:熊德意
  7. 中國人民大學
    • 表示學習,推薦係統:趙鑫
  8. 微軟亞洲研究院自然語言計算組
    • 周明 劉鐵岩 謝幸
  9. 頭條人工智能實驗室
    • 李航
  10. 華為諾亞
    • 前任 李航 呂正東

國際

  1. 斯坦福大學
    • 知名的NLP學者:Daniel Jurafsky, Christopher Manning, Percy Liang和Chris Potts, Richard Socher
    • NLP研究:Jurafsky和科羅拉多大學波爾得分校的James Martin合著自然語言處理方麵的教材。這個NLP研究組從事幾乎所有能夠想象到的研究方向。今天NLP領域最被廣泛使用的句法分析器和詞性標注工具可能都是他們負責開發的。
    • [http://nlp.stanford.edu/]
  2. 加州大學聖巴巴拉分校
    • 知名NLP學者:William Wang(王威廉), Fermin Moscoso del Prado Martin
    • NLP研究:William研究方向為信息抽取和機器學習,Fermin研究方向為心理語言學和計量語言學。
    • [http://www.cs.ucsb.edu/~william] William Wang(王威廉)經常在微博分享關於NLP的最近進展和趣事,幾乎每條都提供高質量的信息。
    • 微博:[https://www.weibo.com/u/1657470871]
  3. 加州大學聖迭戈分校
    • 知名的NLP學者:Lawrence Saul(Roger Levy今年加入MIT)
    • NLP研究:主要研究方向是機器學習,NLP相關的工作不是很多,但是在計算心理語言學有些比較有趣的工作。
    • [http://grammar.ucsd.edu/cpl/]
  4. 加州大學聖克魯茲分校
  5. 卡內基梅隆大學
    • 知名NLP學者:Jaime Carbonell,Alon Lavie, Carolyn Rosé, Lori Levin, Roni Rosenfeld, Chris Dyer (休假中), Alan Black, Tom Mitchell以及Ed Hovy
    • NLP研究:在多個NLP領域做了大量工作,包括機器翻譯、文摘、交互式對話係統、語音、信息檢索以及工作最為突出的機器學習領域。Chris主要方向為機器學習和機器翻譯交叉研究,做了一些非常出色的工作。雖然Tom Mitchell屬於機器學習係而不是語言技術研究所,但是由於他在CMU的“永不停息的語言學習者”項目中的重要貢獻,我們必須在這裏提到他。
    • [http://www.cs.cmu.edu/~nasmith/nlp-cl.html]
    • [http://www.lti.cs.cmu.edu/]
  6. 芝加哥大學(以及芝加哥豐田科技學院TTIC)
    • 知名NLP學者:John Lafferty, John Goldsmith, Karen Livescu, MichelGalley (兼職) 和Kevin Gimpel.
    • NLP研究:芝加哥大學以及豐田科技學院有許多機器學習、語音以及NLP方向的研究人員。John Lafferty是一個傳奇性人物,其參與原始IBM MT模型研發,同時也是CRF模型的發明人之一。Goldsmith的團隊是無監督的形態歸納法(unsupervised morphology induction)的先驅。Karen主要研究方向為語音,特別是對發音方式的建模。Michel主要研究結構化預測問題,特別是統計機器翻譯。Kevin在許多結構化預測問題上都做出出色工作。
    • [http://ai.cs.uchicago.edu/faculty/]
    • [http://www.ttic.edu/faculty.php]
  7. 科羅拉多大學博爾德分校
    • 知名NLP學者:Jordan Boyd-Graber, Martha Palmer, James Martin,Mans Hulden以及Michael Paul
    • NLP研究:Martha Palmer主要研究資源標注和創建,其中代表性有FrameNet, VerbNet, OntoNotes等,此外其也在詞彙語義學(Lexical semantics)做了一些工作。Jim Martin主要研究語言的向量空間模型,此外與Dan Jurafsky(以前在科羅拉多大學博爾德分校,之後去了斯坦福)合作編寫語音和語言處理的著作。Hulden, Boyd-Graber和Paul最近加入科羅拉多大學博爾德分校。Hulden主要使用有窮狀態機相關技術,做一些音位學(phonology)和形態學(morphology)相關工作,Boyd-Graber主要研究主題模型和機器學習在問答、機器翻譯上的應用。Michael Paul主要研究機器學習在社交媒體監控(social media monitoring)上的應用。
    • [http://clear.colorado.edu/start/index.php]
  8. 哥倫比亞大學
    • 知名的NLP學者:有多位NLP領域頂級學者,Kathy McKeown, Julia Hirschberg, Michael Collins(休假中), Owen Rambow, Dave Blei, Daniel Hsu和Becky Passonneau
    • NLP研究:在文摘、信息抽取以及機器翻譯上麵做了大量的研究。Julia團隊主要在語音領域做一些研究。Michael Collins是從MIT離職後加入哥倫比亞NLP團隊的,其主要研究內容為機器翻譯和parsing。DaveBlei 和Daniel Hsu是機器學習領域翹楚,偶爾也會做一些語言相關的工作。
    • [http://www1.cs.columbia.edu/nlp/index.cgi]
  9. 康納爾大學
    • NLP知名學者:Lillian Lee, Thorsten Joachims, Claire Cardie, Yoav Artzi, John Hale,David Mimno, Cristian Danescu-Niculescu-Mizil以及Mats Rooth
    • NLP研究:在機器學習驅動NLP方麵有許多有趣的研究。Lillian與其學生做了許多獨辟蹊徑的研究,如電影評論分類,情感分析等。Thorsten,支持向量機的先驅之一,SVMlight的作者。John研究內容包括計算心理語言學和認知科學。Mats研究領域包括語義學和音位學。Claire Cardie在欺詐性評論方麵的研究室非常有影響的。Yoav Artzi在語義分析和情景化語言理解方麵有許多重要的工作。David Mimno在機器學習和數位人文學(digital humanities)交叉研究的頂級學者。
    • [http://nlp.cornell.edu/]
  10. 佐治亞理工學院
    • 知名NLP學者:Jacob Eisenstein和Eric Gilbert
    • NLP研究:Jacob在機器學習和NLP交叉領域做了一些突出性的工作,特別是無監督學習以及社交媒體領域。在MIT,他是Regina Barzilay的學生,在CMU和UIUC分別與Noah Smith、Dan Roth做博士後研究。此外,Eric Gilbert在計算社會學(computationalsocial science)上做了許多研究。這些研究經常與NLP進行交叉。
    • [http://www.cc.gatech.edu/~jeisenst/]
    • [http://smlv.cc.gatech.edu/]
    • [http://comp.social.gatech.edu/]
  11. 伊利諾伊大學厄巴納-香檳分校
    • 知名的NLP學者:Dan Roth, Julia Hockenmaier, ChengXiang Zhai, Roxana Girju和Mark Hasegawa-Johnson
    • NLP研究:機器學習在NLP應用,NLP在生物學上應用(BioNLP),多語言信息檢索,計算社會學,語音識別
    • [http://nlp.cs.illinois.edu/]
  12. 約翰·霍普金斯大學(JHU)
    • 知名NLP學者:Jason Eisner, Sanjeev Khudanpur, David Yarowsky,Mark Dredze, Philipp Koehn以及Ben van Durme,詳細情況參考鏈接
    • NLP研究:約翰·霍普金斯有兩個做NLP的研究中心,即 the Center for Language and Speech Processing (CLSP) 和the Human Language Technology Center of Excellence(HLTCOE)。他們的研究幾乎涵蓋所有NLP領域,其中機器學習、機器翻譯、parsing和語音領域尤為突出。Fred Jelinek,語音識別領域的先驅,其於2010年9月去世,但是語音識別研究一直存在至今。在過去十年內,JHU的NLP summer research workshop產生出許多開創性的研究和工具。
    • [http://web.jhu.edu/HLTCOE/People.html]
    • [http://clsp.jhu.edu/]
  13. 馬裏蘭大學學院市分校
    • 知名的NLP學者:Philip Resnik, Hal Daumé, Marine Carpuat, Naomi Feldman
    • NLP研究:和JHU一樣,其NLP研究比較全麵。比較大的領域包括機器翻譯,機器學習,信息檢索以及計算社會學。此外,還有一些團隊在計算心理語言學上做一些研究工作。
    • [https://wiki.umiacs.umd.edu/clip/index.php/Main_Page]
  14. 馬薩諸塞大學阿默斯特分校
    • 知名的NLP學者:Andrew McCallum, James Allan (不是羅徹斯特大學的James Allan), Brendan O'Connor和W. Bruce Croft
    • NLP研究:機器學習和信息檢索方向頂尖研究機構之一。Andrew的團隊在機器學習在NLP應用方麵做出許多重要性的工作,例如CRF和無監督的主題模型。其與Mark Dredze寫了一篇指導性文章關於“如何成為一名成功NLP/ML Phd”。 Bruce編寫了搜索引擎相關著作“搜索引擎:實踐中的信息檢索”。James Allan是現代實用信息檢索的奠基人之一。IESL實驗室在信息抽取領域做了大量的研究工作。另外,其開發的MalletToolkit,是NLP領域非常有用工具包之一。
    • [http://ciir.cs.umass.edu/personnel/index.html]
    • [http://www.iesl.cs.umass.edu/]
    • [http://people.cs.umass.edu/~brenocon/complang_at_umass/]
    • [http://mallet.cs.umass.edu/]
  15. 麻省理工學院
    • 知名的NLP學者:Regina Barzilay, Roger Levy (2016年加入)以及Jim Glass
    • NLP研究:Regina與ISI的Kevin Knight合作在文摘、語義、篇章關係以及古代文獻解讀做出過極其出色的工作。此外,開展許多機器學習相關的工作。另外,有一個比較大團隊在語音領域做一些研究工作,Jim Glass是其中一員。
    • [http://people.csail.mit.edu/regina/]
    • [http://groups.csail.mit.edu/sls//sls-blue-noflash.shtml]
  16. 紐約大學
    • 知名NLP學者:Sam Bowman, Kyunghyun Cho, Ralph Grishman
    • NLP研究:Kyunghyun and Sam剛剛加入NLP團隊,主要研究包括機器學習/深度學習在NLP以及計算語言學應用。與CILVR machine learning group、Facebook AI Research以及Google NYC有緊密聯係。
    • [https://wp.nyu.edu/ml2/]
  17. 北卡羅來納大學教堂山分校
    • 知名的NLP學者:Mohit Bansal, Tamara Berg, Alex Berg, Jaime Arguello
    • NLP研究:Mohit於2016年加入該團隊,主要研究內容包括parsing、共指消解、分類法(taxonomies)以及世界知識。其最近的工作包括多模態語義、類人語言理解(human-like language understanding)以及生成/對話。Tamara 和Alex Berg在語言和視覺領域發了許多有影響力的論文,現在研究工作主要圍繞visual referring expressions和 visual madlibs。Jaime主要研究對話模型、web搜索以及信息檢索。UNC語言學係還有CL方麵一些研究學者,例如Katya Pertsova(計算形態學(computational morphology))以及Misha Becker(computational language acquisition)
    • [http://www.cs.unc.edu/~mbansal/]
    • [http://www.tamaraberg.com/]
    • [http://acberg.com/]
    • [https://ils.unc.edu/~jarguell/]
  18. 北德克薩斯大學
    • 知名的NLP學者:Rodney Nielsen
    • NLP研究:Rodney主要研究NLP在教育中的應用,包括自動評分、智能教學係統
    • [http://www.rodneynielsen.com/]
  19. 東北大學
    • 知名NLP學者:David A. Smith, Lu Wang, Byron Wallace
    • NLP研究:David在數位人文學(digital humanities)特別是語法方麵做了許多重要的工作。另外,其受google資助做一些語法分析工作,調研結構化語言(structural language)的變化。Lu Wang主要在文摘、生成以及論元挖掘(argumentation mining)、對話、計算社會學的應用以及其他交叉領域。Byron Wallace的工作包括文本挖掘、機器學習,以及它們在健康信息學上的應用。
    • [http://www.northeastern.edu/nulab/]
  20. 紐約市立學院(CUNY)
    • 知名NLP學者:Martin Chodorow和WilliamSakas
    • NLP研究:Martin Chodorow,ETS顧問,設計Leacock-Chodorow WordNet相似度指標計算公式,在語料庫語言學、心理語言學有一些有意義的工作。此外NLP@CUNY每個月組織一次討論,有很多高水平的講者。
    • [http://nlpatcuny.cs.qc.cuny.edu/]
  21. 俄亥俄州立大學(OSU)
    • 知名的NLP學者:Eric Fosler-Lussier, Michael White, William Schuler,Micha Elsner, Marie-Catherine de Marneffe, Simon Dennis, 以及Alan Ritter, Wei Xu
    • NLP研究:Eric的團隊研究覆蓋從語音到語言模型到對話係統的各個領域。Michael主要研究內容包括自然語言生成和語音合成。William團隊研究內容主要有parsing、翻譯以及認知科學。Micha在Edinburgh做完博士後工作,剛剛加入OSU,主要研究內容包括parsing、篇章關係、narrative generation以及language acquisition。Simon主要做一些語言認知方麵的工作。Alan主要研究NLP在社交媒體中應用和弱監督學習。Wei主要做一些社交媒體、機器學習以及自然語言生成的交叉研究。
    • [http://cllt.osu.edu/]
  22. 賓夕法尼亞大學 -知名的NLP學者:Arvind Joshi, Ani Nenkova, Mitch Marcus, Mark Liberman和Chris Callison-Burch
    • NLP研究:這裏是LTAG(Lexicalized Tree Adjoining Grammar)、Penn Treebank的起源地,他們做了大量parsing的工作。Ani從事多文檔摘要的工作。同時,他們也有很多機器學習方麵的工作。Joshi教授獲得ACL終身成就獎。
    • [http://nlp.cis.upenn.edu/]
  23. 匹茲堡大學
  24. 羅切斯特大學
    • 知名的NLP學者:Len Schubert, James Allen和Dan Gildea
    • NLP研究:James Allen是篇章關係和對話任務上最重要的學者之一,他的許多學生在這些領域都很成功,如在AT&T實驗室工作的Amanda Stent,在南加州大學資訊科學研究院USC/ISI的David Traum。Len Schubert是計算語義學領域的重要學者,他的許多學生是自然語言處理領域內的重要人物,如在Hopkins(約翰•霍普金斯大學)的Ben Van Durme。Dan在機器學習、機器翻譯和parsing的交叉研究上有一些有趣的工作。
    • [http://www.cs.rochester.edu/~james/]
    • [http://www.cs.rochester.edu/~gildea/] -[http://www.cs.rochester.edu/~schubert/]
  25. 羅 格斯大學
    • 知名的NLP學者:Nina Wacholder和Matthew Stone
    • NLP研究:Smaranda和Nina隸屬通訊與信息學院(School of Communication and Information)的SALTS(Laboratory for the Study of Applied Language Technology and Society)實驗室。他們不屬於計算機專業。Smaranda主要做自然語言處理方麵的工作,包括機器翻譯、信息抽取和語義學。Nina雖然之前從事計算語義學研究,但是目前更專注於認知方向的研究。Matt Stone是計算機專業的,從事形式語義(formal semantics)和多模態交流(multimodal communication)的研究。
    • [http://salts.rutgers.edu/]
    • [http://www.cs.rutgers.edu/~mdstone/]
  26. 南加州大學
    • 知名的NLP學者:信息科學學院有許多優秀的自然語言處理專家,如Kevin Knight, Daniel Marcu, Jerry Hobbs和 Zornitsa Kozareva
    • NLP研究:他們從事幾乎所有可能的自然語言處理研究方向。其中主要的領域包括機器翻譯、文本解密(decipherment)和信息抽取。Jerry主要從事篇章關係和對話任務的研究工作。Zornitsa從事關係挖掘和信息抽取的研究工作。
    • [http://nlg.isi.edu/]
  27. 加州大學伯克利分校
    • 知名的NLP學者:Dan Klein, Marti Hearst, David Bamman
    • NLP研究:可能是做NLP和機器學習交叉研究的最好研究機構之一。Dan培養了許多優秀學生,如Aria Haghighi, John DeNero和Percy Liang。
    • [http://nlp.cs.berkeley.edu/Members.shtml]
  28. 德克薩斯大學奧斯汀分校
    • 知名的NLP學者:Ray Mooney, Katrin Erk, Jason Baldridge和Matt Lease
    • NLP研究:Ray是自然語言處理與人工智能領域公認的資深教授。他廣泛的研究方向包括但不限於機器學習、認知科學、信息抽取和邏輯。他仍然活躍於研究領域並且指導很多學生在非常好的期刊或者會議上發表文章。Katrin 專注於計算語言學的研究並且也是該領域著名研究者之一。Jason從事非常酷的研究,和半監督學習、parsing和篇章關係的交叉領域相關。Matt研究信息檢索的多個方麵,最近主要發表了許多在信息檢索任務上使用眾包技術的論文。
    • [http://www.utcompling.com/]
    • [http://www.cs.utexas.edu/~ml/]
  29. 華盛頓大學
    • 知名的NLP學者:Mari Ostendorf, Jeff Bilmes, Katrin Kirchoff, Luke Zettlemoyer, Gina Ann Levow, Emily Bender, Noah Smith, Yejin Choi和 Fei Xia
    • NLP研究:他們的研究主要偏向於語音和parsing,但是他們也有通用機器學習的相關工作。他們最近開始研究機器翻譯。Fei從事機器翻譯、parsing、語言學和bio-NLP這些廣泛的研究工作。Emily從事語言學和自然語言處理的交叉研究工作,並且負責著名的計算語言學相關的專業碩士項目。Gina從事對話、語音和信息檢索方向的工作。學院正在擴大規模,引入了曾在卡內基梅隆大學擔任教職的Noah和曾在紐約州立大學石溪分校擔任教職的Yejin。
    • [https://www.cs.washington.edu/research/nlp]
    • [https://ssli.ee.washington.edu/]
    • [http://turing.cs.washington.edu/]
    • [http://depts.washington.edu/lingweb/]
  30. 威斯康辛大學麥迪遜分校
  31. 劍橋大學
    • 知名的NLP學者:Stephen Clark, Simone Teufel, Bill Byrne和Anna Korhonen
    • NLP研究:有很多基於parsing和信息檢索的工作。最近,也在其他領域發表了一些論文。Bill是語音和機器翻譯領域非常知名的學者。
    • [http://www.cl.cam.ac.uk/research/nl/]
  32. 愛丁堡大學
    • 知名的NLP學者:Mirella Lapata, Mark Steedman, Miles Osborne, Steve Renals, Bonnie Webber, Ewan Klein, Charles Sutton, Adam Lopez和Shay Cohen
    • NLP研究:他們在幾乎所有的領域都有研究,但我最熟悉的工作是他們在統計機器翻譯和基於機器學習方法的篇章連貫性方麵的研究。
    • [http://www.ilcc.inf.ed.ac.uk/]
  33. 新加坡國立大學
    • 知名的NLP學者:Hwee Tou Ng
    • NLP研究:Hwee Tou的組主要從事機器翻譯(自動評價翻譯質量是焦點之一)和語法糾錯(grammatical error correction)方麵的研究。他們也發表了一些詞義消歧和自然語言生成方麵的工作。Preslav Nakov曾是這裏的博士後,但現在去了卡塔爾。
    • [http://www.comp.nus.edu.sg/~nlp/home.html]
  34. 牛津大學
    • 知名的NLP學者:Stephen Pulman和Phil Blunsom
    • NLP研究:Stephen在第二語言學習(second language learning)和語用學方麵做了許多工作。Phil很可能是機器學習和機器翻譯交叉研究領域的領導者之一。
    • [http://www.clg.ox.ac.uk/people.html]
  35. 亞琛工業大學
    • 知名的NLP學者:Hermann Ney
    • NLP研究:Aachen是世界上研究語音識別和機器翻譯最好的地方之一。任何時候,都有10-15名博士生在Hermann Ney的指導下工作。一些統計機器翻譯最厲害的人來自Aachen,如Franz Och(Google Translate負責人),Richard Zens(目前在Google)和Nicola Ueffing(目前在NRC國家研究委員會,加拿大)。除了通常的語音和機器翻譯的研究,他們同時在翻譯和識別手語(sign language)方麵有一些有趣的工作。但是,在其他NLP領域沒有許多相關的研究。
    • [http://www-i6.informatik.rwth-aachen.de/web/Homepage/index.html]
  36. 謝菲爾德大學
    • 知名的NLP學者:Trevor Cohn, Lucia Specia, Mark Stevenson和Yorick Wilks
    • NLP研究:Trevor從事機器學習與自然語言處理交叉領域的研究工作,主要關注圖模型和貝葉斯推理(Bayesian inference)。Lucia是機器翻譯領域的知名學者並在這個領域組織(或共同組織)了多個shared tasks和workshops。Mark的組從事計算語義學和信息抽取與檢索的研究工作。Yorick獲得ACL終身成就獎,並在大量的領域從事研究工作。最近,他研究語用學和信息抽取。
    • [http://nlp.shef.ac.uk/]
  37. 達姆施塔特工業大學, The Ubiquitous Knowledge Processing實驗室
    • 知名的NLP學者:Irena Gurevych, Chris Biemann和Torsten Zesch -NLP研究:這個實驗室進行許多領域的研究工作:計算詞彙語義學(computational lexical semantics)、利用和理解維基百科以及其他形式的wikis、情感分析、麵向教育的NL P以及數位人文學(digital humanities)。Irena是計算語言學(CL)和自然語言處理(NLP)領域的著名學者。Chris曾在Powerset工作,現在在語義學領域有一些有趣的項目。Torsten有許多學生從事不同領域的研究。UKP實驗室為(NLP)社區提供了許多有用的軟件,JWPL(Java Wikipedia Library)就是其中之一。
    • [http://www.ukp.tu-darmstadt.de/]
  38. 多倫多大學
    • 知名的NLP學者:Graeme Hirst, Gerald Penn和Suzanne Stevenson
    • NLP研究:他們有許多詞彙語義學(lexical semantics)的研究以及一些parsing方麵的研究。Gerald從事語音方麵的研究工作。
    • [http://www.cs.utoronto.ca/compling/]
  39. 倫敦大學學院
    • 知名的NLP學者:Sebastian Riedel
    • NLP研究:Sebastian主要從事自然語言理解方麵的研究工作,大部分是知識庫和語義學相關的工作。
    • [http://mr.cs.ucl.ac.uk/]

會議

自然語言處理國際會議

  1. Association for Computational Linguistics (ACL)
  2. Empirical Methods in Natural Language Processing (EMNLP)
  3. North American Chapter of the Association for Computational Linguistics
  4. International Conference on Computational Linguistics (COLING)
  5. Conference of the European Chapter of the Association for Computational Linguistics (EACL)

相關包含NLP內容的其他會議

  1. SIGIR: Special Interest Group on Information Retrieval
  2. AAAI: Association for the Advancement of Artificial Intelligence
  3. ICML: International Conference on Machine Learning
  4. KDD: Association for Knowledge Discovery and Data Mining
  5. ICDM: International Conference on Data Mining

期刊

  1. Journal of Computational Linguistics
  2. Transactions of the Association for Computational Linguistics
  3. Journal of Information Retrieval
  4. Journal of Machine Learning

國內會議

通常都包含豐富的講習班和Tutorial 公開的PPT都是很好的學習資源

  1. CCKS 全國知識圖譜與語義計算大會
  2. SMP 全國社會媒體處理大會
  3. CCL 全國計算語言學學術會議
  4. NLPCC Natural Language Processing and Chinese Computing
  5. NCMMSC 全國人機語音通訊學術會議

Toolkit Library

Python Libraries

  1. fastText by Facebook
  2. Scikit-learn: Machine learning in Python
  3. Natural Language Toolkit [NLTK]
  4. Pattern
    • [http://www.clips.ua.ac.be/pattern]
    • A web mining module for the Python programming language. It has tools for natural language processing, machine learning, among others.
  5. TextBlob
    • [http://textblob.readthedocs.org/]
    • Providing a consistent API for diving into common natural language processing [NLP] tasks. Stands on the giant shoulders of NLTK and Pattern, and plays nicely with both.
  6. YAlign
  7. jieba
  8. SnowNLP
  9. KoNLPy
  10. Rosetta
  11. BLLIP Parser
  12. PyNLPl
  13. Parserator
  14. python-frog
  15. python-zpar
  16. colibri-core
  17. textacy
  18. PyStanfordDependencies
  19. genism
  20. scattertext
  21. CogComp-NlPy
  22. PyThaiNLP
  23. jPTDP
  24. CLTK
    • [https://github.com/cltk/cltk]: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages.
  25. pymorphy2
  1. BigARTM
  1. AllenNLP

C++ Libraries

  1. MIT Information Extraction Toolkit
  1. CRF++
  • [https://taku910.github.io/crfpp/]
  • Open source implementation of Conditional Random Fields [CRFs]for segmenting/labeling sequential data & other Natural Language Processing tasks.
  1. CRFsuite
  1. BLLIP Parser
  1. colibri-core
  • [https://github.com/proycon/colibri-core]
  • C++ library, command line tools, and Python binding for extracting and working with basic linguistic constructions such as n-grams and skipgrams in a quick and memory-efficient way.
  1. ucto
  1. libfolia
  1. frog
  1. MeTA
  1. StarSpace

Java Libraries

  1. Stanford NLP
  2. OpenNLP
  3. ClearNLP
  4. Word2vec in Java
  5. ReVerb
  1. OpenRegex
  2. CogcompNLP
  3. MALLET
  • [http://mallet.cs.umass.edu/]
  • MAchine Learning for LanguagE Toolkit - package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text.
  1. RDRPOSTagger

中文

  1. THULAC 中文詞法分析工具包
  2. NLPIR
  3. LTP 語言技術平台
  4. FudanNLP
  5. HanNLP
  6. SnowNLP
  7. YaYaNLP
  8. DeepNLP
  9. chinese_nlp
  10. Jieba 結巴中文分詞
  1. kcws 深度學習中文分詞
  1. Genius 中文分詞
  1. loso 中文分詞
  1. Information-Extraction-Chinese

Datasets

  1. *Apache Software Foundation Public Mail Archives
  2. Blog Authorship Corpus
  3. Amazon Fine Food Reviews Kaggle
  4. Amazon Reviews
  5. ArXiv
  6. ASAP Automated Essay Scoring Kaggle
    • [https://www.kaggle.com/c/asap-aes/data] : For this competition, there are eight essay sets. Each of the sets of essays was generated from a single prompt. Selected essays range from an average length of 150 to 550 words per response. Some of the essays are dependent upon source information and others are not. All responses were written by students ranging in grade levels from Grade 7 to Grade 10. All essays were hand graded and were double-scored. 100 MB
  7. ASAP Short Answer Scoring Kaggle
    • [https://www.kaggle.com/c/asap-sas/data] : Each of the data sets was generated from a single prompt. Selected responses have an average length of 50 words per response. Some of the essays are dependent upon source information and others are not. All responses were written by students primarily in Grade 10. All responses were hand graded and were double-scored. 35 MB
  8. Classification of political social media
  9. CLiPS Stylometry Investigation CSI Corpus
  10. ClueWeb09 FACC
  1. ClueWeb11 FACC
  1. Common Crawl Corpus
  1. Cornell Movie Dialog Corpus
  1. DBpedia
  1. Del.icio.us
  1. Disasters on social media
  1. Economic News Article Tone and Relevance
  1. Enron Email Data
  1. Event Registry
  1. Federal Contracts from the Federal Procurement Data Center [USASpending.gov]
  1. Flickr Personal Taxonomies
  1. Freebase Data Dump
  1. Google Books Ngrams
  1. Google Web 5gram
  1. Gutenberg Ebook List
  1. Harvard Library
  1. Hillary Clinton Emails Kaggle
  1. Machine Translation of European Languages
  1. News article / Wikipedia page pairings
  1. NIPS2015 Papers version 2 Kaggle[https://www.kaggle.com/benhamner/nips-2015-papers/version/2]: full text of all NIPS2015 papers 335 MB
  2. NYTimes Facebook Data
  1. Open Library Data Dumps
  1. Personae Corpus
  1. Reddit Comments
  1. Reddit Comments
  1. Reddit Submission Corpus
  1. Reuters Corpus
  • [http://trec.nist.gov/data/reuters/reuters.html] : a large collection of Reuters News stories for use in research and development of natural language processing, information retrieval, and machine learning systems. This corpus, known as "Reuters Corpus, Volume 1" or RCV1, is significantly larger than the older, well-known Reuters-21578 collection heavily used in the text classification community. Need to sign agreement and sent per post to obtain. 2.5 GB
  1. SMS Spam Collection[http://www.dt.fee.unicamp.br/tiago/smsspamcollection/] : 5,574 English, real and non-enconded SMS messages, tagged according being legitimate ham or spam. [200 KB]
  2. Stackoverflow
  1. Twitter Cheng-Caverlee-Lee Scrape
  1. Twitter New England Patriots Deflategate sentiment
  • [https://www.crowdflower.com/data-for-everyone/] : Before the 2015 Super Bowl, there was a great deal of chatter around deflated footballs and whether the Patriots cheated. This data set looks at Twitter sentiment on important days during the scandal to gauge public sentiment about the whole ordeal. 2 MB
  1. Twitter sentiment analysis: Self-driving cars
  • [https://www.crowdflower.com/data-for-everyone/] : contributors read tweets and classified them as very positive, slightly positive, neutral, slightly negative, or very negative. They were also prompted asked to mark if the tweet was not relevant to self-driving cars. 1 MB
  1. Twitter Tokyo Geolocated Tweets
  1. Twitter US Airline Sentiment Kaggle
  • [https://www.kaggle.com/crowdflower/twitter-airline-sentiment] : A sentiment analysis job about the problems of each major U.S. airline. Twitter data was scraped from February of 2015 and contributors were asked to first classify positive, negative, and neutral tweets, followed by categorizing negative reasons [such as "late flight" or "rude service"]. 2.5 MB
  1. Wikipedia Extraction
  1. Wikipedia XML Data
  1. Yahoo! Answers Comprehensive Questions and Answers
  1. Yahoo! Answers Manner Questions
  1. Yahoo! N-Grams, version 2.0
  1. Yahoo! Search Logs with Relevance Judgments
  1. Yelp
  1. YouTube
  1. 開放知識圖譜OpenKG.cn
  1. CLDC中文語言資源聯盟
  1. 用於訓練中英文對話係統的語料庫
  1. 中文 Wikipedia Dump
  1. 98年人民日報詞性標注庫@百度盤
  1. 百度百科100gb語料@百度盤
  1. 搜狗20061127新聞語料[包含分類]@百度盤
  1. UDChinese
  1. 八卦版問答中文語料
  1. 中文word2vec模型
  1. 中文word2vec模型之維基百科中文
  1. Synonyms:中文近義詞工具包
  1. 中文突發事件語料庫
  1. dgk_lost_conv 中文對白語料
  1. 漢語拆字字典
  1. 中國股市公告信息爬取
  1. tushare財經數據接口
  1. 保險行業語料庫
  1. 最全中華古詩詞數據庫
  1. 中文語料小數據

初步版本,水平有限,有錯誤或者不完善的地方,歡迎大家提建議和補充,會一直保持更新,本文為專知內容組原創內容,未經允許不得轉載,如需轉載請發送郵件至fangquanyi@gmail.com或 聯係微信專知小助手(Rancho_Fang)

敬請關注//www.webtourguide.com和關注專知公眾號,獲取第一手AI相關知識

成為VIP會員查看完整內容
Top