自然語言處理(NLP)是語言學,計算機科學,信息工程和人工智能的一個子領域,與計算機和人類(自然)語言之間的相互作用有關,尤其是如何對計算機進行編程以處理和分析大量自然語言數據 。

知識薈萃

自然語言處理(NLP) 專知薈萃

入門學習

  1. 《數學之美》吳軍 這個書寫得特別生動形象,沒有太多公式,科普性質。看完對於nlp的許多技術原理都會有初步認識。可以說是自然語言處理最好的入門讀物。

  2. 如何在NLP領域第一次做成一件事 by 周明 微軟亞洲研究院首席研究員、自然語言處理頂會ACL候任主席:

  3. 深度學習基礎

  4. Deep learning for natural language processing 自然語言處理中的深度學習 by 邱錫鵬

    • 主要討論了深度學習在自然語言處理中的應用。其中涉及的模型主要有卷積神經網絡,遞歸神經網絡,循環神經網絡網絡等,應用領域主要包括了文本生成,問答係統,機器翻譯以及文本匹配等。
    • [http://nlp.fudan.edu.cn/xpqiu/slides/20160618_DL4NLP@CityU.pdf]
  5. Deep Learning, NLP, and Representations (深度學習,自然語言處理及其表達)

  6. 《中文信息發展報告》 by 中國中文信息學會 2016年12月

  7. Deep Learning in NLP (一)詞向量和語言模型 by Lai Siwei(來斯惟) 中科院自動化所 2013

  8. 語義分析的一些方法(一,二,三) by 火光搖曳 騰訊廣點通

  9. 我們是這樣理解語言的-3 神經網絡語言模型 by 火光搖曳 騰訊廣點通

  10. 深度學習word2vec筆記之基礎篇 by falao_beiliu

  11. Understanding Convolutional Neural Networks for NLP 卷積神經網絡在自然語言處理的應用 by WILDML

  12. The Unreasonable Effectiveness of Recurrent Neural Networks. 循環神經網絡驚人的有效性 by Andrej Karpathy

  13. Understanding LSTM Networks 理解長短期記憶網絡(LSTM NetWorks) by colah

  14. 注意力機製(Attention Mechanism)在自然語言處理中的應用 by robert_ai _

  15. 初學者如何查閱自然語言處理(NLP)領域學術資料 劉知遠

綜述

  1. A Primer on Neural Network Models for Natural Language Processing Yoav Goldberg. October 2015. No new info, 75 page summary of state of the art.
  2. Deep Learning for Web Search and Natural Language Processing - [https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/wsdm2015.v3.pdf]
  3. Probabilistic topic models
  4. Natural language processing: an introduction
  5. A unified architecture for natural language processing: Deep neural networks with multitask learning
  6. A Critical Review of Recurrent Neural Networksfor Sequence Learning - [http://arxiv.org/pdf/1506.00019v1.pdf]
  7. Deep parsing in Watson - [http://nlp.cs.rpi.edu/course/spring14/deepparsing.pdf]
  8. Online named entity recognition method for microtexts in social networking services: A case study of twitter
  9. 《基於神經網絡的詞和文檔語義向量表示方法研究》 by Lai Siwei(來斯惟) 中科院自動化所 2016
    • 來斯惟的博士論文基於神經網絡的詞和文檔語義向量表示方法研究,全麵了解詞向量、神經網絡語言模型相關的內容。
    • [https://arxiv.org/pdf/1611.05962.pdf]

進階論文

Word Vectors

  1. Word2vecEfficient Estimation of Word Representations in Vector Space
  2. ** Doc2vec** Distributed Representations of Words and Phrases and their Compositionality
  3. Word2Vec tutorial
  4. GloVe: Global vectors for word representation
  5. How to Generate a Good Word Embedding? 怎樣生成一個好的詞向量? Siwei Lai, Kang Liu, Liheng Xu, Jun Zhao
  6. tweet2vec
  7. tweet2vec
  8. author2vec
  9. item2vec
  10. lda2vec
  11. illustration2vec
  12. tag2vec
  13. category2vec
  14. topic2vec
  15. image2vec
  16. app2vec
  17. prod2vec
  18. metaprod2vec
  19. sense2vec
  20. node2vec
  21. subgraph2vec
  22. wordnet2vec
  23. doc2sent2vec
  24. context2vec
  25. rdf2vec
  26. hash2vec
  27. query2vec
  28. gov2vec
  29. novel2vec
  30. emoji2vec
  31. video2vec
  32. video2vec
  33. sen2vec
  34. content2vec
  35. cat2vec
  36. diet2vec
  37. mention2vec
  38. POI2vec
  39. wang2vec
  40. dna2vec
  41. pin2vec
  42. paper2vec
  43. struc2vec
  44. med2vec
  45. net2vec
  46. sub2vec
  47. metapath2vec
  48. concept2vec
  49. graph2vec
  50. doctag2vec
  51. skill2vec
  52. style2vec
  53. ngram2vec

Machine Translation

  1. Neural Machine Translation by jointly learning to align and translate
  2. Sequence to Sequence Learning with Neural Networks
  3. Cross-lingual Pseudo-Projected Expectation Regularization for Weakly Supervised Learning
  4. Generating Chinese Named Entity Data from a Parallel Corpus
  5. IXA pipeline: Efficient and Ready to Use Multilingual NLP tools

Summarization

  1. Extraction of Salient Sentences from Labelled Documents
  2. A Neural Attention Model for Abstractive Sentence Summarization. EMNLP 2015. Facebook AI Research
  3. A Convolutional Attention Network for Extreme Summarization of Source Code
  4. Abstractive Text Summarization Using SequencetoSequence RNNs and Beyond. BM Watson & Université de Montréal
  5. textsum: Text summarization with TensorFlow
  6. How to Run Text Summarization with TensorFlow

Text Classification

  1. Convolutional Neural Networks for Sentence Classification
  2. Recurrent Convolutional Neural Networks for Text Classification
  3. Characterlevel Convolutional Networks for Text Classification.NIPS 2015. "Text Understanding from Scratch"
  4. A CLSTM Neural Network for Text Classification
  5. Text classification using DIGITS and Torch7
  6. Recurrent Neural Network for Text Classification with MultiTask Learning
  7. Deep MultiTask Learning with Shared Memory. EMNLP 2016
  8. Virtual Adversarial Training for SemiSupervised Text
  9. Bag of Tricks for Efficient Text Classification. Facebook AI Research
  10. Actionable and Political Text Classification using Word Embeddings and LSTM
  11. fancycnn: Multiparadigm Sequential Convolutional Neural Networks for text classification
  12. Convolutional Neural Networks for Text Categorization: Shallow Wordlevel vs. Deep Characterlevel
  13. Hierarchical Attention Networks for Document Classification. NAACL 2016
  14. ACBLSTM: Asymmetric Convolutional Bidirectional LSTM Networks for Text Classification
  15. Generative and Discriminative Text Classification with Recurrent Neural Networks. DeepMind
  16. Adversarial Multitask Learning for Text Classification. ACL 2017
  17. Deep Text Classification Can be Fooled. Renmin University of China
  18. Deep neural network framework for multilabel text classification
  19. MultiTask Label Embedding for Text Classification

Dialogs

  1. A Neural Network Approach toContext-Sensitive Generation of Conversational Responses. by Sordoni 2015. Generates responses to tweets.
  2. Neural Responding Machine for Short-Text Conversation
  3. A Neural Conversation Model
  4. Visual Dialog
  5. Papers, code and data from FAIR for various memory-augmented nets with application to text understanding and dialogue.
  6. Neural Emoji Recommendation in Dialogue Systems

Reading Comprehension

  1. Text Understanding with the Attention Sum Reader Network. ACL 2016
  2. A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task
  3. Consensus Attentionbased Neural Networks for Chinese Reading Comprehension
  4. Separating Answers from Queries for Neural Reading Comprehension
  5. AttentionoverAttention Neural Networks for Reading Comprehension
  6. Teaching Machines to Read and Comprehend CNN News and Children Books using Torch
  7. Reasoning with Memory Augmented Neural Networks for Language Comprehension
  8. Bidirectional Attention Flow: Bidirectional Attention Flow for Machine Comprehension
  9. NewsQA: A Machine Comprehension Dataset
  10. GatedAttention Readers for Text Comprehension
  11. Get To The Point: Summarization with PointerGenerator Networks. ACL 2017. Stanford University & Google Brain

Memory and Attention Models

  1. Reasoning, Attention and Memory RAM workshop at NIPS 2015.
  2. Memory Networks. Weston et. al 2014
  3. End-To-End Memory Networks
  4. Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks
  5. Evaluating prerequisite qualities for learning end to end dialog systems
  6. Neural Turing Machines
  7. Inferring Algorithmic Patterns with Stack-Augmented Recurrent Nets
  8. Reasoning about Neural Attention
  9. A Neural Attention Model for Abstractive Sentence Summarization
  10. Neural Machine Translation by Jointly Learning to Align and Translate
  11. Recurrent Continuous Translation Models
  1. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
  1. Teaching Machines to Read and Comprehend

Reinforcement learning in nlp

  1. Generating Text with Deep Reinforcement Learning - [https://arxiv.org/abs/1510.09202]
  2. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning
  3. Language Understanding for Text-based Games using Deep Reinforcement Learning
  4. On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems
  5. Deep Reinforcement Learning with a Natural Language Action Space
  6. 基於DQN的開放域多輪對話策略學習 宋皓宇, 張偉男 and 劉挺 SMP2017 最佳論文獎 2017

GAN for NLP

  1. Generating Text via Adversarial Training
  2. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
  3. Adversarial Learning for Neural Dialogue Generation
  4. GANs for sequence of discrete elements with the Gumbel-softmax distribution
  5. Connecting generative adversarial network and actor-critic methods

視頻課程

  1. Introduction to Natural Language Processing(自然語言處理導論) 密歇根大學 - [https://www.coursera.org/learn/natural-language-processing]
  2. 斯坦福 cs224d 2015年課程 Deep Learning for Natural Language Processing by Richard Socher [2015 classes] - [https://www.youtube.com/playlist?list=PLmImxx8Char8dxWB9LRqdpCTmewaml96q]
  3. 斯坦福 cs224d 2016年課程 Deep Learning for Natural Language Processing by Richard Socher. Updated to make use of Tensorflow.
  4. 斯坦福 cs224n 2017年課程 Deep Learning for Natural Language Processing by Chris Manning Richard Socher
  5. Natural Language Processing - by 哥倫比亞大學 Mike Collins - [https://www.coursera.org/learn/nlangp]
  6. NLTK with Python 3 for Natural Language Processing by Harrison Kinsley. Good tutorials with NLTK code implementation.
  7. Computational Linguistics by Jordan Boyd-Graber . Lectures from University of Maryland.
  8. Natural Language Processing - Stanford by Dan Jurafsky & Chris Manning.

Tutorial

  1. Deep Learning for Natural Language Processing (without Magic)

  2. A Primer on Neural Network Models for Natural Language Processing

  3. Deep Learning for Natural Language Processing: Theory and Practice [Tutorial]

  4. Recurrent Neural Networks with Word Embeddings

  5. LSTM Networks for Sentiment Analysis

  6. Semantic Representations of Word Senses and Concepts 語義表示 ACL 2016 Tutorial by José Camacho-Collados, Ignacio Iacobacci, Roberto Navigli and Mohammad Taher Pilehvar

  7. ACL 2016 Tutorial: Understanding Short Texts 短文本理解

  8. Practical Neural Networks for NLP EMNLP 2016

  9. Structured Neural Networks for NLP: From Idea to Code

  10. Understanding Deep Learning Models in NLP

  11. Deep learning for natural language processing, Part 1

  12. TensorFlow Tutorial on Seq2Seq Models

  13. Natural Language Understanding with Distributed Representation Lecture Note by Cho

  14. Michael Collins

  15. Several tutorials by Radim Řehůřek[https://radimrehurek.com/gensim/tutorial.html] on using Python and genism

  16. Natural Language Processing in Action

圖書

  1. 《數學之美》(吳軍)
    • 科普性質,看完對於nlp的許多技術原理都會有初步認識
  2. 《自然語言處理綜論》(Daniel Jurafsky)
    • 這本書是馮誌偉老師翻譯的 作者是Daniel Jurafsky,在coursera上麵有他的課程。
    • 本書第三版正尚未出版,但是英文版已經全部公開。
    • Speech and Language Processing (3rd ed. draft) by Dan Jurafsky and James H. Martin
    • [https://web.stanford.edu/~jurafsky/slp3/]
  3. 《自然語言處理簡明教程》(馮誌偉)
  4. 《統計自然語言處理(第2版)》(宗成慶)
  5. 清華大學劉知遠老師等合著的《互聯網時代的機器學習和自然語言處理技術大數據智能》,科普性質。

領域專家

國內

  1. 清華大學
    • NLP研究:孫茂鬆主要從事一些中文文本處理工作,比如中文文本分類,中文分詞。劉知遠從事關鍵詞抽取,表示學習,知識圖譜以及社會計算。劉洋從事數據驅動的機器學習。
    • 情感分析:黃民烈
    • 信息檢索:劉奕群、馬少平
    • 語音識別——王東
    • 社會計算:唐傑
  2. 哈爾濱工業大學
    • 社會媒體處理:劉挺、丁效
    • 情感分析:秦兵 車萬翔
  3. 中科院
    • 語言認知模型:王少楠,宗成慶
    • 信息抽取:孫樂、韓先培
    • 信息推薦與過濾:王斌(中科院信工所)、魯驍(國家計算機網絡應急中心)
    • 自動問答:趙軍、劉康,何世柱(中科院自動化研究所)
    • 機器翻譯:張家俊、宗成慶(中科院自動化研究所)
    • 語音 合成——陶建華(中科院自動化研究所)
    • 文字識別:劉成林(中科院自動化研究所)
    • 文本匹配:郭嘉豐
  4. 北京大學
    • 篇章分析:王厚峰、李素建
    • 自動文摘,情感分析:萬小軍、姚金戈
    • 語音技術:說話人識別——鄭方
    • 多模態信息處理:陳曉鷗
    • 馮岩鬆
  5. 複旦大學
    • 語言表示與深度學習:黃萱菁、邱錫鵬
  6. 蘇州大學
    • 詞法與句法分析:李正華、陳文亮、張民
    • 語義分析:周國棟、李軍
    • 機器翻譯:熊德意
  7. 中國人民大學
    • 表示學習,推薦係統:趙鑫
  8. 微軟亞洲研究院自然語言計算組
    • 周明 劉鐵岩 謝幸
  9. 頭條人工智能實驗室
    • 李航
  10. 華為諾亞
    • 前任 李航 呂正東

國際

  1. 斯坦福大學
    • 知名的NLP學者:Daniel Jurafsky, Christopher Manning, Percy Liang和Chris Potts, Richard Socher
    • NLP研究:Jurafsky和科羅拉多大學波爾得分校的James Martin合著自然語言處理方麵的教材。這個NLP研究組從事幾乎所有能夠想象到的研究方向。今天NLP領域最被廣泛使用的句法分析器和詞性標注工具可能都是他們負責開發的。
    • [http://nlp.stanford.edu/]
  2. 加州大學聖巴巴拉分校
    • 知名NLP學者:William Wang(王威廉), Fermin Moscoso del Prado Martin
    • NLP研究:William研究方向為信息抽取和機器學習,Fermin研究方向為心理語言學和計量語言學。
    • [http://www.cs.ucsb.edu/~william] William Wang(王威廉)經常在微博分享關於NLP的最近進展和趣事,幾乎每條都提供高質量的信息。
    • 微博:[https://www.weibo.com/u/1657470871]
  3. 加州大學聖迭戈分校
    • 知名的NLP學者:Lawrence Saul(Roger Levy今年加入MIT)
    • NLP研究:主要研究方向是機器學習,NLP相關的工作不是很多,但是在計算心理語言學有些比較有趣的工作。
    • [http://grammar.ucsd.edu/cpl/]
  4. 加州大學聖克魯茲分校
  5. 卡內基梅隆大學
    • 知名NLP學者:Jaime Carbonell,Alon Lavie, Carolyn Rosé, Lori Levin, Roni Rosenfeld, Chris Dyer (休假中), Alan Black, Tom Mitchell以及Ed Hovy
    • NLP研究:在多個NLP領域做了大量工作,包括機器翻譯、文摘、交互式對話係統、語音、信息檢索以及工作最為突出的機器學習領域。Chris主要方向為機器學習和機器翻譯交叉研究,做了一些非常出色的工作。雖然Tom Mitchell屬於機器學習係而不是語言技術研究所,但是由於他在CMU的“永不停息的語言學習者”項目中的重要貢獻,我們必須在這裏提到他。
    • [http://www.cs.cmu.edu/~nasmith/nlp-cl.html]
    • [http://www.lti.cs.cmu.edu/]
  6. 芝加哥大學(以及芝加哥豐田科技學院TTIC)
    • 知名NLP學者:John Lafferty, John Goldsmith, Karen Livescu, MichelGalley (兼職) 和Kevin Gimpel.
    • NLP研究:芝加哥大學以及豐田科技學院有許多機器學習、語音以及NLP方向的研究人員。John Lafferty是一個傳奇性人物,其參與原始IBM MT模型研發,同時也是CRF模型的發明人之一。Goldsmith的團隊是無監督的形態歸納法(unsupervised morphology induction)的先驅。Karen主要研究方向為語音,特別是對發音方式的建模。Michel主要研究結構化預測問題,特別是統計機器翻譯。Kevin在許多結構化預測問題上都做出出色工作。
    • [http://ai.cs.uchicago.edu/faculty/]
    • [http://www.ttic.edu/faculty.php]
  7. 科羅拉多大學博爾德分校
    • 知名NLP學者:Jordan Boyd-Graber, Martha Palmer, James Martin,Mans Hulden以及Michael Paul
    • NLP研究:Martha Palmer主要研究資源標注和創建,其中代表性有FrameNet, VerbNet, OntoNotes等,此外其也在詞彙語義學(Lexical semantics)做了一些工作。Jim Martin主要研究語言的向量空間模型,此外與Dan Jurafsky(以前在科羅拉多大學博爾德分校,之後去了斯坦福)合作編寫語音和語言處理的著作。Hulden, Boyd-Graber和Paul最近加入科羅拉多大學博爾德分校。Hulden主要使用有窮狀態機相關技術,做一些音位學(phonology)和形態學(morphology)相關工作,Boyd-Graber主要研究主題模型和機器學習在問答、機器翻譯上的應用。Michael Paul主要研究機器學習在社交媒體監控(social media monitoring)上的應用。
    • [http://clear.colorado.edu/start/index.php]
  8. 哥倫比亞大學
    • 知名的NLP學者:有多位NLP領域頂級學者,Kathy McKeown, Julia Hirschberg, Michael Collins(休假中), Owen Rambow, Dave Blei, Daniel Hsu和Becky Passonneau
    • NLP研究:在文摘、信息抽取以及機器翻譯上麵做了大量的研究。Julia團隊主要在語音領域做一些研究。Michael Collins是從MIT離職後加入哥倫比亞NLP團隊的,其主要研究內容為機器翻譯和parsing。DaveBlei 和Daniel Hsu是機器學習領域翹楚,偶爾也會做一些語言相關的工作。
    • [http://www1.cs.columbia.edu/nlp/index.cgi]
  9. 康納爾大學
    • NLP知名學者:Lillian Lee, Thorsten Joachims, Claire Cardie, Yoav Artzi, John Hale,David Mimno, Cristian Danescu-Niculescu-Mizil以及Mats Rooth
    • NLP研究:在機器學習驅動NLP方麵有許多有趣的研究。Lillian與其學生做了許多獨辟蹊徑的研究,如電影評論分類,情感分析等。Thorsten,支持向量機的先驅之一,SVMlight的作者。John研究內容包括計算心理語言學和認知科學。Mats研究領域包括語義學和音位學。Claire Cardie在欺詐性評論方麵的研究室非常有影響的。Yoav Artzi在語義分析和情景化語言理解方麵有許多重要的工作。David Mimno在機器學習和數位人文學(digital humanities)交叉研究的頂級學者。
    • [http://nlp.cornell.edu/]
  10. 佐治亞理工學院
    • 知名NLP學者:Jacob Eisenstein和Eric Gilbert
    • NLP研究:Jacob在機器學習和NLP交叉領域做了一些突出性的工作,特別是無監督學習以及社交媒體領域。在MIT,他是Regina Barzilay的學生,在CMU和UIUC分別與Noah Smith、Dan Roth做博士後研究。此外,Eric Gilbert在計算社會學(computationalsocial science)上做了許多研究。這些研究經常與NLP進行交叉。
    • [http://www.cc.gatech.edu/~jeisenst/]
    • [http://smlv.cc.gatech.edu/]
    • [http://comp.social.gatech.edu/]
  11. 伊利諾伊大學厄巴納-香檳分校
    • 知名的NLP學者:Dan Roth, Julia Hockenmaier, ChengXiang Zhai, Roxana Girju和Mark Hasegawa-Johnson
    • NLP研究:機器學習在NLP應用,NLP在生物學上應用(BioNLP),多語言信息檢索,計算社會學,語音識別
    • [http://nlp.cs.illinois.edu/]
  12. 約翰·霍普金斯大學(JHU)
    • 知名NLP學者:Jason Eisner, Sanjeev Khudanpur, David Yarowsky,Mark Dredze, Philipp Koehn以及Ben van Durme,詳細情況參考鏈接
    • NLP研究:約翰·霍普金斯有兩個做NLP的研究中心,即 the Center for Language and Speech Processing (CLSP) 和the Human Language Technology Center of Excellence(HLTCOE)。他們的研究幾乎涵蓋所有NLP領域,其中機器學習、機器翻譯、parsing和語音領域尤為突出。Fred Jelinek,語音識別領域的先驅,其於2010年9月去世,但是語音識別研究一直存在至今。在過去十年內,JHU的NLP summer research workshop產生出許多開創性的研究和工具。
    • [http://web.jhu.edu/HLTCOE/People.html]
    • [http://clsp.jhu.edu/]
  13. 馬裏蘭大學學院市分校
    • 知名的NLP學者:Philip Resnik, Hal Daumé, Marine Carpuat, Naomi Feldman
    • NLP研究:和JHU一樣,其NLP研究比較全麵。比較大的領域包括機器翻譯,機器學習,信息檢索以及計算社會學。此外,還有一些團隊在計算心理語言學上做一些研究工作。
    • [https://wiki.umiacs.umd.edu/clip/index.php/Main_Page]
  14. 馬薩諸塞大學阿默斯特分校
    • 知名的NLP學者:Andrew McCallum, James Allan (不是羅徹斯特大學的James Allan), Brendan O'Connor和W. Bruce Croft
    • NLP研究:機器學習和信息檢索方向頂尖研究機構之一。Andrew的團隊在機器學習在NLP應用方麵做出許多重要性的工作,例如CRF和無監督的主題模型。其與Mark Dredze寫了一篇指導性文章關於“如何成為一名成功NLP/ML Phd”。 Bruce編寫了搜索引擎相關著作“搜索引擎:實踐中的信息檢索”。James Allan是現代實用信息檢索的奠基人之一。IESL實驗室在信息抽取領域做了大量的研究工作。另外,其開發的MalletToolkit,是NLP領域非常有用工具包之一。
    • [http://ciir.cs.umass.edu/personnel/index.html]
    • [http://www.iesl.cs.umass.edu/]
    • [http://people.cs.umass.edu/~brenocon/complang_at_umass/]
    • [http://mallet.cs.umass.edu/]
  15. 麻省理工學院
    • 知名的NLP學者:Regina Barzilay, Roger Levy (2016年加入)以及Jim Glass
    • NLP研究:Regina與ISI的Kevin Knight合作在文摘、語義、篇章關係以及古代文獻解讀做出過極其出色的工作。此外,開展許多機器學習相關的工作。另外,有一個比較大團隊在語音領域做一些研究工作,Jim Glass是其中一員。
    • [http://people.csail.mit.edu/regina/]
    • [http://groups.csail.mit.edu/sls//sls-blue-noflash.shtml]
  16. 紐約大學
    • 知名NLP學者:Sam Bowman, Kyunghyun Cho, Ralph Grishman
    • NLP研究:Kyunghyun and Sam剛剛加入NLP團隊,主要研究包括機器學習/深度學習在NLP以及計算語言學應用。與CILVR machine learning group、Facebook AI Research以及Google NYC有緊密聯係。
    • [https://wp.nyu.edu/ml2/]
  17. 北卡羅來納大學教堂山分校
    • 知名的NLP學者:Mohit Bansal, Tamara Berg, Alex Berg, Jaime Arguello
    • NLP研究:Mohit於2016年加入該團隊,主要研究內容包括parsing、共指消解、分類法(taxonomies)以及世界知識。其最近的工作包括多模態語義、類人語言理解(human-like language understanding)以及生成/對話。Tamara 和Alex Berg在語言和視覺領域發了許多有影響力的論文,現在研究工作主要圍繞visual referring expressions和 visual madlibs。Jaime主要研究對話模型、web搜索以及信息檢索。UNC語言學係還有CL方麵一些研究學者,例如Katya Pertsova(計算形態學(computational morphology))以及Misha Becker(computational language acquisition)
    • [http://www.cs.unc.edu/~mbansal/]
    • [http://www.tamaraberg.com/]
    • [http://acberg.com/]
    • [https://ils.unc.edu/~jarguell/]
  18. 北德克薩斯大學
    • 知名的NLP學者:Rodney Nielsen
    • NLP研究:Rodney主要研究NLP在教育中的應用,包括自動評分、智能教學係統
    • [http://www.rodneynielsen.com/]
  19. 東北大學
    • 知名NLP學者:David A. Smith, Lu Wang, Byron Wallace
    • NLP研究:David在數位人文學(digital humanities)特別是語法方麵做了許多重要的工作。另外,其受google資助做一些語法分析工作,調研結構化語言(structural language)的變化。Lu Wang主要在文摘、生成以及論元挖掘(argumentation mining)、對話、計算社會學的應用以及其他交叉領域。Byron Wallace的工作包括文本挖掘、機器學習,以及它們在健康信息學上的應用。
    • [http://www.northeastern.edu/nulab/]
  20. 紐約市立學院(CUNY)
    • 知名NLP學者:Martin Chodorow和WilliamSakas
    • NLP研究:Martin Chodorow,ETS顧問,設計Leacock-Chodorow WordNet相似度指標計算公式,在語料庫語言學、心理語言學有一些有意義的工作。此外NLP@CUNY每個月組織一次討論,有很多高水平的講者。
    • [http://nlpatcuny.cs.qc.cuny.edu/]
  21. 俄亥俄州立大學(OSU)
    • 知名的NLP學者:Eric Fosler-Lussier, Michael White, William Schuler,Micha Elsner, Marie-Catherine de Marneffe, Simon Dennis, 以及Alan Ritter, Wei Xu
    • NLP研究:Eric的團隊研究覆蓋從語音到語言模型到對話係統的各個領域。Michael主要研究內容包括自然語言生成和語音合成。William團隊研究內容主要有parsing、翻譯以及認知科學。Micha在Edinburgh做完博士後工作,剛剛加入OSU,主要研究內容包括parsing、篇章關係、narrative generation以及language acquisition。Simon主要做一些語言認知方麵的工作。Alan主要研究NLP在社交媒體中應用和弱監督學習。Wei主要做一些社交媒體、機器學習以及自然語言生成的交叉研究。
    • [http://cllt.osu.edu/]
  22. 賓夕法尼亞大學 -知名的NLP學者:Arvind Joshi, Ani Nenkova, Mitch Marcus, Mark Liberman和Chris Callison-Burch
    • NLP研究:這裏是LTAG(Lexicalized Tree Adjoining Grammar)、Penn Treebank的起源地,他們做了大量parsing的工作。Ani從事多文檔摘要的工作。同時,他們也有很多機器學習方麵的工作。Joshi教授獲得ACL終身成就獎。
    • [http://nlp.cis.upenn.edu/]
  23. 匹茲堡大學
  24. 羅切斯特大學
    • 知名的NLP學者:Len Schubert, James Allen和Dan Gildea
    • NLP研究:James Allen是篇章關係和對話任務上最重要的學者之一,他的許多學生在這些領域都很成功,如在AT&T實驗室工作的Amanda Stent,在南加州大學資訊科學研究院USC/ISI的David Traum。Len Schubert是計算語義學領域的重要學者,他的許多學生是自然語言處理領域內的重要人物,如在Hopkins(約翰•霍普金斯大學)的Ben Van Durme。Dan在機器學習、機器翻譯和parsing的交叉研究上有一些有趣的工作。
    • [http://www.cs.rochester.edu/~james/]
    • [http://www.cs.rochester.edu/~gildea/] -[http://www.cs.rochester.edu/~schubert/]
  25. 羅 格斯大學
    • 知名的NLP學者:Nina Wacholder和Matthew Stone
    • NLP研究:Smaranda和Nina隸屬通訊與信息學院(School of Communication and Information)的SALTS(Laboratory for the Study of Applied Language Technology and Society)實驗室。他們不屬於計算機專業。Smaranda主要做自然語言處理方麵的工作,包括機器翻譯、信息抽取和語義學。Nina雖然之前從事計算語義學研究,但是目前更專注於認知方向的研究。Matt Stone是計算機專業的,從事形式語義(formal semantics)和多模態交流(multimodal communication)的研究。
    • [http://salts.rutgers.edu/]
    • [http://www.cs.rutgers.edu/~mdstone/]
  26. 南加州大學
    • 知名的NLP學者:信息科學學院有許多優秀的自然語言處理專家,如Kevin Knight, Daniel Marcu, Jerry Hobbs和 Zornitsa Kozareva
    • NLP研究:他們從事幾乎所有可能的自然語言處理研究方向。其中主要的領域包括機器翻譯、文本解密(decipherment)和信息抽取。Jerry主要從事篇章關係和對話任務的研究工作。Zornitsa從事關係挖掘和信息抽取的研究工作。
    • [http://nlg.isi.edu/]
  27. 加州大學伯克利分校
    • 知名的NLP學者:Dan Klein, Marti Hearst, David Bamman
    • NLP研究:可能是做NLP和機器學習交叉研究的最好研究機構之一。Dan培養了許多優秀學生,如Aria Haghighi, John DeNero和Percy Liang。
    • [http://nlp.cs.berkeley.edu/Members.shtml]
  28. 德克薩斯大學奧斯汀分校
    • 知名的NLP學者:Ray Mooney, Katrin Erk, Jason Baldridge和Matt Lease
    • NLP研究:Ray是自然語言處理與人工智能領域公認的資深教授。他廣泛的研究方向包括但不限於機器學習、認知科學、信息抽取和邏輯。他仍然活躍於研究領域並且指導很多學生在非常好的期刊或者會議上發表文章。Katrin 專注於計算語言學的研究並且也是該領域著名研究者之一。Jason從事非常酷的研究,和半監督學習、parsing和篇章關係的交叉領域相關。Matt研究信息檢索的多個方麵,最近主要發表了許多在信息檢索任務上使用眾包技術的論文。
    • [http://www.utcompling.com/]
    • [http://www.cs.utexas.edu/~ml/]
  29. 華盛頓大學
    • 知名的NLP學者:Mari Ostendorf, Jeff Bilmes, Katrin Kirchoff, Luke Zettlemoyer, Gina Ann Levow, Emily Bender, Noah Smith, Yejin Choi和 Fei Xia
    • NLP研究:他們的研究主要偏向於語音和parsing,但是他們也有通用機器學習的相關工作。他們最近開始研究機器翻譯。Fei從事機器翻譯、parsing、語言學和bio-NLP這些廣泛的研究工作。Emily從事語言學和自然語言處理的交叉研究工作,並且負責著名的計算語言學相關的專業碩士項目。Gina從事對話、語音和信息檢索方向的工作。學院正在擴大規模,引入了曾在卡內基梅隆大學擔任教職的Noah和曾在紐約州立大學石溪分校擔任教職的Yejin。
    • [https://www.cs.washington.edu/research/nlp]
    • [https://ssli.ee.washington.edu/]
    • [http://turing.cs.washington.edu/]
    • [http://depts.washington.edu/lingweb/]
  30. 威斯康辛大學麥迪遜分校
  31. 劍橋大學
    • 知名的NLP學者:Stephen Clark, Simone Teufel, Bill Byrne和Anna Korhonen
    • NLP研究:有很多基於parsing和信息檢索的工作。最近,也在其他領域發表了一些論文。Bill是語音和機器翻譯領域非常知名的學者。
    • [http://www.cl.cam.ac.uk/research/nl/]
  32. 愛丁堡大學
    • 知名的NLP學者:Mirella Lapata, Mark Steedman, Miles Osborne, Steve Renals, Bonnie Webber, Ewan Klein, Charles Sutton, Adam Lopez和Shay Cohen
    • NLP研究:他們在幾乎所有的領域都有研究,但我最熟悉的工作是他們在統計機器翻譯和基於機器學習方法的篇章連貫性方麵的研究。
    • [http://www.ilcc.inf.ed.ac.uk/]
  33. 新加坡國立大學
    • 知名的NLP學者:Hwee Tou Ng
    • NLP研究:Hwee Tou的組主要從事機器翻譯(自動評價翻譯質量是焦點之一)和語法糾錯(grammatical error correction)方麵的研究。他們也發表了一些詞義消歧和自然語言生成方麵的工作。Preslav Nakov曾是這裏的博士後,但現在去了卡塔爾。
    • [http://www.comp.nus.edu.sg/~nlp/home.html]
  34. 牛津大學
    • 知名的NLP學者:Stephen Pulman和Phil Blunsom
    • NLP研究:Stephen在第二語言學習(second language learning)和語用學方麵做了許多工作。Phil很可能是機器學習和機器翻譯交叉研究領域的領導者之一。
    • [http://www.clg.ox.ac.uk/people.html]
  35. 亞琛工業大學
    • 知名的NLP學者:Hermann Ney
    • NLP研究:Aachen是世界上研究語音識別和機器翻譯最好的地方之一。任何時候,都有10-15名博士生在Hermann Ney的指導下工作。一些統計機器翻譯最厲害的人來自Aachen,如Franz Och(Google Translate負責人),Richard Zens(目前在Google)和Nicola Ueffing(目前在NRC國家研究委員會,加拿大)。除了通常的語音和機器翻譯的研究,他們同時在翻譯和識別手語(sign language)方麵有一些有趣的工作。但是,在其他NLP領域沒有許多相關的研究。
    • [http://www-i6.informatik.rwth-aachen.de/web/Homepage/index.html]
  36. 謝菲爾德大學
    • 知名的NLP學者:Trevor Cohn, Lucia Specia, Mark Stevenson和Yorick Wilks
    • NLP研究:Trevor從事機器學習與自然語言處理交叉領域的研究工作,主要關注圖模型和貝葉斯推理(Bayesian inference)。Lucia是機器翻譯領域的知名學者並在這個領域組織(或共同組織)了多個shared tasks和workshops。Mark的組從事計算語義學和信息抽取與檢索的研究工作。Yorick獲得ACL終身成就獎,並在大量的領域從事研究工作。最近,他研究語用學和信息抽取。
    • [http://nlp.shef.ac.uk/]
  37. 達姆施塔特工業大學, The Ubiquitous Knowledge Processing實驗室
    • 知名的NLP學者:Irena Gurevych, Chris Biemann和Torsten Zesch -NLP研究:這個實驗室進行許多領域的研究工作:計算詞彙語義學(computational lexical semantics)、利用和理解維基百科以及其他形式的wikis、情感分析、麵向教育的NL P以及數位人文學(digital humanities)。Irena是計算語言學(CL)和自然語言處理(NLP)領域的著名學者。Chris曾在Powerset工作,現在在語義學領域有一些有趣的項目。Torsten有許多學生從事不同領域的研究。UKP實驗室為(NLP)社區提供了許多有用的軟件,JWPL(Java Wikipedia Library)就是其中之一。
    • [http://www.ukp.tu-darmstadt.de/]
  38. 多倫多大學
    • 知名的NLP學者:Graeme Hirst, Gerald Penn和Suzanne Stevenson
    • NLP研究:他們有許多詞彙語義學(lexical semantics)的研究以及一些parsing方麵的研究。Gerald從事語音方麵的研究工作。
    • [http://www.cs.utoronto.ca/compling/]
  39. 倫敦大學學院
    • 知名的NLP學者:Sebastian Riedel
    • NLP研究:Sebastian主要從事自然語言理解方麵的研究工作,大部分是知識庫和語義學相關的工作。
    • [http://mr.cs.ucl.ac.uk/]

會議

自然語言處理國際會議

  1. Association for Computational Linguistics (ACL)
  2. Empirical Methods in Natural Language Processing (EMNLP)
  3. North American Chapter of the Association for Computational Linguistics
  4. International Conference on Computational Linguistics (COLING)
  5. Conference of the European Chapter of the Association for Computational Linguistics (EACL)

相關包含NLP內容的其他會議

  1. SIGIR: Special Interest Group on Information Retrieval
  2. AAAI: Association for the Advancement of Artificial Intelligence
  3. ICML: International Conference on Machine Learning
  4. KDD: Association for Knowledge Discovery and Data Mining
  5. ICDM: International Conference on Data Mining

期刊

  1. Journal of Computational Linguistics
  2. Transactions of the Association for Computational Linguistics
  3. Journal of Information Retrieval
  4. Journal of Machine Learning

國內會議

通常都包含豐富的講習班和Tutorial 公開的PPT都是很好的學習資源

  1. CCKS 全國知識圖譜與語義計算大會
  2. SMP 全國社會媒體處理大會
  3. CCL 全國計算語言學學術會議
  4. NLPCC Natural Language Processing and Chinese Computing
  5. NCMMSC 全國人機語音通訊學術會議

Toolkit Library

Python Libraries

  1. fastText by Facebook
  2. Scikit-learn: Machine learning in Python
  3. Natural Language Toolkit [NLTK]
  4. Pattern
    • [http://www.clips.ua.ac.be/pattern]
    • A web mining module for the Python programming language. It has tools for natural language processing, machine learning, among others.
  5. TextBlob
    • [http://textblob.readthedocs.org/]
    • Providing a consistent API for diving into common natural language processing [NLP] tasks. Stands on the giant shoulders of NLTK and Pattern, and plays nicely with both.
  6. YAlign
  7. jieba
  8. SnowNLP
  9. KoNLPy
  10. Rosetta
  11. BLLIP Parser
  12. PyNLPl
  13. Parserator
  14. python-frog
  15. python-zpar
  16. colibri-core
  17. textacy
  18. PyStanfordDependencies
  19. genism
  20. scattertext
  21. CogComp-NlPy
  22. PyThaiNLP
  23. jPTDP
  24. CLTK
    • [https://github.com/cltk/cltk]: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages.
  25. pymorphy2
  1. BigARTM
  1. AllenNLP

C++ Libraries

  1. MIT Information Extraction Toolkit
  1. CRF++
  • [https://taku910.github.io/crfpp/]
  • Open source implementation of Conditional Random Fields [CRFs]for segmenting/labeling sequential data & other Natural Language Processing tasks.
  1. CRFsuite
  1. BLLIP Parser
  1. colibri-core
  • [https://github.com/proycon/colibri-core]
  • C++ library, command line tools, and Python binding for extracting and working with basic linguistic constructions such as n-grams and skipgrams in a quick and memory-efficient way.
  1. ucto
  1. libfolia
  1. frog
  1. MeTA
  1. StarSpace

Java Libraries

  1. Stanford NLP
  2. OpenNLP
  3. ClearNLP
  4. Word2vec in Java
  5. ReVerb
  1. OpenRegex
  2. CogcompNLP
  3. MALLET
  • [http://mallet.cs.umass.edu/]
  • MAchine Learning for LanguagE Toolkit - package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text.
  1. RDRPOSTagger

中文

  1. THULAC 中文詞法分析工具包
  2. NLPIR
  3. LTP 語言技術平台
  4. FudanNLP
  5. HanNLP
  6. SnowNLP
  7. YaYaNLP
  8. DeepNLP
  9. chinese_nlp
  10. Jieba 結巴中文分詞
  1. kcws 深度學習中文分詞
  1. Genius 中文分詞
  1. loso 中文分詞
  1. Information-Extraction-Chinese

Datasets

  1. *Apache Software Foundation Public Mail Archives
  2. Blog Authorship Corpus
  3. Amazon Fine Food Reviews Kaggle
  4. Amazon Reviews
  5. ArXiv
  6. ASAP Automated Essay Scoring Kaggle
    • [https://www.kaggle.com/c/asap-aes/data] : For this competition, there are eight essay sets. Each of the sets of essays was generated from a single prompt. Selected essays range from an average length of 150 to 550 words per response. Some of the essays are dependent upon source information and others are not. All responses were written by students ranging in grade levels from Grade 7 to Grade 10. All essays were hand graded and were double-scored. 100 MB
  7. ASAP Short Answer Scoring Kaggle
    • [https://www.kaggle.com/c/asap-sas/data] : Each of the data sets was generated from a single prompt. Selected responses have an average length of 50 words per response. Some of the essays are dependent upon source information and others are not. All responses were written by students primarily in Grade 10. All responses were hand graded and were double-scored. 35 MB
  8. Classification of political social media
  9. CLiPS Stylometry Investigation CSI Corpus
  10. ClueWeb09 FACC
  1. ClueWeb11 FACC
  1. Common Crawl Corpus
  1. Cornell Movie Dialog Corpus
  1. DBpedia
  1. Del.icio.us
  1. Disasters on social media
  1. Economic News Article Tone and Relevance
  1. Enron Email Data
  1. Event Registry
  1. Federal Contracts from the Federal Procurement Data Center [USASpending.gov]
  1. Flickr Personal Taxonomies
  1. Freebase Data Dump
  1. Google Books Ngrams
  1. Google Web 5gram
  1. Gutenberg Ebook List
  1. Harvard Library
  1. Hillary Clinton Emails Kaggle
  1. Machine Translation of European Languages
  1. News article / Wikipedia page pairings
  1. NIPS2015 Papers version 2 Kaggle[https://www.kaggle.com/benhamner/nips-2015-papers/version/2]: full text of all NIPS2015 papers 335 MB
  2. NYTimes Facebook Data
  1. Open Library Data Dumps
  1. Personae Corpus
  1. Reddit Comments
  1. Reddit Comments
  1. Reddit Submission Corpus
  1. Reuters Corpus
  • [http://trec.nist.gov/data/reuters/reuters.html] : a large collection of Reuters News stories for use in research and development of natural language processing, information retrieval, and machine learning systems. This corpus, known as "Reuters Corpus, Volume 1" or RCV1, is significantly larger than the older, well-known Reuters-21578 collection heavily used in the text classification community. Need to sign agreement and sent per post to obtain. 2.5 GB
  1. SMS Spam Collection[http://www.dt.fee.unicamp.br/tiago/smsspamcollection/] : 5,574 English, real and non-enconded SMS messages, tagged according being legitimate ham or spam. [200 KB]
  2. Stackoverflow
  1. Twitter Cheng-Caverlee-Lee Scrape
  1. Twitter New England Patriots Deflategate sentiment
  • [https://www.crowdflower.com/data-for-everyone/] : Before the 2015 Super Bowl, there was a great deal of chatter around deflated footballs and whether the Patriots cheated. This data set looks at Twitter sentiment on important days during the scandal to gauge public sentiment about the whole ordeal. 2 MB
  1. Twitter sentiment analysis: Self-driving cars
  • [https://www.crowdflower.com/data-for-everyone/] : contributors read tweets and classified them as very positive, slightly positive, neutral, slightly negative, or very negative. They were also prompted asked to mark if the tweet was not relevant to self-driving cars. 1 MB
  1. Twitter Tokyo Geolocated Tweets
  1. Twitter US Airline Sentiment Kaggle
  • [https://www.kaggle.com/crowdflower/twitter-airline-sentiment] : A sentiment analysis job about the problems of each major U.S. airline. Twitter data was scraped from February of 2015 and contributors were asked to first classify positive, negative, and neutral tweets, followed by categorizing negative reasons [such as "late flight" or "rude service"]. 2.5 MB
  1. Wikipedia Extraction
  1. Wikipedia XML Data
  1. Yahoo! Answers Comprehensive Questions and Answers
  1. Yahoo! Answers Manner Questions
  1. Yahoo! N-Grams, version 2.0
  1. Yahoo! Search Logs with Relevance Judgments
  1. Yelp
  1. YouTube
  1. 開放知識圖譜OpenKG.cn
  1. CLDC中文語言資源聯盟
  1. 用於訓練中英文對話係統的語料庫
  1. 中文 Wikipedia Dump
  1. 98年人民日報詞性標注庫@百度盤
  1. 百度百科100gb語料@百度盤
  1. 搜狗20061127新聞語料[包含分類]@百度盤
  1. UDChinese
  1. 八卦版問答中文語料
  1. 中文word2vec模型
  1. 中文word2vec模型之維基百科中文
  1. Synonyms:中文近義詞工具包
  1. 中文突發事件語料庫
  1. dgk_lost_conv 中文對白語料
  1. 漢語拆字字典
  1. 中國股市公告信息爬取
  1. tushare財經數據接口
  1. 保險行業語料庫
  1. 最全中華古詩詞數據庫
  1. 中文語料小數據

初步版本,水平有限,有錯誤或者不完善的地方,歡迎大家提建議和補充,會一直保持更新,本文為專知內容組原創內容,未經允許不得轉載,如需轉載請發送郵件至fangquanyi@gmail.com或 聯係微信專知小助手(Rancho_Fang)

敬請關注//www.webtourguide.com和關注專知公眾號,獲取第一手AI相關知識

VIP內容

昨日,NLP 領域國際頂會 ACL 2021 公布獲獎論文信息:來自字節跳動火山翻譯的一篇神經機器翻譯工作被評為最佳論文。此外,最佳主題論文、傑出論文也揭曉。

ACL,是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。

一直以來,ACL 在 NLP 領域的學術影響力都位列第一,它也是 CCF-A 類推薦會議。

今年的 ACL 大會已是第 59 屆,計劃於 8 月 1-6 日在泰國曼穀舉行。

不久之前,ACL 2021 官方發布了關於本屆大會接收結果:本屆 ACL 共計收到 3350 篇論文投稿,最終有 21.3% 的論文錄用到主會(Main Conference),並額外接收了 14.9% 的論文到 Findings 子刊,綜合錄用率為 36.2%。我們可以從被接收的論文作者與機構中發現,有大量的國內論文被接收。

除了接收論文之外,今年的 ACL 的組織成員裏麵也有大量的華人麵孔,特別是今年的年會主席是中科院自動化研究所的宗成慶老師,程序主席包括華盛頓大學的 Fei Xia 教授、香港理工大學 Wenjie Li 教授。

昨天,大家最為關注的 ACL 2021 獲獎論文公布,令人驚喜的是這些獲獎論文裏麵也包含多篇國內研究成果:如來自字節跳動火山翻譯的機器翻譯研究獲得最佳論文,來自港中文、騰訊 AI Lab 合作的論文也入選傑出論文。

最佳論文:字節跳動火山翻譯

ACL 2021 的最佳論文來自字節跳動火山翻譯團隊,該研究提出了一種新的詞表學習方案 VOLT,在多種翻譯任務上取得了優秀的結果。

標題:Vocabulary Learning via Optimal Transport for Neural Machine Translation

作者:許晶晶、周浩、甘純、鄭在翔、李磊

論文地址:https://arxiv.org/pdf/2012.15671.pdf

代碼地址:https://github.com/Jingjing-NLP/VOLT

對於從業者來說,大家無時無刻不在使用詞表對語言進行向量化表示。在深度學習時代,詞表構建基本上是所有自然語言處理任務的第一步工作。盡管現今也有了一些比較通用的詞表處理方法,但是仍然沒有辦法回答最基礎的問題:什麼是最優詞表,如何生成最優詞表?

為了回答該問題,本論文嚐試提出一種無需訓練的詞表評價指標和針對該評價指標的詞表學習方案 VOLT。該方案在常用的英德翻譯、英法翻譯、低資源翻譯、多語言翻譯上都取得了相比傳統詞表解決方案更好的結果。

值得一提的是,該研究修改前的版本曾投至另一個機器學習頂會 ICLR 2021。在 Openreview 網站上現在還能看到該論文及匿名評審的結果。當時四名評審給出的意見是 3、3、4、4——未達到接收標準,作者做了rebuttal之後撤稿投了ACL。

論文作者之一的周浩在社交網絡中表示:「關於從 ICLR 到 ACL 的轉投當時情況是這樣的,我們在投 ICLR 的時候花了太多時間在實驗上,在 writing 上花的時間很不夠,整個 paper 顯地平鋪直敘,Intuition 沒有說出來,且有部分重要的實驗沒有補充。結果大家也看到了,我覺得這是一個重要的 lesson,也歡迎大家對比我們兩個版本的論文。」

論文一作許晶晶則總結了經驗與教訓:「我學到的最重要教訓是一定要把東西寫清楚。雖然寫作不是最重要的,idea 才是,但是寫清楚是讓評審評價工作的前提。其實 ICLR 的評審和 ACL 的評委都對我們的 Idea 做了肯定,新穎性和有趣性都是被承認的,我們給出的基於最大邊際效應的解釋,和把詞表學習建模成一個最優運輸問題都是全新的一套想法。ICLR 對 idea 沒有太多問題,問題主要是在寫作上,後來我們把寫作改進之後,能拿到高分雖然意料之外,倒也在情理之中。有一說一,我們 ICLR 那篇工作確實寫的不好。評審的反饋主要在以下幾個方麵:實驗做的不夠充分,方法介紹的不夠清楚,動機也缺乏直接證據。後來的這幾點,我們在 ACL 版本都做了大量的改進。我們補充了很多後續實驗,寫作也推倒重來,一遍遍推敲邏輯是否合理,實驗是不是嚴謹和充分等等,整個過程是很痛苦的。所以後來我們得到 ACL 的評審認可的時候非常激動,畢竟投入了很多心血的工作終於得到了回報。」

這篇論文在一番改進之後獲得了另一個頂會的最佳獎項,過程可謂大起大落。

最佳主題論文:CMU

今年的最佳主題論文(Best theme paper)研究來自卡耐基梅隆大學、巴伊蘭大學、加勞德特大學與艾倫人工智能研究所等機構。第一作者殷綺妤(Kayo Yin)本科畢業於巴黎綜合理工學院,目前是卡耐基梅隆大學的在讀研究生。

標題:Including Signed Languages in Natural Language Processing

作者:Kayo Yin、Amit Moryossef、Julie Hochgesang、Yoav Goldberg、Malihe Alikhani

機構:CMU、巴伊蘭大學、加勞德特大學、艾倫人工智能研究所、匹茲堡大學

鏈接:https://arxiv.org/abs/2105.05222

論文摘要:手語是許多聾啞人和重聽人交流的主要手段。由於手語表現了自然語言的所有基本語言特性,該研究認為自然語言處理的工具和理論對其建模至關重要。然而,現有的手語處理 (SLP) 研究很少嚐試探索和利用手語的語言結構組織。該研究呼籲 NLP 社區將手語作為具有高度社會和科學影響的研究領域。該研究首先討論了手語在建模過程中要考慮的語言屬性;然後回顧了當前 SLP 模型的局限性,並確定了將 NLP 擴展到手語的開放挑戰;最後,該研究建議以下幾點 (1) 采用一種有效的 tokenization 方法 (2) 語言信息模型的發展 (3) 真實世界的手語數據的收集(4) 將當地手語社區納入到積極而主導話語權研究方向中。

六篇傑出論文

除最佳論文以外,今年的 ACL 還評出了六篇傑出論文(Outstanding papers),其中包括港中文、騰訊 AI Lab、斯坦福大學(李飛飛、曼寧等人團隊)的研究。

論文 1:All That’s ‘Human’ Is Not Gold: Evaluating Human Evaluation of Generated Text

作者:Elizabeth Clark、Tal August、Sofia Serrano、Nikita Haduong、Suchin Gururangan、Noah A. Smith

機構:華盛頓大學、艾倫人工智能研究所

論文地址:https://arxiv.org/abs/2107.00061

論文摘要:人類評估通常被認為是自然語言生成的黃金標準,但隨著模型流暢程度的提升,評估者能夠檢測、判斷出機器生成的文本嗎?在這項研究中,研究者評估了非專家在故事、新聞、食譜三個領域中區分人工與機器(GPT-2、GPT-3)撰寫文本的能力。他們發現,未經過訓練的評估者區分 GPT-3 與人類生成文本的概率是隨機的。研究者探索了三種快速訓練評估者的方法以更好地識別 GPT-3 生成的文本(詳細說明、附加注釋的例子和配對例子) ,並發現其準確率提高了 55%,但在上麵提到的三個領域仍然沒有顯著改善。考慮到文本域的結果不一致,以及評估者給出的判斷常常相互矛盾,研究者檢驗了未經訓練的人類評估者在自然語言生成評估中所起的作用,並為自然語言生成的研究者們提供了改進人類評估文本生成結果的最新模型建議。

論文 2:Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

作者:Armen Aghajanyan、Sonal Gupta、Luke Zettlemoyer

機構:Facebook

論文地址:https://arxiv.org/abs/2012.13255

論文摘要:盡管可以通過對預訓練語言模型進行微調,來為廣泛的語言理解任務產生 SOTA 結果,但該過程的具體原理還沒有得到很好的解釋,尤其是在低數據範圍內。為什麼使用相對普通的梯度下降算法(例如不包含強大的正則化)就能在隻有數百或數千個標記樣本的數據集上調整具有數億個參數的模型?在該論文中,研究者認為從內在維度的角度分析微調,能夠得到解釋上述現象的實驗和理論依據。該研究通過實驗表明,常見的預訓練模型具有非常低的內在維度;換句話說,存在與完全參數空間一樣有效的微調低維重參數化。例如,通過僅優化隨機投射回完全空間的 200 個可訓練參數,研究者可以調整 RoBERTa 模型以在 MRPC 上實現 90% 的完全參數性能水平。此外,該研究通過實驗表明,預訓練隱式地最小化了內在維度,也許令人驚訝的是,經過一定數量的預訓練更新,較大的模型往往具有較低的內在維度,這在一定程度上解釋了它們的極端有效性。最後,研究者將內在維度與低維任務表征和基於壓縮的泛化邊界聯係起來,以提供基於內在維度的,與完全參數數量無關的泛化邊界。

論文 3:Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering

作者:Siddharth Karamcheti、Ranjay Krishna、Li Fei-Fei、Christopher Manning

機構:斯坦福大學

目前,這篇論文的 PDF 和網站還未公開,之後將持續關注。

論文 4:Neural Machine Translation with Monolingual Translation Memory

作者:Deng Cai、Yan Wang、Huayang Li、Wai Lam、Lemao Liu

機構:香港中文大學、騰訊 AI Lab

論文地址:https://arxiv.org/pdf/2105.11269.pdf

論文摘要:先前的研究證明翻譯記憶 (TM) 可以提高神經機器翻譯 (NMT) 的性能。與使用雙語語料庫作為 TM 並采用源端相似性搜索進行記憶檢索的現有工作相比,該研究提出了一種新框架,該框架使用單語記憶並以跨語言方式執行可學習的記憶檢索,該框架具有獨特的優勢。首先,跨語言記憶檢索器允許大量的單語數據成為 TM。第二,記憶檢索器和 NMT 模型可以為最終的翻譯目標進行聯合優化。實驗表明,該方法得到了顯著的改進。值得注意的是,它甚至優於使用雙語 TM 的「TM-augmented NMT」基線方法。由於能夠利用單語數據,該研究還證明了所提模型在低資源和領域適應場景中的有效性。

論文 5:Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers

作者:Benjamin Marie、Atsushi Fujita、Raphael Rubino

機構:NICT(日本)

論文地址:https://arxiv.org/pdf/2106.15195.pdf

論文摘要:本文提出了首個大規模機器翻譯 (MT) 元評估(metaevaluation)。該研究對 2010 年至 2020 年發表的 769 篇研究論文進行了機器翻譯評估。研究表明,MT 自動評估的實踐在過去的十年中發生了巨大的變化,並遵循相關的趨勢。越來越多的 MT 評估僅依靠 BLEU 得分之間的差異得出結論,而不進行任何統計意義測試或人為評價,而至少有 108 個指標聲稱優於 BLEU。在最近的論文中,MT 評估傾向於複製和比較以前工作中的自動度量得分,以聲稱一種方法或算法的優越性,而沒有確認使用過完全相同的訓練、驗證和測試數據,度量得分不具有可比性。此外,報告標準化度量得分的工具還遠未被 MT 社區廣泛采用。在展示了這些缺陷累積導致可疑的評估後,該研究提出了一個準則,以鼓勵更好的自動 MT 評估以及一個簡單的元評估得分方法來評估其可信度。

論文 6:UnNatural Language Inference

作者:Koustuv Sinha、Prasanna Parthasarathi、Joelle Pineau、Adina Williams

機構:麥吉爾大學、MILA、FAIR

論文地址:https://arxiv.org/pdf/2101.00010.pdf

GitHub 地址:https://github.com/facebookresearch/unlu

論文摘要:近期基於 Transformer 的自然語言理解研究表明,這些大規模預訓練 SOTA 模型似乎能夠在某種程度上理解類人的語法。在這篇論文中,研究者提供了一些新的證據,從更複雜的維度闡釋了這一問題。他們發現當前的自然語言推理 SOTA 模型能夠給重新排列的示例打上與此前相同的標簽,也就是說,它們在很大程度上對隨機的詞序排列具有不變性。為了度量這個問題的嚴重性,研究者提出了一套度量方法,並研究了特定排列中的哪些特質使得模型具備詞序不變性。例如在 MNLI 數據集中,研究者發現幾乎所有 (98.7%) 的示例都至少包含一個引發黃金標簽的序列。模型有時候甚至能為它們最初未能正確預測的序列分配黃金標簽。在進行了全麵的實驗評估以後,結果表明這個問題存在於 Transformer 和基於 pre-Transformer 架構的編碼器,在跨多種語言時也會出現。

ACL 獲獎論文完整列表:https://2021.aclweb.org/program/accept/

參考內容:https://www.zhihu.com/question/470224094

成為VIP會員查看完整內容
0
15
0

最新論文

In this work, we propose novel decoding algorithms to enable streaming automatic speech recognition (ASR) on unsegmented long-form recordings without voice activity detection (VAD), based on monotonic chunkwise attention (MoChA) with an auxiliary connectionist temporal classification (CTC) objective. We propose a block-synchronous beam search decoding to take advantage of efficient batched output-synchronous and low-latency input-synchronous searches. We also propose a VAD-free inference algorithm that leverages CTC probabilities to determine a suitable timing to reset the model states to tackle the vulnerability to long-form data. Experimental evaluations demonstrate that the block-synchronous decoding achieves comparable accuracy to the label-synchronous one. Moreover, the VAD-free inference can recognize long-form speech robustly for up to a few hours.

0
0
0
下載
預覽
Top