韓家煒,美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。 韓家煒主頁:https://hanj.cs.illinois.edu/

VIP內容

【導讀】如何從大規模文本中挖掘知識是個重要問題。最近數據挖掘大師韓家煒做了“從海量非結構化文本中挖掘結構化知識”報告,闡述了最新文本挖掘方麵的進展,非常值得關注!

韓家煒是美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。

韓教授曾獲2004 ACM SIGKDD創新獎、2005 IEEE計算機分會技術成就獎、2009 IEEE計算機分會WAllace McDowell Award和2011 Daniel C. Drucker Eminent Faculty Award at UIUC等獎項。

http://hanj.cs.illinois.edu/

從海量非結構化文本中挖掘結構化知識

現實世界的大數據很大程度上是動態的、相互關聯的、非結構化的文本。將這種海量的非結構化數據轉化為結構化知識是一個迫切需要解決的問題。許多研究人員依靠人工作業的標簽和管理從這些數據中提取知識。然而,這種方法是不可擴展的。我們認為,大量文本數據本身可能會揭示大量隱藏的結構和知識。通過預訓練的語言模型和文本嵌入方法,可以將非結構化數據轉化為結構化知識。在這次演講中,我們介紹了我們小組最近開發的一套用於此類探索的方法,包括聯合球形文本嵌入、判別性主題挖掘、分類法構建、文本分類和基於分類法的文本分析。我們證明了數據驅動方法在將海量文本數據轉化為結構化知識方麵是有前途的。

目錄內容: 動機 Motivation: Mining Unstructured Text for Structured Knowledge 理解語義Understanding Semantics: Text Embedding and Spherical Text Embedding (JoSE) 主題挖掘 Weakly Supervised, Discriminative, Hierarchical Topic Mining (CaTE, JoSH) 自動分類法構建 Automated Taxonomy Construction and Enrichment

  • SetExpan, SetCoExpan, CGExpan, HiExpan, CoRel
  • Automated Taxonomy Enrichment (TaxoExpan) 文檔分類 Document Classification by Weak Supervision
  • Weakly supervised: Using Category-Names Only (LOTClass)
  • Weakly Supervised Multiclass Classification Using Taxonomy (TaxoClass) Looking Forward

現實世界中80%大數據都是個結構化文本,在很大程度上是非結構化的、互聯的和動態的,且以自然語言文本的形式出現,將此類龐大的非結構化數據轉換為有用的知識是在大數據時代的一條必由之路。目前大家普遍采用勞動密集型的方法對數據進行打標簽從而提取知識,這種方法短時來看可取,但卻無法進行擴展,特別是許多企業的文本數據是高度動態且領域相關。

韓家煒教授認為,大量的文本數據本身就隱含了大量的隱模式、結構和知識,因此我們可以借助domain-independent 和 domain-dependent的知識庫,來探索如何將海量數據從非結構化的數據轉化為有用的知識。 (1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來。 (2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube) (3)挖掘 Network/Text Cube 生成有用的知識。最後一步才是挖掘。

成為VIP會員查看完整內容
4
52
0

最新內容

0
0
0
微信掃碼谘詢專知VIP會員
Top