http://hanj.cs.illinois.edu/

從海量非結構化文本中挖掘結構化知識

現實世界的大數據很大程度上是動態的、相互關聯的、非結構化的文本。將這種海量的非結構化數據轉化為結構化知識是一個迫切需要解決的問題。許多研究人員依靠人工作業的標簽和管理從這些數據中提取知識。然而,這種方法是不可擴展的。我們認為,大量文本數據本身可能會揭示大量隱藏的結構和知識。通過預訓練的語言模型和文本嵌入方法,可以將非結構化數據轉化為結構化知識。在這次演講中,我們介紹了我們小組最近開發的一套用於此類探索的方法,包括聯合球形文本嵌入、判別性主題挖掘、分類法構建、文本分類和基於分類法的文本分析。我們證明了數據驅動方法在將海量文本數據轉化為結構化知識方麵是有前途的。

目錄內容: 動機 Motivation: Mining Unstructured Text for Structured Knowledge 理解語義Understanding Semantics: Text Embedding and Spherical Text Embedding (JoSE) 主題挖掘 Weakly Supervised, Discriminative, Hierarchical Topic Mining (CaTE, JoSH) 自動分類法構建 Automated Taxonomy Construction and Enrichment

現實世界中80%大數據都是個結構化文本,在很大程度上是非結構化的、互聯的和動態的,且以自然語言文本的形式出現,將此類龐大的非結構化數據轉換為有用的知識是在大數據時代的一條必由之路。目前大家普遍采用勞動密集型的方法對數據進行打標簽從而提取知識,這種方法短時來看可取,但卻無法進行擴展,特別是許多企業的文本數據是高度動態且領域相關。

韓家煒教授認為,大量的文本數據本身就隱含了大量的隱模式、結構和知識,因此我們可以借助domain-independent 和 domain-dependent的知識庫,來探索如何將海量數據從非結構化的數據轉化為有用的知識。 (1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來。 (2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube) (3)挖掘 Network/Text Cube 生成有用的知識。最後一步才是挖掘。

"> UIUC韓家煒:從海量非結構化文本中挖掘結構化知識 - 專知VIP

【導讀】如何從大規模文本中挖掘知識是個重要問題。最近數據挖掘大師韓家煒做了“從海量非結構化文本中挖掘結構化知識”報告,闡述了最新文本挖掘方麵的進展,非常值得關注!

韓家煒是美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。

韓教授曾獲2004 ACM SIGKDD創新獎、2005 IEEE計算機分會技術成就獎、2009 IEEE計算機分會WAllace McDowell Award和2011 Daniel C. Drucker Eminent Faculty Award at UIUC等獎項。

http://hanj.cs.illinois.edu/

從海量非結構化文本中挖掘結構化知識

現實世界的大數據很大程度上是動態的、相互關聯的、非結構化的文本。將這種海量的非結構化數據轉化為結構化知識是一個迫切需要解決的問題。許多研究人員依靠人工作業的標簽和管理從這些數據中提取知識。然而,這種方法是不可擴展的。我們認為,大量文本數據本身可能會揭示大量隱藏的結構和知識。通過預訓練的語言模型和文本嵌入方法,可以將非結構化數據轉化為結構化知識。在這次演講中,我們介紹了我們小組最近開發的一套用於此類探索的方法,包括聯合球形文本嵌入、判別性主題挖掘、分類法構建、文本分類和基於分類法的文本分析。我們證明了數據驅動方法在將海量文本數據轉化為結構化知識方麵是有前途的。

目錄內容: 動機 Motivation: Mining Unstructured Text for Structured Knowledge 理解語義Understanding Semantics: Text Embedding and Spherical Text Embedding (JoSE) 主題挖掘 Weakly Supervised, Discriminative, Hierarchical Topic Mining (CaTE, JoSH) 自動分類法構建 Automated Taxonomy Construction and Enrichment

  • SetExpan, SetCoExpan, CGExpan, HiExpan, CoRel
  • Automated Taxonomy Enrichment (TaxoExpan) 文檔分類 Document Classification by Weak Supervision
  • Weakly supervised: Using Category-Names Only (LOTClass)
  • Weakly Supervised Multiclass Classification Using Taxonomy (TaxoClass) Looking Forward

現實世界中80%大數據都是個結構化文本,在很大程度上是非結構化的、互聯的和動態的,且以自然語言文本的形式出現,將此類龐大的非結構化數據轉換為有用的知識是在大數據時代的一條必由之路。目前大家普遍采用勞動密集型的方法對數據進行打標簽從而提取知識,這種方法短時來看可取,但卻無法進行擴展,特別是許多企業的文本數據是高度動態且領域相關。

韓家煒教授認為,大量的文本數據本身就隱含了大量的隱模式、結構和知識,因此我們可以借助domain-independent 和 domain-dependent的知識庫,來探索如何將海量數據從非結構化的數據轉化為有用的知識。 (1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來。 (2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube) (3)挖掘 Network/Text Cube 生成有用的知識。最後一步才是挖掘。

成為VIP會員查看完整內容
0
40
2

相關內容

韓家煒,美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。 韓家煒主頁:https://hanj.cs.illinois.edu/

來自華為的研究人員在UIUC2021上將給出關於預訓練模型與文本挖掘的教程,非常值得關注!

近年來,文本表示學習在廣泛的文本挖掘任務中取得了巨大的成功。早期的單詞嵌入學習方法將單詞表示為固定的低維向量,以捕獲它們的語義。然後,將學習到的詞嵌入作為特定任務模型的輸入特征。近年來,預訓練語言模型(pre-training language model, PLMs)在自然語言處理(natural language processing, NLP)領域發生了革命性的變化,自然語言處理(natural language processing, NLP)通過大規模文本語料庫上預訓練的基於transformer的神經模型來學習通用語言表示。這種預訓練過的表示對通用語言特征進行編碼,這些特征幾乎可以遷移到任何與文本相關的應用中。在許多應用中,PLM優於先前的任務特定模型,因為它們隻需要對目標語料庫進行微調,而無需從頭開始訓練。

https://yumeng5.github.io/kdd21-tutorial/

在本教程中,我們將介紹預訓練文本嵌入和語言模型的最新進展,以及它們在廣泛的文本挖掘任務中的應用。具體來說,我們首先概述了一組最近開發的自監督和弱監督文本嵌入方法和預訓練的語言模型,它們是下遊任務的基礎。然後,我們提出了幾種基於預先訓練的文本嵌入和語言模型的新方法,用於各種文本挖掘應用,如主題發現和文本分類。我們關注的方法是弱監督、領域獨立、語言不可知、有效和可擴展的,用於從大規模文本語料庫中挖掘和發現結構化知識。我們將在真實的數據集上演示預先訓練的文本表示如何幫助減輕人工標注的負擔,並促進自動、準確和高效的文本分析。

目錄: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]

成為VIP會員查看完整內容
0
21
0

現實世界的大數據以自然語言文本的形式,在很大程度上是非結構化的、相互關聯的、動態的。將如此龐大的非結構化數據轉換為結構化知識是非常必要的。許多研究人員依賴於勞動密集型的標記和管理來從這些數據中提取知識,這可能是不可擴展的,特別是考慮到許多文本語料庫是高度動態的和特定於域的。我們認為,大量的文本數據本身可能揭示了大量隱藏的模式、結構和知識。基於領域無關和領域相關的知識庫,我們探索海量數據本身將非結構化數據轉化為結構化知識的能力。通過將大量的文本文檔組織成多維文本數據集,可以有效地提取和使用結構化的知識。在這次演講中,我們介紹了一組最近開發的用於這種探索的方法,包括挖掘質量短語、實體識別和鍵入、多麵分類構造以及多維文本立方體的構造和探索。結果表明,數據驅動方法是將海量文本數據轉化為結構化知識的一個有前途的方向。

成為VIP會員查看完整內容
0
72
2

講座題目

從海量文本中構建和挖掘異構信息網絡:Constructing and Mining Heterogeneous Information Networks from Massive Text

講座簡介

真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效且可伸縮的方法,將非結構化文本轉換為結構化知識。根據我們的設想,將這些文本轉換成結構化的異構信息網絡是非常有益的,在這種網絡上,可以根據用戶的需要生成可操作的知識。在本教程中,我們將全麵概述最近在這方麵的研究和發展。首先,我們介紹了一係列有效的方法,從海量的、特定於領域的文本語料庫中構建異構信息網絡。然後討論了基於用戶需求挖掘文本豐富網絡的方法。具體來說,我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法可以處理各種文本。在真實的數據集(包括新聞文章、科學出版物和產品評論)上,我們進一步展示了如何構建信息網絡,以及如何幫助進一步的探索性分析。

講座嘉賓

Jingbo Shang(尚景波),伊利諾伊大學香檳分校計算機科學係博士生。他的研究重點是用最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多項著名獎項的認可,包括Yelp數據集挑戰大獎(2015)、穀歌結構化數據和數據庫管理博士研究金(2017-2019)。尚先生在大型會議(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方麵有豐富的經驗。

成為VIP會員查看完整內容
0
38
0

題目:TextCube: Automated Construction and Multidimensional Exploration

簡介:當今社會沉浸在大量文本數據中,從新聞文章到社交媒體,研究文獻,病曆和公司報告。數據科學和工程學的一大挑戰是開發有效且可擴展的方法,以從海量文本數據中提取結構和知識,以滿足各種應用的需要,而無需廣泛的人工注釋。在本教程中,我們將展示TextCube提供了一種可以滿足此類信息需求的關鍵信息組織結構。我們概述了一組最近開發的數據驅動方法,這些方法可幫助從大規模的特定於領域的文本語料庫自動構建TextCube,並表明如此構建的TextCube將增強各種應用程序的文本探索和分析。我們專注於可擴展,弱監督,獨立於域,與語言無關且有效的新TextCube構建方法(即從各種領域的大型語料庫生成高質量的TextCube)。我們將用真實的數據集演示如何構造TextCube來協助對大量文本語料庫進行多維分析。

嘉賓介紹:韓家煒,美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。 韓家煒主頁:https://hanj.cs.illinois.edu/

Jingbo Shang, 伊利諾伊州香檳分校博士。 他的研究專注於以最少的人力從大量文本語料庫中挖掘和構建結構化知識。 他的研究獲得了多個著名獎項的認可,包括Yelp數據集挑戰賽的大獎(2015年),Google博士在結構化數據和數據庫管理領域的獎學金(2017-2019年)。

成為VIP會員查看完整內容
0
22
5
小貼士
相關VIP內容
專知會員服務
54+閱讀 · 2021年3月27日
相關論文
Michael M. Bronstein,Joan Bruna,Taco Cohen,Petar Veličković
10+閱讀 · 2021年5月2日
Yuxia Geng,Jiaoyan Chen,Zhuo Chen,Jeff Z. Pan,Zhiquan Ye,Zonggang Yuan,Yantao Jia,Huajun Chen
13+閱讀 · 2021年2月15日
Xuelu Chen,Muhao Chen,Changjun Fan,Ankith Uppunda,Yizhou Sun,Carlo Zaniolo
3+閱讀 · 2020年10月8日
Tara Safavi,Danai Koutra
4+閱讀 · 2020年10月6日
Qipeng Guo,Xipeng Qiu,Pengfei Liu,Xiangyang Xue,Zheng Zhang
3+閱讀 · 2019年12月2日
Liang Yao,Chengsheng Mao,Yuan Luo
9+閱讀 · 2019年9月11日
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Jinhyuk Lee,Wonjin Yoon,Sungdong Kim,Donghyeon Kim,Sunkyu Kim,Chan Ho So,Jaewoo Kang
6+閱讀 · 2019年2月3日
Liang Yao,Chengsheng Mao,Yuan Luo
11+閱讀 · 2018年10月17日
Bryan McCann,James Bradbury,Caiming Xiong,Richard Socher
5+閱讀 · 2018年6月20日
Paul Groth,Michael Lauruhn,Antony Scerri,Ron Daniel Jr
6+閱讀 · 2018年2月15日
Top
微信掃碼谘詢專知VIP會員
Top