【KDD2019知識圖譜教程】從海量文本中挖掘和構建異構信息網絡,UIUC232頁ppt

2019 年 8 月 11 日 專知


導讀

第25屆ACM SIGKDD知識發現與數據挖掘大會於 2019 年 8 月 4 日- 8 日在美國阿拉斯加州安克雷奇市舉行。一年一度的KDD大會是最重要的跨學科會議,彙聚了數據科學、數據挖掘、知識發現、大規模數據分析和大數據等領域的研究人員和實踐者。今天小編整理了關於數據挖掘方麵的內容---從文本中構建和挖掘異構信息網絡,本文提供了一個全麵的綜述,總結了在這個方向最近的研究和發展。


T17: Constructing and Mining Heterogeneous Information Networks from Massive Text

Jingbo Shang, Jiaming Shen, Liyuan Liu, Jiawei Han
Computer Science Department, University of Illinois at Urbana-Champaign

摘要

現實世界中的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效的、可伸縮的方法,將非結構化文本轉換為結構化知識。基於我們的願景,將這些文本轉換為結構化的異構信息網絡是非常有益的,可以根據用戶的需求生成可操作的知識。


在本教程中,我們將全麵概述這方麵的最新研究和發展。首先,我們介紹了一係列從大規模、領域特定的文本語料庫構建異構信息網絡的有效方法。然後,我們討論了基於用戶需求挖掘這種文本豐富網絡的方法。具體來說,我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法可以處理各種文本。我們還將在實際數據集(包括新聞文章、科學出版物和產品評論)上進一步演示如何構建信息網絡,以及如何幫助進一步的探索性分析。


大綱
1
介紹

1. 動機:為什麼要從大量文本中構建和挖掘異構信息網絡?

2. 大量文本網絡構建的綜述

3. 關於構建網絡應用探索的綜述


2
短語挖掘

1. 為什麼短語挖掘以及如何定義高質量的短語?

2. 監督方法

2.1. 名詞短語分塊方法

2.2. 基於解析的方法

2.3. 如何在語料庫級別對實體進行排序?

3. 無監督方法

3.1. 基於原始頻率的方法

3.2. 基於協調的方法

3.3. 基於主題模型的方法

3.4. 對比方法

4. 弱/遠程監督方法

4.1. 短語分詞及其變體

4.2. 如何利用遠程監督?

5. 係統演示和軟件介紹

5.1. 一種多語言短語挖掘係統,它將AutoPhraseSegPhrase和TopMine集成在一起,支持多種語言的短語挖掘(例如,英語,西班牙語,中文,阿拉伯語和日語)。


3
信息抽取:實體,屬性和關係

1. 什麼是命名實體識別(NER)?

2. 傳統的監督方法

2.1. CorNLL03共享任務

2.2. 序列標注框架

2.3. 條件隨機場

2.4 手工製作的特征

3. 現代端到端神經模型

3.1. 雙向LSTM模型

3.2. 語言模型和語境化表示

3.3. Raw-to-end模型

4. 遠程監督的模型

4.1. 實體輸入的數據編程

4.2. 學習特定領域的詞典

5. 基於元模式的信息提取

5.1. 元模式挖掘

5.2. 元模式增強的NER

6. 係統演示和軟件

6.1 命名實體識別推理Python包:LightNER。該模塊可幫助用戶以高效便捷的方式輕鬆地將預訓練的NER模型應用於他們自己的語料庫。


4
分類構建

1. 分類學基礎

1.1. 分類法定義

1.2. 分類應用

1.3. 分類構建方法

2. 基於實例的分類構建

2.1. 使用的方法綜述

2.2. 基於模式的方法

2.3. 監督方法

2.4. 弱監督方法

3. 基於聚類的分類構建

3.1. 分層主題建模

3.2. 一般圖模型方法

3.3. 分層聚類


5
挖掘異構信息網絡(結構化分析)

1. 基本分析係統演示

1.1. AutoNet係統:它從PubMed論文(標題和摘要)構建了一個巨大的結構化網絡,並支持在線構建(新文檔)和智能探索(搜索)。

2. 概要

2.1. 基於圖的總結

2.2. 聚類和排序的總結

3. 元路徑引導探索

3.1. 基於元路徑的相似性

3.2. 元路徑引導節點嵌入

4. 鏈接預測

4.1. 任務引導節點嵌入

4.2. 構建網絡中的鏈接增強


6
總結和未來的方向

1. 摘要

1.1. 原理與技術

1.2. 優勢和局限

2. 挑戰和未來的研究方向

3. 與觀眾的互動

3.1 如何根據您的文本數據和應用需求構建和挖掘異構信息網絡?


7
提問和討論


報告人簡介

Jingbo Shang伊利諾伊州厄巴納 - 香檳分校大學計算機科學係在讀博士。他的研究重點是從大量的文本語料庫中挖掘和構建結構化知識,同時盡量減少人力。他的研究得到了多個著名獎項的認可,包括Yelp數據集挑戰大獎(2015年),結構化數據和數據庫管理Google博士獎學金(2017-2019)。尚先生在重大會議上(SIGMOD'17,WWW'17,SIGKDD'17和SIGKDD'18)提供教程方麵擁有豐富的經驗


Jiaming Shen,伊利諾伊州厄巴納 - 香檳分校大學計算機科學係在讀博士。他的研究重點是將大量非結構化文本庫轉換為結構化知識,以便更好地檢索,探索和分析特定領域的語料庫。他是2016年Brian Totty研究生獎學金的獲得者。


Liyuan Liu伊利諾伊州厄巴納 - 香檳分校大學計算機科學係在讀博士。他的研究興趣主要在於數據驅動的文本挖掘,包括語言建模的語境化表示,弱監督和異構監督。


Jiawei Han是伊利諾伊大學計算機科學係的教授。他一直在研究數據挖掘,信息網絡分析和數據庫係統,有600多種出版物。他創辦了ACM TKDD學報並任主編。他已獲得ACM SIGKDD創新獎(2004年),IEEE計算機學會技術成就獎(2005年),IEEE計算機學會W. Wallace McDowell獎(2009年),以及UIUC的Daniel C. Drucker傑出教師獎(2011年)。他是ACM的研究員和IEEE的研究員。他目前是美國陸軍研究實驗室網絡科學 - 協作技術聯盟(NS-CTA)計劃支持的信息網絡學術研究中心(INARC)主任。他的合著教科書“數據挖掘:概念與技術”(Morgan Kaufmann)已在全球範圍內采用。


原文鏈接:

https://shangjingbo1226.github.io/2019-04-22-kdd-tutorial/


請關注專知公眾號(點擊上方藍色專知關注

  • 後台回複“HIN” 就可以獲取教程載鏈接~






-END-

·

專知,專業可信的人工智能知識分發!歡迎登錄www.webtourguide.com,注冊登錄專知,獲取更多AI知識資料!


歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業幹貨知識教程視頻資料和與專家交流谘詢


請加專知小助手微信(掃一掃如下二維碼添加),加入專知人工智能主題群,谘詢技術商務合作~

專知《深度學習:算法到實戰》課程全部完成!560+位同學在學習,現在報名,限時優惠!網易雲課堂人工智能暢銷榜首位!

點擊“閱讀原文”,了解報名專知《深度學習:算法到實戰》課程

登錄查看更多
7
0

相關內容

講座題目

從海量文本中構建和挖掘異構信息網絡:Constructing and Mining Heterogeneous Information Networks from Massive Text

講座簡介

真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效且可伸縮的方法,將非結構化文本轉換為結構化知識。根據我們的設想,將這些文本轉換成結構化的異構信息網絡是非常有益的,在這種網絡上,可以根據用戶的需要生成可操作的知識。在本教程中,我們將全麵概述最近在這方麵的研究和發展。首先,我們介紹了一係列有效的方法,從海量的、特定於領域的文本語料庫中構建異構信息網絡。然後討論了基於用戶需求挖掘文本豐富網絡的方法。具體來說,我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法可以處理各種文本。在真實的數據集(包括新聞文章、科學出版物和產品評論)上,我們進一步展示了如何構建信息網絡,以及如何幫助進一步的探索性分析。

講座嘉賓

Jingbo Shang(尚景波),伊利諾伊大學香檳分校計算機科學係博士生。他的研究重點是用最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多項著名獎項的認可,包括Yelp數據集挑戰大獎(2015)、穀歌結構化數據和數據庫管理博士研究金(2017-2019)。尚先生在大型會議(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方麵有豐富的經驗。

成為VIP會員查看完整內容
0
22
0

題目:TextCube: Automated Construction and Multidimensional Exploration

簡介:當今社會沉浸在大量文本數據中,從新聞文章到社交媒體,研究文獻,病曆和公司報告。數據科學和工程學的一大挑戰是開發有效且可擴展的方法,以從海量文本數據中提取結構和知識,以滿足各種應用的需要,而無需廣泛的人工注釋。在本教程中,我們將展示TextCube提供了一種可以滿足此類信息需求的關鍵信息組織結構。我們概述了一組最近開發的數據驅動方法,這些方法可幫助從大規模的特定於領域的文本語料庫自動構建TextCube,並表明如此構建的TextCube將增強各種應用程序的文本探索和分析。我們專注於可擴展,弱監督,獨立於域,與語言無關且有效的新TextCube構建方法(即從各種領域的大型語料庫生成高質量的TextCube)。我們將用真實的數據集演示如何構造TextCube來協助對大量文本語料庫進行多維分析。

嘉賓介紹:韓家煒,美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。 韓家煒主頁:https://hanj.cs.illinois.edu/

Jingbo Shang, 伊利諾伊州香檳分校博士。 他的研究專注於以最少的人力從大量文本語料庫中挖掘和構建結構化知識。 他的研究獲得了多個著名獎項的認可,包括Yelp數據集挑戰賽的大獎(2015年),Google博士在結構化數據和數據庫管理領域的獎學金(2017-2019年)。

成為VIP會員查看完整內容
0
16
1
小貼士
Top