http://hanj.cs.illinois.edu/

從海量非結構化文本中挖掘結構化知識

現實世界的大數據很大程度上是動態的、相互關聯的、非結構化的文本。將這種海量的非結構化數據轉化為結構化知識是一個迫切需要解決的問題。許多研究人員依靠人工作業的標簽和管理從這些數據中提取知識。然而,這種方法是不可擴展的。我們認為,大量文本數據本身可能會揭示大量隱藏的結構和知識。通過預訓練的語言模型和文本嵌入方法,可以將非結構化數據轉化為結構化知識。在這次演講中,我們介紹了我們小組最近開發的一套用於此類探索的方法,包括聯合球形文本嵌入、判別性主題挖掘、分類法構建、文本分類和基於分類法的文本分析。我們證明了數據驅動方法在將海量文本數據轉化為結構化知識方麵是有前途的。

目錄內容: 動機 Motivation: Mining Unstructured Text for Structured Knowledge 理解語義Understanding Semantics: Text Embedding and Spherical Text Embedding (JoSE) 主題挖掘 Weakly Supervised, Discriminative, Hierarchical Topic Mining (CaTE, JoSH) 自動分類法構建 Automated Taxonomy Construction and Enrichment

現實世界中80%大數據都是個結構化文本,在很大程度上是非結構化的、互聯的和動態的,且以自然語言文本的形式出現,將此類龐大的非結構化數據轉換為有用的知識是在大數據時代的一條必由之路。目前大家普遍采用勞動密集型的方法對數據進行打標簽從而提取知識,這種方法短時來看可取,但卻無法進行擴展,特別是許多企業的文本數據是高度動態且領域相關。

韓家煒教授認為,大量的文本數據本身就隱含了大量的隱模式、結構和知識,因此我們可以借助domain-independent 和 domain-dependent的知識庫,來探索如何將海量數據從非結構化的數據轉化為有用的知識。 (1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來。 (2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube) (3)挖掘 Network/Text Cube 生成有用的知識。最後一步才是挖掘。

"> UIUC韓家煒:從海量非結構化文本中挖掘結構化知識 - 專知VIP

【導讀】如何從大規模文本中挖掘知識是個重要問題。最近數據挖掘大師韓家煒做了“從海量非結構化文本中挖掘結構化知識”報告,闡述了最新文本挖掘方麵的進展,非常值得關注!

韓家煒是美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。

韓教授曾獲2004 ACM SIGKDD創新獎、2005 IEEE計算機分會技術成就獎、2009 IEEE計算機分會WAllace McDowell Award和2011 Daniel C. Drucker Eminent Faculty Award at UIUC等獎項。

http://hanj.cs.illinois.edu/

從海量非結構化文本中挖掘結構化知識

現實世界的大數據很大程度上是動態的、相互關聯的、非結構化的文本。將這種海量的非結構化數據轉化為結構化知識是一個迫切需要解決的問題。許多研究人員依靠人工作業的標簽和管理從這些數據中提取知識。然而,這種方法是不可擴展的。我們認為,大量文本數據本身可能會揭示大量隱藏的結構和知識。通過預訓練的語言模型和文本嵌入方法,可以將非結構化數據轉化為結構化知識。在這次演講中,我們介紹了我們小組最近開發的一套用於此類探索的方法,包括聯合球形文本嵌入、判別性主題挖掘、分類法構建、文本分類和基於分類法的文本分析。我們證明了數據驅動方法在將海量文本數據轉化為結構化知識方麵是有前途的。

目錄內容: 動機 Motivation: Mining Unstructured Text for Structured Knowledge 理解語義Understanding Semantics: Text Embedding and Spherical Text Embedding (JoSE) 主題挖掘 Weakly Supervised, Discriminative, Hierarchical Topic Mining (CaTE, JoSH) 自動分類法構建 Automated Taxonomy Construction and Enrichment

  • SetExpan, SetCoExpan, CGExpan, HiExpan, CoRel
  • Automated Taxonomy Enrichment (TaxoExpan) 文檔分類 Document Classification by Weak Supervision
  • Weakly supervised: Using Category-Names Only (LOTClass)
  • Weakly Supervised Multiclass Classification Using Taxonomy (TaxoClass) Looking Forward

現實世界中80%大數據都是個結構化文本,在很大程度上是非結構化的、互聯的和動態的,且以自然語言文本的形式出現,將此類龐大的非結構化數據轉換為有用的知識是在大數據時代的一條必由之路。目前大家普遍采用勞動密集型的方法對數據進行打標簽從而提取知識,這種方法短時來看可取,但卻無法進行擴展,特別是許多企業的文本數據是高度動態且領域相關。

韓家煒教授認為,大量的文本數據本身就隱含了大量的隱模式、結構和知識,因此我們可以借助domain-independent 和 domain-dependent的知識庫,來探索如何將海量數據從非結構化的數據轉化為有用的知識。 (1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來。 (2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube) (3)挖掘 Network/Text Cube 生成有用的知識。最後一步才是挖掘。

成為VIP會員查看完整內容
4
52
0

相關內容

韓家煒,美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。 韓家煒主頁:https://hanj.cs.illinois.edu/

【導讀】國際人工智能會議AAAI 2022論文將在全程線上舉辦,時間在 2 月 22 日-3 月 1 日,本屆大會也將是第 36 屆 AAAI 大會。大會涵蓋了眾多最近研究Tutorial報告,來自Yu Meng,韓家煒等等學者共同做了關於預訓練語言表示的進展報告,非常值得關注!

本教程旨在介紹預訓練文本嵌入和語言模型(例如BERT和GPT)的最新進展,以及它們在廣泛的文本挖掘任務中的應用。本教程將係統地介紹(1) 預訓練的文本表示學習的發展,(2) 預訓練的模型如何有效地增強基本文本挖掘應用,以及(3)新的技術和方法來用於預訓練的文本表示,用於文本挖掘任務,而無需人工注釋。目標受眾包括任何對人工智能(AI)和機器學習(ML)技術感興趣的研究人員和從業人員,這些技術用於使用最先進的預訓練語言模型的自然語言和數據挖掘應用程序。觀眾將不僅了解文本表示學習和文本挖掘的背景和曆史,還將了解最新的模型和方法及其應用。我們的教程特別關注文本挖掘中的弱監督方法,這種方法需要最少的人力來學習模型。我們還將用真實的數據集演示預訓練的文本表示如何幫助減輕人類注釋的負擔,並促進自動、準確和高效的文本分析。 目標受眾包括典型的人工智能實踐者,他們可能對偏好學習有一個高層次的概念,但通常沒有意識到問題的各種挑戰性方麵。該教程的新穎之處在於將不同社區的不同範式翻譯成AI語言,從而使ML/AI社區受益。本教程將是自包含的,不需要任何先決條件。具有基本AI/ML知識的觀眾將能夠理解大部分材料。

目錄內容: 引言 Introduction 第一部分:預訓練語言模型 Part I: Pre-Trained Language Models [Slides] 第二部分 重溫文本挖掘基礎 Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models 第三部分 嵌入驅動主題挖掘 Part III: Embedding-Driven Topic Discovery 第三部分 弱監督文本挖掘 Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort 第四部分 高級文本挖掘應用 Part V: Advanced Text Mining Applications Empowered by Pre-Trained Language Models [Slides]

地址:https://yumeng5.github.io/aaai22-tutorial/

成為VIP會員查看完整內容
5
19
0

近日,計算機係孫茂鬆團隊成功研製了能夠綜合閱讀生物醫學領域文獻和分子結構的深度學習技術,相關研究成果“連通分子結構與生醫文獻的深度學習係統”(A Deep-learning System Bridging Molecule Structure and Biomedical Text with Comprehension Comparable to Human Professionals)於2月14日在《自然·通訊》(NatureCommunications)上在線發表。

對分子實體的性質及其相互作用規律的深度理解是藥物研發的重要基礎,長久以來受到生物醫學領域研究者的廣泛關注,研究成果分布在海量科研文獻中。為了加快生物醫學研究進程,深度學習技術被應用於閱讀和處理大規模生物醫學數據,以自動提取分子實體的相關知識。然而現有麵向生醫文獻和分子結構信息的機器閱讀技術隻能孤立地處理特定類型信息,無法同時處理文本和分子結構等多種類型信息,難以提取和整合蘊藏其間的複雜知識,這與人類專家相比存在較大差距。為了解決這一挑戰問題,孫茂鬆團隊提出采用統一的深度學習框架連通分子結構和生醫文獻,建立富知識的機器閱讀模型,實現對分子實體的全麵深度理解,更好地協助生物醫學研究。多項實驗結果表明,該技術具有對分子結構和生物醫學文獻等信息的綜合處理能力,特別是在分子性質理解測試任務上,該模型可以達到與人類專家相當的性能。 孫茂鬆團隊所提出的連通分子結構和生醫文獻的深度學習模型,已在多個生物醫學典型研究場景中驗證了有效性,並進一步實現了深度學習技術輔助生物醫學研究的新範式。例如對於任意分子結構,該模型可以預測並生成該分子性質的自然語言描述;對於給定的分子性質要求,該模型可以協助篩選符合條件的分子結構等。該研究展示了深度學習技術在閱讀理解海量生醫文獻和知識庫、促進自動藥物發現和性質理解方麵的巨大潛力。

分子結構與生醫文獻的協同學習框架 該論文通訊作者為計算機係黨委副書記劉知遠副教授與孫茂鬆教授,第一作者為計算機係博士生曾哲妮與姚遠。該研究由國家重點研發計劃與清華大學國強研究院提供支持。原文鏈接:https://www.nature.com/articles/s41467-022-28494-3

成為VIP會員查看完整內容
6
13
0

知識圖譜的早期理念源於萬維網之父 Tim Berners Lee 關於語義網(The Semantic Web) 的設想,旨在采用圖的結構(Graph Structure)來建模和記錄世界萬物之間的關聯關係和知識, 以便有效實現更加精準的對象級搜索。經過近二十年的發展,知識圖譜的相關技術已經在搜索引擎、智能問答、語言及視覺理解、大數據決策分析、智能設備物聯等眾多領域得到廣泛應用,被公認為是實現認知智能的重要基石。近年來,隨著自然語言處理、深度學習、圖數據處理等眾多領域的飛速發展,知識圖譜在自動化知識獲取、 基於知識的自然語言處理、基於表示學習的機器推理、基於圖神經網絡的圖挖掘與分析等領域又取得了很多新進展。

本課程是麵向浙江大學研究生開設的專業選修課程。課程係統性介紹知識圖譜的基本概念、核心技術內涵和應用實踐方法,具體內容涉及知識表示與推理、圖數據庫、關係抽取與知識圖譜構建、知識圖譜表示學習與嵌入、語義搜索與知識問答、圖神經網絡與圖挖掘分析等。課程內容的設計以“基礎、前沿與實踐”相結合為基本原則,既包括基本概念介紹和實踐應用內容,也包括學術界的最新前沿進展的介紹。
成為VIP會員查看完整內容
7
99
0

突出事實(OF)是使目標實體從其他實體中脫穎而出的屬性。OFs的挖掘具有重要的應用價值,特別是在計算新聞領域,如新聞推廣、事實核查和新聞報道尋找等。然而,現有的挖掘方法: (i) 忽略目標實體出現的上下文,因此可能報告與該上下文無關的事實; (ii) 需要關係數據,在許多應用程序域中,關係數據通常不可用或不完整。在本文中,我們引入了一個新的問題,即在上下文實體指定的給定上下文下挖掘目標實體的上下文感知突出事實(COFs)。我們提出了FMiner,一個上下文感知的挖掘框架,利用知識圖譜(KGs)進行COF挖掘。FMiner通過兩個步驟生成COF。首先,它發現目標和KG中的上下文實體之間的top-k相關關係。我們提出了新的優化和剪枝技術,以加快這一操作,因為這一過程是非常昂貴的大型KGs由於其指數複雜性。其次,對於每個派生關係,我們發現目標實體的屬性,這些屬性將目標實體與與上下文實體具有相同關係的對等實體區分開來,從而產生top-(k,l)。因此,挖掘過程被建模為一個top-(k,l)搜索問題。上下文感知是通過依賴與上下文實體的相關關係來派生對等實體進行COF提取來確保的。因此,FMiner可以通過合並上下文實體有效地導航搜索以獲得上下文感知的OFs。我們進行了大量的實驗,包括用戶研究,以驗證FMiner的效率和有效性。

https://dl.acm.org/doi/abs/10.1145/3447548.3467272

成為VIP會員查看完整內容
1
26
0

來自華為的研究人員在UIUC2021上將給出關於預訓練模型與文本挖掘的教程,非常值得關注!

近年來,文本表示學習在廣泛的文本挖掘任務中取得了巨大的成功。早期的單詞嵌入學習方法將單詞表示為固定的低維向量,以捕獲它們的語義。然後,將學習到的詞嵌入作為特定任務模型的輸入特征。近年來,預訓練語言模型(pre-training language model, PLMs)在自然語言處理(natural language processing, NLP)領域發生了革命性的變化,自然語言處理(natural language processing, NLP)通過大規模文本語料庫上預訓練的基於transformer的神經模型來學習通用語言表示。這種預訓練過的表示對通用語言特征進行編碼,這些特征幾乎可以遷移到任何與文本相關的應用中。在許多應用中,PLM優於先前的任務特定模型,因為它們隻需要對目標語料庫進行微調,而無需從頭開始訓練。

https://yumeng5.github.io/kdd21-tutorial/

在本教程中,我們將介紹預訓練文本嵌入和語言模型的最新進展,以及它們在廣泛的文本挖掘任務中的應用。具體來說,我們首先概述了一組最近開發的自監督和弱監督文本嵌入方法和預訓練的語言模型,它們是下遊任務的基礎。然後,我們提出了幾種基於預先訓練的文本嵌入和語言模型的新方法,用於各種文本挖掘應用,如主題發現和文本分類。我們關注的方法是弱監督、領域獨立、語言不可知、有效和可擴展的,用於從大規模文本語料庫中挖掘和發現結構化知識。我們將在真實的數據集上演示預先訓練的文本表示如何幫助減輕人工標注的負擔,並促進自動、準確和高效的文本分析。

目錄: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]

成為VIP會員查看完整內容
0
23
0

在《元素認知》(Elemental Cognition, EC)中,我們正在構建能夠閱讀、推理和理解文本的AI係統,通過構建能夠捕捉文本潛在含義的邏輯和因果模型。一個基本的挑戰是,AI係統通常缺乏構建豐富文本解釋模型所需的常識性背景知識。要解決這一問題,需要解決兩個問題: 首先,我們需要獲得經常隱含的、高度多樣化的常識性知識; 其次,我們需要開發有效的技術,將這些知識整合到人工智能推理係統中。在EC,我們已經開發了這兩個問題的解決方案——我們創建了GLUCOSE,這是一個高質量的半結構化常識知識圖譜,包含約600K的因果規則,是眾包的(使用Amazon Mechanical Turk),然後,我們使用GLUCOSE知識作為種子數據來微調大型的預訓練過的語言模型,以構建“動態規則生成器”,並將其插入我們的神經符號推理機Braid中。在這次演講中,我將描述我們如何構建和使用GLUCOSE來解決一個進行語言理解的AI推理係統的知識獲取瓶頸。

https://web.stanford.edu/class/cs520/abstracts/kalyanpur.html

成為VIP會員查看完整內容
0
42
0

電子表格公式預測一直是一個重要的程序合成問題,有許多實際應用。以前的工作通常利用輸入-輸出示例作為電子表格公式合成的規範,其中每個輸入-輸出對模擬電子表格中的單獨一行。然而,這種形式並沒有完全捕獲真實電子表格中的豐富上下文。首先,電子表格的數據條目被組織為表,因此行和列不一定是彼此獨立的。此外,許多電子表格包含頭文件,提供單元格數據的高級描述。然而,以前的合成方法並不認為頭文件是規範的一部分。在本工作中,我們介紹了從表格上下文合成電子表格公式的第一種方法,它包括標題和半結構化表格數據。特別是,我們提出了SPREADSHEETCODER,一種基於BERT的模型體係結構,以基於行和基於列的格式表示表格上下文。我們在一個大的電子表格數據集上訓練我們的模型,並證明SPREADSHEETCODER達到了前1的預測精度42.51%,這是一個相當大的改進,沒有使用豐富的表格上下文的基線。與基於規則的係統相比,SPREADSHEETCODER在穀歌表格中幫助用戶編寫公式的能力要高出82%。

//www.webtourguide.com/paper/09f81e73ff95f13f200df295c48bd865

成為VIP會員查看完整內容
0
10
0

【導讀】本文為大家帶來了一份斯坦福大學的最新課程CS246——大數據挖掘Mining Massive Data Sets,主講人是斯坦福大牛Jure Leskovec,他是斯坦福大學計算機學院的副教授,也是圖表示學習方法 node2vec 和 GraphSAGE 作者之一。

本課程將討論用於分析大數據的數據挖掘和機器學習算法。重點將放在MapReduce和Spark作為創建並行算法的工具,這些算法可以處理非常大的數據。

原始鏈接:http://web.stanford.edu/class/cs246/

1 課程介紹

主題包括: 頻繁項集和關聯規則,高維數據中的近鄰搜索,局部敏感哈希(LSH),降維,推薦係統,聚類,鏈接分析,大規模監督機器學習,數據流,挖掘結構化數據的Web, Web廣告。

2 課程目錄

  • 01:課程介紹和MapReduce and Spark(Introduction; MapReduce and Spark)
  • 02:頻繁項集挖掘(Frequent Itemsets Mining)
  • 03:局部敏感哈希(Locality-Sensitive Hashing I)
  • 04:局部敏感哈希(Locality-Sensitive Hashing II)
  • 05:聚類(Clustering)
  • 06:推薦係統(Recommender Systems I)
  • 07:推薦係統(Recommender Systems II)
  • 08:PageRank(PageRank)
  • 09:鏈接欺詐與社交網絡導論(Link Spam and Introduction to Social Networks)
  • 10:社區檢測(Community Detection in Graphs)
  • 11:圖表示學習(Graph Representation Learning)
  • 12:大規模機器學習(Large-Scale Machine Learning I)
  • 13:數據流挖掘(Mining Data Streams I)
  • 14:計算廣告(Computational Advertising)
  • 15:通過實驗學習(Learning through Experimentation)
  • 16:優化子模塊功能(Optimizing Submodular Functions)
成為VIP會員查看完整內容
2
42
0

摘要: 電子病曆是醫院信息化發展的產物, 其中包含了豐富的醫療信息和臨床知識, 是輔助臨床決策和藥物挖掘等的重要資源.因此, 如何高效地挖掘大量電子病曆數據中的信息是一個重要的研究課題.近些年來, 隨著計算機技術尤其是機器學習以及深度學習的蓬勃發展, 對電子病曆這一特殊領域數據的挖掘有了更高的要求.電子病曆綜述旨在通過對電子病曆研究現狀的分析來指導未來電子病曆文本挖掘領域的發展.具體而言, 綜述首先介紹了電子病曆數據的特點和電子病曆的數據預處理的常用方法;然後總結了電子病曆數據挖掘的4個典型任務(醫學命名實體識別、關係抽取、文本分類和智能問診), 並且圍繞典型任務介紹了常用的基本模型以及研究人員在任務上的部分探索;最後結合糖尿病和心腦血管疾病2類特定疾病, 對電子病曆的現有應用場景做了簡單介紹.

https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2021.20200402

成為VIP會員查看完整內容
1
58
0

以ELMO (Peters et al., 2018)、GPT (Radford et al., 2018)和BERT (Devlin et al., 2019)為代表的預訓練語言模型受到了廣泛關注,並提出了大量的變體模型。在這些研究中,一些研究人員致力於將知識引入語言模型(Levine et al., 2019; Lauscher et al., 2019; Liu et al., 2019; Zhang et al., 2019b)。ERNIE-Baidu (Sun et al., 2019)引入新的掩蔽單元,如短語和實體,在這些掩蔽單元中學習知識信息。作為獎勵,來自短語和實體的語法和語義信息被隱式地集成到語言模型中。此外,ERNIE-Tsinghua (Zhang et al., 2019a)探索了一種不同的知識信息,將知識圖譜整合到BERT中,同時學習詞彙、句法和知識信息。Xiong et al. (2019) 將實體替換檢查任務引入到預先訓練的語言模型中,並改進若幹與實體相關的下遊任務,如問答和實體類型。Wang et al.(2020)提出了一種將知識注入語言模型的插件方式,他們的方法將不同種類的知識保存在不同的適配器中。這些方法所引入的知識信息並沒有很重視KG中圖表化的知識。

http://web.stanford.edu/class/cs224n/index.html#schedule

成為VIP會員查看完整內容
0
49
0
小貼士
微信掃碼谘詢專知VIP會員
Top