基於知識圖譜的文本挖掘 - 超越文本挖掘

2019 年 8 月 18 日 專知
基於知識圖譜的文本挖掘 - 超越文本挖掘
  • 【導讀】文本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法。文本挖掘中最重要最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘算法,後者是無監督的挖掘算法。文本挖掘是一個多學科混雜的領域,涵蓋了多種技術,包括數據挖掘技術、信息抽取、信息檢索,機器學習、自然語言處理、計算語言學、統計數據分析、線性幾何、概率理論甚至還有圖論。本文主要介紹了基於Grakn的知識圖譜文本挖掘的一種方法-超越文本挖掘。

  • 文本是用於存儲關於我們生活的世界的大量科學知識的媒介。然而,隨著其規模和吞吐量的不斷增長; 分析這種非結構化數據已成為一項無比乏味的任務。這導致了文本挖掘和自然語言處理(NLP)技術和工具的興起,成為檢測和處理大量自然文本數據的必要條件。


    Text-Mining是從非結構化機器可讀的文本中自動提取結構化語義信息。識別和進一步分析這些明確的概念和關係有助於以可擴展和有效的方式發現文本中包含的多種見解。


    一些各種文本挖掘/ NLP技術包括:結構抽取,標記化,首字母縮略詞標準化,詞性還原,分解和識別語言,句子,實體,關係,短語和段落。


    但是,一旦我們擁有這種所謂的“結構語義信息”,我們該怎麼做呢?這些文本挖掘技術是否隻是產生了我們試圖揭示的見解?

  • 事情並非那麼簡單。即使在從文本中提取一些信息之後,還有很長的路要走,然後將其轉化為知識,然後轉化為有價值的見解。這種見解可能是一種新的發現,或者以我們對我們的領域的現有知識中創建新鏈接的形式確認和驗證先前的假設。讓我們看看為什麼超越文本挖掘不是一件容易的事。

  • 超越文本挖掘的挑戰是什麼?

    • 超越文本挖掘的挑戰是什麼?

  • 在使用大量NLP工具的同時,我發現文本挖掘/ NLP工具的輸出與我正在尋找的見解之間存在一些挑戰。這些可歸納如下:


    1. 難以攝取和集成文本挖掘輸出的複雜網絡
    文本挖掘單個文本實例很容易。我們也可以閱讀文本並自己提取其中包含的知識。但是,當我們的語料庫中有數百,數千或數百萬個獨立文本實例時,我們該怎麼做。在這種情況下,發現和理解每個文本中提取的知識(文本挖掘輸出)之間的關係變得非常困難。為了能夠進行這樣的分析,我們需要將所有輸出集成在一個地方 - 這並不像聽起來那麼容易。


    2. 難以將從文本中提取的知識與現有知識聯係起來
    第二,我們不僅要分析從文本中提取的知識,還要超越它,看看提取的信息如何與我們擁有的所有其他數據相關。這些數據將有自己的格式或結構; 無法將其與我們原來的NLP輸出進行比較。這導致難以將各組不同和異構數據之間的關係進行上下文化。


    3. 難以以可擴展和有效的方式研究見解
    最後,由於可以提取的文本量很大,以可擴展的方式生成或研究見解變得非常繁瑣。當然,可以針對單個文本實例手動發現有價值的見解,但是這種方法無法在數百萬個文本實例中擴展。而且,在大多數情況下,手動執行此操作實際上是不可能的。那我們做什麼?


    • 我們如何應對這些挑戰?

  • 考慮到這一點,我們可以考慮應對這些挑戰的解決方案。根據我的研究,我建議這種方法:


    1. 將文本挖掘輸出的複雜網絡集成並攝取到一個集合中
    為了解決第一個挑戰,我們需要一種方法來輕鬆地將文本挖掘輸出集成到一個集合中-換句話說,一個文本挖掘的知識圖譜。


    2. 強製規範化所有數據的顯式結構
    為了實現數據的智能分析和集成,同時保持數據完整性,我們需要對要分析的所有數據強加顯式結構。這不僅有助於概念本身的背景化,還有助於它們之間的關係。這轉化為具有更高級別的數據模型以包含各種類型的數據並且將它們的存在合並到知識圖譜中。這樣我們就可以在攝取時驗證數據。數據模型將充當所有數據類型的保護傘,允許我們將其內部和之間的所有關係進行上下文化。


    3. 使用自動推理發現新的見解
    為了從我們的知識圖譜中提取或推斷盡可能多的信息,我們需要某種自動推理工具來在整個數據中傳播我們的域專業知識。這將使我們能夠從我們的知識圖譜中提出問題,並通過他們的解釋得到正確的答案 - 其他傳統方法將失敗。


  • 在確定了之前列出的挑戰的解決方案之後,我想知道是否有任何一種技術,包含所有這三點?

    好吧,幸運的是,Grakn 解決了所有這些問題。

    如果您不熟悉它,Grakn是一個知識圖譜形式的智能數據庫,用於組織複雜的數據網絡。它包含一個基於超圖的知識表示係統; 實現任何類型複雜網絡的建模。然後,該知識表示係統由自動推理引擎解釋,該引擎實時地進行推理。該軟件以靈活且易於理解的查詢語言(Graql)的形式向用戶公開。


    • 構建文本挖掘的知識圖譜

  • 但是我們如何使用Grakn實際構建文本挖掘的知識圖譜?

    步驟1:識別文本
    要開始,我們首先需要知道我們正在挖掘並想要存儲的文本。在本文中,我想專注於生物醫學數據。因此,我看到的非結構化文本數據類型包括:

    1. 醫學文獻

    2. 診斷測試報告

    3. 電子健康記錄

    4. 病史醫學史

    5. 臨床報告

    在上麵列出的文本語料庫中。我選擇專門研究醫學文獻。具體來說,PubMed的文章摘要。


    第2步:識別文本挖掘/ NLP工具
    在查看此空間時,我發現可以輕鬆集成斯坦福的CoreNLP API以允許我訓練和挖掘文本。文本挖掘的腳本可以在我們的GitHub中找到。可以使用的其他工具可以包括:NLTK,TextBlob,gensim,spaCy,IBM Whatson NLU,PubTator,LitVar,NegBio,OpenNLP和BioCreative。


    第3步:
    為數據建模歸功於CoreNLP,我們現在擁有原始文本挖掘數據,我們可以進行數據建模。為此,Grakn利用實體關係模型將每個概念分組為實體,屬性或關係。這意味著我們所要做的就是將每個概念映射到模式概念類型,並識別它們之間的關係。讓我們看一個例子來說明我們將如何做到這一點。


    為了開始建模我們的CoreNLP輸出,我們首先需要知道它實際上是什麼樣的。最基本的挖掘從一組文本中提取句子。這些句子具有情感,標記(構成句子)以及某些標記之間的關係。我們還獲得了該工具識別的每種類型的置信度量。可視化表示如下:

  • 我們可以看到,輸出的結構已經是圖形式的。傳統方法努力將這些豐富的信息封裝到表格中,然而這會消除整個信息維度並適得其反。保持這種類似圖形的結構以構建我們從文本語料庫中提取的所有內容的集成複雜知識圖譜感覺更自然。我們可以輕鬆地將輸出映射到Graql。


  • 第4步:遷移到Grakn

    現在我們已經擁有了數據和強加於此數據的結構,下一步是將其遷移到Grakn中以將其轉換為知識。請注意,遷移有許多不同的方法,但在這裏我想具體談談如何使用Java,NodeJS和Python。

    為此,我們可以輕鬆地使用這些語言中的任何一種來插入符合我們建模的模式的提取信息的實例。下圖說明如何插入的一個實例token與lemma和type成Grakn使用任何這三種語言:

  • 要了解有關將數據遷移到Grakn的更多信息,請務必閱讀本文。


  • 第5步:發現和解釋新的見解

    遷移後,我們可以開始發現新的見解。發現見解是指尋找可能對我們正在努力實現的目標有價值的新數據。為了做到這一點,我們需要先看或要求一些東西。換句話說,我們從一個問題開始。這些問題的範圍可以從文本內部詢問,也可以是更複雜的問題,其中包括文本挖掘輸出增強的其他數據。

    讓我們看一些例子,看看我們的文本挖掘知識圖譜如何為它們提供答案:


    問題1:從PubMed文章中提取了哪些知識?

  • 答案1

  • 我們得到的答案是從我們感興趣的PubMed文章的摘要中挖掘的各種概念。上圖顯示了一個示例,其中提取的實體是:

    1. 基因 - BRAF

    2. 藥物 - 曲美替尼

    3. 藥物 - 達拉菲尼

    4. 疾病 - 黑色素瘤

    5. 蛋白質 - MEK
    我們也可以看到一些提取挖掘的關係:

    6. 抑製 - 在BRAF和達拉菲尼之間

    7. 抑製 - 介於MEK和曲美替尼之間

    8. 治療 - 在達拉菲尼和黑色素瘤之間

    9. 治療 - 曲美替尼與黑色素瘤之間的關係

    由於在我們的CoreNLP工具上進行了訓練,因此提取了這些實體和關係。有關這方麵的更多信息,請點擊此處。

    現在讓我們嚐試提出一個更難的問題:


  • 問題2:哪些PubMed文章提到了黑色素瘤和BRAF基因?

  • 答案2

  • 我們從Grakn收到的答案是所有與所提供條件相符的PubMed文章的列表。在精確醫學領域中可以提出這種查詢的一個很好的應用,我們希望將個體患者與其個人生物醫學案例相關的醫學文獻聯係起來。如果您對精準醫學和知識圖譜感興趣,請查看本文。

    這些查詢很有用,但是現在它有問題 - 它如何利用我們的文本挖掘知識圖譜來增強我們現有的知識?我們如何利用我們開采的內容擴展我們的見解並將其應用於生命科學的其他領域或領域?下一個問題顯示了這一點:


    問題3:哪種藥物與黑色素瘤有關?

  • 答案3

  • 盡管Grakn為我們的問題提供了正確答案,但這些數據實際上從未被攝入Grakn--疾病和藥物之間沒有任何聯係。那麼,我們是如何得到這個相關答案的呢?


    簡而言之 - Grakn的自動推理器通過自動推理為我們創建了這個答案。由於這種推理是完全可以解釋的,我們可以解釋任何推斷的概念,以了解它是如何被推斷/創建的。您可以在下麵看到Workbase中的解釋。在下一節中,我將深入探討如何創建允許Grakn推斷這些關係的邏輯和規則。


    • 解釋我們的答案

  • 我們在上麵看到的關係是一階邏輯的產物。這可以被建模為一個時和隨後的場景。

  • 在這種情況下,何時引用我們的文本挖掘知識圖譜的子圖 - 即,每當找到左邊的子圖時,就創建右邊的關係。


  • 這個邏輯在整個知識圖譜中傳播,創建了新的有價值的連接,這是通過Graql中的書麵規則完成的。我上麵用於推理的規則如下:

  • 上述規則規定,當:

    1. 存在一個帶有抽象$ a的PubMed文章$ p

    2. 抽象$ a中包含一個句子$ s

    3. 存在從句子$ s中提取的具有“處理”類型的挖掘關係

    4. 參與該挖掘的關係的標記有引理

    5. 這些引理與藥物和疾病具有相同的價值

    如果這是真的,那麼在藥物和疾病之間建立治療關係。我們還可以從上麵的規則中看出它對疾病或藥物是不可知的; 因此在每種藥物和疾病之間建立了與給定條件相匹配的治療關係。


    應該注意的是,上麵的規則演示了如何使用自動推理來創建對通過數據進行擴展的複雜洞察的高級抽象。它絕不會與最終用戶應用的完整實現相比。


    • 所有部件如何在一個架構中組合在一起?

  • 現在,讓我們後退一步,看看構建文本的所有組件是如何一起挖掘知識圖譜的。

  • 我們從可以來自多個來源和各種格式的文本開始。NLP工具用於挖掘文本並使用結構生成某種輸出。該結構用於創建模式(高級數據模型)以在原始NLP輸出上強製執行結構。完成後,我們使用Grakn的客戶之一將NLP輸出的實例遷移到Grakn中,確保每個插入都遵循模式。Grakn將其存儲在其知識表示係統中,可以查詢該係統以發現複雜概念或甚至測試假設。這些見解可以在圖表中,甚至可以在推理引擎查詢時創建; 例如,發現基因簇識別,蛋白質相互作用,基因 - 疾病關聯,蛋白質 - 疾病關聯,藥物 - 疾病關聯,患者匹配,甚至臨床決策支持。


    • 結論

  • 因此,我們知道Text Mining在幾個領域都非常有前景,在本文中我們專門研究了生物醫學領域。我們理解,從提取文本信息到實際發現有用的東西,需要做很多工作。我希望已經證明Grakn可以幫助彌合這一差距。總之,Grakn有助於解決文本挖掘中超越文本挖掘的三個關鍵挑戰。





-END-

專 · 知


專知,專業可信的人工智能知識分發,讓認知協作更快更好!歡迎登錄www.webtourguide.com,注冊登錄專知,獲取更多AI知識資料!

歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業幹貨知識教程視頻資料和與專家交流谘詢

請加專知小助手微信(掃一掃如下二維碼添加),加入專知人工智能主題群,谘詢技術商務合作~

專知《深度學習:算法到實戰》課程全部完成!560+位同學在學習,現在報名,限時優惠!網易雲課堂人工智能暢銷榜首位!

點擊“閱讀原文”,了解報名專知《深度學習:算法到實戰》課程

登錄查看更多
20
0

相關內容

知識圖譜(Knowledge Graph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關係的一係列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪製和顯示知識及它們之間的相互聯係。 知識圖譜是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,並利用可視化的圖譜形象地展示學科的核心結構、發展曆史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。它能為學科研究提供切實的、有價值的參考。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

現實世界的大數據以自然語言文本的形式,在很大程度上是非結構化的、相互關聯的、動態的。將如此龐大的非結構化數據轉換為結構化知識是非常必要的。許多研究人員依賴於勞動密集型的標記和管理來從這些數據中提取知識,這可能是不可擴展的,特別是考慮到許多文本語料庫是高度動態的和特定於域的。我們認為,大量的文本數據本身可能揭示了大量隱藏的模式、結構和知識。基於領域無關和領域相關的知識庫,我們探索海量數據本身將非結構化數據轉化為結構化知識的能力。通過將大量的文本文檔組織成多維文本數據集,可以有效地提取和使用結構化的知識。在這次演講中,我們介紹了一組最近開發的用於這種探索的方法,包括挖掘質量短語、實體識別和鍵入、多麵分類構造以及多維文本立方體的構造和探索。結果表明,數據驅動方法是將海量文本數據轉化為結構化知識的一個有前途的方向。

成為VIP會員查看完整內容
0
51
1
小貼士
相關資訊
NLP 與 NLU:從語言理解到語言處理
AI研習社
12+閱讀 · 2019年5月29日
文本分析與可視化
Python程序員
5+閱讀 · 2019年2月28日
論文淺嚐 | 基於知識庫的自然語言理解 01#
開放知識圖譜
10+閱讀 · 2019年2月22日
300頁文本知識提取與推斷最新教程
機器學習算法與Python學習
8+閱讀 · 2018年8月28日
文本數據分析(一):基本框架
論智
4+閱讀 · 2018年4月9日
相關論文
Distillating Knowledge from Graph Convolutional Networks
Yiding Yang,Jiayan Qiu,Mingli Song,Dacheng Tao,Xinchao Wang
13+閱讀 · 3月23日
Aidan Hogan,Eva Blomqvist,Michael Cochez,Claudia d'Amato,Gerard de Melo,Claudio Gutierrez,José Emilio Labra Gayo,Sabrina Kirrane,Sebastian Neumaier,Axel Polleres,Roberto Navigli,Axel-Cyrille Ngonga Ngomo,Sabbir M. Rashid,Anisa Rula,Lukas Schmelzeisen,Juan Sequeda,Steffen Staab,Antoine Zimmermann
72+閱讀 · 3月4日
Tianshuo Zhou,Ziyang Li,Gong Cheng,Jun Wang,Yu'Ang Wei
4+閱讀 · 2019年10月11日
Keyphrase Generation for Scientific Articles using GANs
Avinash Swaminathan,Raj Kuwar Gupta,Haimin Zhang,Debanjan Mahata,Rakesh Gosangi,Rajiv Ratn Shah
6+閱讀 · 2019年9月24日
Markus Eberts,Adrian Ulges
6+閱讀 · 2019年9月17日
Zi-Yuan Chen,Chih-Hung Chang,Yi-Pei Chen,Jijnasa Nayak,Lun-Wei Ku
3+閱讀 · 2019年4月2日
Xuelu Chen,Muhao Chen,Weijia Shi,Yizhou Sun,Carlo Zaniolo
3+閱讀 · 2019年2月26日
Tran Dang Quang Vinh,Tuan-Anh Nguyen Pham,Gao Cong,Xiao-Li Li
9+閱讀 · 2018年4月18日
Parisa Naderi Golshan,HosseinAli Rahmani Dashti,Shahrzad Azizi,Leila Safari
6+閱讀 · 2018年3月15日
Heng Fan,Haibin Ling
7+閱讀 · 2018年1月30日
Top