除了以實體為中心的知識(通常以知識圖譜(knowledge Graph, KG)的形式組織起來),事件也是世界上必不可少的一種知識,它引發了以事件為中心的知識表示形式(Event KG, EKG)的興起。它在許多機器學習和人工智能應用中發揮著越來越重要的作用,如智能搜索、問題回答、推薦和文本生成。本文從曆史、本體、實例和應用視圖等方麵對EKG進行了全麵的綜述。為了更全麵地描述EKG,我們將重點關注它的曆史、定義、模式歸納、獲取、相關的代表性圖形/係統和應用程序。研究了其發展過程和趨勢。我們進一步總結了未來EKG研究的發展方向。

知識圖譜(KG)是穀歌在2012年發布的一種流行的知識表示形式。它關注名義實體及其關係,因此代表靜態知識。然而,世界上存在著大量的事件信息,傳遞著動態的程序性知識。因此,以事件為中心的知識表示形式(如Event KG (EKG))也很重要,它將實體和事件結合在一起。它促進了許多下遊應用,如智能搜索、問答、推薦和文本生成[1]、[2]、[3]、[4]、[5]。

本文就EKG的概念及其發展進行了深入的探討。關於EKG你想知道什麼?你可能會對它的產生感興趣,也就是所謂的EKG,如何構建它,以及它的進一步應用。為了全麵介紹EKG,我們從曆史、本體論、實例和應用視圖等方麵對其進行了介紹。從曆史的觀點,我們介紹了EKG的簡史和我們導出的EKG的定義。從本體的角度,提出了與EKG相關的基本概念,以及EKG相關的任務和方法,包括事件模式歸納、腳本歸納和EKG模式歸納。從實例視圖,我們詳細闡述了事件獲取和與EKG相關的代表圖/係統。具體來說,事件獲取的重點是如何構建一個基本的EKG,並獲得一個更好的EKG。前者包括事件抽取和事件關係抽取,是最基本的任務。後者包括事件相互引用解析和事件參數補全。從應用的角度,介紹了一些基本的應用,包括腳本事件預測和時間KG預測,以及一些深層次的應用,如搜索、問答、推薦和文本生成。並對相關任務的發展過程和趨勢進行了深入的研究和分析。然後指出未來的方向。

事件知識圖譜發展曆程

什麼是EKG?曆史視角

在本節中,我們將從曆史的視角,簡要介紹EKG的曆史。然後我們根據曆史上與EKG相關的概念推導出EKG的定義。

什麼是EKG?本體視角

從本體的角度來看,我們研究了模式和相關的任務。EKG的模式描述了構成它的基本概念,比如事件類型、事件參數的角色以及事件之間的關係。事件類型和事件參數的角色構成了事件的框架,即事件模式。對於事件之間的關係,典型的腳本[30]根據一些事件關係組織一組事件,這些事件關係共同描述了常見的場景。

未來方向與挑戰

關於EKG的研究和成果有很多。然而,仍有幾個方向需要關注和進一步研究。在本節中,我們將深入探討這些未來的方向。

高性能的事件獲取

最近的事件獲取研究在有效性和效率上遠遠不能滿足應用需求。特別是事件提取和事件關係提取的精度較低。從而阻礙了高質量基礎EKG的構建。此外,現有的模型通常不重視複雜性問題。然而,高參數複雜度和高時間複雜度的模型不利於從大量數據中快速構建EKG。因此,高效率的事件獲取是未來的一個重要方向。

多模態知識處理

在現實世界中,事件可能以文本、圖像、音頻和視頻的形式呈現。然而,現有的關於EKG的研究多集中在文本處理上,而忽略了圖像、音頻、視頻中的大量信息。對於多模態事件表示學習[214]和事件抽取[215]的研究很少。實際上,不同模態的事件可以消除歧義,相互補充。因此,多模態信息的聯合利用是未來的一個重要方向。具體來說,來自所有模態的事件應在一個統一的框架中表示,事件獲取研究應注意多模態提取,EKG圖推理也應考慮多模態信息。

可解釋EKG研究

在EKG研究中,研究主要集中在用深度學習方法擬合訓練數據。然而,它們通常缺乏可解釋性,也就是說,對於它們為什麼和如何工作沒有明確的想法。實際上,了解最終結果的原因有助於在實際應用中采用它們。它是友好和令人信服的解釋為什麼最終結果是給定的。未來可解釋性EKG的研究將是一個重要的方向。

實用EKG研究

在與EKG相關的任務中,有些任務的形式化過於理想化,與現實場景相距甚遠。例如,在一個現有的事件中,隻完成一個缺失的參數或參數角色,通過從幾個候選對象中選擇它來預測未來的腳本事件,並且隻預測未來事件的一個元素。在更實際的形式下進行研究更具挑戰性,但也更有趣,對應用具有重要意義。

EKG對於許多都很重要,包括智能搜索、問題回答、推薦和文本生成。本文從不同角度對EKG的研究進行了綜述。特別地,我們深入研究了EKG的曆史、本體、實例和應用視圖。它的曆史,定義,模式歸納,獲取,相關的代表圖/係統,和應用進行了深入的研究。根據其發展趨勢,進一步總結了未來EKG研究的展望方向。

"> 什麼是事件知識圖譜?中科院計算所發布《事件知識圖譜綜述》論文,闡述從曆史、本體、實例和應用視角定義EKG - 專知VIP

除了以實體為中心的知識(通常以知識圖譜(knowledge Graph, KG)的形式組織起來),事件也是世界上必不可少的一種知識,它引發了以事件為中心的知識表示形式(Event KG, EKG)的興起。它在許多機器學習和人工智能應用中發揮著越來越重要的作用,如智能搜索、問題回答、推薦和文本生成。本文從曆史、本體、實例和應用視圖等方麵對EKG進行了全麵的綜述。為了更全麵地描述EKG,我們將重點關注它的曆史、定義、模式歸納、獲取、相關的代表性圖形/係統和應用程序。研究了其發展過程和趨勢。我們進一步總結了未來EKG研究的發展方向。

知識圖譜(KG)是穀歌在2012年發布的一種流行的知識表示形式。它關注名義實體及其關係,因此代表靜態知識。然而,世界上存在著大量的事件信息,傳遞著動態的程序性知識。因此,以事件為中心的知識表示形式(如Event KG (EKG))也很重要,它將實體和事件結合在一起。它促進了許多下遊應用,如智能搜索、問答、推薦和文本生成[1]、[2]、[3]、[4]、[5]。

本文就EKG的概念及其發展進行了深入的探討。關於EKG你想知道什麼?你可能會對它的產生感興趣,也就是所謂的EKG,如何構建它,以及它的進一步應用。為了全麵介紹EKG,我們從曆史、本體論、實例和應用視圖等方麵對其進行了介紹。從曆史的觀點,我們介紹了EKG的簡史和我們導出的EKG的定義。從本體的角度,提出了與EKG相關的基本概念,以及EKG相關的任務和方法,包括事件模式歸納、腳本歸納和EKG模式歸納。從實例視圖,我們詳細闡述了事件獲取和與EKG相關的代表圖/係統。具體來說,事件獲取的重點是如何構建一個基本的EKG,並獲得一個更好的EKG。前者包括事件抽取和事件關係抽取,是最基本的任務。後者包括事件相互引用解析和事件參數補全。從應用的角度,介紹了一些基本的應用,包括腳本事件預測和時間KG預測,以及一些深層次的應用,如搜索、問答、推薦和文本生成。並對相關任務的發展過程和趨勢進行了深入的研究和分析。然後指出未來的方向。

事件知識圖譜發展曆程

什麼是EKG?曆史視角

在本節中,我們將從曆史的視角,簡要介紹EKG的曆史。然後我們根據曆史上與EKG相關的概念推導出EKG的定義。

什麼是EKG?本體視角

從本體的角度來看,我們研究了模式和相關的任務。EKG的模式描述了構成它的基本概念,比如事件類型、事件參數的角色以及事件之間的關係。事件類型和事件參數的角色構成了事件的框架,即事件模式。對於事件之間的關係,典型的腳本[30]根據一些事件關係組織一組事件,這些事件關係共同描述了常見的場景。

未來方向與挑戰

關於EKG的研究和成果有很多。然而,仍有幾個方向需要關注和進一步研究。在本節中,我們將深入探討這些未來的方向。

高性能的事件獲取

最近的事件獲取研究在有效性和效率上遠遠不能滿足應用需求。特別是事件提取和事件關係提取的精度較低。從而阻礙了高質量基礎EKG的構建。此外,現有的模型通常不重視複雜性問題。然而,高參數複雜度和高時間複雜度的模型不利於從大量數據中快速構建EKG。因此,高效率的事件獲取是未來的一個重要方向。

多模態知識處理

在現實世界中,事件可能以文本、圖像、音頻和視頻的形式呈現。然而,現有的關於EKG的研究多集中在文本處理上,而忽略了圖像、音頻、視頻中的大量信息。對於多模態事件表示學習[214]和事件抽取[215]的研究很少。實際上,不同模態的事件可以消除歧義,相互補充。因此,多模態信息的聯合利用是未來的一個重要方向。具體來說,來自所有模態的事件應在一個統一的框架中表示,事件獲取研究應注意多模態提取,EKG圖推理也應考慮多模態信息。

可解釋EKG研究

在EKG研究中,研究主要集中在用深度學習方法擬合訓練數據。然而,它們通常缺乏可解釋性,也就是說,對於它們為什麼和如何工作沒有明確的想法。實際上,了解最終結果的原因有助於在實際應用中采用它們。它是友好和令人信服的解釋為什麼最終結果是給定的。未來可解釋性EKG的研究將是一個重要的方向。

實用EKG研究

在與EKG相關的任務中,有些任務的形式化過於理想化,與現實場景相距甚遠。例如,在一個現有的事件中,隻完成一個缺失的參數或參數角色,通過從幾個候選對象中選擇它來預測未來的腳本事件,並且隻預測未來事件的一個元素。在更實際的形式下進行研究更具挑戰性,但也更有趣,對應用具有重要意義。

EKG對於許多都很重要,包括智能搜索、問題回答、推薦和文本生成。本文從不同角度對EKG的研究進行了綜述。特別地,我們深入研究了EKG的曆史、本體、實例和應用視圖。它的曆史,定義,模式歸納,獲取,相關的代表圖/係統,和應用進行了深入的研究。根據其發展趨勢,進一步總結了未來EKG研究的展望方向。

成為VIP會員查看完整內容
2
63
0

相關內容

近年來,以知識圖譜快速增長的知識工程又重新興起。然而,現有的知識圖譜大多用純符號表示,這損害了機器理解現實世界的能力。知識圖譜的多模態化是實現人機智能的必然步驟。這一努力的結果是多模態知識圖(MMKGs)。在本研究中,我們首先給出了由文本和圖像構成的多模態任務的定義,然後對多模態任務和技術進行了初步探討。然後,我們係統地回顧了MMKG在構建和應用方麵所麵臨的挑戰、進展和機遇,並詳細分析了不同解決方案的優勢和劣勢。我們通過與MMKG相關的開放研究問題來完成這項綜述。

引言

近年來,以知識圖譜快速增長的知識工程又重新興起。知識圖譜本質上是一個以實體、概念為節點、以概念之間的各種語義關係為邊的大規模語義網絡。知識圖譜在現實生活中廣泛應用,包括文本理解、推薦係統和自然語言問題回答。越來越多的知識圖譜被創建出來,包括常識知識(如Cyc[1]、ConceptNet[2])、詞彙知識(如WordNet[3]、BabelNet[4])、百科知識(如Freebase[5]、DBpedia[6]、YAGO[7]、WikiData[8]、CN-Dbpedia[9])、分類知識(如Probase[10])和地理知識(如GeoNames[11])。

然而,現有的知識圖譜大多是用純符號表示的,以文本的形式表示,這削弱了機器對現實世界的描述和理解能力。人類如果沒有與狗相處的經曆,就無法理解狗是什麼,這就啟發了研究人員在符號dog和狗的經曆之間建立聯係,即將一個符號根植於它的物理世界,即[12],[13],[14]。同樣,將符號形式與非符號體驗相結合,有利於獲得真實的交際意圖[15]。例如,沒有親身體驗過hand -in-waistcoat的顧客無法理解作為一種特殊姿勢(手放在外套翻蓋內)的含義,從而導致顧客對攝影師的要求做出錯誤的反應。因此,有必要將符號與相應的圖像、聲音和視頻數據相對應,並將符號映射到物理世界中具有意義的對應對象,使機器在麵對特定的實體Hand-in-waistcoat或抽象概念Dog時,能夠產生類似於真實人類[12]的“體驗”。另一方麵,為了突破現實世界應用程序[16]、[17]、[18]的瓶頸,對知識的多模態需求日益增長。例如,在關係提取任務中,額外的圖像通常會大大提高提取符號和文本中那些在視覺上很明顯但難以識別的屬性和關係的性能,例如:鍵盤和屏幕是筆記本電腦的一部分,顏色是(例如:香蕉通常是黃色或黃綠色,但不是藍色)。在文本生成任務中,如果機器通過參考多模態KG (MMKG),被賦予識別圖像中特定實體的能力,機器可以生成一個信息更豐富的實體級句子(例如唐納德·特朗普正在發表演講),而不是一個模糊的概念級描述(例如一個金發高個子男人正在發表演講)。

圖1: A-MMKG和N-MMKG兩種不同類型的MMKG示例

由於各種應用對多模態知識引導需求的快速增長,知識引導的多模態及其應用近年來蓬勃發展。但目前對這一新興領域的研究進展、麵臨的挑戰和麵臨的機遇還缺乏係統的綜述。本文希望填補這一空白,係統地綜述近年來有關MMKG的研究進展: 1) 構建。MMKG的構造可以在兩個相反的方向上進行。一種是從圖像到符號,即用KG表示符號來標注圖像; 另一種是從符號到圖像,即把KG中的符號對應到圖像。在構建部分,我們將係統地介紹將各種符號知識(包括實體、概念、關係和事件)與它們在兩個相反方向上的對應圖像關聯起來的挑戰、進展和機遇。2)應用。MMKG的應用可以大致分為兩類,一類是In-MMKG應用,目的是解決MMKG本身的質量或集成問題,另一類是MMKG外應用,這是一般的多模態任務,mmkg可以提供幫助。在應用部分,我們將介紹如何將mmkg應用於幾個經過充分研究的多模態任務中。

綜上所述,我們是第一個對現有的由文本和圖像組成的MMKG的工作進行全麵綜述的。為了提升本次調查的價值,我們注意確保以下特點:1)全麵調研。我們係統、全麵地回顧了MMKG建設和應用方麵的現有工作。2)深刻的分析。我們分析了不同解決方案在MMKG建設中的優缺點,並討論了MMKG如何在各種下遊應用中提供幫助。3)顯示的機會。本文不僅指出了MMKG建設的一些潛在機遇,而且還列舉了MMKG未來的發展方向。

本論文的其餘部分組織如下: 第2節給出了MMKG的定義和初步。第3節全麵回顧了MMKGs構建麵臨的挑戰、進展和機遇,第4節介紹了MMKG如何應用於幾個已深入研究的多模態應用中。第5節回顧了MMKG的一些未決問題,並強調了有前途的未來方向。第六節總結了本文。

多模態知識圖譜構建

MMKG構建的實質是將傳統KG中的符號知識(包括實體、概念、關係等)與相應的圖像相關聯。完成該任務有兩種相反的方式: (1) 在圖像上標注KG中的符號; (2) 在圖像上標注KG中的對應符號。我們分別在第3.1節和第3.2節中闡述了兩類解決方案。

從圖像到符號:標注圖像

CV社區已經開發了許多圖像標注解決方案,這些解決方案可用於在KG中使用知識符號標注圖像。大多數圖像標記解決方案學習從圖像內容到各種各樣的標簽集的映射,包括對象、場景、實體、屬性、關係、事件和其他符號。學習過程由人工標注的數據集監督,這需要人群工作者繪製邊界框並標注帶有給定標簽的圖像或圖像區域,如圖2所示。一些知名的基於圖像的視覺知識提取係統如表2a所示,可以通過圖像標記來構建MMKG。根據需要鏈接的符號類別,將圖像與符號鏈接的過程分為幾個細分任務: 視覺實體/概念提取(3.1.1)、視覺關係提取(3.1.2)和視覺事件提取(3.1.3)。

從符號到圖像: 符號定位(Grounding)

符號定位符號Grounding是指尋找合適的多模態數據項(如圖像)來表示傳統KG中存在的符號知識的過程。與圖像標注方式相比,符號定位方式在MMKG施工中應用更為廣泛。大多數現有的MMKG都是以這種方式構建的,如表2b所示。在本小節的其餘部分,我們將在幾個細分任務中介紹將符號定位到圖像的過程:實體定位(第3.2.1節)、概念定位(第3.2.2節)和關係定位(第3.2.3節)。

多模態知識圖譜應用

在係統地回顧了MMKG的構建之後,本節探討了如何將MMKG中的知識應用到各種各樣的下遊任務中並使之受益。為了快速概述,表5列出了一些主流應用任務、它們的基準數據集以及MMKG帶來的優勢。我們將這些任務分為(i) in-KG應用(4.1節)和(ii) out- kg應用程序(4.2節),如下所述

In-MMKG應用

In-MMKG應用是指在MMKG範圍內進行的任務,在這些任務中,已經學習了實體、概念和關係的嵌入。因此,在介紹in-MMKG應用程序之前,我們先簡要介紹MMKG中知識的分布式表示學習,也稱為MMKG嵌入。其中,MMKG嵌入模型是從傳統KGs上的嵌入模型發展而來的,即基於距離的模型[133],認為同一三聯體的頭實體和尾實體在投影空間上應該相近,基於翻譯的模型TransE[134]及其變體[135],[136],[137],其中應符合t≈h + r的假設。h, t, r分別是三元組中頭部實體、尾部實體和關係的向量表示。在處理多模態數據時,還有兩個額外的問題:如何有效地編碼圖像中的視覺知識和信息,以及如何融合不同模態的知識。1)視覺編碼器。盡管CV中已有許多現成的圖像信息編碼技術,但隨著深度學習的發展,卷積神經網絡的隱藏特征是MMKG表示中主要使用的圖像嵌入方法[138]、[139]、[140],而其他顯式視覺特征如灰度直方圖描述符(GHD)、麵向梯度直方圖描述符(HOG)、顏色布局描述符(CLD)很難用於MMKG表示。2)知識融合。為了融合多模態的知識嵌入,考慮了多種融合方法,包括簡單的拚接、多模態嵌入的平均值、基於歸一化或加權的SVD和PCA[139],而有些方法[139]直接將融合結果作為MMKG嵌入,其他方法[140]進一步訓練設計良好的目標函數上的單模態表示。

  • 鏈接預測 Link Prediction
  • 三元組分類 Triple Classification
  • 實體鏈接 Entity Classification
  • 實體對齊 Entity Alignment

out-of-KG 應用

out-of-KG應用是指不受mmkg限製,但可以被mmkg輔助的下遊應用。接下來,我們將介紹多模態命名實體識別和實體鏈接、視覺問答、圖像-文本匹配、多模態生成和多模態推薦係統等應用實例。我們沒有對這些任務的所有解決方案進行係統的回顧,而是主要介紹了MMKG是如何使用的。

  • 多模態實體識別與鏈接 Multi-modal Entity Recognition and Linking
  • 視覺問答 Visual Question Answering
  • 圖像文本匹配 Image-Text Matching
  • 多模態生成任務 Multi-modal Generation Tasks
  • 多模態推薦係統 Multi-modal Recommender System

多模態知識圖譜開放問題

  • 複雜符號知識定位Grounding Complex Symbolic Knowledge Grounding

除了實體、概念和關係的基礎之外,一些下遊應用還需要複雜的符號知識的基礎,這些知識由多個相互具有密切語義關係的關係事實組成。這些多個關係事實可能是KG中的一條路徑或一個子圖。例如,對於KG中包含特朗普妻子、女兒、孫子等的子圖,合適的背景圖片可能是特朗普的家庭照片。這將促使多重關係基礎,其目的是尋找表示包含在KG中的路徑或子圖中的知識的圖像。多重關係定位是一種具有挑戰性的grounding 方式,它涉及到多個關係的接地,並且這些多個grounding通常以複雜的方式交織在一起。我們必須找到充分體現複合語義關係的圖像。在許多情況下,複合語義隻是隱式表達的,並且可能隨著時間而改變。

  • 質量控製 Quality Control

通常,我們依賴於數據驅動的方法來構建大規模的MMKG。從大數據中自動獲取的MMKG不可避免地會出現質量問題,即MMKG可能存在錯誤、缺少事實或過時的事實。例如,在基於搜索行為數據的多模態知識獲取中,很容易將一個錯誤的圖像與一個長尾實體相關聯,因為該實體在Web上可能沒有圖像,因此任何點擊的圖像都會誤導到一個錯誤的grounding。MMKG除了在精度、完整性、一致性和新鮮度等常見的質量問題上進行了廣泛的討論和研究外,還存在一些與圖像質量有關的特殊問題。

  • 效率 fficiency 在構建大規模KG時,效率始終是一個不可忽視的問題。構造MMKG的效率問題更引人注目,因為需要考慮處理多媒體數據的額外複雜性。例如,NEIL[19]需要大約350K CPU小時來為2273個對象收集400K的可視化實例,而在一個典型的KG中,我們需要接收數十億個實例。在構建MMKG中,現有解決方案的可擴展性將受到極大的挑戰。如果基礎目標是視頻數據,那麼可擴展性問題甚至可能被放大。除了MMKG的構建,MMKG的在線應用還需要認真解決效率問題,因為MMKG需要實時服務於應用。解決方案的效率對於構建基於MMKG的在線應用至關重要。
成為VIP會員查看完整內容
3
46
0

知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關係的技術. 知識圖譜嵌入(KGE)作為一 種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關係嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下遊任務受益,例如 KG 補全和關係提取等. 本文首先對現有的知識圖譜嵌入技術進行全麵回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關係嵌入、評分函數等方麵進行分析、對比與總結. 然後簡要介紹 KG 嵌入技術在下遊任務中的典型應用,包括問答係統、推薦係統和關係提取等.最後闡述知識圖譜 嵌入麵臨的挑戰,對未來的研究方向進行展望.

引言

知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建並 應用於許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答係統[12,13]等.知識圖譜是以 現實世界的實體為節點,實體之間的關係為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了 一個三元組,即(頭實體,關係,尾實體),表示頭實體與尾實體通過關係進行連接.盡管知識圖譜在表示結構化數據 方麵非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .

為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關係)嵌入 到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體 和關係提供了更加密集的表示,降低了其應用中的計算複雜度.此外,KGE 可以通過度量實體和關係低維嵌入的 相似性來顯式地捕獲實體和關係之間的相似性.

盡管研究者已提出多種模型來學習 KG 中的實體和關係表示,但是目前大多數可用的技術仍然僅根據知識 圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關係,並為每 個三元組定義一個評分函數以衡量其在該空間中的合理性.然後通過最大化觀察到的三元組的總合理性來學 習實體和關係的嵌入.這些學習的嵌入還可以進一步用於實現各種任務,例如 KG 補全[15,16] ,關係提取[10,17] ,實體 分類[18,19] ,實體解析[18,20]等.由於在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下遊任務可 能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關係路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.

本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進 行嵌入的技術進行全麵回顧,具體介紹基於距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了 融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、 關係路徑等.第 5 節介紹 KGE 技術在下遊任務中的典型應用.第 6 節對 KGE 技術麵臨的挑戰與未來研究方向 進行討論.最後,第 7 節對全文工作進行總結.

1 符號定義

知識圖譜嵌入旨在將 KG 中的實體和關係嵌入到一個低維連續的語義空間中.為了便於說明,本小節定義 幾種基本符號.首先,定義知識圖譜為 G=(E,R,S).

2. 使用事實進行知識圖譜嵌入

本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用於衡量事實的合理性,在 基於能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基於距離的評分函數(如圖 1(a))與基 於相似性的評分函數(如圖 1(b)).

2.1 基於距離的模型

基於距離的模型使用基於距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況 下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基於距離的模型通常由關係執行翻譯後,根據兩個實體之間的距離 來度量一個事實的合理性.本小節將基於距離的模型進一步細分為基本距離模型,翻譯模型和複雜關係建模.

基於距離的模型總結

2.2 語義匹配模型

語義匹配模型利用基於相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法 公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關係編碼的不同模型結構來 介紹代表性的語義匹配模型.

語義匹配模型總結

2.3 最新的知識圖譜嵌入模型

大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要 介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.

最新的知識圖譜嵌入模型總結

第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基於距離的模型,語義匹配模型與最新的 KGE 模型,並結 合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方麵對這幾類知 識圖譜嵌入方法的部分代表模型進行對比.

3 動態知識圖譜嵌入

當前 KGE 的研究主要集中於靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識 圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用於動態知識圖譜嵌入的方法.

4 融合多源信息的知識圖譜嵌入

多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行 知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關係路徑等. 充分利用這些多源信息對於降低實體與關係之間的模糊程度,進而提高推理預測的準確度至關重要.

5 知識圖譜嵌入的應用

近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用 戶需求,並給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關係表示為一個低維向量,而學習到的 實體、關係嵌入可以受益於多種下遊任務.在本節中,我們將介紹 KGE 的典型應用.

5.1 基於知識圖譜嵌入的問答

隨著大規模知識圖譜的興起,基於知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實 世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和複雜的數據結構使得用戶很難訪問其中有 價值的知識.為了緩解這個問題,提出了基於知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情 況下,高效地訪問 KG 中對自己有價值的知識.然而,由於涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰 性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始 探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基於訓練問題和問題釋義學習單詞,關係和實體的低維表示,以便將新問題和候選事實投影 到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低 維度空間中.還有一些基於深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.

值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基於知識圖譜嵌入的問答框架(KEQA),旨在解 決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯 合恢複自然語言問題的頭實體,關係和尾實體表示來回答問題.最後,基於知識圖譜子集(FB2M、FB5M[125] )和問 答數據集 SimpleQuestions[117]進行實驗,通過與七個最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題 上獲得 20.3%的準確性改進獲得了優於所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的 通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed相比,KEQA 基於 TransE 時實現了 3.1%的改進,並且 KEQA 在使用不同的 KGE 算 法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相 當的性能,驗證了 KEQA 的健壯性。

5.2 推薦係統

在過去的幾年中,利用知識圖譜的推薦係統已被證明與最先進的協作過濾係統具有競爭力,能有效地解決 新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦係統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學 習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,並通過將它們與詞嵌入相結合來設計 CNN 框架,用於新聞推薦.但是,由於需要提前學 習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關 聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,並基於投影空間中的用戶-項目相似度評分進行推 薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行 建模,並使用 TransE 學習實體和關係的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供 了可解釋性.此外,Ni 等人描述了一種用於 Wikipedia 的基於嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織 成一係列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,並將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集作為基礎事實,進 行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方麵表現良好.

5.3 關係提取 關係提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它 們之間的關係.由於 RE 具有提取文本信息的能力,並使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關係提取任務中得到深入研究,但是,它們的性能在很大程度上依賴於訓練數據的 規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機製,通過 將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程 監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本 中的信息,而忽略了 KG 結構所包含的豐富信息.

受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現 有的遠程監督的 RE 模型相結合以提取新的事實,並且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用於知識圖譜補全(knowledge graph completion,KGC)和從文本中提 取關係(relation extraction,RE)兩個任務,該框架適用於非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙 向知識提煉的神經關係提取框架,以協同使用不同的信息源,減輕了遠程監督關係提取中的噪聲標簽問題.但 是,這些工作忽略了關係之間的豐富關聯.Zhang 等人[146]提出 KG 中的關係符合三層層次關係結構(hierarchical relation structure,HRS),並擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組 分類任務的實驗評估,結果表明,相比於原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關係結 構對於 KG 補全非常有效.

6 挑戰與展望

目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索並應用於多種知識驅動型任務,極大 地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 麵臨的挑戰及其 未來研究方向.

6.1 麵臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關係具有複雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.

知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關係時具有不同的性能,這表明針對不同類型的知 識或關係需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關係分為 1-1,1-N,N-1 和 N-N 關係, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬 關係(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關係(如 friend of).這些不同類型 的關係應該采用不同的方式建模.

多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,並提出兩個 向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對於知識共享具有重要意義,並且在跨語言信息檢 索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關於多語言 KG 嵌入的研究很少,因此多語言 KGE 的研 究是一項有待解決的有意義但又具有挑戰性的工作.

多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁麵和超鏈接,音頻、圖片和視頻等多源 信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且 具有挑戰性的問題.現有的利用多源信息的方法尚處於初步階段,諸如社交網絡之類的其他形式的多源信息仍 然獨立於知識圖譜表示的構建,因此還有待進一步研究.

One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬 勃發展.One-shot/Zero-shot 學習的目的是從一個隻有少量實例的類或一個從未見過的類的實例中學習,在知識 圖譜表示中,一個實際的問題是低頻實體和關係的學習比高頻實體和關係的學習更差.然而,借助實體和關係的 多語言和多模態表示,低頻實體和關係的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使 其更適合於低頻實體和關係的表示學習.

6.1.2 知識應用的複雜性

KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由於現實世界中知識應用的複 雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由於缺乏人工標注,這些 KG 遭受噪 音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾 或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過於繁瑣,無法有效地部署在實際應用中.此外,由於 KG 的體積過大,現有的一些 方法由於計算複雜度的問題也並不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由於其優化目標與 KG 中的所有事實 三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那麼它既費時 又不實用.因此,設計一種可以進行在線學習並逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.

6.2 未來方向6.2.1 統一框架 一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價於具 有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視 圖.Wang 等人[62]探討了幾種雙線性模型之間的聯係.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理 解.大多數工作使用不同的模型來描述知識獲取和關係提取.然而,以類似於圖網絡統一框架的方式進行的統一 研究[158]是彌合研究差距的一種有價值的方法.

6.2.2 可解釋性 知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基於嵌入的路徑搜索生成對 鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方麵受到了限製,一些 方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性並 提高預測知識的可靠性.

6.2.3 可擴展性 在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運 算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關係中.最近的神經邏輯模型[161]中的規 則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建 當前的 KG 高度依賴於人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要 從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.麵 對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.

7 總結

知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以 及它們之間的關係進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引 起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關係嵌入到連續向量空間中,在各種麵向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添 加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.並簡要討論了 KGE 技術在下遊任務中的實際應用.最後總結了知識圖譜嵌入領域所麵臨的挑戰,並對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,並且希望這一探索可以為 KGE 的未來研 究提供幫助.

成為VIP會員查看完整內容
4
36
0

本教程針對的是對幫助機器理解自然語言文本的人工智能技術感興趣的研究人員和從業者,特別是文本中描述的真實世界事件。這些方法包括提取關於一個事件的主角、參與者和屬性的內部結構,以及關於多個事件的成員關係、時間和因果關係的外部結構。本教程將為讀者提供一個係統的介紹 (i) 事件的知識表示,(ii) 自動提取、概念化和預測事件及其關係的各種方法,(iii) 事件過程和屬性的歸納,和(iv) 廣泛的NLU和常識性理解任務。我們將通過概述這一領域中出現的研究問題來結束本教程。

https://cogcomp.seas.upenn.edu/page/tutorial.202108/

人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘述預測得益於學習事件的因果關係,從而預測故事接下來會發生什麼;機器理解文檔可能包括理解影響股市的事件、描述自然現象或識別疾病表型。事實上,事件理解在諸如開放領域問答、意圖預測、時間軸構建和文本摘要等任務中也有廣泛的重要應用。由於事件不隻是簡單的、獨立的謂詞,對事件理解的前沿研究通常麵臨兩個關鍵挑戰。一個挑戰是精確地歸納事件的關係,它描述了事件的隸屬關係、共參照、時間順序和因果關係。另一種是理解事件的內在結構和屬性,涉及到它的參與者、粒度、位置和時間。

在本教程中,我們將全麵回顧文獻中關於以事件為中心的知識表示的現有範式,並關注它們對NLU任務的貢獻。除了引入用於事件抽取的部分標簽和無監督學習方法外,我們還將討論最近用於從文本中抽取多麵事件-事件關係的約束學習和結構化推理方法。我們還將回顧最近用於事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利於敘事預測。此外,我們將說明遠距離監督方法如何幫助解決時間和因果常識對事件的理解,以及如何運用它們來構建大規模的事件知識庫。參與者將了解這個主題的最新趨勢和新出現的挑戰,代表性工具和學習資源,以獲得即用模型,以及相關模型和技術如何使最終使用NLU應用程序受益。

目錄內容:

  • 引言
  • 事件信息提取
  • 事件過程預測
  • 事件知識獲取
  • 事件摘要
  • 事件研究問題
成為VIP會員查看完整內容
2
46
0

基於模式的事件提取是及時理解事件本質內容的關鍵技術。隨著深度學習技術的快速發展,基於深度學習的事件提取技術成為研究熱點。文獻中提出了大量的方法、數據集和評價指標,因此需要進行全麵和更新的調研。本文通過回顧最新的方法填補了這一空白,重點關注基於深度學習的模型。我們總結了基於模式的事件提取的任務定義、範式和模型,然後詳細討論每一個。我們引入了支持預測和評估指標測試的基準數據集。本綜述還提供了不同技術之間的綜合比較。最後,總結了今後的研究方向。

引言

事件抽取(EE)是信息抽取研究中的一個重要而富有挑戰性的課題。事件作為一種特殊的信息形式,是指在特定時間、特定地點發生的涉及一個或多個參與者的特定事件,通常可以描述為狀態的變化。事件提取任務旨在將此類事件信息從非結構化的純文本中提取為結構化的形式,主要描述現實世界中事件發生的“誰、何時、何地、什麼、為什麼”和“如何”。在應用方麵,該任務便於人們檢索事件信息,分析人們的行為,促進信息檢索、智能問答、知識圖譜構建等實際應用。

事件提取可分為兩個層次:基於模式的事件提取[17,62]和基於開放域的事件提取[3,42]。在基於模式的事件抽取任務中,事件被認為是特定的人和對象在特定的時間和地點進行交互的客觀事實。基於模式的事件提取[25]是尋找屬於特定事件模式的單詞,即發生的動作或狀態變化,其提取目標包括時間、地點、人、動作等。在開放域事件提取任務[44]中,事件被認為是一組主題的相關描述,可以通過分類或聚類形成。基於開放領域的事件提取是指獲取與特定主題相關的一係列事件,通常由多個事件組成。無論是基於模式還是開放域事件提取任務,事件提取的目的是從大量文本中捕獲我們感興趣的事件類型,並以結構化的形式顯示事件的基本參數。

我們主要關注基於模式的事件抽取,它已經有了大量的工作,是一種比較成熟的研究分類。基於模式的事件提取從文本中發現事件提到,並提取包含事件觸發器和事件參數的事件。事件提到是包含一個或多個觸發器和參數的句子。事件提取需要識別事件、分類事件類型、識別參數並判斷參數角色。觸發器識別和事件分類可分為事件檢測任務。參數識別和參數角色分類可以定義為參數提取任務。事件分類是一個多標簽文本分類任務,用於對每個事件的類型進行分類。角色分類任務是一種基於詞對的多分類任務,確定句子中任意一對觸發器和實體之間的角色關係。因此,事件提取可以依賴於一些NLP任務的結果,如命名實體識別(NER)、語義解析和關係提取。

我們給出了事件抽取流程圖,如圖1所示。首先,對於給定的文本,有必要區分文本中的事件類型。對於不同的事件類型,設計了不同的事件模式。目前,事件模式的設計主要包括手工設計和模型生成兩種方式。然後,根據模式提取事件參數。在早期階段,將元素提取作為一個詞分類任務,對文本中的每個詞進行分類。此外,還有序列標記和機器閱讀理解(MRC)方法。最後,由於事件抽取任務的複雜性,研究者考慮引入外部知識來提高模型性能。

近年來,深度學習方法在很多領域得到了應用,深度學習模型能夠自動有效地提取句子中的重要特征。與傳統的特征提取方法相比,深度學習方法可以自動提取特征。它可以對語義信息進行建模,並在更高的層次上自動組合和匹配觸發特征。這些方法的有效性在自然語言處理中得到了驗證,並取得了許多突破。在事件提取任務中使用深度學習可以使許多研究人員消除特征提取工作。

大多數基於深度學習的事件提取方法通常采用監督學習,這意味著需要高質量的大數據集。ACE 2005[13]是少數可用的標記事件數據之一,手動標記新聞,博客,采訪和其他數據。ACE數據規模小是影響事件提取任務發展的主要因素。依賴人工標注語料庫數據耗時耗力,導致現有事件語料庫數據規模小、類型少、分布不均勻。事件提取任務可能非常複雜。一個句子中可能有多個事件類型,不同的事件類型將共享一個事件參數。同樣的論點在不同事件中的作用也是不同的。根據抽取範式,基於模式的抽取方法可分為基於管道的抽取方法和基於聯合的抽取方法。對基於管道的模型學習事件檢測模型,然後學習參數抽取模型。聯合事件提取方法避免了觸發器識別錯誤對參數提取的影響,但不能充分利用事件觸發器的信息。到目前為止,最好的事件提取方法是基於聯合的事件提取範例。

對於傳統的事件提取方法,需要進行特征設計,而對於深度學習事件提取方法,可以通過深度學習模型進行端到端的特征提取。綜合分析了現有的基於深度學習的事件提取方法,並對未來的研究工作進行了展望。本文的主要貢獻如下:

  • 介紹了事件提取技術,回顧了事件提取方法的發展曆史,指出基於深度學習的事件提取方法已成為主流。我們根據表1中發表年份總結了深度學習模型的必要信息,包括模型、領域、場所、數據集和子任務。

  • 我們詳細分析了各種基於深度學習的提取範式和模型,包括它們的優缺點。我們介紹了現有的數據集,並給出了主要評價指標的製定。我們在表3中總結了主要數據集的必要信息,如類別的數量,語言和數據地址。

  • 我們在表5中總結了ACE 2005數據集上的事件提取準確度得分,並討論了事件提取麵臨的未來研究趨勢,從而總結了綜述。

成為VIP會員查看完整內容
1
46
0

近些年,知識圖譜的構建技術得到了極大的發展,構建好的知識圖譜已經被應用到眾多領域。在此基礎上,研究者將目光從知識圖譜轉向事件圖譜。事件圖譜以事件為核心,準確地描述了事件信息以及事件之間的關聯關係。基於此,總結了事件圖譜在構建、推理與應用方麵的關鍵技術,主要包括事件抽取、事件信息補全、事件關係推斷以及事件預測技術。給出了事件圖譜的具體應用場景,並且針對事件圖譜研究中存在的挑戰,對未來的研究趨勢進行了展望。

隨著信息技術的飛速發展,目前整個社會已經邁入了大數據時代。大數據時代下每時每刻都在產生龐大的數據。在龐大數據的背後,蘊含著眾多有價值的信息。但是由於數據種類繁多、數據量龐大,難以高效、準確地獲取有用的信息。為了更加高效地獲取數據背後的信息,提高獲取信息的效率,研究人員開始研究並使用自動化的工具從原始數據中抽取有價值的信息。這種自動化的技術被稱為信息抽取技術[1],可以極大地提高工作效率,節省時間。與此同時,由於信息抽取技術逐漸走向成熟,一種新的數據組織形式逐漸形成,實現了知識互聯,適應了用戶的認知需求,其被稱為知識圖譜。

知識圖譜的概念由Google公司在2012年正式提出[2],目的是提高搜索引擎的性能,提供更加友好的搜索結果。隨後知識圖譜在學術界受到了極大的關注,其構建技術也在飛速發展。目前,知識圖譜已經被廣泛地應用到知識問答、智能搜索、個性化推薦、軟件複用[3]、政府治理[4]等多個領域。隨著技術的不斷發展,現有研究內容已經從知識圖譜的實體識別[5]、關係抽取[6]技術擴展到了事件圖譜的構建與推理技術。事件圖譜刻畫了現實世界中發生的事件,對事件信息進行了準確描述。事件圖譜中蘊含眾多事件知識,事件知識的特點是擁有眾多維度,例如時間維度、邏輯維度、關係維度等。

本文對現有的關於事件知識的研究做了總結,從事件圖譜的構建、推理與應用3個方麵闡述了相關技術的研究現狀。最後,本文展望了事件圖譜的發展方向。

成為VIP會員查看完整內容
0
71
0

摘要:數據和知識是新一代信息技術與智能製造深度融合的基礎。然而,當前產品設計、製造、裝配和服務等過程中,數據及知識的存儲大多以傳統關係型數據庫為基礎,這導致了數據及知識的冗餘性和搜索及推理的低效性。近年來,知識圖譜技術飛速發展起來,它本質上是基於語義網絡的思想,可以實現對現實世界的事物及其相互關係的形式化描述。該技術為智能製造領域數據及知識的關聯性表達和相關性搜索推理問題的解決帶來了可能性,因此其在智能製造的實現過程中扮演著越來越重要的角色。為了給知識圖譜在智能製造領域的應用提供理論支撐,總結了知識圖譜領域的研究進展;同時探索了知識圖譜在智能製造領域的3大類應用方向,共15小類應用前景,分析了在各個應用前景上與傳統方法的不同之處,應用過程中所需要使用的知識圖譜相關技術以及實施過程中所待突破的關鍵技術,希望可以為進一步展開針對知識圖譜在智能製造領域的研究提供啟發,同時為相關企業針對知識圖譜的實際應用提供參考;最後以數控車床故障分析為案例,驗證了知識圖譜在智能製造領域應用的有效性。

物聯網、雲計算、人工智能等新一代信息技術的迅猛發展,帶來了製造業的新一輪突破,推動著製造係統向智能化方向發展,驅動著未來製造模式的創新[1]。其中數據和知識是實現製造業與新一代信息技術融合的基礎,是實現智能製造的保障。一方麵,產品在其生命周期的各個階段將會產生海量工業數據和知識[2];另一方麵,工業數據和知識是製造領域的信息化進程的必備資源,其中蘊含了大量有用的模式。然而,當前製造領域產品設計、製造、裝配、服務等生命周期過程中數據以及知識的存儲大多以傳統關係型數據庫為基礎,冗餘性較高、分布分散、關聯性較弱且儲量相對較小,強調對數據以及知識的檢索卻較少從語義層麵研究數據以及知識的關聯、認知、理解與推理。因此,如何從冗 餘的數據與知識文本中抽取有用信息,如何有效表 達數據之間的內在關聯與知識之間的內在關聯,如 何有效利用數據的關聯性與知識的關聯性實現高效 的信息檢索與信息推理,是當前實現智能製造目標 的核心瓶頸之一。知識圖譜(Knowledge graph,KG)來源於穀歌下 一代智能語義搜索引擎技術。其本質上基於語義網 絡的思想,是一種有向圖結構的語義知識庫,用於 以符號形式描述物理世界中的概念及其相互關 係 [3],其應用服務架構如圖 1 所示。在知識圖譜內 部,數據和知識的存儲結構為三元組,形如 s p o , ,其中 s 和 o 為知識圖譜中的節點,分別 代表了主語實體知識和賓語實體知識, p 為知識圖 譜中的邊,代表了從 s 指向 o 的關係知識(謂語)。

知識圖譜具有如下 3 種特點:① 數據及知識的 存儲結構為有向圖結構。有向圖結構允許知識圖譜 有效地存儲數據和知識之間的關聯關係;② 具備高 效的數據和知識檢索能力。知識圖譜可以通過圖匹 配算法,實現高效的數據和知識訪問;③ 具備智能 化的數據和知識推理能力。知識圖譜可以自動化、 智能化地從已有的知識中發現和推理多角度的隱含知識。

目前,知識圖譜技術已經在互聯網領域如搜索引擎、智能問答等發揮了重要作用,同時也已經在 多個領域進行初步應用,比如:金融、電商、醫療 等 [4]。許多國際著名企業也已經開始探索知識圖譜 的應用,比如穀歌、微軟、IBM、蘋果等。與此同 時,在智能製造領域,西門子於 2018 年提出了他們 在知識圖譜領域的規劃[5];博世公司於 2019 年構建 了底盤係統控製相關數據的大型知識圖譜,以提供 有效地數據訪問[6]。然而國內的機械行業針對知識 圖譜的探索卻有些許不足。在研究過程中以及與多家機械相關企業的交流中發現,當前知識圖譜在智 能製造領域應用過程還存在以下不足。

(1) 缺乏對知識圖譜理論的深入認識。目前知 識圖譜相關理論與技術在迅速發展,但是智能製造 領域的專家大多對該技術缺乏深入的了解,無法有 效管理和應用知識圖譜中的數據及知識。

(2) 知識圖譜相關技術在智能製造領域的優勢 不明晰。目前知識圖譜在智能製造領域的應用處於 起步階段,針對產品設計、製造、裝配、服務等過 程所帶來的優勢不是很明確,且在知識圖譜應用於 智能製造領域過程中可能遇到的問題尚不明確。

(3) 知識圖譜相關技術在智能製造領域的應用 場景模糊。當前企業對知識圖譜在智能製造領域的 應用前景有所疑問,不確定知識圖譜技術在產品設 計、製造、裝配和服務等過程的切入點和切入方式。

(4) 知識圖譜在智能製造領域落地所需要的技 術不明確。目前在通用領域上的知識圖譜的研究角 度十分廣泛,但是針對智能製造領域各個應用場景, 所需要使用的知識圖譜相關技術類別卻還不是很明晰。

(5) 智能製造領域相關數據缺乏。目前基於深 度學習的知識圖譜相關技術需要構建一定量的有標 簽數據集,目前通用領域的相關數據集比較多,而 智能製造領域的相關數據卻比較缺乏。

針對以上問題,本文總結了可以應用於智能製 造領域的知識圖譜技術的研究進展。同時從應用出 發,探索了知識圖譜在智能製造領域的 3 大類應用 方向,共 15 小類應用前景,分析了在各個應用前景 上與傳統方法的不同之處,應用過程中所需要的知 識圖譜技術以及實施過程中所待突破的關鍵技術, 為後續知識圖譜在智能製造領域的進一步落地提供 理論支撐和方法參考。

成為VIP會員查看完整內容
0
74
0

為機器配備對世界實體及其關係的全麵了解一直是人工智能的一個長期目標。在過去的十年中,大規模知識庫(也稱為知識圖譜)已經從Web內容和文本源中自動構建出來,並且已經成為搜索引擎的關鍵模塊。這種機器知識可以被用來從語義上解釋新聞、社交媒體和網絡表格中的文本短語,並有助於回答問題、自然語言處理和數據分析。本文調查基本概念和實際的方法來創建和管理大型知識庫。它涵蓋了用於發現和規範化實體及其語義類型以及將它們組織成幹淨的分類法的模型和方法。在此基礎上,本文討論了以實體為中心的屬性的自動提取。為了支持機器知識的長期生命周期和質量保證,本文提出了構建開放模式和知識管理的方法。學術項目的案例研究和工業知識圖表補充了概念和方法的調查。

概述

增強計算機的“機器知識”,可以推動智能應用是計算機科學的一個長期目標[323]。由於知識獲取方麵取得了重大進展,這一以前難以捉摸的願景如今已變得切實可行。這包括將嘈雜的互聯網內容轉化為實體和關係上的清晰知識結構的方法。知識獲取方法使得自動建設知識庫(KB):機器可讀的關於現實世界的事實的集合。如今,公開的KBs提供了數以百萬計的實體(比如人、組織、地點和書籍、音樂等創意作品)和數十億的聲明(比如誰研究了哪裏,哪個國家擁有哪一種資本,或者哪位歌手演唱了哪首歌)。大公司部署的專有KBs包含了更大範圍的知識,有一到兩個數量級的實體。

知識庫成為關鍵資產的一個突出用例是Web搜索。當我們向百度、Bing或穀歌發送一個類似“迪倫抗議歌曲”的查詢時,我們會得到一個清晰的歌曲列表,比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此,搜索引擎自動檢測到我們對某一個體實體的事實感興趣——這裏是鮑勃·迪倫——並要求特定類型的相關實體——抗議歌曲——作為答案。這是可行的,因為搜索引擎在其後端數據中心有一個巨大的知識庫,有助於發現用戶請求(及其上下文)中的實體,並找到簡明的答案。

本文介紹了從Web和文本源自動構建和管理大型知識庫的方法。我們希望它將對博士生和對廣泛的主題感興趣的教師有用——從機器知識和數據質量到機器學習和數據科學,以及web內容挖掘和自然語言理解的應用。此外,本文還旨在為從事web、社會媒體或企業內容的語義技術的行業研究人員和實踐者提供幫助,包括從文本或半結構化數據構建意義的各種應用程序。不需要有自然語言處理或統計學習的先驗知識;我們將根據需要介紹相關的方法(或至少給出文獻的具體指示)。

這篇文章共分為十章。第2章給出了知識表示的基礎知識,並討論了知識庫的設計空間。第3、4和5章介紹了構建包含實體和類型的知識庫核心的方法。第3章討論了利用具有豐富和幹淨的半結構化內容的優質資源,第4章討論了從文本內容中獲取的知識。第5章特別關注將實體規範化為唯一表示的重要問題。第6章和第7章通過發現和提取實體的屬性以及實體之間的關係的方法擴展了知識庫的範圍。第6章主要討論為感興趣的屬性預先設計模式的情況。第7章討論了為KB模式中尚未指定的屬性和關係發現新的屬性類型的情況。第8章討論了知識庫管理和知識庫長期維護的質量保證問題。第9章介紹了幾個具體KBs的案例研究,包括工業知識圖譜(KGs)。我們在第10章以關鍵課程和關於機器知識主題可能走向的展望來結束。

成為VIP會員查看完整內容
6
182
0

以研究科學創新與演化規律為目的的科學學近年來迎來了進一步的發展, 科技大數據領域知識圖譜在其中發揮了重大的作用. 本文將從科技大數據知識圖譜構建及應用研究角度, 對科學學研究過程中發揮重大推動作用的科技領域知識圖譜技術進行係統、深入的綜述, 闡述科技大數據知識圖譜構建過程中涉及的科技實體抽取、科技實體消歧、科技關係抽取、科技關係推斷等問題, 對科技實體推薦、科技社區發現、科技實體評價、學科交叉以及學科演化等科技大數據知識圖譜分析挖掘方法進行係統梳理, 並給出科技大數據知識圖譜未來的研究及應用方向.

https://engine.scichina.com/publisher/scp/journal/SSI/50/7/10.1360/SSI-2019-0271?slug=abstract

成為VIP會員查看完整內容
科技大數據知識圖譜構建方法及應用研究綜述.pdf
26
103
0

摘要: 知識圖譜以圖結構表示豐富靈活的語義,描述客觀世界的事物及其關係,在應用領域得到了廣泛的關注。事件知識圖譜聚焦動態事件及其間的順承、時序和因果關係,並以結構化的圖形式表示,對海量數據更高效地管理。尤其是對動態事件信息和事件邏輯關係的挖掘,對認識客觀世界發展規律,助力領域多種智能應用有著重要的意義。本文係統闡述事件知識圖譜的構建技術,包括事件知識表示、事件知識抽取、事件關係抽取,並介紹事件知識圖譜在領域的典型應用,最後介紹現階段的挑戰與研究展望。

成為VIP會員查看完整內容
6
95
0

知識圖譜一直是研究的熱點,東南大學漆桂林老師等發表了一篇關於中文知識圖譜構建的綜述論文,詳細講述了當前中文知識圖譜的研究進展,是非常好的學習資料。

隨著智能技術的不斷發展,作為人工智能支柱的知識圖譜以其強大的知識表示和推理能力受到了學術界和產業界的廣泛關注。近年來,知識圖譜在語義搜索、問答、知識管理等領域得到了廣泛的應用。構建中文知識圖譜的技術也在迅速發展,不同的中文知識圖譜以支持不同的應用。同時,我國在知識圖譜開發方麵積累的經驗對非英語知識圖譜的開發也有很好的借鑒意義。本文旨在介紹中文知識圖譜的構建技術及其應用,然後介紹了典型的中文知識圖譜,此外我們介紹了構建中文知識圖譜的技術細節,並介紹了了中文知識圖譜的幾種應用。

成為VIP會員查看完整內容
A Survey of Techniques for Constructing Chinese.pdf
58
245
0
小貼士
相關VIP內容
專知會員服務
36+閱讀 · 2月5日
專知會員服務
46+閱讀 · 2021年7月6日
專知會員服務
71+閱讀 · 2021年6月12日
專知會員服務
74+閱讀 · 2021年2月25日
專知會員服務
182+閱讀 · 2020年10月6日
科技大數據知識圖譜構建方法及應用研究綜述
專知會員服務
103+閱讀 · 2020年8月12日
專知會員服務
95+閱讀 · 2020年8月6日
中文知識圖譜構建技術以及應用的綜述
專知會員服務
245+閱讀 · 2019年10月19日
微信掃碼谘詢專知VIP會員
Top