知識圖譜已成AI下一風口,但你知道它進展到哪了嗎?

2019 年 1 月 2 日 AI前線

策劃編輯 | Natalie
作者 | 孟嘉
編輯 | Natalie
AI 前線導讀:知識圖譜最初是由穀歌提出用來優化搜索引擎的技術,在不斷發展中外延也一度擴大。盤點目前知識圖譜的發展,其已經助力了很多熱門的人工智能場景的應用,例如語音助手、聊天機器人、智能問答等。當前的人工智能其實可以簡單劃分為感知智能(主要集中在對於圖片、視頻以及語音的能力的探究)和認知智能(涉及知識推理、因果分析等),知識圖譜就是認知智能領域中主要的技術之一。

從使用的範圍來講,知識圖譜分為通用知識圖譜和領域知識圖譜。通用知識圖譜主要應用於麵向互聯網的搜索、推薦、問答等業務場景。通用知識圖譜強調的是廣度,數據也多來自於互聯網,很難形成完整的全局性的針對本體層的統一管理。而在越來越多的垂直領域中,知識圖譜也被廣泛應用,已經成為了基礎數據服務,為上層智能應用提供基礎設施支撐。本文將重點探討領域知識圖譜的發展與挑戰。

更多優質內容請關注微信公眾號“AI 前線”(ID:ai-front)
1. 構建領域大腦

知識圖譜的構建是整個應用鏈條的第一步,也是至關重要的一步,圖譜構建的質量直接決定了上層應用的效果。知識圖譜可以將多源異構的數據彙聚到一起。

在一些行業中,領域知識圖譜的構建比起通用知識圖譜,會更加依賴於結構化數據去迅速構建出行業的顯性網絡。而在另外一些行業中,需要處理的數據幾乎都是非結構化數據,構建高質量的知識圖譜就麵臨著更大的技術挑戰。

在知識圖譜構建技術挑戰中,領域內知識表示建模、實體識別與實體鏈接、關係事件抽取、隱性關係發現等技術都當前研究的熱點。

針對領域特點增強知識表示能力

領域知識圖譜往往彙聚多種領域內特有的數據,通用知識表示在特定的領域存在限製和不足。

舉個例子,在很多領域時間和空間都是重要的計算維度,對實體時序和空間屬性的建模缺失會限製上層應用的發揮。比如在安防領域,除了實體和關係兩種對象的數據外,還有一大類軌跡數據,具有更強的時空特征和時效性,數據總量也更大。這類數據,雖然對實體的構建和關係構建都提供了信息,但其本身強時空特征,無法直接體現在實體 - 關係的拓撲結構或屬性中。

另外,時間和空間作為最重要的維度,往往涉及大量的區間計算與聚合操作。因此,在安防知識圖譜中,會設計第三類對象:事件(event),將實體對象的行為數據,即:具備“主體”-“客體”-“時間”-“地點”-“時間段”-“事件內容”等多方麵信息的數據,構造成為事件對象。事件對象往往描述了一個現實世界中一個實體在一個時間點(段)或空間點(範圍)發生的一個行為,其一個重要的特點就是數據的屬性值不會發生改變, 這個特點可以使得係統在針對事件數據的存儲和計算都可以進行優化。

批量結構化數據處理

行業知識圖譜的核心實體、屬性、關係和事件多來源於行業的內部的結構化數據。由於各種曆史原因,這些係統中的數據通常存在數據質量差、數據標準不統一、元數據描述缺乏、數據字典不全、數據一致性不完備等問題。批量結構化數據知識圖譜構建的挑戰主要來自於如何做到工程化。越來越多的係統需要一整套完整的工程化的方案解決批式和流式的知識構建過程,通過數據探查、數據理解、數據清洗、數據標準化、數據映射、數據關聯、數據融合等幾個階段的工作,完成從質量不一的原始結構化數據到最終知識圖譜的過程。

實體識別與關係抽取

實體識別是利用非結構化數據構建知識圖譜的關鍵步驟。實體識別後需要進行實體鏈接。實體鏈接是識別出實體與已有知識庫中對應實體進行鏈接,以補充知識圖譜的內容。

傳統的基於規則統計和成熟算法的手段已經可以很好的處理部分實體的抽取問題,很多領域實體識別都采用多種方法混合的實體識別流水線。例如,在某個領域使用 CWS 負責識別人名、地名、組織機構名;用基於規則的開源組件負責對時間、溫度、頻次等通用實體,以及難度較大的領域實體進行識別以及標準化;使用 biLSTM/CRF 負責酒店、網吧等機構名進行語料學習訓練,提升識別精度等。

除了傳統的實體識別方法,目前也有越來越多的深度學習算法被用於解決實體識別問題。例如利用 CNN/LSTM 來學習詞位置處的向量表示,用滑動窗口分類的思想,使用神經網絡學習句子中的每個 ngram 的表示,預測目標實體。 深度學習方法訓練是一個端到端的過程,無需人工定義相關的特征。如何先驗知識融入深度學習方法提高識別準確率是當前的研究的熱點之一。 在目前階段使用深度學習出比較好的效果需要相對大量的訓練數據,所以在處理實際問題的時候要根據實際數據情況進行判斷。

實體識別與鏈接是知識圖譜構建與知識應用的核心技術。在抽取實體的同時,我們往往也會在非結構化數據中抽取關係。關係抽取是一項更有挑戰的任務。領域知識圖譜往往會先解決預定義關係抽取,因為在不同的領域中會存在領域特有的關係,而預定義關係抽取的技術難度也會低於開放式關係抽取。

在實際工作中,我們往往針對不同類型的關係采用不同的方法進行抽取。比較常用的手段包括基於模式和專家規則方法、半監督和有監督的機器學習方法。

基於規則的方法召回率低,實施成本高。基於機器學習的關係抽取方法占據了主導地位。但半監督的關係 抽取得到的知識缺乏語義信息,而有監督關係抽取中需要大量人工標注的高質量數據作為訓練數據,人工成不很高當前前,絕大部分的關係抽取研究還集中在預定義的關係抽取上。

另外,關係抽取根據行業數據的特點還會遇到一些難點,比如往往我們需要處理指代消解,這是因為由於用戶關心的實體和實體間語義關係往往散布於文本的不同位置,其中涉及到的實體通常可以有多種不同的表達方式。在特定的領域中,嚐試使用傳統的分類思想和聚類相似度方法可以得到可用的結果,而越來越多的研究將深度強化學習引入解決指代消解問題,提高關係抽取的效率。

解決領域訓練數據少

在實體識別和關係識別的過程中都會使用到有監督的機器學習算法,而很多訓練模型所必須的海量數據在很多領域中都是難以獲取的,是解決實際問題麵臨的挑戰之一。遷移學習被認為是解決少訓練數據問題的方法之一,但從其成熟度和在實際應用中遇到的限製來講,越來越多的解決方案開始關注如何高效地標注行業數據來解決訓練數據的問題,來降低實施成本和提高應用能力。

a 高效地標注行業數據

在實際應用中,尤其是企業服務中,領域問題使用的文本在用詞和語言習慣都與公開文本數據有著較大的差異。在遷移學習等技術沒有成熟的當今,通過對現有數據進行標注效果要好於調整算法。標注後的數據可以生成大量的數據集,這些數據集密切關係著訓練出來的 NLP 模型的優劣,模型的質量則關乎文本挖掘和自然語言處理的質量。目前為止,數據標注依舊是一個需要花費大量人力和物力的工作。所以高效的標注工作可以很好地加速知識構建,還可以在極大地節省人力物力。

提升標注效率可以采用使用詞典、使用深度學習模型和使用主動學習技術等方法實現。一般來講,成熟的標注工具都會提供豐富的詞典來幫助用戶進行自動標注。深度學習模型也是標注工具中常用的技術,深度學習模型除了幫助用戶標注以外,還可以幫助用戶快速建立某領域模型,幫助用戶解決領域文本挖掘問題。

另外,引入了主動學習技術。主動學習技術其實就是把采用一種學習算法來計算出哪些數據更具有價值,率先讓標注人去進行標注,然後,再將這些數據加入到訓練樣本集中對算法進行訓練。引入主動學習技術後可以更廣泛地發現標注價值更大的數據,花費同樣時間的情況下,采用主動學習技術的用戶標注的數據價值更高。

標注工作是處理領域中非結構化數據的基礎工作,也是最耗費人力和時間的工作,筆者所在的公司也針對這塊工作開發了麵向領域的高效標注工具 Raptor。

b 嚐試使用遷移學習

麵對缺少訓練數據,越來越多的工作嚐試使用遷移學習的辦法緩解訓練數據的缺少。遷移學習的思路在預訓練模型中找到能夠輸出可複用特征的層次,然後利用該層次的輸出作為輸入特征來訓練那些需要參數較少的規模更小的網絡。當前遷移學習已經逐漸成為了資源不足時使用的人工智能首選技術,也在慢慢嚐試應用在針對特定領域特定數據集的知識圖譜構建中。在實際使用中,遷移學習往往會引入噪聲和需要大量專業的參數調試過程,這都給實際應用帶來了挑戰。

構建隱性關係

在構建領域知識圖譜的過程中,可以將關係分為顯性關係和隱性關係。顯性關係是指通過原始數據直接可以抽取出的關係,隱性關係是指需要通過複雜計算和數據挖掘計算出來的動態關係。在很多領域中,隱性關係的構建很大程度上決定了整個圖譜對智能應用支撐的好壞,對提升圖譜的分析、推理和挖掘效率起到關鍵作用。隱性關係可以有很多種,構建方法針對行業數據的特點有所不同,但多會涉及到使用行業規則,關係挖掘算法、圖計算等技術手段。

在一些領域知識圖譜構建的過程中,隱性關係的構建是最為至關重要的一步。如果把知識庫比做大腦,那隱性關係構建就像是大腦在通過思考不斷學到新的知識的過程。在設計知識圖譜整體係統架構時,可以將構建隱性關係的過程服務化,提升最終知識圖譜的質量。

2. 大規模領域知識圖譜的存儲與計算
基於圖數據的混合存儲

大規模領域知識圖譜的存儲方案一般都會使用到圖數據庫。圖數據庫天然適合存儲知識圖譜中的實體和實體間的關係。然而在大部分領域中,圖存儲並不等於知識圖譜存儲。絕大多數領域不光有實體關係數據,如時空軌跡、標簽、推理規則等也是領域內重要的知識數據。近來領域知識圖譜的存儲多采用混合存儲模型,將知識庫中的元素針對各自的特點使用多種數據結構存儲,並保證數據的最終一致性。下麵這張圖是當前圖數據庫的使用排名,單從數據庫的角度出發,也可以看到越來越多支持圖數據存儲的數據庫都已經支持多類數據模型。

來源:https://db-engines.com/en/ranking/graph+dbms

在一些領域的知識存儲中,很容易碰到超級節點和關係爆炸的問題。在數據推演過程中碰到超級節點或者超級邊如何保證係統性能一直是一個挑戰。筆者在之前的分享中介紹過知識圖譜數據庫 NEST 如何優化超級節點和關係爆炸的問題,這裏就不再贅述。

程序性知識的存儲

目前基於通用知識圖譜的推理技術已經取得了很多進展,推理技術可以分為基於符號的推理和基於統計的推理。基於符號的技術指的是通過規則和經典邏輯,而基於統計的技術指的是應用機器學習算法。但當我們把這些技術放到領域中,大部分推理技術離實際應用往往還有一段距離。如果我們把知識推理的範疇放大一些,我們可以從程序性知識的角度去看如何更好的進行領域內的知識推理。

我們常常將領域知識圖譜比作領域的大腦,大腦是具有思維和學習能力的。領域知識圖譜中的數據可以分為陳述性知識和程序性知識,陳述性知識就像大腦中的記憶,而程序性知識則是大腦中的思維。程序性知識可以是領域專家的行業經驗的程序化,也可以是一條行業規則或是一段行業邏輯,甚至是一個組合起來的複雜模型。如何以一種統一的形式存儲程序性知識,將人類的思維路徑轉化為機器的路徑,也是當前業界常討論的一個熱點問題。

不斷產生新知識數據

目前智能應用的需求越來越豐富,領域知識圖譜為了支撐上層應用也需要更加智能,彙總更多的知識數據。知識圖譜與數據挖掘的關係往往是相輔相成的。知識圖譜不僅彙總經過治理的知識數據,還應該將產生的知識進一步應用到機器學習算法中,不斷產生新的知識反哺知識庫,就像大腦在不斷學習的過程一樣。下圖展示了通過知識增強機器學習的過程來不斷豐富知識圖譜的內容,最終使應用更加智能。

3. 知識圖譜交互的進展

在領域知識圖譜中獲取知識除了使用查詢語言,越來越多的研究也放在使用自然語言作為交互的入口,也就是實現基於領域知識圖譜的問答。智能問答涉及的自然語言處理技術較多,需要做自然語言理解和意圖識別等工作。

下麵簡單介紹明略開發的交互入口 LiteMind 小明中自然語言理解的工作。自然語言理解功能主要負責將非結構化的自然語言轉化為結構化的意圖語義表示。

首先,小明接受用戶輸入的自然語言,通過 NER 組件、duckling 規則模型、領域詞典、biLSTM/CRF 等模型識別通用實體及領域實體,並完成實體標準化。

其次,通過內置的深度學習模型,對實體進行向量化表示、將句子轉化為時序向量,輸入 LSTM 層自動提取語言特征,特征通過全連接網絡層進行意圖分類。用戶僅需提供特定業務領域的語料數據,啟動在線訓練,即可得到一個該領域的深度學習模型。通過該深度學習模型,可計算出自然語言對應的每個意圖的概率,並將實體填入意圖的標準化空槽(即檢索條件),從而完成基於自然語言理解的意圖操作。

4. 落地領域知識圖譜應用

領域知識圖譜的應用目前集中在搜索、推薦、問答、解釋和輔助決策等方麵。也有越來越多的企業將知識圖譜作為雲平台或數據中台的基礎數據服務提供給上層應用消費。

高效的落地領域知識圖譜應用是一個工程性很強的工作,它不光要有效的解決上述技術上的難點,而且要有一套完整的方法論和落地流程。下麵是我們在近幾年落地行業知識圖譜過程中總結的一套工程化流程。

打通感知和認知

領域知識圖譜是認知智能的基礎,但人工智能在行業真正落地發揮威力,往往是打通感知和認知的結果,通過完整的人工智能能力為行業提供整合服務。感知計算本質上是為認知計算提供數據基礎。目前行業中感知計算對各類結構化數據、非結構化數據、文本、圖像、視頻等多維數據的處理過程,處理的結果形成“符號”進入知識圖譜。優秀行業智能解決方案需要鏈接行業中業已成熟的感知技術、認知技術以及其它所有組件。

5. 總結

知識圖譜是最接近真實世界的數據組織結構,符合人的思維模式,可以為人工智能應用提供基礎環境。領域知識圖譜目前在很多行業中已經發揮越來越重要的作用,技術上的挑戰也有不斷的進展,希望有更多的領域知識圖譜落地,幫助推動行業應用的智能化。

作者介紹

孟嘉,明略數據技術合夥人。2014 年底加入明略數據,帶領團隊研發了知識圖譜數據庫 NEST,人工智能問答入口 LiteMind 和基於知識圖譜的分析平台 SCOPA,任知識圖譜產品線技術負責人,技術中心總架構師。

今日薦文

點擊下方圖片即可閱讀

經濟寒冬下的程序員跳槽全攻略


限時福利

2018年過去了,這一年你有哪些收獲,又有哪些遺憾?

可能你因為忙,某某事情沒來得及做。對,當忙碌成為了主旋律,那高效一詞就自然浮出了水麵。

作為程序員,該如何高效工作,掌握主動權,忙到點子上?《10x程序員工作法》專欄裏,資深架構師鄭曄帶你真正掌握高效工作法則。現在訂閱,更有以下福利:

福利一:限時優惠¥68,原價¥99,2019年1月5日恢複原價

福利二:每邀請一位好友購買,你可獲得24元現金返現,多邀多得,上不封頂,隨時提現。

掃上圖二維碼,或點擊「閱讀原文」,立即試讀或訂閱。


喜歡這篇文章嗎?記得點一下「好看」再走

登錄查看更多
65
3

相關內容

中文知識圖譜(Chinese Knowledge Graph),最早起源於Google Knowledge Graph。知識圖譜本質上是一種語義網絡。其結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關係。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等
小貼士
Top