CCAI2018 | 韓家煒:大規模文本數據挖掘的新方向

2018 年 6 月 10 日 中國人工智能學會

言:

現實中的大數據常常表示為一種非結構化,交叉和動態變化的文本數據。如何從大規模文本數據中抽取結構化知識是一個非常值得研究的任務。很多研究工作依賴於勞動密集型的數據標注,用有監督的方法去抽取知識。但是,這些方法不具有普適性,難以擴展,進而難以處理具有動態性或領域限定性的文本數據。我們認為大規模的文本數據其自身蘊含著大量的模式、結構或知識。通過將無領域限製的大規模文本數據和具有領域限製的知識庫結合,我們可以充分發揮大規模文本數據的優勢去處理非結構化數據轉換為結構化數據的難題。

——韓家煒




2018中國人工智能大會(CCAI2018)將於7月28日至29日在深圳舉行,韓家煒教授屆時將在會上分享他關於大規模文本數據挖掘的最新研究,發表題為《基於海量文本數據的結構化知識抽取:數據挖掘、機器學習和自然語言處理的融合技術》的主題演講,探討如何借助大規模文本數據自身的力量去做大規模的知識提取。


適逢盛會,心向往之。會前,我們整理了韓教授以往關於大數據挖掘的相關觀點,方便大家一睹為快。



韓家煒現為美國伊利諾伊大學香檳分校計算機係教授,ACM會士和IEEE會士,被稱為“數據挖掘第一人”。他在數據挖掘領域有重要的學術影響力,發表論文600餘篇,出版多部專著。曾擔任國際知名會議KDD、SDM和ICDM程序委員會主席,創辦了學術期刊ACM TKDD並擔任主編。曾榮獲2004 ACM SIGKDD創新獎、2005 IEEE計算機分會技術成就獎、2009 IEEE計算機協會的M. Wallace McDowell獎。他的專著Data Mining: Concepts and Techniques被公認為數據挖掘領域的經典教材。


大數據挖掘,數據結構化首當其衝

大數據(Big data或Megadata),或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模十分巨大,以至於無法在合理時間內通過人工截取、管理、處理、並整理成為人類所能解讀的信息。在總數據量相同的情況下,與個別分析獨立的小型數據集(data set)相比,將各個小型數據集合並後進行分析可得出許多額外的信息和數據關係性,可用來察覺商業趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通路況等;這樣的用途正是大型數據集盛行的原因。


我們這個時代,由於互聯網的發展,產生了大量數據。這些數據中絕大部分(超過 80%)都是以文本等無結構或半結構的方式存儲。所以,挖掘大數據首先就是要係統地研究如何挖掘無結構的文本數據,也就是說,要實現從Big Data 到Actionable Knowledge的轉變。

韓家煒認為,要將無結構的 Big Data 變成有用的 Knowledge,首先要做的就是將數據結構化。他提出兩種結構化數據的形式,一種是異質網絡(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由結構化數據生成 Knowledge 已經證明是很強大的,但是如何將原始無結構的數據變成有結構的數據(Network 或 Text Cube)則是非常困難的。


在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經做了很多研究工作,也已經由此獲得了很多獎項;在無結構文本數據到有結構 Network/Text Cube 的路上他們也做出了許多嚐試和成果,現在仍在不斷求索中。


數據挖掘三部曲

韓家煒認為,數據挖掘的研究工作可以總結為三部曲:


(1)從文本數據中挖掘隱藏的結構。文本數據中隱藏著大量的結構,這步工作就是將這些數據挖掘出來

(2)將文本數據轉化為有類型的 Network/Text Cube。將文本數據變成有結構、有類型的數據(Network/Text Cube)

(3)挖掘 Network/Text Cube 生成有用的知識。最後一步才是挖掘。

此外,在研究的推進過程中,他們也曾遇到了很多困難。


一是領域限製。用一般語料獲得的實體標注在特定領域、動態領域或者新興的領域無法很好的工作。


二是名稱的歧義性。多個實體可能共享同一個表麵名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊名等)。


三是上下文稀疏。對同一個關係可能有許多種表示方法(想想中文有多少中表示體育比賽結果的方法)


雖然數據挖掘已經有了成型的結構,但仍有重重困難需要克服。韓教授曾說:“在這條路上,我們現在隻是找到了幾個口子可以往前走。現在這還不是一條大路,隻是一條小路。要想變成一條康莊大道,需要大家共同努力。這條路通寬了,將來我們就可以從大量的無結構的文本,變成大量的有用的知識。”


在即將到來的盛夏,韓家煒教授作為中國人工智能大會的特邀嘉賓,將會介紹他最近的研究:如何借助大規模文本數據自身的力量去做大規模的知識抽取?主要包括關鍵短語抽取,基於遠監督的實體識別和關係分類,基於模式的信息提取方法,多元分類的自動發現以及多維文本數據集的構建等方法。在CCAI2018的報告中,韓家煒教授將證明數據挖掘、機器學習和自然語言處理三個技術進行融合是一個“非常重要且極有前途”的方向。

在CCAI2018,跟隨開路先鋒韓家煒教授,一起踏上這條非常重要且極有前途的路吧!

請輸入標題

多大會詳情、參會細節,請關注大會官網:http://ccai2018.caai.cn/

· end ·


點擊“閱讀原文”了解大會詳情


登錄查看更多
7
0

相關內容

韓家煒,美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。 韓家煒主頁:https://hanj.cs.illinois.edu/

現實世界的大數據以自然語言文本的形式,在很大程度上是非結構化的、相互關聯的、動態的。將如此龐大的非結構化數據轉換為結構化知識是非常必要的。許多研究人員依賴於勞動密集型的標記和管理來從這些數據中提取知識,這可能是不可擴展的,特別是考慮到許多文本語料庫是高度動態的和特定於域的。我們認為,大量的文本數據本身可能揭示了大量隱藏的模式、結構和知識。基於領域無關和領域相關的知識庫,我們探索海量數據本身將非結構化數據轉化為結構化知識的能力。通過將大量的文本文檔組織成多維文本數據集,可以有效地提取和使用結構化的知識。在這次演講中,我們介紹了一組最近開發的用於這種探索的方法,包括挖掘質量短語、實體識別和鍵入、多麵分類構造以及多維文本立方體的構造和探索。結果表明,數據驅動方法是將海量文本數據轉化為結構化知識的一個有前途的方向。

成為VIP會員查看完整內容
0
36
0

題目:TextCube: Automated Construction and Multidimensional Exploration

簡介:當今社會沉浸在大量文本數據中,從新聞文章到社交媒體,研究文獻,病曆和公司報告。數據科學和工程學的一大挑戰是開發有效且可擴展的方法,以從海量文本數據中提取結構和知識,以滿足各種應用的需要,而無需廣泛的人工注釋。在本教程中,我們將展示TextCube提供了一種可以滿足此類信息需求的關鍵信息組織結構。我們概述了一組最近開發的數據驅動方法,這些方法可幫助從大規模的特定於領域的文本語料庫自動構建TextCube,並表明如此構建的TextCube將增強各種應用程序的文本探索和分析。我們專注於可擴展,弱監督,獨立於域,與語言無關且有效的新TextCube構建方法(即從各種領域的大型語料庫生成高質量的TextCube)。我們將用真實的數據集演示如何構造TextCube來協助對大量文本語料庫進行多維分析。

嘉賓介紹:韓家煒,美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。 韓家煒主頁:https://hanj.cs.illinois.edu/

Jingbo Shang, 伊利諾伊州香檳分校博士。 他的研究專注於以最少的人力從大量文本語料庫中挖掘和構建結構化知識。 他的研究獲得了多個著名獎項的認可,包括Yelp數據集挑戰賽的大獎(2015年),Google博士在結構化數據和數據庫管理領域的獎學金(2017-2019年)。

成為VIP會員查看完整內容
0
16
1
小貼士
Top