https://hanj.cs.illinois.edu/

Jingbo Shang, 伊利諾伊州香檳分校博士。 他的研究專注於以最少的人力從大量文本語料庫中挖掘和構建結構化知識。 他的研究獲得了多個著名獎項的認可,包括Yelp數據集挑戰賽的大獎(2015年),Google博士在結構化數據和數據庫管理領域的獎學金(2017-2019年)。

"> 【VLDB2019 tutorial】TextCube:自動構建和多維探索,TextCube: Automated Construction and Multidimensional Exploration, 韓家煒,Jingbo Shang - 專知VIP

題目:TextCube: Automated Construction and Multidimensional Exploration

簡介:當今社會沉浸在大量文本數據中,從新聞文章到社交媒體,研究文獻,病曆和公司報告。數據科學和工程學的一大挑戰是開發有效且可擴展的方法,以從海量文本數據中提取結構和知識,以滿足各種應用的需要,而無需廣泛的人工注釋。在本教程中,我們將展示TextCube提供了一種可以滿足此類信息需求的關鍵信息組織結構。我們概述了一組最近開發的數據驅動方法,這些方法可幫助從大規模的特定於領域的文本語料庫自動構建TextCube,並表明如此構建的TextCube將增強各種應用程序的文本探索和分析。我們專注於可擴展,弱監督,獨立於域,與語言無關且有效的新TextCube構建方法(即從各種領域的大型語料庫生成高質量的TextCube)。我們將用真實的數據集演示如何構造TextCube來協助對大量文本語料庫進行多維分析。

嘉賓介紹:韓家煒,美國伊利諾伊大學香檳分校計算機係教授,IEEE和ACM院士,美國信息網絡學術研究中心主任。曾擔任KDD、SDM和ICDM等國際知名會議的程序委員會主席,創辦了ACM TKDD學報並任主編。在數據挖掘、數據庫和信息網絡領域發表論文600餘篇。 韓家煒主頁:https://hanj.cs.illinois.edu/

Jingbo Shang, 伊利諾伊州香檳分校博士。 他的研究專注於以最少的人力從大量文本語料庫中挖掘和構建結構化知識。 他的研究獲得了多個著名獎項的認可,包括Yelp數據集挑戰賽的大獎(2015年),Google博士在結構化數據和數據庫管理領域的獎學金(2017-2019年)。

成為VIP會員查看完整內容
0
16
1

相關內容

命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

現實世界的大數據以自然語言文本的形式,在很大程度上是非結構化的、相互關聯的、動態的。將如此龐大的非結構化數據轉換為結構化知識是非常必要的。許多研究人員依賴於勞動密集型的標記和管理來從這些數據中提取知識,這可能是不可擴展的,特別是考慮到許多文本語料庫是高度動態的和特定於域的。我們認為,大量的文本數據本身可能揭示了大量隱藏的模式、結構和知識。基於領域無關和領域相關的知識庫,我們探索海量數據本身將非結構化數據轉化為結構化知識的能力。通過將大量的文本文檔組織成多維文本數據集,可以有效地提取和使用結構化的知識。在這次演講中,我們介紹了一組最近開發的用於這種探索的方法,包括挖掘質量短語、實體識別和鍵入、多麵分類構造以及多維文本立方體的構造和探索。結果表明,數據驅動方法是將海量文本數據轉化為結構化知識的一個有前途的方向。

成為VIP會員查看完整內容
0
36
0

題目:A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications摘要:圖形是一種重要的數據表示形式,它出現在現實世界的各種場景中。有效的圖形分析可以讓用戶更深入地了解數據背後的內容,從而有利於節點分類、節點推薦、鏈路預測等許多有用的應用。然而,大多數圖形分析方法都存在計算量大、空間開銷大的問題。圖嵌入是解決圖分析問題的有效途徑。它將圖形數據轉換為一個低維空間,其中圖形結構信息和圖形屬性被最大程度地保留。在這項調查中,我們對圖嵌入的文獻進行了全麵的回顧。本文首先介紹了圖嵌入的形式化定義及相關概念。之後,我們提出了兩個分類的圖形嵌入,對應於什麼挑戰存在於不同的圖形嵌入問題設置,以及現有的工作如何解決這些挑戰,在他們的解決方案。最後,我們總結了圖形嵌入在計算效率、問題設置、技術和應用場景等方麵的應用,並提出了四個有前途的研究方向。

作者簡介:Hongyun Cai,經驗豐富的研究人員,有在研究行業工作的經驗。精通計算機科學,C++,數據庫,Java和機器學習。昆士蘭大學計算機科學專業研究生,哲學博士。

Vincent W. Zheng,新加坡先進數字科學中心(ADSC)的研究科學家,也是伊利諾伊大學香檳分校協調科學實驗室的研究附屬機構。他目前領導著ADSC的大型社交項目。該項目旨在利用目前在我們的數字社會(即社交媒體)中普遍存在的巨大“人類傳感器”,並實現對此類數據的社會分析,從而建立一個以人為中心的網絡係統。他還對圖形表示學習、深度學習、自然語言處理、移動計算等領域感興趣,並在社交挖掘、文本挖掘、實際位置和活動識別、用戶分析、移動推薦、增強現實等方麵有應用。

Kevin Chen-Chuan Chang是伊利諾伊大學香檳分校計算機科學教授,他領導了數據搜索、集成和挖掘的前沿數據實驗室。他在國立台灣大學獲得理學學士學位,在斯坦福大學獲得電機工程博士學位。他的研究涉及大規模信息訪問,用於搜索、挖掘和跨結構化和非結構化大數據的集成,目前的重點是“以實體為中心”的Web搜索/挖掘和社交媒體分析。他在VLDB 2000年和2013年獲得了兩項最佳論文獎,2002年獲得了NSF職業獎,2003年獲得了NCSA院士獎,2004年和2005年獲得了IBM院士獎,2008年獲得了創業領導力學院院士獎,並在2001年、2004年、2005年、2006年、2010年和2011年獲得了伊利諾伊大學不完整的優秀教師名單。他熱衷於將研究成果帶到現實世界中,並與學生共同創辦了伊利諾伊大學(University of Illinois)的初創公司Cazoodle,致力於在網絡上深化垂直的“數據感知”搜索。

成為VIP會員查看完整內容
0
19
0

講座題目

從海量文本中構建和挖掘異構信息網絡:Constructing and Mining Heterogeneous Information Networks from Massive Text

講座簡介

真實世界的數據主要以非結構化文本的形式存在。數據挖掘研究的一個重大挑戰是開發有效且可伸縮的方法,將非結構化文本轉換為結構化知識。根據我們的設想,將這些文本轉換成結構化的異構信息網絡是非常有益的,在這種網絡上,可以根據用戶的需要生成可操作的知識。在本教程中,我們將全麵概述最近在這方麵的研究和發展。首先,我們介紹了一係列有效的方法,從海量的、特定於領域的文本語料庫中構建異構信息網絡。然後討論了基於用戶需求挖掘文本豐富網絡的方法。具體來說,我們關注的是可伸縮的、有效的、弱監督的、與語言無關的方法,這些方法可以處理各種文本。在真實的數據集(包括新聞文章、科學出版物和產品評論)上,我們進一步展示了如何構建信息網絡,以及如何幫助進一步的探索性分析。

講座嘉賓

Jingbo Shang(尚景波),伊利諾伊大學香檳分校計算機科學係博士生。他的研究重點是用最少的人力從大量文本語料庫中挖掘和構建結構化知識。他的研究獲得了多項著名獎項的認可,包括Yelp數據集挑戰大獎(2015)、穀歌結構化數據和數據庫管理博士研究金(2017-2019)。尚先生在大型會議(SIGMOD'17、WWW'17、sigmdd'17和sigmdd'18)上提供教程方麵有豐富的經驗。

成為VIP會員查看完整內容
0
20
0

主題:From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction

摘要:從序列標記到關係抽取,再到知識推理,深度神經網絡模型在知識抽取任務中取得了最先進的性能。然而,這些渴求數據的模型嚴重依賴於人工標記的訓練數據,並且經常作為黑箱組件運行,減慢了下遊應用程序的開發。在這次演講中,我將介紹我們最近在將結構化先驗知識應用到深度神經網絡模型中進行知識抽取方麵的進展,這兩個模型都是在輸入數據級別(即,以及在模型架構級別(即,對模型進行編程)。特別地,我將討論如何在命名實體識別中合並域字典,以及如何在關係提取中建立語義規則,作為輸入級結構化先驗知識的示例。對於模型編程,我將提出一個基於圖神經網絡的框架,用於在涉及常識推理的自然語言推理中捕獲多關係結構化先驗知識作為模型架構的一部分。這些解決方案共同構成了從數據到使用結構化先驗知識進行模型編程的路線圖。

嘉賓簡介:任翔,美國南加州大學計算機科學係助理教授,獲美國南加州大學ISI聘任。他也是智能和知識發現(INK)研究實驗室的主任,ACM SIGKDD和數據挖掘(SIGKDD)的信息主任,以及USC機器學習中心的成員。之前,他是斯坦福大學的研究學者,並在伊利諾伊大學香檳分校獲得了計算機科學博士學位。Ren博士的研究重點是開發標簽高效的計算方法,從自然語言數據中提取機器可操作的知識(例如,組合、圖形結構表示),並對知識結構進行神經推理。他的研究導致一本書和50多個出版物,覆蓋著超過會議教程(KDD、WWW NAACL),並獲得了獎項包括穀歌AI教師獎,摩根大通AI研究獎,亞馬遜研究獎,ACM SIGKDD論文獎(2018),WWW最佳海報亞軍(2018),大衛·j·Kuck優秀論文獎(2017),穀歌博士獎學金(2016),和Yelp數據集挑戰獎(2015)。他是福布斯亞洲30位30歲以下富豪之一。

成為VIP會員查看完整內容
2_CCKS_ATT_XiangRen.pdf
0
7
0

論壇嘉賓:楊成 北京郵電大學 助理教授

報告主題:圖神經網絡在自然語言處理領域的前沿應用

報告摘要:很多真實世界的應用場景需要處理包含著元素間豐富關係信息的圖形式的數據。在例如物理係統建模、化學分子功能預測等領域中,數據都擁有顯式的圖結構;而在另一些例如文本的非結構數據中,如何從數據中抽取推理並利用如句法樹等結構信息,也是相關領域中重要的研究方向。圖神經網絡可以通過節點間的信息傳遞(message passing)有效地捕捉結構信息。自該概念提出以來,圖神經網絡技術已經在自然語言處理、數據挖掘等多個領域得到了廣泛的應用。本報告將重點介紹圖神經網絡技術在自然語言處理領域的前沿應用。

嘉賓簡介:楊成,博士,北京郵電大學計算機學院助理教授,2019年7月畢業於清華大學計算機科學與技術係,從事自然語言處理與社會計算相關方向的研究,博士期間在國內外頂級期刊會議上發表多篇論文,Google Scholar累計獲得引用近500次,並擔任國內外頂級會議包括ACL、EMNLP、SMP等在內的程序委員會成員和期刊的審稿人。

成為VIP會員查看完整內容
SMP2019表示學習論壇_楊成.pptx.pdf
0
40
5
Top