在數據庫中,稀疏數據是指在二維表中含有大量空值的數據;即稀疏數據是指,在數據集中絕大多數數值缺失或者為零的數據。稀疏數據絕對不是無用數據,隻不過是信息不完全,通過適當的手段是可以挖掘出大量有用信息。

VIP內容

節點分類是圖數據管理中的一個重要問題。它通常由不同的標簽傳播方法來解決,這些方法從幾個有標簽的種子節點開始迭代地工作。對於具有類之間任意兼容性的圖,這些方法主要依賴於了解必須由領域專家或啟發式提供的兼容性矩陣。我們能否以一種有原則和可伸縮的方式,從一個稀疏標記的圖中直接估計正確的兼容性?我們肯定地回答了這個問題,並提出了一種稱為遠程兼容性評估的方法,這種方法甚至可以在標記極為稀疏的圖(例如,標記了10,000個節點中的1個)上工作,而這隻是標記其餘節點所需時間的一小部分。我們的方法首先創建多個因式圖表示(大小與圖無關),然後對這些更小的圖草圖進行估計。我們將代數放大定義為利用算法更新方程的代數性質來放大稀疏信號的更一般的思想。我們證明了我們的估計器要比其他方法快幾個數量級,並且端到端的分類精度與使用真實標準兼容性相當。這使得它對於任何現有的標簽傳播方法都是一個廉價的預處理步驟,並且消除了當前對啟發式的依賴。

成為VIP會員查看完整內容
0
17
2
Top