自1948年引入信息論以來,信息論已被證明在分析與壓縮、存儲和傳輸數據有關的問題方麵起著重要作用。例如,信息論允許分析數據通信和壓縮的基本限製,並在幾十年的實際通信係統設計中發揮了作用。近年來,在使用信息理論方法解決數據壓縮、數據通信和網絡之外的問題方麵出現了複興,例如壓縮感知、數據獲取、數據分析、機器學習、圖挖掘、社區檢測、隱私和公平。在這本書中,我們探索了信號處理、機器學習、學習理論和統計的接口上的一係列廣泛的問題,其中源自信息論的工具和方法可以提供類似的好處。幾十年來,信息論在這一界麵上的作用確實得到了承認。一個突出的例子是在1980年代使用互信息、度量熵和容量等信息理論量來建立估計的極大極小率。在這裏,我們打算探索這個界麵的現代應用,這些應用正在塑造21世紀的數據科學。

當然,標準信息理論工具與信號處理或數據分析方法之間有一些顯著的差異。從整體上說,信息論傾向於關注漸近極限,使用大的塊長度,並假設數據是由有限的比特數表示,並通過一個噪聲信道觀看。標準結果不關心複雜性,而是更多地關注通過可實現性和反向結果表征的基本限製。另一方麵,一些信號處理技術,如采樣理論,專注於離散時間表示,但不一定假設數據是量化的或係統中有噪聲。信號處理通常關注的是最優的具體方法,即達到開發的極限,並具有有限的複雜性。因此,很自然地將這些工具結合起來,以解決更廣泛的問題和分析,包括量化、噪聲、有限樣本和複雜性分析。

這本書的目的是為新興的數據科學問題的信息理論方法的最近的應用提供一個綜述。本書的潛在讀者可能是信息理論、信號處理、機器學習、統計學、應用數學、計算機科學或相關研究領域的研究人員,或尋求了解信息理論和數據科學並在此界麵上找出開放問題的研究生。本卷的特殊設計確保它可以作為研究人員和學生的教科書的最先進的參考。

這本書包含了16個不同的章節,由世界範圍內公認的領先專家撰寫,涵蓋了信號處理、數據科學和信息論界麵上的各種各樣的主題。本書以信息理論的介紹作為其餘章節的背景開始,也設置了貫穿全書使用的符號。接下來的章節被分為四類: 數據獲取(第2-4章),數據表示和分析(第5-9章),信息論和機器學習(第10和11章),以及信息論、統計和壓縮(第12-15章)。最後一章,第16章,通過對範諾不等式在一係列數據科學問題中的調研,將本書的幾個主題聯係起來。章節是獨立的,涵蓋了各自主題的最新研究結果,並且可以彼此獨立地處理。

"> 【幹貨書】數據科學中的信息理論方法 - 專知VIP

自1948年引入信息論以來,信息論已被證明在分析與壓縮、存儲和傳輸數據有關的問題方麵起著重要作用。例如,信息論允許分析數據通信和壓縮的基本限製,並在幾十年的實際通信係統設計中發揮了作用。近年來,在使用信息理論方法解決數據壓縮、數據通信和網絡之外的問題方麵出現了複興,例如壓縮感知、數據獲取、數據分析、機器學習、圖挖掘、社區檢測、隱私和公平。在這本書中,我們探索了信號處理、機器學習、學習理論和統計的接口上的一係列廣泛的問題,其中源自信息論的工具和方法可以提供類似的好處。幾十年來,信息論在這一界麵上的作用確實得到了承認。一個突出的例子是在1980年代使用互信息、度量熵和容量等信息理論量來建立估計的極大極小率。在這裏,我們打算探索這個界麵的現代應用,這些應用正在塑造21世紀的數據科學。

當然,標準信息理論工具與信號處理或數據分析方法之間有一些顯著的差異。從整體上說,信息論傾向於關注漸近極限,使用大的塊長度,並假設數據是由有限的比特數表示,並通過一個噪聲信道觀看。標準結果不關心複雜性,而是更多地關注通過可實現性和反向結果表征的基本限製。另一方麵,一些信號處理技術,如采樣理論,專注於離散時間表示,但不一定假設數據是量化的或係統中有噪聲。信號處理通常關注的是最優的具體方法,即達到開發的極限,並具有有限的複雜性。因此,很自然地將這些工具結合起來,以解決更廣泛的問題和分析,包括量化、噪聲、有限樣本和複雜性分析。

這本書的目的是為新興的數據科學問題的信息理論方法的最近的應用提供一個綜述。本書的潛在讀者可能是信息理論、信號處理、機器學習、統計學、應用數學、計算機科學或相關研究領域的研究人員,或尋求了解信息理論和數據科學並在此界麵上找出開放問題的研究生。本卷的特殊設計確保它可以作為研究人員和學生的教科書的最先進的參考。

這本書包含了16個不同的章節,由世界範圍內公認的領先專家撰寫,涵蓋了信號處理、數據科學和信息論界麵上的各種各樣的主題。本書以信息理論的介紹作為其餘章節的背景開始,也設置了貫穿全書使用的符號。接下來的章節被分為四類: 數據獲取(第2-4章),數據表示和分析(第5-9章),信息論和機器學習(第10和11章),以及信息論、統計和壓縮(第12-15章)。最後一章,第16章,通過對範諾不等式在一係列數據科學問題中的調研,將本書的幾個主題聯係起來。章節是獨立的,涵蓋了各自主題的最新研究結果,並且可以彼此獨立地處理。

成為VIP會員查看完整內容
35
50

相關內容

數據科學(英語:data science)是一門利用數據學習知識的學科,其目標是通過從數據中提取出有價值的部分來生產數據產品。 它結合了諸多領域中的理論和技術,包括應用數學、統計、模式識別、機器學習、數據可視化、數據倉庫以及高性能計算。 數據科學通過運用各種相關的數據來幫助非專業人士理解問題。
【幹貨書】機器學習線性代數與優化,507頁pdf
專知會員服務
84+閱讀 · 7月28日
【幹貨書】信息論與編碼,517頁pdf
專知會員服務
47+閱讀 · 7月20日
專知會員服務
132+閱讀 · 2021年10月8日
專知會員服務
97+閱讀 · 2021年9月16日
專知會員服務
91+閱讀 · 2021年8月15日
【幹貨書】Python機器學習,361頁pdf
專知會員服務
183+閱讀 · 2021年2月25日
專知會員服務
87+閱讀 · 2020年11月25日
【幹貨書】《機器學習導論(第二版)》,348頁pdf
專知會員服務
201+閱讀 · 2020年6月16日
【幹貨書】用於概率、統計和機器學習的Python,288頁pdf
專知會員服務
210+閱讀 · 2020年6月3日
【幹貨書】信息論與編碼,517頁pdf
專知
0+閱讀 · 7月20日
【幹貨書】高維統計學,572頁pdf
專知
4+閱讀 · 2021年12月3日
【幹貨書】概率,統計與數據,513頁pdf
專知
6+閱讀 · 2021年11月27日
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
1+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
3+閱讀 · 2011年12月31日
國家自然科學基金
0+閱讀 · 2010年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
Arxiv
15+閱讀 · 1月11日
已刪除
Arxiv
26+閱讀 · 2020年3月23日
VIP會員
相關VIP內容
【幹貨書】機器學習線性代數與優化,507頁pdf
專知會員服務
84+閱讀 · 7月28日
【幹貨書】信息論與編碼,517頁pdf
專知會員服務
47+閱讀 · 7月20日
專知會員服務
132+閱讀 · 2021年10月8日
專知會員服務
97+閱讀 · 2021年9月16日
專知會員服務
91+閱讀 · 2021年8月15日
【幹貨書】Python機器學習,361頁pdf
專知會員服務
183+閱讀 · 2021年2月25日
專知會員服務
87+閱讀 · 2020年11月25日
【幹貨書】《機器學習導論(第二版)》,348頁pdf
專知會員服務
201+閱讀 · 2020年6月16日
【幹貨書】用於概率、統計和機器學習的Python,288頁pdf
專知會員服務
210+閱讀 · 2020年6月3日
相關基金
國家自然科學基金
0+閱讀 · 2015年12月31日
國家自然科學基金
0+閱讀 · 2014年12月31日
國家自然科學基金
1+閱讀 · 2013年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
0+閱讀 · 2012年12月31日
國家自然科學基金
3+閱讀 · 2011年12月31日
國家自然科學基金
0+閱讀 · 2010年12月31日
國家自然科學基金
0+閱讀 · 2009年12月31日
微信掃碼谘詢專知VIP會員
Top