深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控製。為了加快DNN的訓練和服務,並行計算被廣泛采用。向外擴展時,係統效率是一個大問題。在這次演講中,我將對分布式DNN訓練和服務中更好的係統效率提出三個論點。
首先,對於模型同步,Ring All-Reduce不是最優的,但Blink是。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,並提供近乎最優的網絡吞吐量。Blink是一項美國專利,目前正在被微軟使用。Blink獲得了許多業內人士的關注,比如Facebook(分布式PyTorch團隊)、字節跳動(TikTok應用的母公司)。Blink還登上了英偉達GTC中國2019以及百度、騰訊等的新聞。
其次,通過sensAI的類並行性可以消除通信。sensAI將多任務模型解耦到斷開的子網中,每個子網負責單個任務的決策。sensAI的低延遲、實時模式服務吸引了灣區的幾家風險投資公司。
第三,小波變換比分組調度更有效。通過有意地增加任務啟動延遲,小波變換在加速器上不同訓練波的內存使用峰值之間交錯,從而提高了計算和設備上的內存使用。
【伯克利Guanhua Wang博士論文】分布式機器學習係統的顛覆性研究