亚洲精品高清国产一久久,亚洲av永久无码精品网站在线观看,亚洲精品tv久久久久久久久久,亚洲,另类,激情av在线播放,亚洲av成人一区二区三区在线看

首頁 首頁 >  文章資訊

騰訊AI Lab誤差補償式量化SGD:顯著降低分布式機器學(xué)習(xí)通信成本

發(fā)布者:科普院    發(fā)布時間:2018-07-03 15:40:55    瀏覽次數(shù):342次

  在量子在分布式機器學(xué)習(xí)應(yīng)用中,各個節(jié)點之間的通信效率往往會成為整體性能的關(guān)鍵制約因素,目前的常見解決方法是對節(jié)點之間的通信信息進(jìn)行壓縮,但這會引入量化誤差。為了解決這一問題,騰訊 AI Lab 提出了一種誤差補償式量化隨機梯度下降(ECQ-SGD)方法。該論文已被將于當(dāng)?shù)貢r間 7 月 10-15 日在瑞典斯德哥爾摩舉辦的 ICML 2018 接收,此次實驗室共有 16 篇論文被收錄。


  在 ICML 2018 與 IJCAI 2018 大會期間(今年都在斯德哥爾摩),騰訊將舉辦 Tencent Academic and Industrial Conference (TAIC),誠邀全球頂尖 AI 學(xué)者、青年研究員與騰訊七大事業(yè)群專家團(tuán)隊探討最前沿 AI 研究與應(yīng)用。


  由于數(shù)據(jù)近年來的爆炸式增長,很多不同領(lǐng)域都已經(jīng)越來越關(guān)注大規(guī)模機器學(xué)習(xí)了,比如計算機視覺和語音識別領(lǐng)域。在這些應(yīng)用中,訓(xùn)練數(shù)據(jù)的量往往過于龐大,以至于難以通過單個計算節(jié)點實現(xiàn)有效的處理,所以分布式優(yōu)化方法是這些應(yīng)用中的一個核心構(gòu)建模塊。


  數(shù)據(jù)并行化是一種常用的分布式學(xué)習(xí)框架,其中整個數(shù)據(jù)集會被分割和存儲在一個集群中的多個節(jié)點上。每個節(jié)點都會計算各自的局部梯度并與其它節(jié)點交流梯度以更新模型參數(shù)。對于這樣的學(xué)習(xí)系統(tǒng),消耗的時間可大致歸類為計算時間和通信時間。其中通信往往會成為性能的瓶頸,尤其是對于具有大量參數(shù)的大型集群和/或模型。


  目前已有一些試圖通過降低通信成本來提升分布式學(xué)習(xí)的效率的研究工作。某些方法關(guān)注的是將梯度量化為定點數(shù)(Zhou et al., 2016; Alistarh et al., 2017),這樣需要傳輸?shù)谋忍財?shù)就會少很多。還有一些研究探索過更為激進(jìn)的量化方法,比如二元或三元表征(Seide et al., 2014; Strom, 2015; Wen et al., 2017)。還有方法是在通信過程中在梯度上施加稀疏性,這樣每輪迭代中就僅有一小部分梯度在節(jié)點之間交換(Wangni et al., 2017; Lin et al., 2018)。


  這些方法的基本思想基本都是將梯度壓縮成某種特定的形式,讓其中每一項都能使用遠(yuǎn)少于原來的 32 位浮點數(shù)的比特數(shù)表示。這樣的壓縮會在優(yōu)化過程中引入額外的隨機噪聲,即量化誤差,這會減緩收斂速度,甚至導(dǎo)致發(fā)散。1Bit-SGD(Seide et al., 2014)采用了誤差反饋方案,即使用上一輪迭代的量化誤差來補償當(dāng)前的局部梯度,之后再將其輸入量化函數(shù)。盡管該方法的提出者表示這有助于改善收斂行為,但卻沒有給出理論分析來證明其有效性。


  在本論文中,我們提出了誤差補償式量化隨機梯度下降(ECQ-SGD)方法。我們的算法也使用了誤差反饋方案,但我們會累積所有之前的量化誤差,而不是像 1Bit-SGD 一樣只使用上一輪迭代的量化誤差。盡管實驗評估表明這種修改能實現(xiàn)比很多基準(zhǔn)方法更快更穩(wěn)定的收斂,但為這種現(xiàn)象提供理論保證卻并不簡單。


  Alistarh et al., 2017 已經(jīng)證明,對于他們提出的 QSGD 算法,達(dá)到特定次優(yōu)間隙(sub-optimality gap)所需的迭代數(shù)量正比于隨機量化梯度的方差界限。但是,這不能解釋我們的方法的收斂行為,因為我們的量化梯度是對原始梯度的有偏估計,這與 QSGD 的情況不同。實際上,由于使用的是累積的量化誤差,我們的量化梯度的方差界限甚至比 QSGD 的還大。為了解決這一問題,我們從另一個角度給出了收斂性分析,并且證明了在合適的超參選擇下,我們的算法比 QSGD 具有更緊致的最壞情況誤差界限(worst-case error bound)。事實證明,我們提出的誤差反饋方案可以很好地抑制量化誤差對誤差界限的貢獻(xiàn);正如我們在實驗中觀察到的那樣,這能實現(xiàn)比 QSGD 更小的次優(yōu)間隙。太原東方男健醫(yī)院


【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 1830498703@qq.com ,我們將及時溝通刪除處理。 以上內(nèi)容均為網(wǎng)友發(fā)布,僅代表網(wǎng)友個人觀點,不代表平臺觀點,涉及言論、版權(quán)與本站無關(guān)。