[發(fā)明專利]一種基于模型結構特性的分布式深度學習通信方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911105252.X | 申請日: | 2019-11-12 |
| 公開(公告)號: | CN111027671B | 公開(公告)日: | 2023-07-04 |
| 發(fā)明(設計)人: | 蔣文斌;金海;彭晶;劉湃;祝簡;劉博 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06N3/045 | 分類號: | G06N3/045;G06N3/098 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 結構 特性 分布式 深度 學習 通信 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于模型結構特性的分布式深度學習通信方法和系統(tǒng),屬于深度學習領域。包括:使用分布式集群預訓練深度神經網絡模型,對于每臺機器,計算各層網絡之前所有層的前向計算與后向計算所用時間總和Tsubgt;ij/subgt;,對于每個server,對在[min{tsubgt;i′j/subgt;},min{tsubgt;i′j/subgt;+Tsubgt;i′j/subgt;})期間收集到的第j層網絡梯度,在min{tsubgt;i′j/subgt;+Tsubgt;i′j/subgt;}時間點進行累加,并用累加梯度更新權值參數。本發(fā)明根據網絡各層的前向計算與后向計算所需時間及在網絡位置,限制server接收梯度的時間,實現(xiàn)多機間的軟同步,對每一層采用不同的同步節(jié)點個數,消除迭代計算中等待時間。根據梯度的陳舊度對其縮放,減小陳舊梯度的影響,在保證訓練精度的前提下,提高分布式深度學習通信效率,加快訓練速度。
技術領域
本發(fā)明屬于深度學習技術領域,更具體地,涉及一種基于模型結構特性的分布式深度學習通信方法和系統(tǒng)。
背景技術
隨著訓練數據集的規(guī)模增大,以及深度神經網絡模型的層數越來越深,在單臺機器中訓練模型常常會受到機器性能的限制,無論是在數據還是模型規(guī)模上都存在無法達到實際應用需求的問題。在這樣的背景之下,越來越多的人開始關注將深度學習和分布式系統(tǒng)結合在一起。其中一個關鍵問題就是如何才能高效利用分布式集群中的資源來訓練模型。
在基于PS架構的大規(guī)模深度學習分布式訓練中,通常有多個worker及多個server,訓練數據被切分到每個worker上,每個server負責一部分網絡的權值參數的更新。worker節(jié)點訓練網絡,計算梯度并將梯度推送至參數服務器server端。server用累積梯度更新權值參數,隨后worker從server端拉取最新的權值進行下一輪迭代計算。
節(jié)點訓練得到的梯度推送至參數服務器進行同步主要用到兩種并行機制:同步并行和異步并行。在一個有N臺機器的集群中,如果使用同步并行機制,則worker提交了梯度后,要等待其他所有worker提交梯度,待server接收到所有worker的梯度之后用累積梯度更新權值參數,然后每個worker才能拉取最新的權值參數進而進行下一輪迭代。如果使用異步并行機制,則worker向server提交了梯度后,server立即使用該梯度對權值參數更新,該worker即可獲取最新的參數進行下一輪迭代,不需要等待其他worker提交梯度。
同步并行機制中,由于每次迭代都需要收到所有worker的梯度并進行權值參數更新后,每個worker才能獲取最新的參數進行下一輪迭代,因此每輪迭代每個worker使用的權值參數都是相同的,不存在陳舊梯度的問題,模型的收斂效果好。然而在實際的生產環(huán)境中,由于集群規(guī)模大,通常分批購置機器,因此,新舊機器混合的異構集群較為常見。在這種異構集群中,節(jié)點的硬件配置有較大差別,節(jié)點間存在明顯的性能差異。導致節(jié)點間同步等待時間較長。而對于異步機制,機器間不需要進行同步等待,因而不存在該問題。這也是異步機制通常訓練速度較快的原因。但由于異步機制中,每個worker訓練使用的模型權值參數不一致,產生了陳舊梯度的問題,即某worker在本次提交梯度和上次提交梯度之間網絡參數已經被其他worker提交的梯度更新過,因而該worker計算本次提交的梯度所用到的權值參數實際上是過時的,導致異步機制的精度受到很大影響。
發(fā)明內容
針對現(xiàn)有技術的同步機制中通信時節(jié)點同步的等待時間長而異步機制中精度嚴重受到陳舊梯度的影響的問題,本發(fā)明提供了一種基于模型結構特性的分布式深度學習通信方法和系統(tǒng),其目的在于控制server接收每層網絡梯度的時間,實現(xiàn)多機間的軟同步,即在限定時間內無論收到多少worker的梯度都進行參數更新,以保證worker在進行該層網絡的下一輪迭代的前向計算之前能及時獲取最新的權值參數,進而消除層間延遲;為了減小陳舊梯度對訓練精度的影響,通過梯度的陳舊度stal及集群中的機器個數N對梯度進行縮放。
為實現(xiàn)上述目的,按照本發(fā)明的第一方面,提供一種基于模型結構特性的分布式深度學習通信方法,該方法包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911105252.X/2.html,轉載請聲明來源鉆瓜專利網。





