[發(fā)明專利]一種加速分布式深度神經網絡的訓練方法及裝置在審
| 申請?zhí)枺?/td> | 201810646003.0 | 申請日: | 2018-06-21 |
| 公開(公告)號: | CN108876702A | 公開(公告)日: | 2018-11-23 |
| 發(fā)明(設計)人: | 廖建新;王敬宇;王晶;戚琦;徐捷 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06T1/20 | 分類號: | G06T1/20;G06N3/10;G06N3/08 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 李欣;馬敬 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 分布式集群 并行訓練 樣本集 子網絡 預設 架構 神經網絡模型 數據本地化 訓練樣本集 調度 實時調整 網絡延遲 減小 網絡 進度 | ||
本發(fā)明實施例提供了一種加速分布式深度神經網絡的訓練方法及裝置,所述方法包括:基于并行訓練,將深度神經網絡的訓練設計成為分布式訓練的模式,待訓練的深度神經網絡模型劃分為多個子網絡;訓練樣本集劃分為多個子樣本集;基于分布式集群架構及預設的調度方法,利用多個子樣本集對深度神經網絡進行訓練,每個訓練由多個子網絡同時進行,進而完成深度神經網絡的分布式訓練;由于基于分布式集群架構及預設的調度方法可以通過數據本地化減小網絡延遲對分布式訓練的子網絡的影響,并實時調整訓練策略,同步并行訓練的子網絡的進度,進而可以縮短分布式深度神經網絡的完成訓練的時間,加速深度神經網絡的訓練。
技術領域
本發(fā)明涉及深度神經網絡訓練技術領域,特別是涉及一種加速分布式深度神經網絡的訓練方法及裝置。
背景技術
深度神經網絡已成功應用于很多領域,包括圖像識別、紋理分類、語音識別等領域。近年來,深度神經網絡由于采用更深的網絡架構和更大的訓練樣本集來進行訓練,所以在性能上有了顯著的提升。但是在訓練過程中,也產生了一個嚴重的問題,隨著網絡參數和訓練樣本的爆發(fā)式增長,導致深度神經網絡訓練時間很長。
為了解決這個問題,研究人員提出了對深度神經網絡進行并行訓練的方法,主要是利用多個圖形處理器內核來實現并行訓練,從而減少訓練時間。目前樣本并行訓練和模型并行訓練是兩個主要的并行訓練的類型。其中,樣本并行訓練是將訓練樣本集分成許多子集,進而來并行訓練相同的深度神經網絡。模型并行訓練是將深度神經網絡切分成多個分層網絡,進而在不同圖形處理器進行訓練。
以上兩種方式都通過減少單個圖形處理器訓練的工作量,增加多個圖形處理器并行訓練來減少深度神經網絡的訓練時間。但是多個圖形處理器并不一定同處于同一個物理設備,對于多個圖形處理器組成的分布式集群,如何實現大幅度減少網絡延遲對于深度神經網絡的分布式訓練時間的影響成為當前深度神經網絡技術領域亟待解決的問題。
發(fā)明內容
本發(fā)明實施例的目的在于提供一種加速分布式深度神經網絡的訓練方法及裝置,以縮短深度神經網絡的訓練時間,提高深度神經網絡的訓練效率。具體技術方案如下:
第一方面,本發(fā)明實施例提供了一種加速分布式深度神經網絡的訓練方法,所述方法包括:
將待訓練的深度神經網絡劃分為多個子網絡;
將預先獲取的訓練樣本集劃分為多個子樣本集;
基于分布式集群架構及預設的調度方法,利用所述多個子樣本集對所述待訓練的深度神經網絡進行分布式訓練,每個子網絡的訓練加速通過數據本地化減小網絡延遲的影響實現,其中,所述多個子網絡同時進行訓練,并行的子網絡之間同步訓練進度,實現分布式深度神經網絡的加速訓練,所述數據本地化是指任務執(zhí)行在預設云資源節(jié)點,使得數據傳輸時間最短。
可選的,所述分布式集群架構包括多個云資源節(jié)點,所述多個云資源節(jié)點運行多個應用,每個應用包括多個任務,其中,所述任務用于根據輸入的數據集訓練子網絡,所述數據集為子樣本集或訓練前一階段的子網絡輸出的階段性訓練結果;
所述基于分布式集群架構及預設的調度方法,利用所述多個子樣本集對所述待訓練的深度神經網絡進行分布式訓練的步驟,包括:
根據公式將所述多個任務調度至所述多個云資源節(jié)點,加速每個子網絡的訓練,對所述多個子網絡的訓練進度進行同步,以加速整個待訓練的深度神經網絡的分布式訓練;
其中,c為所述分布式深度神經網絡當前訓練所剩的完成時間,p為應用編號,A為應用的數量,ap為編號為p的應用的剩余運行時間和數據傳輸時間的總和。
可選的,所述編號為p的應用的剩余運行時間和數據傳輸時間的總和的計算方式,包括:
根據如下公式計算所述編號為p的應用的剩余運行時間和數據傳輸時間的總和:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810646003.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于游程的單次掃描連通域標記方法及其硬件結構
- 下一篇:數據存儲方法





