[發明專利]一種基于DL框架下的分布式訓練方法在審
| 申請號: | 202010071243.X | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111274018A | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 郭金;曾令候;鄧宏;米艷杰;楊春;蘭毅 | 申請(專利權)人: | 行星算力(深圳)科技有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50;G06F9/54;G06N3/08 |
| 代理公司: | 重慶中流知識產權代理事務所(普通合伙) 50214 | 代理人: | 魏鵬 |
| 地址: | 518052 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dl 框架 分布式 訓練 方法 | ||
本發明公開了一種基于DL框架下的分布式訓練方法,該方法包括以下步驟:A1,通過調度層收集用戶的GPU數量需求,通過調度算法將調配相應數量的GPU機器給集群;A2,集群通過gRPC框架調用訓練任務參數信息傳給AI底層框架;A3,AI底層進行環境初始化工作,創建用戶任務容器并開始訓練,同時將將訓練過程的結果實時輸出;A4,訓練等信號至集群,集群根據AI底層框架的返回狀態碼進行判斷機制。本發明充分利用了通信資源,降低了訓練成本。
技術領域
本發明涉及AI及分布式技術領域,尤其涉及一種基于DL框架下的分布式訓練方法。
背景技術
近幾年來,大數據驅動的深度學習技術在人工智能的多個領域均取得了可觀的性能提升,神經網絡模型越來越深,數據規模越來越大已成為目前的基本趨勢。復雜的網絡模型往往需要更多的訓練數據才可獲得優秀的泛化能力,然而,訓練深度學習模型大數據這樣的組合卻有著極大的挑戰。深度學習訓練任務屬于典型的計算密集型任務,因此常采用分布式GPU(Graphics Processing Unit-圖形處理器)集群進行訓練。集群進行訓練中分別運行兩種任務:1)所有服務器的CPU(Central Processing Unit,中央處理器)端構成分布式參數服務器,參數在各個服務器上分片存儲,參數服務器負責保存以及更新網絡模型參數;2)每個GPU作為獨立的工作節點,輸入訓練數據計算求取參數的更新梯度值。一次迭代的基本流程是:1)所有工作節點從參數服務器端拉取最新模型參數;2)所有工作節點對分發到自己節點的數據進行前向反向計算求的參數梯度值;3)所有工作節點將自己求得的參數梯度值發送給參數服務器,參數服務器匯總所有工作節點的結果,然后更新參數值。
在實際的AI訓練過程中,需要配置相應的硬件,對于每一個訓練任務需要一個學習機器進行處理,進而需要大量的調度,而由于訓練模型中參數更新均發生集群間通信,對于超深神經網絡結構,模型參數更多,通信量更大,通信結構更為復雜,兩者都會造成通信時間變長甚至抵消多GPU并行節省的計算時間,非常浪費通信資源。
發明內容
本發明的目的在于提供一種基于DL框架下的分布式訓練方法,充分利用了通信資源,降低了訓練成本。
本發明解決其技術問題所采用的技術方案是:一種基于DL框架下的分布式訓練方法,該方法包括以下步驟:
A1,通過調度層收集用戶的GPU數量需求,通過調度算法將調配相應數量的GPU機器給集群;
A2,集群通過gRPC框架調用訓練任務參數信息傳給AI底層框架;
A3,AI底層進行環境初始化工作,創建用戶任務容器并開始訓練,同時將將訓練過程的結果實時輸出;
A4,訓練等信號至集群,集群根據AI底層框架的返回狀態碼進行判斷機制,該判斷機制包括:若訓練正常,調用AI底層結束接口,將任務容器銷毀,并將GPU機器重新注冊,等待下個任務;若訓練異常,包括用戶代碼異常和系統異常,調用AI底層結束接口,將任務容器銷毀,將GPU機器重新注冊,等待下個任務。
優選地,所述算法包括先來先服務調度算法、最短作業優先算法、最短剩余時間優先算法、最高響應比優先算法、輪轉調度算法、多級反饋隊列調度算法、優先級調度算法。
優選地,優先級調度算法為靜態算法,其用于平衡各進程對響應時間的要求,其中,進程的優先數由用戶自己指定或程序設定,且優先數越低,優先級越高,調度時,選擇優先級最高的進程運行。
優選地,在gRPC框架設置中,HTTP層采用HTTP2.0協議。
本發明的有益效果在于:
1.通過使用本申請訓練方法進行AI訓練時,無需自己提供硬件,降低了使用成本;
2.在AI訓練過程中,免環境配置,用戶只需選擇相應的框架即可直接使用,無需自己再搭建環境,提高了使用效率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于行星算力(深圳)科技有限公司,未經行星算力(深圳)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010071243.X/2.html,轉載請聲明來源鉆瓜專利網。





