[發(fā)明專利]一種基于DL框架下的分布式訓練方法在審
| 申請?zhí)枺?/td> | 202010071243.X | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111274018A | 公開(公告)日: | 2020-06-12 |
| 發(fā)明(設計)人: | 郭金;曾令候;鄧宏;米艷杰;楊春;蘭毅 | 申請(專利權(quán))人: | 行星算力(深圳)科技有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50;G06F9/54;G06N3/08 |
| 代理公司: | 重慶中流知識產(chǎn)權(quán)代理事務所(普通合伙) 50214 | 代理人: | 魏鵬 |
| 地址: | 518052 廣東省深圳市南山區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dl 框架 分布式 訓練 方法 | ||
1.一種基于DL框架下的分布式訓練方法,其特征在于,該方法包括以下步驟:
A1,通過調(diào)度層收集用戶的GPU數(shù)量需求,通過調(diào)度算法將調(diào)配相應數(shù)量的GPU機器給集群;
A2,集群通過gRPC框架調(diào)用訓練任務參數(shù)信息傳給AI底層框架;
A3,AI底層進行環(huán)境初始化工作,創(chuàng)建用戶任務容器并開始訓練,同時將將訓練過程的結(jié)果實時輸出;
A4,訓練等信號至集群,集群根據(jù)AI底層框架的返回狀態(tài)碼做出判斷機制,該判斷機制包括:若訓練正常,調(diào)用AI底層結(jié)束接口,將任務容器銷毀,并將GPU機器重新注冊,等待下個任務;若訓練異常,包括用戶代碼異常和系統(tǒng)異常,調(diào)用AI底層結(jié)束接口,將任務容器銷毀,將GPU機器重新注冊,等待下個任務。
2.根據(jù)權(quán)利要求1所述的基于DL框架下的分布式訓練方法,其特征在于,所述算法包括先來先服務調(diào)度算法、最短作業(yè)優(yōu)先算法、最短剩余時間優(yōu)先算法、最高響應比優(yōu)先算法、輪轉(zhuǎn)調(diào)度算法、多級反饋隊列調(diào)度算法、優(yōu)先級調(diào)度算法。
3.根據(jù)權(quán)利要求1或2所述的基于DL框架下的分布式訓練方法,其特征在于,優(yōu)先級調(diào)度算法為靜態(tài)算法,其用于平衡各進程對響應時間的要求,其中,進程的優(yōu)先數(shù)由用戶自己指定或程序設定,且優(yōu)先數(shù)越低,優(yōu)先級越高,調(diào)度時,選擇優(yōu)先級最高的進程運行。
4.根據(jù)權(quán)利要求1或2所述的基于DL框架下的分布式訓練方法,其特征在于,在gRPC框架設置中,HTTP層采用HTTP2.0協(xié)議。
5.根據(jù)權(quán)利要求3所述的基于DL框架下的分布式訓練方法,其特征在于,在gRPC框架設置中,HTTP層采用HTTP2.0協(xié)議。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于行星算力(深圳)科技有限公司,未經(jīng)行星算力(深圳)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010071243.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





