[發明專利]基于強化學習作業布局的深度學習訓練系統及方法有效
| 申請號: | 202010866752.1 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN112035251B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 譚光明;馬立賢;邵恩;張春明;段勃 | 申請(專利權)人: | 中科院計算所西部高等技術研究院 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/48;G06F9/54;G06N3/0464;G06N3/092 |
| 代理公司: | 北京海虹嘉誠知識產權代理有限公司 11129 | 代理人: | 胡博文 |
| 地址: | 401121 重慶市渝*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 作業 布局 深度 訓練 系統 方法 | ||
1.一種基于強化學習作業布局的深度學習訓練方法,其特征在于:所述方法包括以下步驟:
S1:對用戶提交的作業進行代碼完整性測試;
S2:判斷測試是否成功,若是,則進入下一步,若否,則將作業打回給用戶;
S3:計算作業的優先級,并將優先級計算完成的作業放入優先級隊列中;
S4:調度器判斷集群資源是否充足,若是,進入下一步,若否,調度器根據優先級對當前運行的作業進行搶占,并進入下一步;
S5:調度器從優先級隊列中取作業進行調度;
S6:被調度的作業通過布局算法對作業的任務進行優化布局;
S61:經過優先級調度器后的作業通過模型分析器,獲取模型的模型大小、大Tensor占比、卷積層占比、全連接層占比特征并結合作業的任務數量;
S62:通過訓練好的深度Q學習網絡DQN獲取一系列的放置策略組及打分組;
所述訓練好的深度Q學習網絡采用如下方法獲得:
S621:獲取模型特征與定義作業的狀態集為:S=(M,N,R),M為用戶輸入模型特征的向量,N代表了一個作業的任務數量,R代表任務所需要的資源,R通過一個N*U的矩陣表達,U是資源的種類數量,包括GPU、CPU、Memory;
S622:定義作業的動作集:A=X,其中,A表示作業的動作集,X表示任務在節點的分布,X是一個N*K的二維矩陣,K是當前集群中節點的數量;
S623:定義獎勵函數:獎勵函數r為作業的工作效率,即作業在一段時間內單位資源下模型迭代的輪數,所述獎勵函數如下:
其中,r表示獎勵函數,nume表示作業執行效率即單位時間內作業執行的迭代數、epoch表示作業需要的總迭代數、ue表示作業所需要的總資源量、k是一個常數,用于增強作業執行效率的比重,避免單卡的獎勵值總是大于多卡的獎勵值;
S624:神經網絡結構設計與訓練:
神經網絡結構包括輸入層、兩個卷積層、兩個全連接層與輸出層,假設網絡的參數為θ,在狀態s下動作a的價值函數為Q,通過價值迭代方法不斷的對下式的網絡參數進行優化求解,
式中Li代表網絡的損失函數、γ表示衰減因子、a′,s′表示下一時刻選擇的動作與對應的狀態、E表示求均值函數,表示梯度下降函數;
S63:在生成的策略組中去除包含頻繁出錯節點的多任務多節點分布作業,對于只存在于頻繁出錯節點的作業保持放置策略不變;
S64:判斷過濾后的放置策略組是否為空,若是,返回步驟S5,若否,進入下一步;
S65:通過深度Q學習網絡生成的打分對過濾后的動作進行優選,挑選出打分最高的動作,所述動作為作業的放置策略;
S7:判斷調度間隔時間片是否耗盡,若是,進入步驟S3;若否,繼續執行作業。
2.根據權利要求1所述基于強化學習作業布局的深度學習訓練方法,其特征在于:所述模型特征的向量包括:模型大小、大Tensor占比、卷積層占比、全連接層占比。
3.根據權利要求1所述基于強化學習作業布局的深度學習訓練方法,其特征在于:步驟S3中計算作業的優先級,采用如下方法確定:
P=αTleft+βTwait+δUresource?(3)
其中,P是作業優先級,Tleft是作業剩余完成時間Twait是作業在隊列的等待時間、Uresource是作業的資源使用量,α、β、δ、分別為對應Tleft、Twait、Uresource的系數;
優先級隊列中的作業根據優先級從大到小排列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科院計算所西部高等技術研究院,未經中科院計算所西部高等技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010866752.1/1.html,轉載請聲明來源鉆瓜專利網。





