[發明專利]一種面向分布式深度學習訓練任務的高效資源分配系統有效
| 申請號: | 202110487973.2 | 申請日: | 2021-05-06 |
| 公開(公告)號: | CN113190351B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 李方舒;趙來平;曲雯毓 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 天津市三利專利商標代理有限公司 12107 | 代理人: | 張義 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 分布式 深度 學習 訓練 任務 高效 資源 分配 系統 | ||
本發明公開了一種面向分布式深度學習訓練任務的高效資源分配系統,包括:初始資源配置模塊;LAS隊列;二分類器;性能模型;多級反饋隊列MLFQ,首先將分布式深度學習作業分為可預測作業和不可預測作業,并對兩類作業設置不同的作業優先級和資源調整方案。針對于可預測作業,資源調整的收益往往是可以預測的,因此每次調整都可以給集群帶來收益。而不可預測作業,其收益往往不可知。此外,可預測作業和不可預測作業的優先級計算方式不同,可預測作業綜合考慮資源調整和剩余作業完成時間來計算優先級,而不可預測作業通過已接受服務數來計算優先級。為了統一兩類作業在集群中的統一調度,我們采用波達計數法來解決該問題。
技術領域
本發明屬于云計算技術領域,特別涉及大型云計算集群下分布式訓練任務的預測、調度和資源分配,具體涉及一種面向分布式深度學習訓練任務的高效資源分配系統。
背景技術
近幾年來,深度學習模型的參數規模和復雜度迅速增長。例如,GPT-2、Turing NLG和GPT-3等自然語言處理模型的參數數量分別從1.5億個參數增加到了17億和175億個參數。此外,Facebook的模型參數復雜度在過去的兩年中也增加了兩倍。這些超大規模的模型數量將會導致較高的訓練費用。例如使用Tesla V100云實例訓練一次GPT-3的成本超過460萬美元,如此高的成本嚴重限制了研究進展。因此,如何提高云計算集群的訓練效益和資源利用率,是資源管理面臨的一個重要挑戰。
現有的工作對訓練效益的提升方法主要分為兩類:動態優先級調度和動態資源分配。動態作業優先級調度為每個作業分配一個隨時間變化的優先級,并按照作業當前的優先級來調度作業。該方法類似于最少獲得服務數(LAS)算法的調度算法,它可以保證短作業具有較高優先級,優先被調度。但是,由于作業的運行時資源是固定的,該方法反而降低了集群資源利用率。動態資源分配方法不改變作業的優先級,而是根據作業運行時的資源需求和集群變化的資源可用性來調整超參數或資源分配。一旦資源配置發生了變化,這些作業往往依賴于一個預測模型來預測作業的訓練效益。然而,較差的預測精度,特別是對非收斂模型,會導致整體訓練性能的降低。
發明內容
本發明的目的是提供一種面向分布式深度學習訓練任務的高效資源分配系統,旨在解決大型分布式深度學習集群下的資源利用低效問題,通過對分布式深度學習任務的預測、調度和資源調整,最小化平均作業完成時間和提升集群資源利用率。
為實現本發明的目的,本發明提供的一種面向分布式深度學習訓練任務的高效資源分配系統,包括:
初始資源配置模塊,其用于為訓練作業分配一個初始資源配置;
LAS隊列,其用于將作業按照獲得服務數升序排序;
二分類器,其用于識別LAS隊列單元內的不可預測作業是否轉變為可預測作業;
性能模型,其用于該模型可以估計作業的作業完成時間JCT;
正效益隊列和負效益隊列,其用于分別放置JCT增加或減少的作業;
多級反饋隊列MLFQ,其用于針對可預測LAS隊列、不可預測LAS隊列、正效益隊列和負效益隊列,基于波達計數的隊列融合策略,將這四個隊列結合起來,生成一個綜合考慮多個因素的多級反饋隊列;
資源分配調整單元,其用于根據MLFQ隊列調整對所有作業的資源分配。
其中,
以每個作業的5個指標作為輸入來設計二分類器,其中5個指標包括最大完工時間、精度、損失值、吞吐量和是否重新提交,二分類器采用機器學習算法來識別可預測作業。
其中,
所述二分類器使用K鄰近、邏輯回歸、隨機森林回歸、支持向量機、多層感知機MLP時的準確率結果。
其中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110487973.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于紙張均勻化脫酸的保護方法
- 下一篇:一種養老院智能床監控系統





