[發明專利]分布式深度學習推理云平臺任務調度方法有效
| 申請號: | 202010865843.3 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN111866187B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 譚光明;馬立賢;邵恩;張春明;段勃 | 申請(專利權)人: | 中科院計算所西部高等技術研究院 |
| 主分類號: | H04L67/10 | 分類號: | H04L67/10;H04L67/60 |
| 代理公司: | 北京海虹嘉誠知識產權代理有限公司 11129 | 代理人: | 胡博文 |
| 地址: | 401121 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 深度 學習 推理 平臺 任務 調度 方法 | ||
本發明提供的一種分布式深度學習推理云平臺任務調度方法,包括以下步驟:S1.將用戶在云平臺上創建的任務輸入任務隊列中;S2.任務控制器從任務隊列中提取目標任務,并將目標任務對應的服務分割成若干子服務進行分布式處理;S3.并行模式選擇器根據子服務生成相應的模型;S4.任務執行器根據并行模式選擇器所產生的模型執行對應的子服務;通過本發明,能夠將用戶所提交的任務在云環境下進行分布式處理,對于分布式操作下的每一個節點選擇加速卡資源狀態下的最優并行參數,從而提高任務的運行效率,并能夠確保云環境下的加速卡設備的利用率。
技術領域
本發明涉及一種服務調度方法,尤其涉及一種分布式深度學習推理云平臺任務調度方法。
背景技術
深度學習的訓練與推理任務是一種計算密集型任務,但推理任務與訓練所不同的是推理任務的計算周期不是長時間與固定某一時間段,而是隨著時間的變化而變化,通常在白天到夜晚計算密集流量高,而在夜晚至凌晨流量低計算量相對較少。現有技術中,對于云平臺的推理任務的運行效率較低,而且云環境下的加速卡設備的利用率也較低。
因此,為了解決上述技術問題,亟需提出一種新的技術手段。
發明內容
有鑒于此,本發明的目的是提供一種分布式深度學習推理云平臺任務調度方法,能夠將用戶所提交的任務在云環境下進行分布式處理,對于分布式操作下的每一個節點選擇加速卡資源狀態下的最優并行參數,從而提高任務的運行效率,并能夠確保云環境下的加速卡設備的利用率。
本發明提供的一種分布式深度學習推理云平臺任務調度方法,包括以下步驟:
S1.將用戶在云平臺上創建的任務輸入任務隊列中;
S2.任務控制器從任務隊列中提取目標任務,并將目標任務對應的服務分割成若干子服務進行分布式處理;
S3.并行模式選擇器根據子服務生成相應的模型;
S4.任務執行器根據并行模式選擇器所產生的模型執行對應的子服務。
進一步,步驟S2中,在任務控制器從任務隊列中提取目標任務前,由資源監控器判斷當前是否可執行任務:
若當前集群資源無空閑或者空閑資源較低,那么任務隊列中的任務將處于等待狀態;
若當前集群資源具有空余并滿足任務執行需求時,則判斷當前可執行任務。
進一步,任務控制器提取目標任務具體如下:
當前可執行任務時,任務控制器從任務隊列中選擇最先進入到任務隊列的任務作為目標任務。
進一步,步驟S2中,任務控制器判斷目標任務是否具有對應的服務,若不存在,則創建目標任務的服務。
進一步,并行模式選擇器基于Q-learning算法選擇并行參數并生成相應的模型,具體如下:
基于任務完成時間T、加速卡利用率U以及加速卡現存使用量M構建獎勵函數Reward:
Reward=μ1N(Tm-T)+μ2N(Um-U)+μ3N(Mm-M);
其中,μ1、μ2和μ3均為調整系數,N(·)為歸一化函數;
構建狀態集S,其中,狀態集S由推理平均準確率A、推理任務完成時間T、加速卡利用率U和加速卡現存使用量M構成;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科院計算所西部高等技術研究院,未經中科院計算所西部高等技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010865843.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:工作流作業調度控制方法
- 下一篇:一種編織機無級張力調整的錠子





