[發明專利]深度學習作業優先級調度方法及深度學習作業系統在審
| 申請號: | 202110794626.4 | 申請日: | 2021-07-14 |
| 公開(公告)號: | CN113568725A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 周悅媛;章家維;楊康;邵恩;譚光明 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 深度 學習 作業 優先級 調度 方法 系統 | ||
1.一種深度學習作業優先級調度方法,其特征在于,包括:
于任一作業調度周期內,獲取GPU集群中所有可用GPU的預測工作參數,以及該GPU集群的等待隊列中所有作業的預測作業參數;
以該預測工作參數和該預測作業參數預估每個作業的剩余執行時間;
以任一作業的剩余執行時間與該作業的預估資源數量的乘積,作為該作業的作業面積;
選取所有作業中具有作業面積最小值的作業,設置具有當前作業周期內的最高優先級。
2.如權利要求1所述的深度學習作業優先級調度方法,其特征在于,該預測工作參數包括:反映所有該可用GPU的平均故障概率p的故障參數λ,λ滿足p=1-e-λ,以及GPU故障后的平均恢復耗時δ;該預測作業參數包括:每個作業的無故障理論剩余運行時長T、預估資源數量n、作業調度周期τ;
任一作業的剩余執行時間其中,τ0為該作業在一個作業調度周期τ內的預估執行時間,p'為該作業在一個作業調度周期τ內的無故障概率。
3.如權利要求2所述的深度學習作業優先級調度方法,其特征在于,在一個作業調度周期τ內,p'=e-nλτ。
4.如權利要求1所述的深度學習作業優先級調度方法,其特征在于,以至少一個作業調度周期,執行所有深度學習作業。
5.一種深度學習作業系統,其特征在于,包括:
參數獲取模塊,用于在任一作業調度周期內,獲取GPU集群中所有可用GPU的預測工作參數,以及該GPU集群的等待隊列中所有作業的預測作業參數;并以該預測工作參數和該預測作業參數預估每個作業的剩余執行時間;
優先級調度模塊,用于根據作業的作業面積設置當前作業周期的優先級;其中,以任一作業的剩余執行時間與該作業的預估資源數量的乘積,作為該作業的作業面積,并選取所有作業中具有作業面積最小值的作業,設置具有當前作業周期內的最高優先級。
6.如權利要求5所述的深度學習作業系統,其特征在于,該預測工作參數包括:反映所有該可用GPU的平均故障概率p的故障參數λ,λ滿足p=1-e-λ,以及GPU故障后的平均恢復耗時δ;該預測作業參數包括:每個作業的無故障理論剩余運行時長T、預估資源數量n、作業調度周期τ;
任一作業的剩余執行時間其中,τ0為該作業在一個作業調度周期τ內的預估執行時間,p'為該作業在一個作業調度周期τ內的無故障概率。
7.如權利要求6所述的深度學習作業系統,其特征在于,在一個作業調度周期τ內,p'=e-nλτ。
8.如權利要求5所述的深度學習作業系統,其特征在于,以至少一個作業調度周期,執行所有深度學習作業。
9.一種計算機可讀存儲介質,存儲有計算機可執行指令,其特征在于,當該計算機可執行指令被處理器執行時,實現如權利要求1~4任一項所述的深度學習作業優先級調度方法。
10.一種數據處理裝置,包括:
GPU集群;
處理器;
如權利要求9所述的計算機可讀存儲介質,當該處理器調取并執行該計算機可讀存儲介質中的計算機可執行指令時,對該GPU集群上執行的深度學習作業進行調度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110794626.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:巧克力自動化生產線
- 下一篇:一種IP地址的處理方法、裝置、存儲介質和處理器





