[發明專利]一種訓練任務資源調度方法、裝置、設備及介質在審
| 申請號: | 202111150775.3 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN113867959A | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 王德奎;陳培 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張藝 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 任務 資源 調度 方法 裝置 設備 介質 | ||
1.一種訓練任務資源調度方法,其特征在于,應用于服務器集群,所述服務器集群用于執行分布式訓練任務,包括:
確定當前所述服務器集群中正在運行的目標訓練任務的已分配資源利用率;所述目標訓練任務為所述分布式訓練任務中的任一訓練任務;
若所述已分配資源利用率滿足預設條件,則根據當前所述服務器集群中的空閑資源對所述服務器集群中的服務器節點進行篩選,并在篩選到的服務器節點中為所述目標訓練任務分配新資源,以得到擴容后訓練任務;
當獲取到新訓練任務,則判斷當前所述服務器集群中的空閑資源是否滿足所述新訓練任務的資源需求;
若當前所述服務器集群中的空閑資源不滿足所述資源需求,則從所有所述擴容后訓練任務對應的所述新資源所在的服務器節點中篩選出目標服務器節點,并對所述目標服務器節點中的所述新資源進行釋放。
2.根據權利要求1所述的訓練任務資源調度方法,其特征在于,所述確定當前所述服務器集群中正在運行的目標訓練任務的已分配資源利用率,包括:
確定當前所述服務器集群中正在運行的目標訓練任務的已分配GPU利用率;
相應的,所述若所述已分配資源利用率滿足預設條件,則根據當前所述服務器集群中的空閑資源對所述服務器集群中的服務器節點進行篩選,并在篩選到的服務器節點中為所述目標訓練任務分配新資源,包括:
若所述已分配GPU利用率不小于第一預設閾值,并且所述服務器集群中的空閑GPU資源數量不小于第一預設GPU資源數量,則對所述服務器集群中的服務器節點進行篩選,并在篩選到的服務器節點中根據所述第一預設GPU資源數量和預設CPU資源數量為所述目標訓練任務創建具有相應資源的新任務運行進程。
3.根據權利要求1所述的訓練任務資源調度方法,其特征在于,所述確定當前所述服務器集群中正在運行的目標訓練任務的已分配資源利用率,包括:
確定當前所述服務器集群中正在運行的目標訓練任務的已分配GPU利用率和已分配CPU利用率;
相應的,所述若所述已分配資源利用率滿足預設條件,則根據當前所述服務器集群中的空閑資源對所述服務器集群中的服務器節點進行篩選,并在篩選到的服務器節點中為所述目標訓練任務分配新資源,包括:
若所述已分配GPU利用率小于第一預設閾值,并且所述已分配CPU利用率不小于第二預設閾值,則確定當前所述目標訓練任務所需的新CPU資源數量,并判斷當前運行所述目標訓練任務的服務器節點中的空閑CPU資源數量是否不小于所述新CPU資源數量;
如果所述空閑CPU資源數量不小于所述新CPU資源數量,則從所述服務器集群中篩選出當前運行所述目標訓練任務的服務器節點,并在篩選到的服務器節點中為所述目標訓練任務的已創建任務運行進程分配與所述新CPU資源數量相一致的新CPU資源;
如果所述空閑CPU資源數量小于所述新CPU資源數量,則根據當前所述服務器集群中其他服務器節點的空閑資源,對所述其他服務器節點進行篩選,并在篩選到的服務器節點中根據所述新CPU資源數量以及第二預設GPU資源數量為所述目標訓練任務創建具有相應資源的新任務運行進程。
4.根據權利要求1所述的訓練任務資源調度方法,其特征在于,所述從所有所述擴容后訓練任務對應的所述新資源所在的服務器節點中篩選出目標服務器節點,并對所述目標服務器節點中的所述新資源進行釋放,包括:
確定每個所述服務器節點中包含的新資源總數;
確定每個所述服務器節點中與所述新資源相關的訓練任務總數,以得到關聯任務總數;
基于所述服務器節點中的所述新資源總數和所述關聯任務總數,確定出所述服務器集群中每個所述服務器節點的優先級;
基于所述服務器節點的優先級從所述服務器集群中確定出目標服務器,并對所述目標服務器節點中的所述新資源進行釋放,以使釋放后的所述服務器集群中的空閑資源滿足所述新訓練任務的資源需求。
5.根據權利要求1所述的訓練任務資源調度方法,其特征在于,還包括:
按照預設擴容觸發時刻定期觸發為已分配資源利用率滿足所述預設條件的所述目標訓練任務分配新資源的步驟;
按照預設縮容觸發時刻定期觸發對所述目標服務器節點中的所述新資源進行釋放的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111150775.3/1.html,轉載請聲明來源鉆瓜專利網。





