[發明專利]一種訓練任務資源調度方法、裝置、設備及介質在審
| 申請號: | 202111150775.3 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN113867959A | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 王德奎;陳培 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張藝 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 任務 資源 調度 方法 裝置 設備 介質 | ||
本申請公開了一種訓練任務資源調度方法、裝置、設備及介質,該方法包括:確定服務器集群中正在運行的目標訓練任務的已分配資源利用率;若已分配資源利用率滿足預設條件,則根據當前服務器集群中的空閑資源對服務器集群中的服務器節點進行篩選,并在篩選到的服務器節點中為目標訓練任務分配新資源,以得到擴容后訓練任務;當獲取新訓練任務,并且當前服務器集群中的空閑資源不滿足新訓練任務的資源需求時,則從所有所述擴容后訓練任務對應的所述新資源所在的服務器節點中篩選出目標服務器節點,并對所述目標服務器節點中的所述新資源進行釋放。通過上述方案,能夠提升服務器集群的訓練任務資源伸縮效率。
技術領域
本發明涉及人工智能技術領域,特別涉及一種訓練任務資源調度方法、裝置、設備及介質。
背景技術
在基于服務器集群的AI(即Artificial Intelligence,人工智能)訓練場景中,一個模型訓練所需要的具體資源由于無法被預先準確計算出來,所以目前算法人員在申請訓練任務使用的CPU(即Central Processing Unit,中央處理器)和GPU(即GraphicsProcessing Unit,圖形處理器)時,通常都會按照個人主觀判斷申請或者按照最大規格來申請,這可能會導致訓練任務資源不充分或者資源浪費。對于已經在運行的訓練任務Job來說,如果該訓練任務Job的已分配資源利用率已經很高,此時會出現由于訓練任務Job的預分配資源不足致使無法提高訓練性能、而集群中卻存在資源閑置情況的問題。
為了克服上述問題,當前可以采取以下兩種方式來對訓練任務Job進行資源伸縮,以達到為訓練任務Job進行資源擴容或縮容的目的,其中,一種方式是采用Horovod訓練框架為訓練任務提供的彈性資源伸縮機制,但是在使用這種方式時需要用戶進行手動處理,從而降低了資源伸縮效率;而另外一種方式則是基于checkpoint來進行訓練任務的資源彈性擴容,不過這種方式需要先終止訓練任務Job中的所有任務運行進程task,并進行task的重建,整個過程消耗時間過多,由此也降低了資源伸縮效率。
綜上,如何提升服務器集群的訓練任務資源伸縮效率是目前有待解決的問題。
發明內容
有鑒于此,本發明的目的在于提供一種訓練任務資源調度方法、裝置、設備及介質,能夠提升服務器集群的訓練任務資源伸縮效率。其具體方案如下:
第一方面,本申請公開了一種訓練任務資源調度方法,包括:
確定當前所述服務器集群中正在運行的目標訓練任務的已分配資源利用率;所述目標訓練任務為所述分布式訓練任務中的任一訓練任務;
若所述已分配資源利用率滿足預設條件,則根據當前所述服務器集群中的空閑資源對所述服務器集群中的服務器節點進行篩選,并在篩選到的服務器節點中為所述目標訓練任務分配新資源,以得到擴容后訓練任務;
當獲取到新訓練任務,則判斷當前所述服務器集群中的空閑資源是否滿足所述新訓練任務的資源需求;
若當前所述服務器集群中的空閑資源不滿足所述資源需求,則從所有所述擴容后訓練任務對應的所述新資源所在的服務器節點中篩選出目標服務器節點,并對所述目標服務器節點中的所述新資源進行釋放。
可選的,所述確定當前所述服務器集群中正在運行的目標訓練任務的已分配資源利用率,包括:
確定當前所述服務器集群中正在運行的目標訓練任務的已分配GPU利用率;
相應的,所述若所述已分配資源利用率滿足預設條件,則根據當前所述服務器集群中的空閑資源對所述服務器集群中的服務器節點進行篩選,并在篩選到的服務器節點中為所述目標訓練任務分配新資源,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111150775.3/2.html,轉載請聲明來源鉆瓜專利網。





