[發明專利]一種資源的管理方法、系統、設備以及介質有效
| 申請號: | 202010602947.5 | 申請日: | 2020-06-29 |
| 公開(公告)號: | CN111858034B | 公開(公告)日: | 2023-01-06 |
| 發明(設計)人: | 王振;王文瀟 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/455 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 張騰;張元 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 資源 管理 方法 系統 設備 以及 介質 | ||
本發明公開了一種資源的管理方法,包括以下步驟:響應于接收到用戶創建容器的第一指令,判斷第一資源池中的資源是否滿足待創建的容器所需要的資源;響應于第一資源池中的資源滿足所需要的資源,利用第一資源池中的資源創建容器;響應于接收到用戶銷毀容器的第二指令,將銷毀容器后釋放的資源加入到第二資源池中;每隔預設時間段優先將第二資源池中的資源利用率大于閾值的第一類節點對應的資源按預設比例歸還給第一資源池。本發明還公開了一種系統、計算機設備以及可讀存儲介質。本發明提出的方案可以使得某些節點預留較大的可支配資源量,減少資源需求大的容器的等待概率,提高集群整體資源利用率。
技術領域
本發明涉及云計算領域,具體涉及一種資源的管理方法、系統、設備以及存儲介質。
背景技術
近兩年,人工智能領域呈現出以下趨勢,一是深度學習,強化學習等模型規模越來越龐大,尤其是模型訓練需要消耗巨量CPU,GPU資源,所以模型訓練一般需要一個服務器集群支持;二是模型的開發和訓練越來越流程化,不同的研發人員參與不同的環節,也需要各自對立的開發訓練環境。通常模型的開發環節所使用的資源較少,模型訓練過程中使用的資源較多。因此,一個服務器集群中需要提供獨立且不同資源規模的開發訓練環境。
針對以上需求,現在主流的解決方案是在集群上采用Docker容器化技術+容器調度方案Kubernetes組合的云計算方案,以此云計算方案為基礎構建一套人工智能平臺,滿足用戶開發和訓練的需求。研發人員在Docker提供的環境中進行開發和訓練模型,保證了對于CPU和GPU等物理資源的對立使用;Kubernetes則完成了對容器的調度,保證了對資源的利用率。事實證明,采用Docker容器化技術+容器調度方案Kubernetes組合的云計算方案的這類人工智能平臺,實現了隔離性、可移植性和資源靈活調度性,滿足了用戶的絕大多數需求。
研發人員開發模型創建的容器稱為開發環境,所需要的CPU,GPU的資源較少;而訓練模型創建的容器稱為訓練環境,所需要的CPU和GPU 資源巨大。通常集群中,開發環境數量較多,訓練環境數量較少。雖然Kubernetes容器編排帶來了調度的自動化,減少人工干預,然而在面對模型開發和模型訓練并存的集群中,仍然存在一個痛點沒有很好的解決。現在的Kubernetes調度策略較為簡單或者主要考慮集群中各節點的負載相對均衡,導致容器在各節點上的分配較為均衡,各個節點的資源使用量和剩余量基本一致。當研發人員需要訓練模型時,若單個容器需要的資源較大,會出現集群中每個節點的剩余資源均不滿足調度的資源要求,導致調度失敗,用戶無法使用平臺的服務,而且也造成了一定程度的浪費。極限情況是集群中每個節點的資源利用率都不高,但是沒有一個節點可以滿足訓練環境所需要的資源要求,用戶只能等待資源足夠時才能訓練模型。這種情況是需要避免的。
發明內容
有鑒于此,為了克服上述問題的至少一個方面,本發明實施例提出一種資源的管理方法,包括以下步驟:
響應于接收到用戶創建容器的第一指令,判斷第一資源池中的資源是否滿足待創建的容器所需要的資源;
響應于所述第一資源池中的資源滿足所述所需要的資源,利用所述第一資源池中的資源創建所述容器;
響應于接收到用戶銷毀所述容器的第二指令,將銷毀所述容器后釋放的資源加入到第二資源池中;
每隔預設時間段優先將所述第二資源池中的資源利用率大于閾值的第一類節點對應的資源按預設比例歸還給所述第一資源池。
在一些實施例中,響應于所述第一資源池中的資源滿足所述所需要的資源,利用第一資源池中的資源創建所述容器,進一步包括:
判斷所述第一資源池中所述第一類節點對應的資源是否滿足所述所需要的資源;
響應于所述第一資源池中第一類節點對應的資源不滿足所述所需要的資源,判斷所述第一資源池中資源利用率不大于閾值的第二類節點對應的資源是否滿足所述所需要的資源;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010602947.5/2.html,轉載請聲明來源鉆瓜專利網。





