[發明專利]一種適用于多租戶場景的并行計算管理方法及系統在審
| 申請號: | 202010922040.7 | 申請日: | 2020-09-04 |
| 公開(公告)號: | CN111966481A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 劉暢 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50 |
| 代理公司: | 濟南舜源專利事務所有限公司 37205 | 代理人: | 李舜江 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 適用于 租戶 場景 并行 計算 管理 方法 系統 | ||
本發明提供一種適用于多租戶場景的并行計算管理方法及系統,該方法包括如下步驟:S1:接收到用戶提交的任務M后,解析任務M所需的硬件資源;S2:判斷當前集群計算節點資源是否滿足任務M所需的硬件資源;S3:判斷當前內存空間是否存在優先級低于任務M的優先級的任務;S4:將當前內存空間內優先級低于任務M的優先級的任務進行遷移或掛起;執行步驟S5;S5:在各計算節點內存空間中開辟內存分區,下發并行任務M;執行步驟S6;S6:任務M結束后,判斷是否立即回收內存;若是,回收內存;S7:將任務M放入等待隊列,設定時間后,執行步驟S2。實現大批量任務的靈活調度,在任務結束后能夠快速的資源清理與回收。
技術領域
本發明涉及計算集群管理技術領域,具體涉及一種適用于多租戶場景的并行計算管理方法及系統。
背景技術
目前主流的并行計算管理系統,如Slurm,已經集成了針對用戶進行計量管理的功能,具備了不同用戶不同管理策略的雛形。但是,這種功能相對簡單,主要實現方式是根據并行計算系統中,管理節點所在操作系統登陸的用戶名,來判斷能夠使用的物理計算集群,以限制其能夠使用的物理資源(通常以單臺設備為最小單位)。
但是,在云計算與云服務飛速發展的今天,并行計算已經不僅僅局限在特定的超算中心,而是應該可以通過服務的方式向多租戶同時提供服務,在這種場景下,并行計算管理系統需要做出很多改變。例如:1)計算任務不能再僅僅是傳統的獨占方式(在運行結束前,無法停止或者遷移),而是應該能夠進行靈活的調度與遷移。2)對于不再使用服務的用戶,其之前使用的物理資源應該能夠得到快速的釋放與清理,以迅速提供給其他用戶使用。
發明內容
針對現有的并行計算管理系統中存在計算任務在運行結束前,無法停止或者遷移以及使用完成后不能即使釋放清理的問題,本發明提供一種適用于多租戶場景的并行計算管理方法及系統。
本發明的技術方案是:
一方面,本發明技術方案提供一種適用于多租戶場景的并行計算管理方法,包括如下步驟:
S1:接收到用戶提交的任務M后,解析任務M所需的硬件資源;
S2:判斷當前集群計算節點資源是否滿足任務M所需的硬件資源;若是,執行步驟S5;若否,執行步驟S3;
S3:判斷當前內存空間是否存在優先級低于任務M的優先級的任務,若是,執行步驟S4;若否,執行步驟S7;
S4:將當前內存空間內優先級低于任務M的優先級的任務進行遷移或掛起;執行步驟S5;
S5:在各計算節點內存空間中開辟內存分區,下發并行任務M;執行步驟S6;
S6:任務M結束后,判斷是否立即回收內存,若是,回收內存,若否,結束;
S7:將任務M放入等待隊列,設定時間后,執行步驟S2。
進一步的,步驟S4中,將當前內存空間內優先級低于任務M的優先級的任務進行遷移或掛起的步驟包括:
S41:將當前內存空間內優先級低于任務M的優先級的任務進行遷移或掛起;多租戶場景下,出現資源緊張,或者租戶任務優先級不同的情況時,可能對現有任務進行遷移或者掛起,以滿足更高優先級任務的執行;
S42:任務進行遷移或掛起后,獲取當前集群節點資源;
S43:判斷當前集群節點資源是否滿足任務M所需的硬件資源,若是,執行步驟S5;若否,執行步驟S7。
進一步的,步驟S6中,任務M結束后,判斷是否立即回收內存的步驟包括:
S61:任務M結束后,獲取已結束任務在各個計算節點中的內存占用情況;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010922040.7/2.html,轉載請聲明來源鉆瓜專利網。





