[發(fā)明專利]一種細粒度的高性能云資源管理調度方法有效
| 申請?zhí)枺?/td> | 201810033927.3 | 申請日: | 2018-01-15 |
| 公開(公告)號: | CN108334409B | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設計)人: | 馬銀萍;樊春;李若淼;楊宏輝;馬皓 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;H04L12/26;H04L29/06;H04L29/08 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 細粒度 性能 資源管理 調度 方法 | ||
1.一種云資源管理調度方法,基于SLURM資源調度,通過限制用戶登錄計算節(jié)點、按核心與內存同比例資源調度、作業(yè)結束釋放占用資源、SSH登錄資源管理、限制GPU使用CPU核數、登錄節(jié)點資源限制方式,形成細粒度高性能的資源管理調度;具體地:
A.限制用戶登錄計算節(jié)點,當用戶沒有正在運行的作業(yè)時,不允許該用戶登錄計算節(jié)點;用戶首先通過提交作業(yè)申請資源;用戶只有在當前節(jié)點有正在運行的作業(yè)才能登錄當前的節(jié)點;
B.按CPU核心與內存同比例進行資源分配調度,采用內存資源與CPU核心綁定的方式對系統(tǒng)資源進行分配,用戶申請的內存總數根據申請的CPU核心數進行調整,不允許用戶另外申請內存資源;
按照核心與內存同比例分配系統(tǒng)資源,具體執(zhí)行如下操作:
步驟21:在SLURM中添加對Cgroup的使用,修改slurm.conf文件,使其通過proctrack/cgroup插件允許Cgroup追蹤作業(yè)資源;通過task/cgroup插件進行作業(yè)管理;通過jobacct_gather/cgroup插件統(tǒng)計作業(yè)數據;
步驟22:在Cgroup中,使用CPU和內存作為對作業(yè)資源的限制,在slurm.conf文件目錄下添加cgroup.conf文件,cgroup.conf文件中添加/etc/slurm/cgroup_allowed_devices_file.conf 文件,使得在默認情況下/dev文件夾下的內存、GPU、存儲資源允許所有用戶作業(yè)使用;
步驟23:配置每個節(jié)點的默認的每核心的內存大小;
步驟24:刪除SLURM作業(yè)提交的mem、mem-per-cpu功能,使得用戶不能自己申請內存資源;
C.SSH登錄資源管理:用戶申請到資源之后,通過SSH的方式登錄到計算節(jié)點,此時用戶占用的資源全部歸并到用戶作業(yè)申請到的資源中;如果用戶在當前計算節(jié)點有多個作業(yè),則將當前SSH登錄占用的資源歸并到用戶任一作業(yè)申請到的資源中;
D.作業(yè)結束釋放占用資源:當用戶作業(yè)取消或完成時,如果用戶在該計算節(jié)點沒有其他正在運行的作業(yè),則殺死該用戶在該計算節(jié)點上的所有進程;
E. 限制GPU使用CPU核數:當申請GPU資源時,根據申請GPU的個數限制能申請的CPU個數;當用戶作業(yè)申請的CPU與GPU比例超過限定時,禁止作業(yè)運行;
F. 限制登錄節(jié)點資源,不允許用戶在登錄節(jié)點運行大規(guī)模程序:在登錄節(jié)點實時監(jiān)控CPU占用率高的進程,對這些進程進行CPU資源限制。
2.如權利要求1所述云資源管理調度方法,其特征是,B中內存資源具體通過式1計算得到:
每核心內存=節(jié)點總內存/總核心數 (式1)
從而使得用戶申請的內存總數根據申請到的核心數進行調整。
3.如權利要求1所述云資源管理調度方法,其特征是,A具體通過配置SLURM的pam_slurm_adopt插件,使得用戶在沒有正在運行的作業(yè)的情況下不允許登錄計算節(jié)點;所述pam_slurm_adopt插件在用戶沒有作業(yè)時阻止用戶登錄計算節(jié)點,并在用戶有作業(yè)運行情況下,追蹤SSH登錄計算節(jié)點所使用的資源;具體執(zhí)行如下操作:
步驟11:配置SLURM,允許使用pam_slurm_adopt插件,在slurm.conf文件中增加UsePAM=1;
步驟12:在 /etc/pam.d/sshd中,添加pam_slurm_adopt.so插件的使用;
步驟13:修改/etc/pam.d/password-auth文件,使得pam_slurm_adopt.so插件能夠正常使用。
4.如權利要求1所述云資源管理調度方法,其特征是,步驟24在SLURM 17.11 版本中實現,具體執(zhí)行如下操作:
步驟241,編譯安裝SLURM時添加參數使SLURM帶有LUA插件;
步驟242,修改job_submit.lua文件中的函數function slurm_job_submit(job_desc,part_list, submit_uid) ,使得mem以及mem-per-cpu在 srun,sbatch,salloc指令中失效。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810033927.3/1.html,轉載請聲明來源鉆瓜專利網。





