[發明專利]基于SLURM作業調度系統的昇騰處理器管理和調度方法有效
| 申請號: | 202110096508.6 | 申請日: | 2021-01-25 |
| 公開(公告)號: | CN112882828B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 馬銀萍;樊春;楊宏輝;李若淼 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京聯創佳為專利事務所(普通合伙) 11362 | 代理人: | 郭防 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 slurm 作業 調度 系統 處理器 管理 方法 | ||
1.基于SLURM作業調度系統的昇騰處理器管理和調度方法,其特征在于:將昇騰處理器作為與GPU類似的NPU,通過SLURM中的GRES插件來對NPU進行管理調度,實現對昇騰處理器進行管理和調度;其具體步驟如下:
A、添加NPU插件模塊:通過接口獲取NPU的硬件信息;
B、添加作業申請NPU資源功能:通過salloc、srun或sbatch命令來申請NPU資源;
C、GRES插件添加NPU模塊:在GRES插件中增加NPU模塊來分配管理NPU資源;
D、重編譯SLURM源代碼:添加用于NPU模塊的編譯選項,再將SLURM重新編譯;
E、修改SLURM配置文件:修改SLURM配置文件以滿足對NPU的支持;
F、啟動SLURM服務,對昇騰處理器進行管理和調度。
2.根據權利要求1所述的基于SLURM作業調度系統的昇騰處理器管理和調度方法,其特征在于,步驟A所述的添加NPU插件模塊,其具體內容如下:
通過DSMI接口函數來設置或獲取NPU的硬件信息,至少包括獲取NPU的芯片數量、芯片型號。
3.根據權利要求1所述的基于SLURM作業調度系統的昇騰處理器管理和調度方法,其特征在于,步驟C所述的GRES插件添加NPU模塊,其具體內容如下:
在src/plugin/gres文件夾下添加名為npu的文件夾,文件夾中gres_npi.c文件實現了GRES插件中NPU模塊的初始化、環境變量設置、獲取作業信息、獲取NPU資源列表、設置作業運行參數,完成對GRES插件添加NPU模塊功能。
4.根據權利要求1所述的基于SLURM作業調度系統的昇騰處理器管理和調度方法,其特征在于,步驟D所述的重編譯SLURM源代碼,其具體內容如下:
D1、在slurm.spec文件中添加--with-dsmi選項;
D2、在SLURM根目錄的auxdir文件夾中添加x_ac_dsmi.m4文件;
D3、在GRES插件的src/plugins/gres/Makefile.am文件中添加對NPU模塊的支持;
D4、在根目錄下src/plugins文件夾中的Makefile.am文件中添加對NPU模塊的支持;
D5、在根目錄下configure.ac文件中添加對NPU添加的Makefile文件的支持;
D6、重新編譯修改后的SLURM代碼。
5.根據權利要求1所述的基于SLURM作業調度系統的昇騰處理器管理和調度方法,其特征在于,步驟E所述的修改SLURM配置文件,其具體內容如下:
E1、在slurm.conf中設置“GresTypes=npu”;
E2、在slurm.conf中設置NPU節點的NPU資源數量;
E3、在GRES的配置文件gres.conf中,指定具有NPU資源的節點,以及節點NPU設備的設備文件;
E4、在cgroup.conf文件中添加ConstrainDevices=yes使得SLURM可以按照GRES為單位對資源進行調度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110096508.6/1.html,轉載請聲明來源鉆瓜專利網。





