[發明專利]一種基于MPI的集群資源調度方法、裝置及系統有效
| 申請號: | 202011212657.6 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112035267B | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 范來琦;曾勇平;王安濱 | 申請(專利權)人: | 北京淇瑀信息科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/54 |
| 代理公司: | 北京清誠知識產權代理有限公司 11691 | 代理人: | 喬東峰 |
| 地址: | 100012 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mpi 集群 資源 調度 方法 裝置 系統 | ||
1.一種基于MPI的集群資源調度方法,其特征在于,執行該方法的客戶端基于MPI的實現之上進行了封裝,將資源調度的能力集成于MPI框架中,所述方法包括:
通過時序數據庫InfluxDB獲取集群內各計算機的資源剩余信息;所述集群包含多個node節點,在每個node節點中通過守護進程collectd實時收集集群內各個計算機的資源指標,并將所述資源指標同步到時序數據庫InfluxDB中;
獲取當前MPI任務所需資源;其中,以任務隊列的方式存放提交的MPI任務,按照先進先出或者MPI任務的優先級設置任務隊列;
根據當前任務所需資源和集群內各計算機的資源剩余信息生成基于MPI的可用資源列表;所述基于MPI的可用資源列表是指可以通過MPI標準中定義的數據通訊函數進行多進程通訊,從而實現多機并行的可用資源列表;具體將當前任務所需資源分為N份子任務,若在集群內能找到大于等于N個數量的計算機,其中每個計算機的資源剩余量均大于等于最小子任務所需資源,則這大于N個數量的計算機對應的地址是集群內可調度的計算機地址,將其存入所述基于MPI的可用資源列表中;若在集群內未能找到至少N個計算機的資源剩余量均大于等于最小子任務所需資源,則調整子任務所需資源量和子任務的個數,直至在集群內能找到大于等于子任務數量的計算機,且各個計算機的資源剩余量均大于等于最小子任務所需資源為止;
基于MPI標準,調用mpich并將可用資源列表中可調度的計算機地址作為參數傳入mpich;mpich在所述可調度的計算機中選取剩余資源與子任務所需資源量最接近的可調度計算機并行執行當前任務。
2.根據權利要求1所述的方法,其特征在于,所述通過時序數據庫InfluxDB獲取集群內各計算機的資源剩余信息之前,所述方法還包括:
InfluxDB接收并存儲所述資源指標。
3.根據權利要求1所述的方法,其特征在于,當接收到當前任務時,獲取集群內各計算機的資源剩余信息;
或者,實時獲取集群內各計算機的資源剩余信息。
4.根據權利要求1所述的方法,其特征在于,mpich在所述可調度的計算機中選擇執行當前任務的計算機及執行當前任務對每臺計算機的資源需求;
執行當前任務的計算機根據所述資源需求隔離出執行當前任務的資源,并在此資源下執行當前任務。
5.一種基于MPI的集群資源調度裝置,其特征在于,所述裝置基于MPI的實現之上進行了封裝,將資源調度的能力集成于MPI框架中,所述裝置包括:
第一獲取模塊,用于通過時序數據庫InfluxDB獲取集群內各計算機的資源剩余信息;所述集群包含多個node節點,在每個node節點中通過守護進程collectd實時收集集群內各個計算機的資源指標,并將所述資源指標同步到時序數據庫InfluxDB中;
第二獲取模塊,用于獲取當前MPI任務所需資源;其中,以任務隊列的方式存放提交的MPI任務,按照先進先出或者MPI任務的優先級設置任務隊列;
生成模塊,用于根據當前任務所需資源和集群內各計算機的資源剩余信息生成基于MPI的可用資源列表;所述基于MPI的可用資源列表是指可以通過MPI標準中定義的數據通訊函數進行多進程通訊,從而實現多機并行的可用資源列表;具體將當前任務所需資源分為N份子任務,若在集群內能找到大于等于N個數量的計算機,其中每個計算機的資源剩余量均大于等于最小子任務所需資源,則這大于N個數量的計算機對應的地址是集群內可調度的計算機地址,將其存入所述基于MPI的可用資源列表中;若在集群內未能找到至少N個計算機的資源剩余量均大于等于最小子任務所需資源,則調整子任務所需資源量和子任務的個數,直至在集群內能找到大于等于子任務數量的計算機,且各個計算機的資源剩余量均大于等于最小子任務所需資源為止;
執行模塊,用于基于MPI標準,調用mpich并將可用資源列表中可調度的計算機地址作為參數傳入mpich;mpich在所述可調度的計算機中選取剩余資源與子任務所需資源量最接近的可調度計算機并行執行當前任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京淇瑀信息科技有限公司,未經北京淇瑀信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011212657.6/1.html,轉載請聲明來源鉆瓜專利網。





