[發明專利]一種基于Spark與GPU的并行計算系統在審
| 申請號: | 201710270400.8 | 申請日: | 2017-04-24 |
| 公開(公告)號: | CN107168782A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 鄭健;杜姍姍;馮瑞;金城;薛向陽 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50;G06F15/173 |
| 代理公司: | 上海正旦專利代理有限公司31200 | 代理人: | 陸飛,陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 spark gpu 并行 計算 系統 | ||
1.一種基于Spark與GPU的并行計算系統,其特征在于,包括:
改進的的資源管理平臺,其支持對GPU、CPU與內存等多維資源進行調度與管理;
改進的Spark分布式計算框架,其支持對GPU型任務的調度與執行;
(1)所述改進的的資源管理平臺,包括:
改進YARN的資源管理器與節點管理器,使其能夠有效感知異構集群的GPU資源,從而支持對集群GPU資源的管理與調度;其中,包括資源表示模型、資源調度模型、資源搶占模型、資源隔離機制及GPU設備的動態綁定機制的改進;
(2)所述改進的Spark分布式計算框架,包括:
改進Spark的資源申請與分配機制、作業調度機制與任務執行機制,使其支持對GPU型任務的調度與執行;通過在資源申請、資源分配、DAG生成、stage劃分與任務執行等階段引入對GPU資源的標識,使其執行引擎能夠感知GPU任務,并在異構集群中有效執行。
2.根據權利要求1所述的基于Spark與GPU的并行計算系統,其特征在于,所述改進的的資源管理平臺,能夠支持對包含GPU資源在內的多維資源進行管理與調度:
關于資源表示模型,首先自定義節點中包含的GPU設備數量,并修改資源表示協議,使其增加對GPU資源的表示;待節點啟動時,節點管理器初始化資源列表,并與資源管理器通過心跳機制匯報該節點的資源信息;
關于資源調度模型,將GPU與CPU、內存資源一起添加到資源管理平臺的層級管理隊列中;依據DRF算法對資源調度模塊進行修改,使其添加對GPU資源的調度與管理;該算法如下:
(1)初始化變量;其中,R=<totalCPU,totalGPU,totalMem>表示集群CPU、GPU及內存資源的總量,C=<usedCPU,usedGPU,usedMem>表示集群中已被消費的CPU、GPU及內存資源的數量,si表示作業i的主資源占相應總資源的份額,Ui=<CPUi,GPUi,Memi>表示已經分配給作業i的資源量,Di=<CPUi,GPUi,Memi>表示作業i的每個任務需要的資源量,在每次選取作業進行資源分配時,依次執行以下步驟:
(2)選取主資源份額si最小的作業執行;
(3)如果C+Di≤R,則將資源分配給作業i,更新C=C+Di,Ui=Ui+Di,
si=max{Ui/R};否則,集群資源無法滿足需求,停止分配;
關于資源搶占模型,通過資源調度器對層級隊列中的每個隊列設置每種資源的可用上限與下限;資源調度器將負載較輕的隊列的資源分配給其他負載較重的隊列以提高集群資源利用率;但當有新的應用程序提交到負載較輕的隊列時,調度器會資源搶占機制收回其他隊列所占用的資源,從而將本屬于該隊列的資源分配給它;在資源搶占機制發生時,需要釋放GPU資源;這個工作由節點管理器完成,這里新增releaseGPU方法用于釋放GPU資源;資源管理器將需要釋放的資源列表信息通過心跳機制發送給響應的節點管理器,節點管理器檢測到待釋放的資源實體中含有GPU資源時,調用releaseGPU方法釋放GPU資源;然后資源管理器將所釋放的資源進一步分配給相關隊列;
關于資源隔離模型,采用Cgroups方案對GPU資源進行隔離;
關于GPU設備的動態綁定機制,當分配給該任務的資源實體中包含GPU資源時,相應的節點管理器需要將節點上的GPU設備與該資源實體進行綁定;如果節點上有多個空閑的GPU資源,那么需要選擇一個進行分配;將GPU的運行狀態信息表示為<GPU設備號,資源實體號>列表,列表的每條數據標識了GPU設備與相關資源實體的對應關系;節點管理器在節點剛啟動時根據相關配置文件以及該節點上的GPU設備信息初始化該列表;
當有新的任務請求使用GPU資源時,節點管理器通過查找該列表,從而獲得處于空閑狀態的GPU設備信息,并將其分配給相關任務;如果節點管理器節點上擁有多個GPU資源處于空閑狀態,則通過輪轉法進行GPU資源的分配;同時,將已經運行的資源實體與GPU資源的對應信息進行保存至數據庫中;在節點管理器需要重新啟動的情況下,能夠從數據庫中直接讀取GPU設備的分配信息,避免了對節點資源的再分配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710270400.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種3D打印子任務調度方法和裝置
- 下一篇:一種數據遷移方法及系統





