[發(fā)明專利]集群資源調(diào)度方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110664041.0 | 申請(qǐng)日: | 2021-06-15 |
| 公開(kāi)(公告)號(hào): | CN113377540A | 公開(kāi)(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計(jì))人: | 孫鵬;梁若凡;顏深根 | 申請(qǐng)(專利權(quán))人: | 上海商湯科技開(kāi)發(fā)有限公司 |
| 主分類號(hào): | G06F9/50 | 分類號(hào): | G06F9/50;G06F9/54 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 熊永強(qiáng);董文俊 |
| 地址: | 201306 上海市浦東新區(qū)自*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 集群 資源 調(diào)度 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種集群資源調(diào)度方法,其特征在于,包括:
在第一運(yùn)行環(huán)境中,獲取對(duì)圖形處理器GPU集群中GPU的資源調(diào)度請(qǐng)求;所述資源調(diào)度請(qǐng)求中包括請(qǐng)求參數(shù);
根據(jù)所述請(qǐng)求參數(shù)執(zhí)行任務(wù)調(diào)度策略將所述資源調(diào)度請(qǐng)求對(duì)應(yīng)的深度學(xué)習(xí)任務(wù)添加到任務(wù)隊(duì)列中,以及執(zhí)行預(yù)設(shè)資源分配策略從所述圖形處理器GPU集群中確定出至少一個(gè)目標(biāo)GPU;
將所述深度學(xué)習(xí)任務(wù)調(diào)度至所述至少一個(gè)目標(biāo)GPU上進(jìn)行處理;
調(diào)整所述任務(wù)調(diào)度策略和所述預(yù)設(shè)資源分配策略,將調(diào)整后的所述任務(wù)調(diào)度策略和所述預(yù)設(shè)資源分配策略部署在第二運(yùn)行環(huán)境中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述請(qǐng)求參數(shù)包括所述深度學(xué)習(xí)任務(wù)的任務(wù)類型,所述根據(jù)所述請(qǐng)求參數(shù)執(zhí)行任務(wù)調(diào)度策略將所述資源調(diào)度請(qǐng)求對(duì)應(yīng)的深度學(xué)習(xí)任務(wù)添加到任務(wù)隊(duì)列中,包括:
根據(jù)所述深度學(xué)習(xí)任務(wù)的任務(wù)類型從所述圖形處理器GPU集群的至少一個(gè)任務(wù)分區(qū)中確定出所述深度學(xué)習(xí)任務(wù)待請(qǐng)求的目標(biāo)任務(wù)分區(qū);
執(zhí)行所述目標(biāo)任務(wù)分區(qū)對(duì)應(yīng)的所述任務(wù)調(diào)度策略將所述深度學(xué)習(xí)任務(wù)添加到所述目標(biāo)任務(wù)分區(qū)的任務(wù)隊(duì)列中。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述請(qǐng)求參數(shù)還包括歷史深度學(xué)習(xí)任務(wù)的平均完成時(shí)長(zhǎng)和平均等待時(shí)長(zhǎng),所述執(zhí)行預(yù)設(shè)資源分配策略從所述圖形處理器GPU集群中確定出至少一個(gè)目標(biāo)GPU,包括:
根據(jù)所述平均完成時(shí)長(zhǎng)和所述平均等待時(shí)長(zhǎng)計(jì)算出所述深度學(xué)習(xí)任務(wù)待請(qǐng)求的GPU資源量;
根據(jù)所述待請(qǐng)求的GPU資源量執(zhí)行第一預(yù)設(shè)資源分配策略或第二預(yù)設(shè)資源分配策略,以從所述目標(biāo)任務(wù)分區(qū)中確定出所述至少一個(gè)目標(biāo)GPU;所述第一預(yù)設(shè)資源分配策略用于查找到所述目標(biāo)任務(wù)分區(qū)中的空閑GPU資源,則將所述空閑GPU資源確定為目標(biāo)GPU,所述第二預(yù)設(shè)資源分配策略用于查找到所述目標(biāo)任務(wù)分區(qū)中滿足計(jì)算條件的空閑GPU資源,則將所述滿足計(jì)算條件的空閑GPU資源確定為目標(biāo)GPU。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在根據(jù)所述深度學(xué)習(xí)任務(wù)的任務(wù)類型從所述圖形處理器GPU集群的至少一個(gè)任務(wù)分區(qū)中確定出所述深度學(xué)習(xí)任務(wù)待請(qǐng)求的目標(biāo)任務(wù)分區(qū)之前,所述方法還包括:
按照所述圖形處理器GPU集群中節(jié)點(diǎn)的任務(wù)類型對(duì)節(jié)點(diǎn)進(jìn)行分類,得到所述至少一個(gè)任務(wù)分區(qū);
按照所述圖形處理器GPU集群中節(jié)點(diǎn)所連接的交換機(jī)對(duì)節(jié)點(diǎn)進(jìn)行分類,得到至少一個(gè)網(wǎng)絡(luò)拓?fù)洹?/p>
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在根據(jù)所述待請(qǐng)求的GPU資源量執(zhí)行第一預(yù)設(shè)資源分配策略或第二預(yù)設(shè)資源分配策略,以從所述目標(biāo)任務(wù)分區(qū)中確定出所述至少一個(gè)目標(biāo)GPU之后,所述方法還包括:
確定所述至少一個(gè)目標(biāo)GPU所屬的節(jié)點(diǎn)是否在所述至少一個(gè)網(wǎng)絡(luò)拓?fù)涞牟煌W(wǎng)絡(luò)拓?fù)渲校?/p>
若是,則為所述深度學(xué)習(xí)任務(wù)增加額外的通信開(kāi)銷。
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,所述第二運(yùn)行環(huán)境中同樣包括所述圖形處理器GPU集群,并采用集群管理器SLURM對(duì)所述圖形處理器GPU集群中的GPU資源進(jìn)行管理,所述將調(diào)整后的所述任務(wù)調(diào)度策略和所述預(yù)設(shè)資源分配策略部署在第二運(yùn)行環(huán)境中,包括:
將調(diào)整后的所述任務(wù)調(diào)度策略和所述預(yù)設(shè)資源分配策略添加到所述集群管理器SLURM的源碼模塊中,以完成調(diào)整后的所述任務(wù)調(diào)度策略和所述預(yù)設(shè)資源分配策略在所述第二運(yùn)行環(huán)境中的部署;所述任務(wù)調(diào)度策略包括搶占式調(diào)度策略、非搶占式調(diào)度策略和學(xué)習(xí)型調(diào)度策略中的一種或多種的組合。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述獲取對(duì)圖形處理器GPU集群中GPU的資源調(diào)度請(qǐng)求,包括:
通過(guò)所述集群管理器SLURM提供的預(yù)設(shè)接口sacct API獲取所述資源調(diào)度請(qǐng)求;所述資源調(diào)度請(qǐng)求為所述第二運(yùn)行環(huán)境中,在所述圖形處理器GPU集群上處理過(guò)的歷史深度學(xué)習(xí)任務(wù)的任務(wù)記錄。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海商湯科技開(kāi)發(fā)有限公司,未經(jīng)上海商湯科技開(kāi)發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110664041.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時(shí)維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺(tái)多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點(diǎn)和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)介質(zhì)
- 混合云場(chǎng)景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒?、系統(tǒng)、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 旅游車輛調(diào)度監(jiān)控方法及其系統(tǒng)
- 一種用戶隊(duì)列調(diào)度的方法和裝置
- 一種資源調(diào)度的方法、裝置和過(guò)濾式調(diào)度器
- 一種調(diào)度方法和裝置
- 一種調(diào)度終端動(dòng)態(tài)切換調(diào)度組歸屬關(guān)系的方法及裝置
- 用戶調(diào)度方法、裝置、基站和存儲(chǔ)介質(zhì)
- 一種食材的調(diào)度系統(tǒng)和方法
- 一種資源調(diào)度的方法、裝置和過(guò)濾式調(diào)度器
- 任務(wù)調(diào)度方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種自動(dòng)化調(diào)度系統(tǒng)和調(diào)度方法
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





