[發(fā)明專利]資源調(diào)度方法及裝置有效
| 申請?zhí)枺?/td> | 201910837021.1 | 申請日: | 2019-09-05 |
| 公開(公告)號: | CN110688218B | 公開(公告)日: | 2022-11-04 |
| 發(fā)明(設(shè)計)人: | 房體盈 | 申請(專利權(quán))人: | 廣東浪潮大數(shù)據(jù)研究有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/455 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 510620 廣東省廣州市天河區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 資源 調(diào)度 方法 裝置 | ||
1.一種資源調(diào)度方法,其特征在于,包括:
當(dāng)接收到用戶發(fā)送的資源調(diào)度請求時,確定與所述資源調(diào)度請求對應(yīng)的調(diào)度請求條件,所述調(diào)度請求條件包括圖形處理器GPU資源的目標(biāo)GPU個數(shù),及每個所述GPU資源對應(yīng)的目標(biāo)顯存大小;
獲取預(yù)先設(shè)置的集群資源緩存裝置中預(yù)先緩存的每個計算節(jié)點(diǎn)的節(jié)點(diǎn)信息,并依據(jù)各個所述節(jié)點(diǎn)信息,選取滿足所述調(diào)度請求條件的目標(biāo)計算節(jié)點(diǎn);
所述依據(jù)各個所述節(jié)點(diǎn)信息,選取滿足所述調(diào)度請求條件的目標(biāo)計算節(jié)點(diǎn),包括:
獲取每個所述節(jié)點(diǎn)信息中的GPU信息,每個所述GPU信息包括與其對應(yīng)的計算節(jié)點(diǎn)中各個空閑GPU資源的空閑GPU個數(shù),及每個所述空閑GPU資源對應(yīng)的剩余顯存大小;
依據(jù)每個所述GPU信息中每個所述空閑GPU資源的剩余顯存大小,確定每個所述計算節(jié)點(diǎn)中的總剩余顯存大小,并依據(jù)所述調(diào)度請求條件計算與所述資源調(diào)度請求對應(yīng)的總目標(biāo)顯存大小;
依據(jù)每個所述計算節(jié)點(diǎn)對應(yīng)的空閑GPU個數(shù)及總剩余顯存大小,從各個所述計算節(jié)點(diǎn)中,確定空閑GPU個數(shù)不小于所述目標(biāo)GPU個數(shù),且總剩余顯存大小不小于所述總目標(biāo)顯存大小的第一候選計算節(jié)點(diǎn);
獲取每個所述第一候選計算節(jié)點(diǎn)的節(jié)點(diǎn)信息中包含的各個空閑GPU資源的綁定信息;
依據(jù)每個所述第一候選計算節(jié)點(diǎn)對應(yīng)的綁定信息,從各個所述第一候選計算節(jié)點(diǎn)中,選取各個所述空閑GPU資源未綁定在同一物理卡上的第二候選計算節(jié)點(diǎn);
將每個所述第二候選計算節(jié)點(diǎn)按照與其對應(yīng)的空閑GPU個數(shù),及總剩余顯存大小由小至大進(jìn)行排序,并依次選取每個所述第二候選計算節(jié)點(diǎn),判斷每個所述第二候選計算節(jié)點(diǎn)中每個所述空閑GPU資源對應(yīng)的剩余顯存大小,是否滿足所述調(diào)度請求條件中每個所述GPU資源對應(yīng)的目標(biāo)顯存大小;
若當(dāng)前選取的第二候選計算節(jié)點(diǎn)中每個所述空閑GPU資源對應(yīng)的剩余顯存大小,滿足所述調(diào)度請求條件中每個所述GPU資源對應(yīng)的目標(biāo)顯存大小,則確定所述當(dāng)前選取的第二候選計算節(jié)點(diǎn)為目標(biāo)計算節(jié)點(diǎn);
在所述目標(biāo)計算節(jié)點(diǎn)中創(chuàng)建與所述資源調(diào)度請求對應(yīng)的容器docker,將所述目標(biāo)計算節(jié)點(diǎn)與所述docker進(jìn)行綁定,并將所述目標(biāo)計算節(jié)點(diǎn)中的各個空閑GPU資源掛載至所述docker中,以使所述docker在所述目標(biāo)計算節(jié)點(diǎn)中調(diào)用各個所述空閑GPU資源,完成與所述資源調(diào)度請求對應(yīng)的資源調(diào)度任務(wù);
所述將所述目標(biāo)計算節(jié)點(diǎn)與所述docker進(jìn)行綁定后,還包括:獲取所述目標(biāo)計算節(jié)點(diǎn)對應(yīng)的學(xué)習(xí)訓(xùn)練模型,并將所述目標(biāo)計算節(jié)點(diǎn)中的docker及各個所述空閑GPU資源輸入所述學(xué)習(xí)訓(xùn)練模型,以使所述學(xué)習(xí)訓(xùn)練模型依據(jù)所述docker及各個所述空閑GPU資源進(jìn)行學(xué)習(xí)訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述集群資源緩存裝置緩存每個計算節(jié)點(diǎn)的節(jié)點(diǎn)信息的過程,包括:
設(shè)置與各個所述計算節(jié)點(diǎn)對應(yīng)的監(jiān)控周期,并調(diào)用預(yù)先設(shè)置的各個資源上報裝置依據(jù)所述監(jiān)控周期分別監(jiān)控各個所述計算節(jié)點(diǎn),獲得每個所述資源上報裝置反饋的每個所述計算節(jié)點(diǎn)的節(jié)點(diǎn)信息;
將各個所述節(jié)點(diǎn)信息發(fā)送至所述集群資源緩存裝置,觸發(fā)所述集群資源緩存裝置緩存每個所述計算節(jié)點(diǎn)的節(jié)點(diǎn)信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東浪潮大數(shù)據(jù)研究有限公司,未經(jīng)廣東浪潮大數(shù)據(jù)研究有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910837021.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 旅游車輛調(diào)度監(jiān)控方法及其系統(tǒng)
- 一種用戶隊(duì)列調(diào)度的方法和裝置
- 一種資源調(diào)度的方法、裝置和過濾式調(diào)度器
- 一種調(diào)度方法和裝置
- 一種調(diào)度終端動態(tài)切換調(diào)度組歸屬關(guān)系的方法及裝置
- 用戶調(diào)度方法、裝置、基站和存儲介質(zhì)
- 一種食材的調(diào)度系統(tǒng)和方法
- 一種資源調(diào)度的方法、裝置和過濾式調(diào)度器
- 任務(wù)調(diào)度方法、裝置、設(shè)備及存儲介質(zhì)
- 一種自動化調(diào)度系統(tǒng)和調(diào)度方法





