[發明專利]資源調度方法及裝置有效
| 申請號: | 201910837021.1 | 申請日: | 2019-09-05 |
| 公開(公告)號: | CN110688218B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 房體盈 | 申請(專利權)人: | 廣東浪潮大數據研究有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/455 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 510620 廣東省廣州市天河區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 資源 調度 方法 裝置 | ||
本發明涉及計算機技術領域,特別是涉及一種資源調度方法及裝置。該方法包括:當接收到資源調度請求時,確定調度請求條件,調度請求條件包括目標GPU個數,及每個GPU資源的目標顯存大小;獲取集群資源緩存裝置中緩存的節點信息,并依據各個節點信息,選取滿足調度請求條件的目標計算節點;在目標計算節點中創建docker,將目標計算節點與docker綁定,并將各個空閑GPU資源掛載至docker中,以使docker在目標計算節點中調用各個空閑GPU資源,完成資源調度任務。應用該方法,可以合理地利用各個空閑GPU資源中的顯存,提高每個空閑GPU資源的利用率,防止空閑GPU資源中剩余顯存的浪費。
技術領域
本發明涉及計算機技術領域,特別是涉及一種資源調度方法及裝置。
背景技術
在人工智能時代,當算法工程師需要對各種機器模型進行大量的深度學習時,通常需要docker容器作為訓練環境,以使機器模型依據該訓練環境進行學習和訓練。在一定訓練條件下,也可使用圖形處理器GPU資源結合docker進行處理計算,以提高機器模型的訓練速度。
當使用GPU資源提高訓練速度時,在執行訓練任務的過程中,GPU資源的使用率不會太高,一個訓練任務可能會占用分別占用多個GPU資源,但每個訓練任務并不能100%占用每個GPU資源的顯存,例如在很長的訓練時間內,該訓練任務只占了每個GPU資源的30%或50%的顯存大小,而每個GPU資源剩余的顯存通常處于閑置狀態。因此,現有的各個GPU資源的使用方式,并不能充分且合理地利用整個GPU資源的所有顯存,導致各個GPU資源的利用率較低,造成GPU資源的浪費。
發明內容
有鑒于此,本發明提供了一種資源調度方法,通過該方法,合理地利用各個GPU資源中的所有顯存,提高每個GPU資源的利用率,防止GPU資源的浪費。
本發明還提供了一種資源調度裝置,用以保證上述方法在實際中的實現及應用。
一種資源調度方法,包括:
當接收到用戶發送的資源調度請求時,確定與所述資源調度請求對應的調度請求條件,所述調度請求條件包括圖形處理器GPU資源的目標GPU個數,及每個所述GPU資源對應的目標顯存大小;
獲取預先設置的集群資源緩存裝置中預先緩存的每個計算節點的節點信息,并依據各個所述節點信息,選取滿足所述調度請求條件的目標計算節點;
在所述目標計算節點中創建與所述資源調度請求對應的容器docker,將所述目標計算節點與所述docker進行綁定,并將所述目標計算節點中的各個空閑GPU資源掛載至所述docker中,以使所述docker在所述目標計算節點中調用各個所述空閑GPU資源,完成與所述資源調度請求對應的資源調度任務。
上述的方法,可選的,所述集群資源緩存裝置緩存每個計算節點的節點信息的過程,包括:
設置與各個所述計算節點對應的監控周期,并調用預先設置的各個資源上報裝置依據所述監控周期分別監控各個所述計算節點,獲得每個所述資源上報裝置反饋的每個所述計算節點的節點信息;
將各個所述節點信息發送至所述集群資源緩存裝置,觸發所述集群資源緩存裝置緩存每個所述計算節點的節點信息。
上述的方法,可選的,所述依據各個所述節點信息,選取滿足所述調度請求條件的目標計算節點,包括:
獲取每個所述節點信息中的GPU信息,每個所述GPU信息包括與其對應的計算節點中各個空閑GPU資源的空閑GPU個數,及每個所述空閑GPU資源對應的剩余顯存大小;
依據每個所述GPU信息中每個所述空閑GPU資源的剩余顯存大小,確定每個所述計算節點中的總剩余顯存大小,并依據所述調度請求條件計算與所述資源調度請求對應的總目標顯存大小;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東浪潮大數據研究有限公司,未經廣東浪潮大數據研究有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910837021.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:資源釋放方法及裝置
- 下一篇:基于反向混沌布谷鳥搜索的自適應權重負載均衡算法





