[發明專利]基于AI平臺的GPU資源調度方法、裝置及介質有效
| 申請號: | 202011042445.8 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112131007B | 公開(公告)日: | 2023-02-21 |
| 發明(設計)人: | 薛長青;劉強;于洪真 | 申請(專利權)人: | 山東浪潮科學研究院有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 潘悅梅 |
| 地址: | 250100 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 ai 平臺 gpu 資源 調度 方法 裝置 介質 | ||
1.基于AI平臺的GPU資源調度方法,其特征在于包括如下步驟:
對實際的GPU資源進行資源均分,在每個均分的GPU資源上均安裝Docker,每個Docker內均安裝TensorFlow,TensorFlow對外提供服務地址,資源服務的地址至少兩個,其中一個地址提供推理服務,其它的地址提供機器學習訓練服務;
設置Docker服務資源表、Docker服務隊列表和訓練結果表,并初始化Docker服務資源表,所述Docker服務資源表中定義有資源服務,資源狀態默認為空閑;
監控到有深度學習任務提交時,判斷是否存在空閑的Docker服務資源,如果是,獲取空閑的Docker服務資源執行深度學習任務,如果否,插入Docker服務隊列表進行排隊;同時,通過定時任務監聽Docker服務資源的釋放,實時更新Docker服務資源表和訓練結果表,并查詢Docker服務隊列表,為最先等待的用戶分配Docker服務資源執行深度學習任務后,從Docker服務隊列表中刪除所述最先等待的用戶,以更新Docker服務隊列表;
其中,通過如下步驟判斷是否存在空閑的Docker服務資源:
查詢Docker服務隊列表,判斷Docker服務隊列表是否為空;
如果為空,查詢Docker服務資源表是否存在空閑資源;
如果不為空,Docker服務資源表中不存在空閑資源;
其中,獲取空閑的Docker服務資源執行深度學習任務,包括如下步驟:
獲取當前空閑資源服務的地址,從當前所有空閑的機器學習訓練任務中選擇一個執行深度學習任務,并將Docker服務資源表的資源狀態標識為在用;
所述深度學習任務結束后,將Docker服務資源表的資源狀態標識為空閑;
其中,通過定時任務監聽Docker服務資源的釋放,實時更新Docker服務資源表和訓練結果表,包括如下步驟:
監聽Docker服務資源的使用情況;
對于在用狀態的Docker服務資源,實時監控對應深度學習訓練任務的執行過程并獲取訓練過程信息,將訓練過程信息存儲至訓練結果表;
深度學習訓練任務執行完畢,對應的Docker服務資源釋放后,實時將上述訓練結果信息存儲至訓練結果表,并實時更新Docker服務資源表的資源狀態。
2.根據權利要求1所述的基于AI平臺的GPU資源調度方法,其特征在于Docker服務隊列表中定義有用戶、參數、模型和數據地址。
3.根據權利要求1所述的基于AI平臺的GPU資源調度方法,其特征在于通過輪訓的方式實時監聽Docker服務資源。
4.裝置,其特征在于,包括:至少一個存儲器和至少一個處理器;
所述至少一個存儲器,用于存儲機器可讀程序;
所述至少一個處理器,用于調用所述機器可讀程序,執行權利要求1至3任一所述的方法。
5.介質,為計算機可讀介質,其特征在于,所述計算機可讀介質上存儲有計算機指令,所述計算機指令在被處理器執行時,使所述處理器執行權利要求1至3任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東浪潮科學研究院有限公司,未經山東浪潮科學研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011042445.8/1.html,轉載請聲明來源鉆瓜專利網。





