[發明專利]一種訓練任務處理方法、裝置、設備及可讀存儲介質有效
| 申請號: | 201911386501.7 | 申請日: | 2019-12-29 |
| 公開(公告)號: | CN111191794B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 王文瀟 | 申請(專利權)人: | 廣東浪潮大數據研究有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F9/50 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 田媛媛 |
| 地址: | 510620 廣東省廣州市天河區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 任務 處理 方法 裝置 設備 可讀 存儲 介質 | ||
1.一種訓練任務處理方法,其特征在于,應用在深度學習平臺中,包括:
接收訓練任務并獲取所述訓練任務的任務屬性;其中,所述任務屬性包括所述訓練任務在訓練時的資源占用量、啟動腳本;
判斷所述資源占用量是否小于或等于所述深度學習平臺的當前可用資源量,若大于所述當前可用資源量,則判斷所述資源占用量與所述當前可用資源量的比值是否小于預設值;
若小于所述預設值,則將所述任務屬性中的啟動腳本拆分成多個子啟動腳本,并利用所述當前可用資源量依次對所述子啟動腳本進行處理;其中,每個所述子啟動腳本對應的子資源占用量均小于所述當前可用資源量;
若不小于所述預設值,則將所述訓練任務的任務屬性存放在預先創建的隊列中;獲取所述深度學習平臺的當前可用資源量,并對所述隊列進行輪詢,以確定所述隊列中是否存在資源占用量小于或等于所述當前可用資源量的目標任務屬性;若存在所述目標任務屬性,則將所述目標任務屬性中所述隊列中移除,并對所述目標任務屬性進行處理。
2.根據權利要求1所述的訓練任務處理方法,其特征在于,利用所述當前可用資源量依次對所述子啟動腳本進行處理,包括:
按照所述子啟動腳本構成所述啟動腳本的順序利用所述當前可用資源量依次對所述子啟動腳本進行處理。
3.根據權利要求2所述的訓練任務處理方法,其特征在于,按照所述子啟動腳本構成所述啟動腳本的順序利用所述當前可用資源量依次對所述子啟動腳本進行處理,包括:
從未處理的所述子啟動腳本中選取多個目標子啟動腳本,并利用所述當前可用資源量對所述目標子啟動腳本進行處理;其中,所述選取出的所述目標子啟動腳本的子資源占用量之和小于或等于所述當前可用資源量;
待完成對所述目標子啟動腳本的處理,以空閑出所述當前可用資源量之后,則返回所述從未處理的所述子啟動腳本中選取多個目標子啟動腳本的步驟,直至處理完所有的所述子啟動腳本為止。
4.根據權利要求1所述的訓練任務處理方法,其特征在于,在對所述隊列進行輪詢之前,還包括:
根據所述隊列中各所述任務屬性中的資源占用量計算各所述任務屬性的分值,并按照分值由小到大的順序對所述任務屬性進行排列。
5.根據權利要求4所述的訓練任務處理方法,其特征在于,當所述資源占用量包括CPU占用量、GPU占用量和內存占用量時,根據所述隊列中各所述任務屬性中的資源占用量計算各所述任務屬性的分值,包括:
獲取所述隊列中各所述任務屬性的CPU占用量之和、GPU占用量之和及內存占用量之和;
利用所述任務屬性的CPU占用量及CPU占用量之和得到第一分值;
利用所述任務屬性的GPU占用量及GPU占用量之和得到第二分值;
利用所述任務屬性的內存占用量及內存占用量之和得到第三分值;
將所述第一分值、所述第二分值和所述第三分值的平均值作為所述任務屬性的分值。
6.根據權利要求1所述的訓練任務處理方法,其特征在于,在對所述隊列進行輪詢之前,還包括:
獲取所述隊列中各所述任務屬性的接收時間,按照接收時間由早到晚的順序對所述任務屬性進行排列;其中,所述任務屬性的接收時間為接收所述訓練任務的時間。
7.根據權利要求4至6所述的訓練任務處理方法,其特征在于,在對所述任務屬性進行排列之后,還包括:
接收用戶指令,根據所述用戶指令對所述隊列中的任務屬性的排列順序進行調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東浪潮大數據研究有限公司,未經廣東浪潮大數據研究有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911386501.7/1.html,轉載請聲明來源鉆瓜專利網。





