[發明專利]一種分布式訓練任務處理方法、裝置、設備及存儲介質有效
| 申請號: | 202010437089.3 | 申請日: | 2020-05-21 |
| 公開(公告)號: | CN111625420B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 王文瀟;張東 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F11/07 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 孫曉紅 |
| 地址: | 250101 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 訓練 任務 處理 方法 裝置 設備 存儲 介質 | ||
1.一種分布式訓練任務處理方法,其特征在于,包括:
創建分布式訓練任務的運行環境,將所述分布式訓練任務放入所述運行環境,并將所述運行環境調度到服務器上;
監測所述運行環境的狀態及所述服務器的狀態,若所述運行環境的狀態及所述服務器的狀態均為不正常,則將所述分布式訓練任務的狀態設置為需要容錯;
創建新運行環境,將狀態為需要容錯的目標分布式訓練任務放入所述新運行環境,并將所述新運行環境調度到狀態為正常的服務器上,以利用狀態為正常的服務器對所述目標分布式訓練任務進行訓練;
在將所述新運行環境調度到狀態為正常的服務器上之后,還包括:
將所述目標分布式訓練任務的容錯次數加1;其中,每個所述目標分布式訓練任務的初始容錯次數均為0;
相應地,在創建新運行環境之前,還包括:
判斷所述目標分布式訓練任務的容錯次數是否小于容錯閾值,若是,則執行所述創建新運行環境的步驟,若否,則終止所述目標分布式訓練任務并發出處理異常的通知。
2.根據權利要求1所述的分布式訓練任務處理方法,其特征在于,在終止所述目標分布式訓練任務之后,還包括:
若接收到所述目標分布式訓練任務,則記錄所述目標分布式訓練任務在接收后的新容錯次數;
判斷所述新容錯次數是否小于新容錯閾值;其中,所述新容錯閾值小于所述目標分布式訓練任務對應的容錯閾值;
若是,則執行所述創建新運行環境的步驟;若否,則終止所述目標分布式訓練任務并發出處理異常的通知,且將所述目標分布式訓練任務的狀態設置為不可容錯。
3.根據權利要求1所述的分布式訓練任務處理方法,其特征在于,若所述運行環境的狀態及所述服務器的狀態均為不正常,還包括:
記錄所述服務器的不正常次數;
相應地,將所述新運行環境調度到狀態為正常的服務器上,包括:
獲取狀態為正常的服務器的不正常次數,并將所述新運行環境調度到不正常次數最小的服務器上。
4.根據權利要求1所述的分布式訓練任務處理方法,其特征在于,創建分布式訓練任務的運行環境,包括:
通過kubernetes創建所述分布式訓練任務的pod。
5.根據權利要求1所述的分布式訓練任務處理方法,其特征在于,在監測所述運行環境的狀態及所述服務器的狀態時,還包括:
若所述運行環境的狀態為運行中,則結束所述監測所述運行環境的狀態及所述服務器的狀態的步驟,并上報所述運行環境的狀態;
若所述運行環境的狀態為不正常且所述服務器的狀態為正常,則結束所述監測所述運行環境的狀態及所述服務器的狀態的步驟,并上報所述運行環境的狀態及所述服務器的狀態。
6.根據權利要求5所述的分布式訓練任務處理方法,其特征在于,在將所述分布式訓練任務的狀態設置為需要容錯之后,還包括:
上報所述分布式訓練任務的狀態。
7.一種分布式訓練任務處理裝置,其特征在于,包括:
第一創建模塊,用于創建分布式訓練任務的運行環境,將所述分布式訓練任務放入所述運行環境,并將所述運行環境調度到服務器上;
監測模塊,用于監測所述運行環境的狀態及所述服務器的狀態,若所述運行環境的狀態及所述服務器的狀態均為不正常,則將所述分布式訓練任務的狀態設置為需要容錯;
第二創建模塊,用于創建新運行環境,將狀態為需要容錯的目標分布式訓練任務放入所述新運行環境,并將所述新運行環境調度到狀態為正常的服務器上,以利用狀態為正常的服務器對所述目標分布式訓練任務進行訓練;
還包括:
加一模塊,用于在將所述新運行環境調度到狀態為正常的服務器上之后,將所述目標分布式訓練任務的容錯次數加1;其中,每個所述目標分布式訓練任務的初始容錯次數均為0;
相應地,還包括:
第一判斷模塊,用于在創建新運行環境之前,判斷所述目標分布式訓練任務的容錯次數是否小于容錯閾值,若是,則執行所述創建新運行環境的步驟,若否,則終止所述目標分布式訓練任務并發出處理異常的通知。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010437089.3/1.html,轉載請聲明來源鉆瓜專利網。





