[發明專利]基于多容器共享異構計算設備實現故障隔離的方法及裝置在審
| 申請號: | 202010513454.4 | 申請日: | 2020-06-08 |
| 公開(公告)號: | CN113296988A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 田雙太;鄭曉;龍欣;何旻 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07;G06F9/48 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 李丹;栗若木 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 容器 共享 計算 設備 實現 故障 隔離 方法 裝置 | ||
1.一種基于多容器共享異構計算設備實現故障隔離的方法,包括:
在對設備節點中提交的任務進行調度中,檢測異構計算設備是否發生故障;
檢測出異構計算設備發生故障,對異構計算設備的故障進行處理。
2.根據權利要求1所述的方法,其中,所述檢測異構計算設備是否發生故障,包括:
讀取所述異構計算設備中用于存儲異構計算設備故障信息的寄存器;
根據讀取的異構計算設備故障信息確定所述異構計算設備是否發生故障。
3.根據權利要求2所述的方法,其中,所述對異構計算設備的故障進行處理,包括:
根據所述異構計算設備故障信息確定出所述異構計算設備故障,且可以通過復位的方式消除故障,則所述異構計算設備進行復位以消除異構計算設備故障。
4.根據權利要求2所述的方法,所述方法還包括:
根據所述異構計算設備故障信息確定出異構計算設備故障,但是不可以通過復位的方式消除故障,對所述異構計算設備故障進行報警,退出所述對設備節點中提交的任務進行調度。
5.根據權利要求2所述的方法,所述方法還包括:
根據所述異構計算設備故障信息確定出所述異構計算設備沒有故障,繼續所述對設備節點中提交的任務進行調度。
6.根據權利要求1~5任一項所述的方法,所述方法還包括:
確定所述異構計算設備進行復位后是否消除所述異構計算設備故障,如果已消除所述異構計算設備故障,繼續所述對設備節點中提交的任務進行調度;如果未消除所述異構計算設備故障,對所述異構計算設備故障進行報警,退出所述對設備節點中提交的任務進行調度。
7.根據權利要求1所述的方法,其中,所述異構計算設備包括:圖形處理單元GPU、神經網絡處理單元NPU、場域可編程邏輯門陣列FPGA、專用集成電路ASIC。
8.根據權利要求2所述的方法,其中,所述寄存器中的異構計算設備故障信息包括:所述異構計算設備故障的類型、是否可以通過復位的方式消除故障。
9.根據權利要求2所述的方法,所述寄存器中的異構計算設備故障信息還包括:所述異構計算設備中的其它寄存器的數值是否正常。
10.一種計算機可讀存儲介質,存儲有計算機可執行指令,所述計算機可執行指令用于執行權利要求1~權利要求9任一項所述的基于多容器共享異構計算設備實現故障隔離的方法。
11.一種實現基于多容器共享異構計算設備實現故障隔離的設備,包括存儲器和處理器,其中,存儲器中存儲有以下可被處理器執行的指令:用于執行權利要求1~權利要求9任一項所述的基于多容器共享異構計算設備實現故障隔離的方法的步驟。
12.一種基于多容器共享異構計算設備實現故障隔離的裝置,包括:任務調度模塊、故障檢測模塊、故障處理模塊;其中,
任務調度模塊,設置為調度多個容器通過設備節點提交的任務;
故障檢測模塊,設置為在對設備節點中提交的任務進行調度中,檢測異構計算設備是否發生故障;
故障處理模塊,設置為檢測出異構計算設備發生故障,對異構計算設備的故障進行處理。
13.根據權利要求12所述的裝置,其中,所述故障檢測模塊具體設置為:
讀取所述異構計算設備中用于存儲異構計算設備故障信息的寄存器;根據讀取的異構計算設備故障信息確定所述異構計算設備是否發生故障。
14.根據權利要求13所述的裝置,其中,所述故障處理模塊具體設置為:
根據所述異構計算設備故障信息確定出異構計算設備故障,且可以通過復位的方式消除故障,所述異構計算設備進行復位以消除異構計算設備故障。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010513454.4/1.html,轉載請聲明來源鉆瓜專利網。





