[發明專利]環形網絡的故障恢復方法及物理節點有效
| 申請號: | 202010152994.4 | 申請日: | 2020-03-06 |
| 公開(公告)號: | CN113364603B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 陳斌;陳華;楊學文 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | H04L41/0663 | 分類號: | H04L41/0663;H04L43/16;H04L12/437 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 顏晶 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 環形 網絡 故障 恢復 方法 物理 節點 | ||
本申請提供了一種環形網絡的故障恢復方法及物理節點,屬于大數據技術領域。本申請當環形網絡中一個物理節點發生故障時,通過由故障的物理節點的上一個物理節點執行故障的物理節點對應的子任務,將計算結果發送給故障的物理節點的下一個物理節點,由于故障的物理節點負責的子任務得以被執行,并且故障的物理節點負責計算得出的計算結果得以被傳遞給其他物理節點,因此環形網絡不會缺失故障物理節點對應的計算結果,環形網絡中能夠基于計算結果繼續執行分布式計算任務,從而避免了環形網絡上運行的分布式計算任務停止,使得環形網絡具備在節點發生故障時自動恢復的能力。
技術領域
本申請涉及大數據技術領域,特別涉及一種環形網絡的故障恢復方法及物理節點。
背景技術
環形網絡是一種包含多個物理節點、拓撲架構呈環形的通信網絡。在大數據技術領域中,利用環形網絡,能夠高效地執行分布式計算任務。其中,分布式計算是計算機技術中的一個術語,泛指將需要通過巨大算力執行的任務分解成許多小的子任務,然后將這些子任務分配給多個計算節點進行處理,最終將所有計算節點算出的結果綜合起來,得到最終結果的方法。通過環形網絡來執行分布式計算任務,環形網絡中的每個物理節點充當一個計算節點,環形網絡中的多個物理節點能夠并發執行各自對應的子任務,從而充分利用每個物理節點的算力,極大地提高算法的性能。
環形網絡通常基于環全部歸約(Ring?All-reduce)的方式執行分布式計算任務,環形網絡中的每個物理節點不僅會執行本節點對應的子任務以得出計算結果,還會接收上一個物理節點的計算結果,并向下一個物理節點發送計算結果,使得每個物理節點的計算結果在環形網絡中傳播。
以應用在深度學習領域為例,上面描述的分布式計算任務例如是分布式訓練任務。概括來講,分布式訓練任務主要分為兩個階段執行,首先執行計算梯度的任務,然后執行根據梯度計算參數值的任務,這兩個階段的任務都基于環形網絡以及Ring?All-reduce的方式執行。具體地,在執行計算梯度值的任務時,每個物理節點會根據數據集中的部分數據進行訓練,計算出梯度,將算出的梯度與上一個物理節點發來的值進行累加,得到和值,將和值發送至環形網絡中的下一個物理節點。在執行計算參數值的任務時,每個物理節點會計算出一份不完整的模型參數,通過同理的方式,和相鄰的物理節點交換彼此的模型參數,最終完整的模型參數會擴散至環形網絡中的每個物理節點上。
在基于環形網絡執行分布式計算任務的過程中,當環形網絡中的一個物理節點故障時,環形網絡中會缺失故障物理節點對應的計算結果,導致整個分布式計算任務停止。
發明內容
本申請實施例提供了一種環形網絡的故障恢復方法及物理節點,能夠實現環形網絡的故障恢復。所述技術方案如下:
第一方面,提供了一種環形網絡的故障恢復方法,所述環形網絡被配置為執行分布式計算任務,所述方法應用于第一物理節點,所述第一物理節點為所述環形網絡中的一個物理節點,所述第一物理節點和第三物理節點具有通路,所述第三物理節點為所述環形網絡中第二物理節點的下一個物理節點,所述第二物理節點為所述環形網絡中所述第一物理節點的下一個物理節點,在該方法中,第一物理節點獲取第二物理節點的任務執行數據;若所述第二物理節點處于故障狀態,所述第一物理節點使用所述任務執行數據,執行所述分布式計算任務中所述第二物理節點對應的子任務,得到計算結果;所述第一物理節點通過所述通路,向第三物理節點發送所述計算結果。
以上提供了一種實現環形網絡的故障恢復的方法,當環形網絡中一個物理節點發生故障時,通過由故障的物理節點的上一個物理節點執行故障的物理節點對應的子任務,將計算結果發送給故障的物理節點的下一個物理節點,由于故障的物理節點負責的子任務得以被執行,并且故障的物理節點負責計算得出的計算結果得以被傳遞給其他物理節點,因此環形網絡不會缺失故障物理節點對應的計算結果,環形網絡中能夠基于計算結果繼續執行分布式計算任務,從而避免了環形網絡上運行的分布式計算任務停止,使得環形網絡具備在節點發生故障時自動恢復的能力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010152994.4/2.html,轉載請聲明來源鉆瓜專利網。





