[發明專利]一種基于神經網絡的參數更新方法、分布式訓練平臺系統在審
| 申請號: | 202010110959.6 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN113298222A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 張曼妮;李楊;張翔宇;孫軍歡 | 申請(專利權)人: | 深圳致星科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06T1/20 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 何姣 |
| 地址: | 518000 廣東省深圳市南山區粵海街道高新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 參數 更新 方法 分布式 訓練 平臺 系統 | ||
1.一種基于神經網絡的參數更新方法,其特征在于,
確定設備內、設備間GPU分階段聚合;其中包括,
設備內GPU間的參數聚合:
對于任一設備,確定其中的一個GPU為首節點GPU;
使設備內的各個GPU以Allreduce方式進行參數聚合;
和之后的各個設備首節點GPU間的基于矩陣拓撲的Allreduce參數聚合:
構建一個矩陣拓撲,將其包括所述的各個首節點GPU;
1)在水平方向上執行reduce-scatter操作,使各行的各個GPU分別獲得對應的行GPU合并參數子集;
2)在垂直方向上分別對各列的行GPU合并參數子集執行all-reduce操作,使各列的各個GPU分別獲得對應的矩陣GPU合并參數子集;
3)在水平方向上執行all-gather操作,同步上述的矩陣GPU合并參數子集,以及標準化運算,使矩陣中的所有GPU的參數集達到完全一致的狀態;
以及之后的使設備內首節點GPU將其更新后的參數集向其他GPU的反向廣播,最終實現各個設備各個GPU間的參數更新。
2.根據權利要求1所述的基于神經網絡的參數更新方法,其特征在于,
其中的不同設備的首節點GPU間的參數更新,采用RDMA網絡通信。
3.根據權利要求1-2任一所述的基于神經網絡的參數更新方法,其特征在于,
其中確定首節點GPU時,選擇與用于跨設備通信的網絡設備最近的、跳數最少的GPU作為該機器設備的首節點GPU。
4.根據權利要求3所述的基于神經網絡的參數更新方法,其特征在于,
選擇能夠直接對所述網絡設備直接進行存取操作的GPU,作為所述的首節點GPU。
5.根據權利要求1所述的基于神經網絡的參數更新方法,其特征在于,
其中的設備內GPU間的參數聚合,
和/或不同設備的首節點GPU間在垂直方向上的all-reduce操作,
是基于環形拓撲的Allreduce,或者是基于樹形拓撲的Allreduce實現的。
6.根據權利要求1所述的基于神經網絡的參數更新方法,其特征在于,
其中的設備內GPU間的參數聚合采用NCCL通信框架。
7.根據權利要求1所述的基于神經網絡的參數更新方法,其特征在于,
其中的參數,包括神經網絡的損失函數的梯度。
8.一種分布式訓練平臺系統,其特征在于,包括:
多個計算模塊;
所述的計算模塊,分別對應權利要求1-7任一所述的基于神經網絡的參數更新方法中的的GPU,包括用于執行模型訓練相關的計算;
在其執行分布式訓練過程中,執行權利要求1-7任一所述的基于神經網絡的參數更新方法實現所述計算模塊間的參數更新。
9.一種用于深度神經網絡模型分布式訓練的裝置,其特征在于,包括:
不少于兩臺的計算設備;其中,
所述的各臺計算設備,包括處理器;其中的處理器包括權利要求1-7任一所述的基于神經網絡的參數更新方法中的GPU;
所述的處理器,用于執行程序代碼,實現權利要求1-7任一所述的基于神經網絡的參數更新方法中的操作。
10.一種計算機可讀存儲介質,其特征在于,包括:
存儲有用于神經網絡參數更新的程序代碼;
所述的程序代碼,包括用于執行實現權利要求1-7任一所述的基于神經網絡的參數更新方法中操作的指令。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳致星科技有限公司,未經深圳致星科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010110959.6/1.html,轉載請聲明來源鉆瓜專利網。





