[發明專利]一種模型訓練系統、模型訓練中梯度聚合的方法及裝置有效
| 申請號: | 201910880461.5 | 申請日: | 2019-09-17 |
| 公開(公告)號: | CN112528108B | 公開(公告)日: | 2023-02-07 |
| 發明(設計)人: | 孫貝磊;鮑翀;王開盛;楊康 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06N3/08 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 吳磊 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 模型 訓練 系統 梯度 聚合 方法 裝置 | ||
本申請公開了一種模型訓練系統以及模型訓練中梯度聚合的方法,應用于人工智能artificial intelligence,AI)技術領域。該模型訓練系統中的至少兩個訓練節點形成環狀傳輸路徑。在梯度聚合中,環上的各訓練節點在梯度聚合前只需要確定自身的第一算子的第一梯度輸出,就可以執行梯度聚合。不需要向中心節點發送該第一梯度,由該中心節點統一執行聚合。也不需要在聚合前向環狀傳輸路徑上作為中心節點的一個訓練節點報告第一梯度已就緒,在接收到該中心節點返回的聚合指令后才能開始執行梯度聚合。可以有效的減少各訓練節點與中心節點之間交互產生的通信開銷。
技術領域
本申請涉及人工智能(artificial intelligence,AI)技術領域,具體涉及一種模型訓練系統、模型訓練中梯度聚合的方法及裝置。
背景技術
隨著AI的發展,深度神經網絡受到了愈加廣泛的研究和應用。目前,深度神經網絡已經在圖像識別、視頻分類、語音識別和語言翻譯等領域的應用中獲得了成功。而隨著應用場景的普及,深度神經網絡的模型在不斷增大,有些模型的網絡層數可以達到數百層,而參數量更是達到了兩千萬。這種越來越復雜的深度神經網絡模型,需要多個訓練節點一起才能完成模型訓練。
訓練深度神經網絡最常用的是分布式訓練方法,即將深度神經網絡模型拷貝到多個訓練節點上,每個訓練節點獨立訓練不同的數據。在訓練的過程中,各訓練節點訓練出來的梯度要發送到中心節點上進行聚合,然后中心節點再將的梯度發布到各個訓練節點上進行權重更新。
另外還有一種環狀的分布式訓練系統,在該環狀的分布式訓練系統中,多個訓練節點構成一個邏輯的環。各個訓練節點訓練出來梯度后向該環上作為中心節點的一個訓練節點報告梯度就緒狀態,在該中心節點確定各個訓練節點的梯度都就緒后,通知各個訓練節點開始執行梯度聚合,然后根據聚合后的梯度進行權重更新。
由上述方案可知,在模型訓練的梯度聚合過程中,都需要各個訓練節點與中心節點通信。由于深度神經網絡愈加復雜,參數量急劇增加,在分布式訓練過程中,由于梯度聚合所產生的通信開銷已經成為模型訓練的一個瓶頸,亟需解決。
發明內容
本申請實施例提供一種模型訓練系統以及模型訓練中梯度聚合的方法,可以減小梯度聚合過程中的通信開銷。本申請實施例還提供了相應的裝置。
本申請第一方面提供一種模型訓練中梯度聚合的方法,該方法應用于模型訓練系統中的第一訓練節點,該第一訓練節點為所述模型訓練系統中的任一個訓練節點,所述模型訓練系統包括至少兩個訓練節點,所述至少兩個訓練節點形成環狀傳輸路徑,第二訓練節點為所述環狀傳輸路徑上位于所述第一訓練節點上游的訓練節點,每個訓練節點上都包括一份相同的計算圖,所述每個訓練節點根據所述訓練節點上的計算圖處理訓練數據,所述計算圖用于定義多個算子的計算邏輯以及所述多個算子之間數據的輸入關系和輸出關系,該方法包括:將第一訓練數據輸入第一計算圖,所述第一計算圖包括第一算子,所述第一訓練數據用于訓練出所述第一算子的第一梯度;接收所述第二訓練節點發送的第二計算圖中第二算子的聚合梯度,所述第二計算圖包括與所述第一算子對應的所述第二算子,響應于接收到所述第二訓練節點發送的所述聚合梯度和所述第一訓練節點訓練出的所述第一算子的第一梯度,聚合所述第一梯度和所述第二算子的聚合梯度,以得到所述第一算子的聚合梯度。
上述第一方面中,響應于第二訓練節點聚合得到的第二算子的聚合梯度,第二訓練節點將聚合梯度發送給第一訓練節點,可以理解為:當第二訓練節點聚合得到第二算子的聚合梯度時,第二訓練節點可以將第二算子的聚合梯度發送給第一訓練節點;還可以理解為:一旦第二訓練節點聚合得到第二算子的聚合梯度,第二訓練節點就將聚合梯度發送給第一訓練節點。換句話說,第二訓練節點聚合得到第二算子的聚合梯度這一條件可以不是執行第二訓練節點可以將第二算子的聚合梯度發送給第一訓練節點這一步驟的充分條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910880461.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網關登錄方法及裝置
- 下一篇:顯示面板及其制造方法和電子設備





