[發明專利]一種參數梯度同步方法、裝置、設備及存儲介質有效
| 申請號: | 202310135785.2 | 申請日: | 2023-02-20 |
| 公開(公告)號: | CN115936095B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 曹芳;李仁剛;趙雅倩;郭振華;王麗;高開 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 趙怡琳 |
| 地址: | 250000 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 參數 梯度 同步 方法 裝置 設備 存儲 介質 | ||
本申請涉及分布式模型訓練技術領域,公開了一種參數梯度同步方法、裝置、設備及存儲介質,包括:獲取基于分布式訓練框架對待訓練模型進行線上訓練時執行控制邏輯得到的當前執行周期的響應列表;基于參數梯度分組列表對當前執行周期的響應列表中的張量數據進行均衡劃分,得到當前執行周期的待融合組列表和暫不融合列表;對當前執行周期的待融合組列表中的各組張量數據進行張量融合及規約處理;將當前執行周期的暫不融合列表中的張量數據與下一個執行周期的響應列表中的張量數據進行合并得到下一個執行周期的新響應列表,以基于新響應列表對下一個執行周期進行張量融合及規約處理。能夠提高模型訓練過程中的網絡帶寬利用率及梯度數據同步性能。
技術領域
本發明涉及分布式模型訓練技術領域,特別涉及一種參數梯度同步方法、裝置、設備及存儲介質。
背景技術
近年來,深度神經網絡獲得了廣泛的應用,并且其模型尺寸變得越來越大,這種增長使得高效的模型訓練變得更加重要,分布式訓練應運而生。目前的分布式模型訓練方法中最常用且應用最廣泛的是數據并行訓練方法。數據并行方法將待訓練的輸入數據進行劃分,每次訓練迭代過程中在多塊加速設備上同時訓練多個batch數據。數據并行又分為同步數據并行和異步數據并行兩種方法。其中同步數據并行方法,是待所有加速設備計算出模型權重參數的梯度后,統一將多個梯度合在一起得到全局一致的梯度數據,最后利用該梯度數據去更新共享模型參數。這種方法可以減少用于計算梯度的權重的陳舊性,使模型最終能夠達到較高的收斂精度,具有較好的統計效率,因此應用廣泛。在同步數據并行的分布式算法中,模型參數的梯度同步是必不可少的一個關鍵步驟。現有的梯度同步方案中,張量融合可能會導致模型參數梯度同步的效率低下。理想情況下,張量融合過程會在整個訓練過程中產生均衡的融合響應,產生更大尺寸的通信緩沖區以提高網絡利用率。但由于張量融合與控制邏輯的執行周期密切相關,所產生的通信緩沖區大小是動態變化的。一些周期內會以只有幾個甚至只有一個待處理的張量,從而在較小的緩沖區產生較低的通信效率。
因此,上述技術問題亟待本領域技術人員解決。
發明內容
有鑒于此,本發明的目的在于提供一種參數梯度同步方法、裝置、設備及存儲介質,能夠提高模型訓練過程中的網絡帶寬利用率及梯度數據同步性能。其具體方案如下:
本申請的第一方面提供了一種參數梯度同步方法,包括:
獲取基于分布式訓練框架對待訓練模型進行線上訓練時執行控制邏輯得到的當前執行周期的響應列表;其中,當前執行周期的響應列表包含當前執行周期的待規約參數梯度的張量數據;
基于參數梯度分組列表對當前執行周期的響應列表中的張量數據進行均衡劃分,得到當前執行周期的待融合組列表和暫不融合列表;其中,所述參數梯度分組列表通過線下預先對所述待訓練模型的各參數梯度進行均衡分組得到;
對當前執行周期的待融合組列表中的各組張量數據進行張量融合及規約處理;
將當前執行周期的暫不融合列表中的張量數據與下一個執行周期的響應列表中的張量數據進行合并得到下一個執行周期的新響應列表,以基于新響應列表對下一個執行周期進行張量融合及規約處理。
可選的,進行線上訓練之前,還包括:
在線下確定所述待訓練模型的各參數梯度大小,并確定訓練過程中將要使用的融合緩沖區大小及確定各參數梯度執行順序;
按照預設分組規則根據各參數梯度大小、融合緩沖區大小及各參數梯度執行順序對所述待訓練模型的各參數梯度進行均衡分組,得到以各參數梯度對應的張量數據表示的所述參數梯度分組列表。
可選的,所述在線下確定各參數梯度執行順序,包括:
在線下根據所述待訓練模型的各參數梯度之間的相互間依賴關系對所述待訓練模型的各參數梯度在訓練迭代過程中的大致執行順序進行分析,得到包含各參數梯度執行順序的順序列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310135785.2/2.html,轉載請聲明來源鉆瓜專利網。





