[發明專利]一種基于AllReduce分布式訓練梯度壓縮加速方法在審
| 申請號: | 202011504384.2 | 申請日: | 2020-12-17 | 
| 公開(公告)號: | CN112529163A | 公開(公告)日: | 2021-03-19 | 
| 發明(設計)人: | 謝遠東;梁家恩 | 申請(專利權)人: | 云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司 | 
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 | 
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 | 
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 allreduce 分布式 訓練 梯度 壓縮 加速 方法 | ||
本發明涉及一種基于AllReduce分布式訓練梯度壓縮加速方法,針對Intra?node將FP32轉成FP16,并針對Inter?node使用EF?SGD方法壓縮梯度,相對于稀疏方法損失降低,并且,通過AllReduce架構相對于Params Server通信結構消除了帶寬瓶頸。
技術領域
本發明涉及深度學習技術領域,具體涉及一種基于AllReduce分布式訓練梯度壓縮加速方法。
背景技術
現有的基于參數服務器方式的中心化分布式訓練方法,或者基于稀疏方法選取部分梯度值中存在一些問題,比如,基于稀疏的方法對梯度信息損失比較大;在intra-node和inter-node使用相同的梯度壓縮方法,梯度信息損失進一步加大;Params Server通信結構相對于AllReduce本身具有帶寬瓶頸。
發明內容
本發明提供一種基于AllReduce分布式訓練梯度壓縮加速方法,能夠解決訓練大型模型參數同步通信帶寬問題。
本發明解決上述技術問題的技術方案如下:
根據本發明實施例的一個方面,提供一種基于AllReduce分布式訓練梯度壓縮加速方法,包括:采用AllReduce分布式深度梯度壓縮訓練架構,所述AllReduce分布式深度梯度壓縮訓練架構中,不存在參數服務器,工作機之間形成環形閉環傳遞路徑,GPU之間傳遞壓縮后梯度;以及將節點內壓縮模塊中將梯度從FP32轉成FP16;并使用誤差反饋隨機梯度下降算法壓縮梯度。
優選地,所述誤差反饋隨機梯度下降算法包括:針對每一次訓練進行解壓縮得到值pt。
優選地,所述誤差反饋隨機梯度下降算法還包括:使用梯度壓縮算法對值pt進行梯度壓縮。
優選地,值pt為pt=ηgt+et,其中,gt為隨機梯度下降值,et為偏差值。
優選地,et初始值為0。
優選地,所述梯度壓縮實施為:采用topk算法,取梯度前k個值pt進行數據整合。
優選地,所述誤差反饋隨機梯度下降算法還包括:更新參數:xt+1=xt-Δt,et+1=pt-Δt。
據本發明實施例的另一個方面,提供一種存儲介質,所述存儲介質包括存儲的程序,其中,在所述程序運行時控制所述存儲介質所在設備執行前述基于AllReduce分布式訓練梯度壓縮加速方法。
從而,針對Intra-node將FP32轉成FP16,針對Inter-node使用EF-SGD方法壓縮梯度,相對于稀疏方法損失降低。并且,AllReduce架構相對于Params Server通信結構消除了帶寬瓶頸。
附圖說明
圖1為Params Server結構的分布式深度梯度壓縮訓練架構示意圖;
圖2為本發明基于AllReduce的分布式深度梯度壓縮訓練架構;
圖3為本發明實施例提供的ring allreduce架構示意圖;
圖4為本發明實施例提供的節點連接示意圖。
具體實施方式
以下結合附圖對本發明的原理和特征進行描述,所舉實例只用于解釋本發明,并非用于限定本發明的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司,未經云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011504384.2/2.html,轉載請聲明來源鉆瓜專利網。





