[發明專利]模型參數發送方法、裝置、服務器及存儲介質有效
| 申請號: | 201810273300.5 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN108491928B | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 吳家祥;黃維東;黃俊洲 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 劉映東 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 量化 模型參數訓練 存儲介質 迭代量化 量化誤差 模型參數 誤差累計 樣本集 主計算 迭代 服務器 計算模型參數 信息技術領域 獲取目標 節點發送 量化處理 時間衰減 通信代價 網絡開銷 系數計算 更新 預設 申請 修正 傳輸 壓縮 | ||
本申請公開了一種模型參數發送方法、裝置、服務器及存儲介質,屬于信息技術領域。所述方法包括:獲取目標模型的模型參數的初始參數值和樣本集;根據初始參數值和樣本集,計算模型參數的第一梯度;對第一梯度進行迭代量化處理得到量化后的第二梯度,迭代量化處理是在第t個迭代輪次中基于第t?1個迭代輪次對應的誤差累計值所進行的量化處理,誤差累計值是基于預設時間衰減系數計算得到的量化誤差的累計值;向主計算節點發送量化后的第二梯度,量化后的第二梯度用于指示主計算節點根據量化后的第二梯度對初始參數值進行更新,得到更新后的參數值。本申請實施例利用量化誤差修正的方法,對模型參數的第一梯度進行量化壓縮,減少了梯度傳輸的通信代價和網絡開銷。
技術領域
本申請涉及信息技術領域,特別涉及一種模型參數發送方法、裝置、服務器及存儲介質。
背景技術
DistBelief是一種人工智能深度學習框架,可以用來訓練大規模的神經網絡模型,目前已廣泛應用于文本處理、圖像識別等多個領域。DistBelief提供了一種分布式訓練模式:隨機梯度下降(Stochastic Gradient Descent,SGD),該模式定義了一個主計算節點和N個子計算節點,每個子計算節點用于訓練生成模型副本,該主計算節點用于為N個子計算節點共享模型參數。
在訓練開始之前,主計算節點向每個子計算節點發送模型參數的初始參數值,并將訓練數據集劃分為多個樣本集,分別分配給N個子計算節點。在訓練過程中,每個子計算節點根據分配的樣本集和模型參數當前的參數值進行訓練,并計算得到模型參數的梯度,將梯度發送給主計算節點,主計算節點可以根據所有子計算節點發送的梯度對模型參數進行更新,得到更新后的參數值,每個子計算節點可以從主計算節點中獲取更新后的參數值,根據更新后的參數值繼續進行訓練。其中,模型中包括多個模型參數,采用上述訓練方式可以訓練模型中的每個模型參數。
但是,在上述方法中,主計算節點與N個子計算節點之間需要傳輸模型參數的梯度,模型參數規模很大時該傳輸梯度的過程會帶來巨大的網絡開銷。
發明內容
本申請實施例提供了一種模型參數發送方法、裝置、服務器及存儲介質,可以用于解決相關技術中訓練模型過程中梯度傳輸的通信代價和網絡開銷較大的問題。所述技術方案如下:
第一方面,提供了一種模型參數發送方法,應用于包括主計算節點和N個子計算節點的模型訓練系統中,所述主計算節點與所述子計算節點之間通過網絡連接,所述主計算節點與所述子計算節點為具備數據計算功能的裝置,所述N為正整數,所述方法包括:
所述N個子計算節點中的每個子計算節點獲取目標模型的模型參數的初始參數值和樣本集;
所述子計算節點根據所述初始參數值和所述樣本集,計算所述模型參數的第一梯度,所述第一梯度用于指示所述模型參數的變化程度;
所述子計算節點對所述第一梯度進行迭代量化處理得到量化后的第二梯度,所述迭代量化處理是在第t個迭代輪次中基于第t-1個迭代輪次對應的誤差累計值所進行的量化處理,所述誤差累計值是基于預設時間衰減系數計算得到的量化誤差的累計值,所述t為大于1的正整數;
所述子計算節點向所述主計算節點發送所述量化后的第二梯度,所述量化后的第二梯度用于指示所述主計算節點根據所述量化后的第二梯度對所述初始參數值進行更新,得到更新后的參數值。
第二方面,提供了一種模型參數發送裝置,應用于包括主計算節點和N個子計算節點的模型訓練系統中,所述主計算節點與所述子計算節點之間通過網絡連接,所述主計算節點與所述子計算節點為具備數據計算功能的裝置,所述N為正整數,所述裝置包括:
獲取模塊,用于獲取目標模型的模型參數的初始參數值和樣本集;
計算模塊,用于根據所述初始參數值和所述樣本集,計算所述模型參數的第一梯度,所述第一梯度用于指示所述模型參數的變化程度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810273300.5/2.html,轉載請聲明來源鉆瓜專利網。





