[發明專利]一種基于版本差異的流水線并行訓練節點權重分配方法在審
| 申請號: | 202110766607.0 | 申請日: | 2021-07-07 |
| 公開(公告)號: | CN113469341A | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 毛鶯池;屠子健;聶華;黃建新;徐淑芳;吳俊;戚榮志 | 申請(專利權)人: | 河海大學;中科可控信息產業有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/063;G06N3/08;G06F9/38 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 211100 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 版本 差異 流水線 并行 訓練 節點 權重 分配 方法 | ||
1.一種基于版本差異的流水線并行訓練節點權重分配方法,其特征在于,包括如下步驟:
(1)初始化深度學習模型,并把該模型載入;
(2)構建流水線并行訓練方案,采用異步參數更新方法,并發執行不同節點中不同批次的訓練,記錄各個訓練批次在單位流水線執行時間內完成前向和后向傳遞過程;
(3)利用最新的訓練節點權重版本,預測出未來訓練過程中的節點權重;
(4)根據節點權重預測進行當前批次版本差異計算;
(5)判斷當前批次計算得到的前向與后向傳遞版本差異值是否為0,是則不更新節點預測權重,否則根據版本差異進行權重更新;
(6)判斷該節點是否完成所有批次的版本差異計算,是則完成該節點的預測權重更新,否則返回步驟(3)-(5)繼續迭代;
(7)判斷所有節點的版本差異計算是否全部完成,是則完成流水線并行訓練節點權重分配,否則返回步驟(6)繼續迭代;
(8)按照上述權重分配方案將其部署到異構計算節點中,得到針對擬訓練目標網絡的流水線并行訓練節點權重分配方案。
2.根據權利要求1所述的基于版本差異的流水線并行訓練節點權重分配方法,其特征在于,所述步驟(2)中單位流水線執行時間主要指前向傳遞和后向傳遞計算時間之和。
3.根據權利要求1所述的基于版本差異的流水線并行訓練節點權重分配方法,其特征在于,所述步驟(3)中預測未來訓練過程節點權重的具體步驟如下:
(3.1)預測未來訓練過程節點權重的下降梯度;
(3.2)計算下一時刻的節點權重值。
4.根據權利要求1所述的基于版本差異的流水線并行訓練節點權重分配方法,其特征在于,所述步驟(4)中進行當前批次版本差異計算的具體步驟如下:
(4.1)計算當前批次執行前向傳遞時所處階段的版本差異;
(4.2)計算當前批次執行后向傳遞時所處階段的版本差異。
5.根據權利要求3所述的基于版本差異的流水線并行訓練節點權重分配方法,其特征在于,所述步驟(3.1)中預測未來訓練過程權重的下降梯度的具體步驟如下:
定義關于t-1時刻參數θt-1的目標函數為f(θt-1),計算f(θt-1)的梯度gt,其公式為:
對gt進行修正,得到修正后的梯度其公式為:
對于歷史梯度計算的一階矩估計mt和二階矩估計nt,其公式為:
mt=μmt-1+(1-μ)gt
其中μ,ν分別代表了一階矩估計和二階矩估計的衰減因子;分別對mt、nt進行修正,得到修正后的一階矩估計和二階矩估計其公式為:
計算下一時刻的動量更新其公式為:
定義預測時刻t的下降梯度ΔWt,其公式為:
6.根據權利要求3所述的基于版本差異的流水線并行訓練節點權重分配方法,其特征在于,所述步驟(3.2)中計算下一時刻的節點權重值的具體步驟如下:
計算從t時刻到t+1時刻的節點權重更新,其公式為:
Wt+1=Wt-η·ΔWt
其中η是學習率,ΔWt為t時刻的下降梯度;假設一個批次在t時刻完成其往返訓練過程;因此,計算t+1時刻的節點預測權重的公式為:
其中為權重預測技術在該批次開始執行前向傳遞時根據節點權重變化趨勢預測t時刻的未來權重,并以此節點預測權重計算該批次的前向與后向傳遞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學;中科可控信息產業有限公司,未經河海大學;中科可控信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110766607.0/1.html,轉載請聲明來源鉆瓜專利網。





