[發明專利]一種減少分布式機器學習通信開銷的方法有效
| 申請號: | 201910583390.2 | 申請日: | 2019-07-01 |
| 公開(公告)號: | CN110287031B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 李武軍;解銀朋;趙申宜;高昊 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06N20/00 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210046 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 減少 分布式 機器 學習 通信 開銷 方法 | ||
1.一種減少分布式機器學習通信開銷的方法,其特征在于,其在服務器節點上訓練流程的具體步驟為:
步驟100,輸入機器學習模型w以及總共的迭代輪數T、工作節點數目p、樣本總數n、學習率ηt;
步驟101,隨機初始化模型參數w=w0;
步驟102,累計所有工作節點發送過來的稀疏記憶梯度mt,k為稀疏向量,gt,k為全局動量向量;
步驟103,更新模型參數wt+1=wt-ηtvt,k;
步驟104,將參數差wt+1-wt廣播給所有的工作節點;
步驟105,判斷當前已完成的迭代輪數t是否達到總共的迭代輪數T,如果是則輸出并保存模型參數w;否則返回步驟102繼續進行訓練;
其在第k個工作節點上訓練流程的具體步驟為:
步驟200,輸入訓練樣本集合的子集完整的訓練樣本集合以及總共的迭代輪數T、學習率ηt、稀疏度ρ、批量大小b、動量系數β、模型參數大小d;
步驟201,初始化記憶動量u0,k=0;
步驟202,接受服務器節點發送的模型參數差wt-wt-1;
步驟203,更新模型參數wt=wt-1-(wt-wt-1);
步驟204,從本地數據集中隨機挑選一個小批量數據
步驟205,根據本地的樣本數據集計算出隨機梯度其中則表示第i個樣本ξi所對應的損失函數在當前模型參數下的梯度;
步驟206,計算全局動量向量
步驟207,生成一個稀疏向量mt,k∈{0,1}d,||mt,k||0=dρ;
步驟208,發送mt,k⊙(ut,k+gt,k)到服務器節點;
步驟209,更新記憶梯度ut+1,k=(1-mt,k)⊙(ut,k+gt,k),k=1,2,…,p;
步驟210,判斷當前已完成的迭代輪數t是否達到總共的迭代輪數T,如果是則結束訓練流程;否則返回步驟202繼續進行訓練。
2.如權利要求1所述的減少分布式機器學習通信開銷的方法,其特征在于:步驟207-209中,生成一個稀疏向量mt,k∈{0,1}d,||mt,k||0=dρ,發送mt,k⊙(ut,k+gt,k)到服務器節點,更新記憶梯度ut+1,k=(1-mt,k)⊙(ut,k+gt,k),k=1,2,…,p。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910583390.2/1.html,轉載請聲明來源鉆瓜專利網。





