[發(fā)明專利]基于通信操作稀疏化的分布式深度學(xué)習(xí)多步延遲更新方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011312697.8 | 申請(qǐng)日: | 2020-11-20 |
| 公開(公告)號(hào): | CN112463189B | 公開(公告)日: | 2022-04-22 |
| 發(fā)明(設(shè)計(jì))人: | 董德尊;徐葉茂;徐煒遐;廖湘科 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類號(hào): | G06F8/65 | 分類號(hào): | G06F8/65;G06N3/04;G06N3/063;G06N3/08 |
| 代理公司: | 北京豐浩知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11781 | 代理人: | 董超 |
| 地址: | 410073 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 通信 操作 稀疏 分布式 深度 學(xué)習(xí) 延遲 更新 方法 | ||
1.一種基于通信操作稀疏化的分布式深度學(xué)習(xí)多步延遲更新方法,其特征在于,其具體步驟包括:
S1,熱身訓(xùn)練,在進(jìn)行多步延遲迭代訓(xùn)練前利用同步隨機(jī)梯度下降方法對(duì)深度學(xué)習(xí)模型進(jìn)行一定迭代次數(shù)的訓(xùn)練,其目的是在應(yīng)用進(jìn)行多步延遲操作前,使網(wǎng)絡(luò)模型的權(quán)重和梯度趨于穩(wěn)定狀態(tài);
S2,切換階段,該階段包括2次迭代訓(xùn)練,分別用于完成對(duì)取回的全局權(quán)重的備份和第1次本地參數(shù)更新操作,其目的是為了將同步隨機(jī)梯度下降更新方法切換為多步延遲訓(xùn)練模式;本地參數(shù)更新操作采用基于全局梯度的本地更新方法,目的是為了緩解權(quán)重延遲,保證模型的收斂精度;在k步延遲階段,本地計(jì)算節(jié)點(diǎn)每k次迭代只從參數(shù)服務(wù)器中取回一次全局權(quán)重,但每次迭代都會(huì)基于指定的更新方法進(jìn)行本地權(quán)重更新操作;
所述基于全局梯度的本地更新方法,其具體步驟包括:首先,計(jì)算節(jié)點(diǎn)利用上一次取回的全局參數(shù)pre_weight與本地參數(shù)w′t,i,其中t為訓(xùn)練時(shí)刻,i為計(jì)算節(jié)點(diǎn)序號(hào),進(jìn)行全局梯度gradsync的計(jì)算;其次,如果執(zhí)行了參數(shù)的取回操作,則此時(shí)本地參數(shù)w′t,i的值等于從參數(shù)服務(wù)器中更新后的全局參數(shù)wt,并且在完成全局梯度的計(jì)算后,將本地參數(shù)w′t,i中的值保存到pre_weight變量中;最后,計(jì)算節(jié)點(diǎn)利用全局梯度gradsync和本地梯度grad′t,i對(duì)本地參數(shù)w′t,i進(jìn)行更新;
S3,多步延遲訓(xùn)練,其具體包括全局參數(shù)更新、本地參數(shù)更新和通信操作稀疏化三個(gè)步驟;
所述步驟S3,具體包括:
S31,全局參數(shù)更新操作在參數(shù)服務(wù)器端執(zhí)行,每一次迭代訓(xùn)練對(duì)應(yīng)于一次全局參數(shù)更新操作,用于對(duì)參數(shù)服務(wù)器端的全局參數(shù)進(jìn)行更新;
S32,本地參數(shù)更新操作在計(jì)算節(jié)點(diǎn)端執(zhí)行,在每次迭代訓(xùn)練中,所有計(jì)算節(jié)點(diǎn)以異步的方式利用基于全局梯度的本地更新方法進(jìn)行本地更新操作;
S33,通信操作稀疏化是周期性進(jìn)行參數(shù)的取回操作,在每次迭代訓(xùn)練中,計(jì)算節(jié)點(diǎn)都將訓(xùn)練得到的梯度發(fā)送給參數(shù)服務(wù)器節(jié)點(diǎn),而不進(jìn)行權(quán)重的取回操作,直接利用本地梯度和本地權(quán)重,基于全局梯度的本地更新方法進(jìn)行本地更新操作,更新后的權(quán)重直接用于下一次迭代訓(xùn)練,在經(jīng)過指定次數(shù)的迭代后,執(zhí)行全局權(quán)重的取回操作。
2.一種如權(quán)利要求1所述的基于通信操作稀疏化的分布式深度學(xué)習(xí)多步延遲更新方法,其特征在于,所述的多步延遲訓(xùn)練階段中,設(shè)定權(quán)重取回的周期為k次迭代訓(xùn)練,則在之前的k-1次迭代訓(xùn)練中,只執(zhí)行梯度的發(fā)送操作和本地更新操作,而不執(zhí)行權(quán)重的取回操作;梯度的發(fā)送操作和本地更新操作是并行執(zhí)行的;在第n+k-1次迭代中,n為自然數(shù),指某次迭代訓(xùn)練序號(hào),每個(gè)計(jì)算節(jié)點(diǎn)同時(shí)執(zhí)行梯度的發(fā)送操作和權(quán)重的取回操作,第n+k-1次迭代中取回的權(quán)重在第n+k次迭代中進(jìn)行更新,并用于第n+k+1次迭代。
3.一種如權(quán)利要求1所述的基于通信操作稀疏化的分布式深度學(xué)習(xí)多步延遲更新方法,其特征在于,基于參數(shù)服務(wù)器架構(gòu)的MXNet框架對(duì)該方法進(jìn)行實(shí)現(xiàn),訓(xùn)練過程包括參數(shù)服務(wù)器的訓(xùn)練流程和計(jì)算節(jié)點(diǎn)的訓(xùn)練流程。
4.一種如權(quán)利要求3所述的基于通信操作稀疏化的分布式深度學(xué)習(xí)多步延遲更新方法,其特征在于,所述的參數(shù)服務(wù)器的訓(xùn)練流程,首先接收計(jì)算節(jié)點(diǎn)發(fā)送的梯度并保存;其次,當(dāng)接收到同一個(gè)參數(shù)對(duì)應(yīng)的梯度數(shù)量等于計(jì)算節(jié)點(diǎn)數(shù)時(shí),進(jìn)行參數(shù)的同步更新操作;最后,當(dāng)接收到來(lái)自計(jì)算節(jié)點(diǎn)的參數(shù)取回請(qǐng)求后,將更新后的參數(shù)值返回給計(jì)算節(jié)點(diǎn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011312697.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 通信裝置、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信設(shè)備、通信方法、通信電路、通信系統(tǒng)
- 通信設(shè)備、通信系統(tǒng)、通信方法、通信程序、通信電路
- 通信終端、通信系統(tǒng)、通信方法以及通信程序
- 通信終端、通信方法、通信裝備和通信系統(tǒng)
- 通信裝置、通信程序、通信方法以及通信系統(tǒng)
- 通信裝置、通信系統(tǒng)、通信方法及計(jì)算機(jī)可讀取的記錄介質(zhì)





