[發(fā)明專利]一種基于版本差異的流水線并行訓(xùn)練節(jié)點(diǎn)權(quán)重分配方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110766607.0 | 申請(qǐng)日: | 2021-07-07 |
| 公開(公告)號(hào): | CN113469341A | 公開(公告)日: | 2021-10-01 |
| 發(fā)明(設(shè)計(jì))人: | 毛鶯池;屠子健;聶華;黃建新;徐淑芳;吳俊;戚榮志 | 申請(qǐng)(專利權(quán))人: | 河海大學(xué);中科可控信息產(chǎn)業(yè)有限公司 |
| 主分類號(hào): | G06N3/04 | 分類號(hào): | G06N3/04;G06N3/063;G06N3/08;G06F9/38 |
| 代理公司: | 南京樂(lè)羽知行專利代理事務(wù)所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 211100 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 版本 差異 流水線 并行 訓(xùn)練 節(jié)點(diǎn) 權(quán)重 分配 方法 | ||
本發(fā)明公開一種基于版本差異的流水線并行訓(xùn)練節(jié)點(diǎn)權(quán)重分配方法,載入初始化深度學(xué)習(xí)模型;構(gòu)建流水線并行訓(xùn)練方案,采用異步參數(shù)更新方法,并發(fā)執(zhí)行不同批次的訓(xùn)練,記錄訓(xùn)練批次在單位流水線執(zhí)行時(shí)間內(nèi)完成前向和后向傳遞過(guò)程。利用最新的訓(xùn)練節(jié)點(diǎn)權(quán)重版本,預(yù)測(cè)出未來(lái)訓(xùn)練過(guò)程的節(jié)點(diǎn)權(quán)重,根據(jù)節(jié)點(diǎn)權(quán)重預(yù)測(cè)進(jìn)行該批次版本差異計(jì)算。待該節(jié)點(diǎn)完成所有批次的版本差異計(jì)算,則完成該節(jié)點(diǎn)的預(yù)測(cè)權(quán)重更新。計(jì)算了所有節(jié)點(diǎn)的版本差異,即完成流水線并行訓(xùn)練節(jié)點(diǎn)權(quán)重分配;并將其部署到異構(gòu)計(jì)算節(jié)點(diǎn)中,得到針對(duì)擬訓(xùn)練目標(biāo)網(wǎng)絡(luò)的流水線并行訓(xùn)練節(jié)點(diǎn)權(quán)重分配方案。本發(fā)明方法使節(jié)點(diǎn)權(quán)重預(yù)測(cè)更加準(zhǔn)確。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于版本差異的流水線并行訓(xùn)練節(jié)點(diǎn)權(quán)重分配方法,屬于計(jì)算機(jī)流水線系統(tǒng)優(yōu)化技術(shù)領(lǐng)域。
背景技術(shù)
深度神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于各種領(lǐng)域,取得了超越人類的預(yù)測(cè)效果。隨著模型的精度等要求越來(lái)越高,模型參數(shù)規(guī)模和計(jì)算需求越來(lái)越大,訓(xùn)練模型成為一個(gè)計(jì)算十分密集和耗時(shí)的任務(wù)。研究人員經(jīng)常使用分布式計(jì)算機(jī)集群加速模型訓(xùn)練過(guò)程。分布式深度學(xué)習(xí)并行訓(xùn)練致力于加速DNN模型訓(xùn)練過(guò)程,已被很多學(xué)者研究。其中,流水線并行訓(xùn)練研究越來(lái)越深入。流水線并行訓(xùn)練可以解決數(shù)據(jù)并行的通信瓶頸與模型并行的計(jì)算資源浪費(fèi)問(wèn)題。然而,樸素流水線并行訓(xùn)練存在權(quán)重陳舊問(wèn)題,影響模型收斂。在單機(jī)訓(xùn)練過(guò)程中,每個(gè)訓(xùn)練批次的前向傳遞與后向傳遞都是基于最新的權(quán)值進(jìn)行計(jì)算的。與單機(jī)訓(xùn)練不同,流水線系統(tǒng)中每個(gè)批次的前向與后向傳遞計(jì)算在多個(gè)計(jì)算節(jié)點(diǎn)上跨多個(gè)時(shí)間單位執(zhí)行。流水線系統(tǒng)同時(shí)處理多個(gè)批次的數(shù)據(jù),后處理的批次在先處理的批次更新權(quán)值之前就開始其訓(xùn)練過(guò)程。每個(gè)批次在前向和后向傳遞計(jì)算的整個(gè)過(guò)程中使用了不同版本的權(quán)重。每個(gè)節(jié)點(diǎn)都存在權(quán)重陳舊問(wèn)題,這種權(quán)重陳舊性會(huì)導(dǎo)致DNN模型訓(xùn)練不穩(wěn)定、模型精度下降,甚至無(wú)法完成收斂。針對(duì)權(quán)重陳舊問(wèn)題,研究更加精確的節(jié)點(diǎn)權(quán)重預(yù)測(cè)方法,具有重要意義。
發(fā)明內(nèi)容
發(fā)明目的:為了解決流水線并行訓(xùn)練中的節(jié)點(diǎn)權(quán)重陳舊性和現(xiàn)有節(jié)點(diǎn)權(quán)重預(yù)測(cè)方法精度低的問(wèn)題,本發(fā)明提供一種基于版本差異的流水線并行訓(xùn)練節(jié)點(diǎn)權(quán)重分配方法,以異步流水線并行訓(xùn)練為基礎(chǔ),使節(jié)點(diǎn)權(quán)重預(yù)測(cè)更加準(zhǔn)確,進(jìn)一步促進(jìn)提高深度學(xué)習(xí)模型精度,保證模型訓(xùn)練的有效性。
技術(shù)方案:一種基于版本差異的流水線并行訓(xùn)練節(jié)點(diǎn)權(quán)重分配方法,包括如下步驟:
(1)初始化深度學(xué)習(xí)模型,并把該模型載入;
(2)構(gòu)建流水線并行訓(xùn)練方案,采用異步參數(shù)更新方法,并發(fā)執(zhí)行不同節(jié)點(diǎn)中不同批次的訓(xùn)練,記錄各個(gè)訓(xùn)練批次在單位流水線執(zhí)行時(shí)間內(nèi)完成前向和后向傳遞過(guò)程;
(3)利用最新的訓(xùn)練節(jié)點(diǎn)權(quán)重版本,預(yù)測(cè)出未來(lái)訓(xùn)練過(guò)程中的節(jié)點(diǎn)權(quán)重;
(4)根據(jù)節(jié)點(diǎn)權(quán)重預(yù)測(cè)進(jìn)行當(dāng)前批次版本差異計(jì)算;
(5)判斷當(dāng)前批次計(jì)算得到的前向與后向傳遞版本差異值是否為0,是則不更新節(jié)點(diǎn)預(yù)測(cè)權(quán)重,否則根據(jù)版本差異進(jìn)行權(quán)重更新;
(6)判斷該節(jié)點(diǎn)是否完成所有批次的版本差異計(jì)算,是則完成該節(jié)點(diǎn)的預(yù)測(cè)權(quán)重更新,否則返回步驟(3)-(5)繼續(xù)迭代;
(7)判斷所有節(jié)點(diǎn)的版本差異計(jì)算是否全部完成,是則完成流水線并行訓(xùn)練節(jié)點(diǎn)權(quán)重分配,否則返回步驟(6)繼續(xù)迭代;
(8)按照上述權(quán)重分配方案將其部署到異構(gòu)計(jì)算節(jié)點(diǎn)中,得到針對(duì)擬訓(xùn)練目標(biāo)網(wǎng)絡(luò)的流水線并行訓(xùn)練節(jié)點(diǎn)權(quán)重分配方案。
進(jìn)一步的,所述步驟(2)中單位流水線執(zhí)行時(shí)間主要指前向傳遞和后向傳遞計(jì)算時(shí)間之和。
進(jìn)一步的,所述步驟(3)中預(yù)測(cè)未來(lái)訓(xùn)練過(guò)程節(jié)點(diǎn)權(quán)重的具體步驟如下:
(3.1)預(yù)測(cè)未來(lái)訓(xùn)練過(guò)程節(jié)點(diǎn)權(quán)重的下降梯度;
(3.2)計(jì)算下一時(shí)刻的節(jié)點(diǎn)權(quán)重值。
進(jìn)一步的,所述步驟(4)中進(jìn)行當(dāng)前批次版本差異計(jì)算的具體步驟如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué);中科可控信息產(chǎn)業(yè)有限公司,未經(jīng)河海大學(xué);中科可控信息產(chǎn)業(yè)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110766607.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





