[發(fā)明專利]一種基于流水線并行的模型訓(xùn)練方法、裝置以及設(shè)備有效

申請(qǐng)?zhí)枺?/td>	202110396491.6	申請(qǐng)日：	2021-04-13
公開(kāi)（公告）號(hào)：	CN113177632B	公開(kāi)（公告）日：	2022-10-14
發(fā)明（設(shè)計(jì)）人：	楊鵬程;張曉明;楊明;魏宏	申請(qǐng)（專利權(quán)）人：	支付寶（杭州）信息技術(shù)有限公司
主分類號(hào)：	G06N3/04	分類號(hào)：	G06N3/04;G06N3/08
代理公司：	北京君慧知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11716	代理人：	吳紹群
地址：	310000 浙江省杭州市***	國(guó)省代碼：	浙江;33
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于流水線并行模型訓(xùn)練方法裝置以及設(shè)備
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門(mén)專利

【權(quán)利要求書(shū)】：

1.一種基于流水線并行的模型訓(xùn)練方法，包括：

根據(jù)正常訓(xùn)練順序?qū)Υ?xùn)練模型進(jìn)行切分，得到多個(gè)子切片，所述切分包括根據(jù)層進(jìn)行切分；

將正常訓(xùn)練順序在前的一部分所述子切片劃分至第一組中，構(gòu)成第一子模型，將剩余的所述子切片劃分至第二組中，構(gòu)成第二子模型；

將所述第一子模型包含的子切片分配給不同的工作方，以及將所述第二子模型包含的子切片分配給不同的工作方；

根據(jù)調(diào)整得到的訓(xùn)練順序，在被分配了子切片的工作方上為所述子切片分配訓(xùn)練時(shí)間塊，所述訓(xùn)練順序包括：針對(duì)單輪訓(xùn)練樣本，依次執(zhí)行所述第一子模型本周期的正向傳播、所述第一子模型前一周期的反向傳播、所述第二子模型本周期的正向傳播、所述第二子模型本周期的反向傳播；

按照所述訓(xùn)練時(shí)間塊，在多個(gè)所述工作方上對(duì)所述待訓(xùn)練模型進(jìn)行并行訓(xùn)練。

2.如權(quán)利要求1所述的方法，所述根據(jù)正常訓(xùn)練順序?qū)Υ?xùn)練模型進(jìn)行切分，得到多個(gè)子切片，具體包括：

獲取根據(jù)層對(duì)待訓(xùn)練模型切分得到的可用于模型并行的多個(gè)模型切片；

按照所述切分的方向，將所述模型切片進(jìn)一步地切分為兩個(gè)子切片。

3.如權(quán)利要求1所述的方法，所述將所述第一子模型包含的子切片分配給不同的工作方，以及將所述第二子模型包含的子切片分配給不同的工作方，具體包括：

確定所述第一子模型所包含的子切片的第一訓(xùn)練順序，以及所述第二子模型所包含的子切片的第二訓(xùn)練順序；

將所述第一訓(xùn)練順序與所述第二訓(xùn)練順序中，排序相同的子切片分配給同一個(gè)工作方，排序不同的子切片分配給不同的工作方。

4.如權(quán)利要求1所述的方法，所述訓(xùn)練順序還包括：

針對(duì)多輪訓(xùn)練樣本，以連續(xù)輸入的方式輸入所述第一子模型從第一輪開(kāi)始的若干輪訓(xùn)練樣本中對(duì)應(yīng)的正向傳播，以間隔單個(gè)訓(xùn)練時(shí)間塊的方式輸入剩余的傳播，并將所述第二子模型的第一輪反向傳播以及后續(xù)的傳播分配至間隔的所述單個(gè)訓(xùn)練時(shí)間塊中，以形成流水線并行訓(xùn)練。

5.如權(quán)利要求4所述的方法，所述在多個(gè)所述工作方上對(duì)所述待訓(xùn)練模型進(jìn)行并行訓(xùn)練，具體包括：

在多個(gè)所述工作方上，所述多輪訓(xùn)練樣本中的所述正向傳播后，計(jì)算得到相應(yīng)的梯度結(jié)果，并將所述梯度結(jié)果進(jìn)行累積；

根據(jù)累積的所述梯度結(jié)果，在所述多輪訓(xùn)練樣本中的最后一輪訓(xùn)練樣本的反向傳播時(shí)進(jìn)行權(quán)值更新。

6.如權(quán)利要求5所述的方法，所述在所述多輪訓(xùn)練樣本中的最后一輪訓(xùn)練樣本的反向傳播時(shí)進(jìn)行權(quán)值更新，具體包括：

在所述多輪訓(xùn)練樣本中的最后一輪訓(xùn)練樣本的反向傳播時(shí)，根據(jù)當(dāng)前權(quán)值版本所對(duì)應(yīng)的權(quán)值對(duì)所述第二子模型進(jìn)行權(quán)值更新，并根據(jù)當(dāng)前權(quán)值版本和前一個(gè)權(quán)值版本所對(duì)應(yīng)的權(quán)值對(duì)所述第一子模型進(jìn)行權(quán)值更新。

7.如權(quán)利要求1所述的方法，所述在多個(gè)所述工作方上對(duì)所述待訓(xùn)練模型進(jìn)行并行訓(xùn)練，具體包括：

在對(duì)多個(gè)所述工作方中的第一工作方上執(zhí)行正向傳播的過(guò)程中，計(jì)算運(yùn)行時(shí)激活，使用后在顯存中釋放所述運(yùn)行時(shí)激活；

在所述第一工作方上執(zhí)行所述正向傳播對(duì)應(yīng)的反向傳播時(shí)，在等待所述第一工作方的上一個(gè)工作方反向傳播的梯度結(jié)果時(shí)，所述第一工作方重新計(jì)算所述運(yùn)行時(shí)激活，以用于自己的反向傳播過(guò)程。

8.如權(quán)利要求7所述的方法，所述方法還包括：

確定正常訓(xùn)練時(shí)設(shè)置的單輪訓(xùn)練樣本批次大小；

根據(jù)通過(guò)釋放所述運(yùn)行時(shí)激活得到空閑的顯存，嘗試增大所述單輪訓(xùn)練樣本批次大小；

通過(guò)降低所述待訓(xùn)練模型中部分層的浮點(diǎn)數(shù)精度以推遲所述工作方的計(jì)算單元達(dá)到飽和狀態(tài)的時(shí)刻，得到符合預(yù)期的單輪訓(xùn)練樣本批次大小和浮點(diǎn)數(shù)精度。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶（杭州）信息技術(shù)有限公司，未經(jīng)支付寶（杭州）信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110396491.6/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種數(shù)據(jù)加密傳輸方法
下一篇：一種帶熱子的鈦基貯氫器件

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06N 基于特定計(jì)算模型的計(jì)算機(jī)系統(tǒng)
G06N3-00 基于生物學(xué)模型的計(jì)算機(jī)系統(tǒng)
G06N3-02 .采用神經(jīng)網(wǎng)絡(luò)模型
G06N3-12 .采用遺傳模型
G06N3-06 ..物理實(shí)現(xiàn)，即神經(jīng)網(wǎng)絡(luò)、神經(jīng)元或神經(jīng)元部分的硬件實(shí)現(xiàn)
G06N3-08 ..學(xué)習(xí)方法

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

滑坡模型實(shí)驗(yàn)?zāi)Ｐ图?/a>

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū)；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】