[發(fā)明專利]一種基于流水線并行的模型訓(xùn)練方法、裝置以及設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202110396491.6 | 申請(qǐng)日: | 2021-04-13 |
| 公開(kāi)(公告)號(hào): | CN113177632B | 公開(kāi)(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計(jì))人: | 楊鵬程;張曉明;楊明;魏宏 | 申請(qǐng)(專利權(quán))人: | 支付寶(杭州)信息技術(shù)有限公司 |
| 主分類號(hào): | G06N3/04 | 分類號(hào): | G06N3/04;G06N3/08 |
| 代理公司: | 北京君慧知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11716 | 代理人: | 吳紹群 |
| 地址: | 310000 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 流水線 并行 模型 訓(xùn)練 方法 裝置 以及 設(shè)備 | ||
1.一種基于流水線并行的模型訓(xùn)練方法,包括:
根據(jù)正常訓(xùn)練順序?qū)Υ?xùn)練模型進(jìn)行切分,得到多個(gè)子切片,所述切分包括根據(jù)層進(jìn)行切分;
將正常訓(xùn)練順序在前的一部分所述子切片劃分至第一組中,構(gòu)成第一子模型,將剩余的所述子切片劃分至第二組中,構(gòu)成第二子模型;
將所述第一子模型包含的子切片分配給不同的工作方,以及將所述第二子模型包含的子切片分配給不同的工作方;
根據(jù)調(diào)整得到的訓(xùn)練順序,在被分配了子切片的工作方上為所述子切片分配訓(xùn)練時(shí)間塊,所述訓(xùn)練順序包括:針對(duì)單輪訓(xùn)練樣本,依次執(zhí)行所述第一子模型本周期的正向傳播、所述第一子模型前一周期的反向傳播、所述第二子模型本周期的正向傳播、所述第二子模型本周期的反向傳播;
按照所述訓(xùn)練時(shí)間塊,在多個(gè)所述工作方上對(duì)所述待訓(xùn)練模型進(jìn)行并行訓(xùn)練。
2.如權(quán)利要求1所述的方法,所述根據(jù)正常訓(xùn)練順序?qū)Υ?xùn)練模型進(jìn)行切分,得到多個(gè)子切片,具體包括:
獲取根據(jù)層對(duì)待訓(xùn)練模型切分得到的可用于模型并行的多個(gè)模型切片;
按照所述切分的方向,將所述模型切片進(jìn)一步地切分為兩個(gè)子切片。
3.如權(quán)利要求1所述的方法,所述將所述第一子模型包含的子切片分配給不同的工作方,以及將所述第二子模型包含的子切片分配給不同的工作方,具體包括:
確定所述第一子模型所包含的子切片的第一訓(xùn)練順序,以及所述第二子模型所包含的子切片的第二訓(xùn)練順序;
將所述第一訓(xùn)練順序與所述第二訓(xùn)練順序中,排序相同的子切片分配給同一個(gè)工作方,排序不同的子切片分配給不同的工作方。
4.如權(quán)利要求1所述的方法,所述訓(xùn)練順序還包括:
針對(duì)多輪訓(xùn)練樣本,以連續(xù)輸入的方式輸入所述第一子模型從第一輪開(kāi)始的若干輪訓(xùn)練樣本中對(duì)應(yīng)的正向傳播,以間隔單個(gè)訓(xùn)練時(shí)間塊的方式輸入剩余的傳播,并將所述第二子模型的第一輪反向傳播以及后續(xù)的傳播分配至間隔的所述單個(gè)訓(xùn)練時(shí)間塊中,以形成流水線并行訓(xùn)練。
5.如權(quán)利要求4所述的方法,所述在多個(gè)所述工作方上對(duì)所述待訓(xùn)練模型進(jìn)行并行訓(xùn)練,具體包括:
在多個(gè)所述工作方上,所述多輪訓(xùn)練樣本中的所述正向傳播后,計(jì)算得到相應(yīng)的梯度結(jié)果,并將所述梯度結(jié)果進(jìn)行累積;
根據(jù)累積的所述梯度結(jié)果,在所述多輪訓(xùn)練樣本中的最后一輪訓(xùn)練樣本的反向傳播時(shí)進(jìn)行權(quán)值更新。
6.如權(quán)利要求5所述的方法,所述在所述多輪訓(xùn)練樣本中的最后一輪訓(xùn)練樣本的反向傳播時(shí)進(jìn)行權(quán)值更新,具體包括:
在所述多輪訓(xùn)練樣本中的最后一輪訓(xùn)練樣本的反向傳播時(shí),根據(jù)當(dāng)前權(quán)值版本所對(duì)應(yīng)的權(quán)值對(duì)所述第二子模型進(jìn)行權(quán)值更新,并根據(jù)當(dāng)前權(quán)值版本和前一個(gè)權(quán)值版本所對(duì)應(yīng)的權(quán)值對(duì)所述第一子模型進(jìn)行權(quán)值更新。
7.如權(quán)利要求1所述的方法,所述在多個(gè)所述工作方上對(duì)所述待訓(xùn)練模型進(jìn)行并行訓(xùn)練,具體包括:
在對(duì)多個(gè)所述工作方中的第一工作方上執(zhí)行正向傳播的過(guò)程中,計(jì)算運(yùn)行時(shí)激活,使用后在顯存中釋放所述運(yùn)行時(shí)激活;
在所述第一工作方上執(zhí)行所述正向傳播對(duì)應(yīng)的反向傳播時(shí),在等待所述第一工作方的上一個(gè)工作方反向傳播的梯度結(jié)果時(shí),所述第一工作方重新計(jì)算所述運(yùn)行時(shí)激活,以用于自己的反向傳播過(guò)程。
8.如權(quán)利要求7所述的方法,所述方法還包括:
確定正常訓(xùn)練時(shí)設(shè)置的單輪訓(xùn)練樣本批次大小;
根據(jù)通過(guò)釋放所述運(yùn)行時(shí)激活得到空閑的顯存,嘗試增大所述單輪訓(xùn)練樣本批次大小;
通過(guò)降低所述待訓(xùn)練模型中部分層的浮點(diǎn)數(shù)精度以推遲所述工作方的計(jì)算單元達(dá)到飽和狀態(tài)的時(shí)刻,得到符合預(yù)期的單輪訓(xùn)練樣本批次大小和浮點(diǎn)數(shù)精度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶(杭州)信息技術(shù)有限公司,未經(jīng)支付寶(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110396491.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種數(shù)據(jù)加密傳輸方法
- 下一篇:一種帶熱子的鈦基貯氫器件
- 簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線與并行總線的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)





