[發(fā)明專利]模型訓(xùn)練方法及裝置有效
| 申請?zhí)枺?/td> | 202011226521.0 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112329919B | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設(shè)計)人: | 程默;吳鑫烜;于佃海;湯偉;吳志華;董大祥 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62;G06N20/00;G06V10/82;G06V10/70;G06V10/764 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 方法 裝置 | ||
1.一種模型訓(xùn)練方法,包括:
根據(jù)模型訓(xùn)練中前向傳播計算過程和反向傳播計算過程中的操作所屬的類型信息,將所述操作分配至對應(yīng)的訓(xùn)練器,其中,不同的訓(xùn)練器運(yùn)行于異構(gòu)設(shè)備上,異構(gòu)設(shè)備上的訓(xùn)練器滿足所分配的操作的性能要求,所述類型信息包括輸入輸出密集型和計算密集型;
依據(jù)訓(xùn)練樣本對初始模型執(zhí)行如下訓(xùn)練操作,直至達(dá)到預(yù)設(shè)結(jié)束條件:針對于每個訓(xùn)練器,基于與其他訓(xùn)練器的信息交互,完成該訓(xùn)練器所包括的操作所對應(yīng)的前向傳播計算過程和反向傳播計算過程,得到對應(yīng)的梯度信息;通過參數(shù)服務(wù)器,根據(jù)每個訓(xùn)練器的梯度信息進(jìn)行初始圖像分類模型參數(shù)的更新;
將達(dá)到所述預(yù)設(shè)結(jié)束條件的初始圖像分類模型確定為訓(xùn)練后的圖像分類模型;
在模型訓(xùn)練過程中,采用異構(gòu)存儲機(jī)制,基于信息的更新頻率,將信息存儲至不同的異構(gòu)存儲設(shè)備中,包括:
將更新頻率超過第一頻率閾值的信息存儲至顯存中;
將更新頻率處于所述第一頻率閾值與第二頻率閾值之間的信息存儲至內(nèi)存中,其中,所述第一頻率閾值大于所述第二頻率閾值;
將更新頻率低于所述第二頻率閾值的信息存儲至固態(tài)硬盤中。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述訓(xùn)練器包括第一訓(xùn)練器和第二訓(xùn)練器,所述第一訓(xùn)練器用于設(shè)置輸入輸出密集型操作,所述第二訓(xùn)練器用于設(shè)置計算密集型操作;
所述根據(jù)模型訓(xùn)練中前向傳播計算過程和反向傳播計算過程中的操作所屬的類型信息,將所述操作分配至對應(yīng)的訓(xùn)練器,包括:
針對于所述前向傳播計算過程和所述反向傳播計算過程中的每一個操作:
響應(yīng)于確定該操作為輸入輸出密集型操作,將該操作設(shè)置于所述第一訓(xùn)練器中;
響應(yīng)于確定該操作為計算密集型操作,將該操作設(shè)置于所述第二訓(xùn)練器中。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述第一訓(xùn)練器和所述第二訓(xùn)練器分別設(shè)有對應(yīng)的信息隊列;
所述針對于每個訓(xùn)練器,基于與其他訓(xùn)練器的信息交互,完成該訓(xùn)練器所包括的操作所對應(yīng)的前向傳播計算過程和反向傳播計算過程,得到對應(yīng)的梯度信息,包括:
針對于所述第一訓(xùn)練器或所述第二訓(xùn)練器,基于該訓(xùn)練器所對應(yīng)的信息隊列,與其他訓(xùn)練器進(jìn)行信息交互,完成該訓(xùn)練器所包括的操作所對應(yīng)的前向傳播計算過程和反向傳播計算過程,得到對應(yīng)的梯度信息。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述第一訓(xùn)練器中對應(yīng)設(shè)有第一隊列和第二隊列,所述第一隊列包括執(zhí)行所述第一訓(xùn)練器中的操作所需的全部上下文信息,所述二隊列包括執(zhí)行所述第一訓(xùn)練器中的操作所需的部分上下文信息;所述第二訓(xùn)練器對應(yīng)設(shè)有第三隊列,所述第三隊列包括執(zhí)行所述第二訓(xùn)練器中的操作所需的全部上下文信息;
所述針對于每個訓(xùn)練器,基于與其他訓(xùn)練器的信息交互,完成該訓(xùn)練器所包括的操作所對應(yīng)的前向傳播計算過程和反向傳播計算過程,得到對應(yīng)的梯度信息,包括:
針對于所述第一訓(xùn)練器,執(zhí)行如下操作:
從所述第一隊列中獲取執(zhí)行所述第一訓(xùn)練器中的操作所需的上下文信息,并執(zhí)行所述第一訓(xùn)練器中的操作的前向傳播計算過程,得到執(zhí)行所述第二訓(xùn)練器中的操作所需的上下文信息,其中,所述第二訓(xùn)練器中的操作為所述第一訓(xùn)練器中的操作的后續(xù)操作;
將執(zhí)行所述第二訓(xùn)練器中的操作所得到的信息,作為執(zhí)行所述第一訓(xùn)練器中的操作的反向傳播計算過程所需的上下文信息,傳輸至所述第二隊列,以補(bǔ)充所述第二隊列中的部分上下文信息,得到執(zhí)行所述第一訓(xùn)練器中的操作的反向傳播計算過程所需的全部上下文信息;
將補(bǔ)充后得到的執(zhí)行所述第一訓(xùn)練器中的操作的反向傳播計算過程所需的全部上下文信息,從所述第二隊列轉(zhuǎn)移至所述第一隊列,以使所述第一訓(xùn)練器執(zhí)行所述第一訓(xùn)練器中的操作的反向傳播計算過程,得到所述第一訓(xùn)練器對應(yīng)的梯度信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011226521.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種配電箱用除濕裝置
- 下一篇:像素單元、顯示面板及顯示裝置





