[發(fā)明專利]模型訓(xùn)練方法及裝置有效
| 申請?zhí)枺?/td> | 202011226521.0 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112329919B | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設(shè)計)人: | 程默;吳鑫烜;于佃海;湯偉;吳志華;董大祥 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62;G06N20/00;G06V10/82;G06V10/70;G06V10/764 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 方法 裝置 | ||
本申請公開了模型訓(xùn)練方法及裝置,涉及深度學(xué)習(xí)技術(shù)領(lǐng)域。具體實現(xiàn)方案為:根據(jù)模型訓(xùn)練中前向傳播計算過程和反向傳播計算過程中的操作所屬的類型信息,將操作分配至對應(yīng)的訓(xùn)練器;依據(jù)訓(xùn)練樣本對初始模型執(zhí)行如下訓(xùn)練操作,直至達(dá)到預(yù)設(shè)結(jié)束條件:針對于每個訓(xùn)練器,基于與其他訓(xùn)練器的信息交互,完成該訓(xùn)練器所包括的操作所對應(yīng)的前向傳播計算過程和反向傳播計算過程,得到對應(yīng)的梯度信息;通過參數(shù)服務(wù)器,根據(jù)每個訓(xùn)練器發(fā)送的梯度信息進行模型參數(shù)的更新。本方案使得訓(xùn)練器的運行性能與操作所需要的性能相匹配,充分發(fā)揮訓(xùn)練器運行性能,提高了模型訓(xùn)練速度。
技術(shù)領(lǐng)域
本公開涉及計算機技術(shù)領(lǐng)域,具體涉及深度學(xué)習(xí)技術(shù),為一種模型訓(xùn)練方法及裝置。
背景技術(shù)
隨著大數(shù)據(jù)浪潮的推動與深度學(xué)習(xí)技術(shù)的長足發(fā)展,深度學(xué)習(xí)所涉及的數(shù)據(jù)規(guī)模與模型規(guī)模都發(fā)生了驚人的增長。大數(shù)據(jù)+大模型的雙重挑戰(zhàn),是單機訓(xùn)練無法承受之重,必須使用數(shù)據(jù)并行的分布式訓(xùn)練模式,才可以滿足業(yè)務(wù)需求。目前,一般采用去中心化的分布式訓(xùn)練模式和中心化的分布式訓(xùn)練模式。
發(fā)明內(nèi)容
本公開提供了一種模型訓(xùn)練方法、裝置、設(shè)備以及存儲介質(zhì)。
根據(jù)第一方面,本公開提供了一種模型訓(xùn)練方法,包括:根據(jù)模型訓(xùn)練中前向傳播計算過程和反向傳播計算過程中的操作所屬的類型信息,將操作分配至對應(yīng)的訓(xùn)練器;依據(jù)訓(xùn)練樣本對初始模型執(zhí)行如下訓(xùn)練操作,直至達(dá)到預(yù)設(shè)結(jié)束條件:針對于每個訓(xùn)練器,基于與其他訓(xùn)練器的信息交互,完成該訓(xùn)練器所包括的操作所對應(yīng)的前向傳播計算過程和反向傳播計算過程,得到對應(yīng)的梯度信息;通過參數(shù)服務(wù)器,根據(jù)每個訓(xùn)練器發(fā)送的梯度信息進行模型參數(shù)的更新。
根據(jù)第二方面,本公開提供了一種模型訓(xùn)練裝置,包括:分配單元,被配置成根據(jù)模型訓(xùn)練中前向傳播計算過程和反向傳播計算過程中的操作所屬的類型信息,將操作分配至對應(yīng)的訓(xùn)練器;訓(xùn)練單元,被配置成依據(jù)訓(xùn)練樣本對初始模型執(zhí)行如下訓(xùn)練操作,直至達(dá)到預(yù)設(shè)結(jié)束條件:針對于每個訓(xùn)練器,基于與其他訓(xùn)練器的信息交互,完成該訓(xùn)練器所包括的操作所對應(yīng)的前向傳播計算過程和反向傳播計算過程,得到對應(yīng)的梯度信息;通過參數(shù)服務(wù)器,根據(jù)每個訓(xùn)練器發(fā)送的梯度信息進行模型參數(shù)的更新。
根據(jù)第三方面,提供了一種電子設(shè)備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行上述第一方面中任一項的方法。
根據(jù)第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),計算機指令用于使計算機執(zhí)行上述第一方面中任一項的方法。
根據(jù)本公開的技術(shù),根據(jù)類型信息,將模型訓(xùn)練中前向傳播計算過程和反向傳播計算過程中的各操作分配至不同的訓(xùn)練器,使得訓(xùn)練器的運行性能與操作所需要的性能相匹配,充分發(fā)揮訓(xùn)練器運行性能,提高了模型訓(xùn)練速度。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構(gòu)成對本公開的限定。其中:
圖1是本公開的一個實施例可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本公開的模型訓(xùn)練方法的一個實施例的流程圖;
圖3是根據(jù)本公開的模型訓(xùn)練方法的一個應(yīng)用場景的示意圖;
圖4是根據(jù)本公開的模型訓(xùn)練方法的又一個實施例的流程圖;
圖5是根據(jù)本公開的模型訓(xùn)練裝置協(xié)同配合的一個實施例的流程圖;
圖6是適于用來實現(xiàn)本公開的實施例的電子設(shè)備/終端設(shè)備或服務(wù)器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011226521.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種配電箱用除濕裝置
- 下一篇:像素單元、顯示面板及顯示裝置





