[發(fā)明專利]訓(xùn)練深度學(xué)習(xí)模型的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202210275033.1 | 申請(qǐng)日: | 2022-03-18 |
| 公開(公告)號(hào): | CN114626523A | 公開(公告)日: | 2022-06-14 |
| 發(fā)明(設(shè)計(jì))人: | 李龍;沈亮;吳志華 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06N3/08 | 分類號(hào): | G06N3/08;G06N3/04;G06F15/173 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 鄢功軍 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練 深度 學(xué)習(xí) 模型 方法 裝置 設(shè)備 以及 存儲(chǔ) 介質(zhì) | ||
本公開提供了一種訓(xùn)練深度學(xué)習(xí)模型的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì),涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及人工智能、深度學(xué)習(xí)等技術(shù)領(lǐng)域。具體實(shí)現(xiàn)方案為:將訓(xùn)練數(shù)據(jù)劃分為N個(gè)第一數(shù)據(jù)集,其中,N為大于1的整數(shù);根據(jù)N個(gè)第一數(shù)據(jù)集,與當(dāng)前計(jì)算節(jié)點(diǎn)所處的計(jì)算節(jié)點(diǎn)集群內(nèi)的目標(biāo)計(jì)算節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交換,得到第一交換結(jié)果;根據(jù)第一交換結(jié)果,與當(dāng)前計(jì)算節(jié)點(diǎn)中的目標(biāo)處理單元進(jìn)行數(shù)據(jù)交換,得到第二交換結(jié)果;以及利用第二交換結(jié)果,對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。
技術(shù)領(lǐng)域
本公開涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及人工智能、深度學(xué)習(xí)等技術(shù)領(lǐng)域。
背景技術(shù)
深度學(xué)習(xí)領(lǐng)域,MoE(Mixure-of-Experts,混合專家模型)是實(shí)現(xiàn)超大規(guī)模模型訓(xùn)練的技術(shù)路徑之一。MoE中可以采用all-to-all(全部到全部)的通信方式。all-to-all操作是一種通信操作。例如,在深度學(xué)習(xí)任務(wù)中,進(jìn)程間可以通過all-to-all操作交換數(shù)據(jù),并使用交換后的數(shù)據(jù)進(jìn)行接下來的計(jì)算。
發(fā)明內(nèi)容
本公開提供了一種訓(xùn)練深度學(xué)習(xí)模型的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)。
根據(jù)本公開的一方面,提供了一種訓(xùn)練深度學(xué)習(xí)模型的方法,包括:將訓(xùn)練數(shù)據(jù)劃分為N個(gè)第一數(shù)據(jù)集,其中,N為大于1的整數(shù);根據(jù)所述N個(gè)第一數(shù)據(jù)集,與當(dāng)前計(jì)算節(jié)點(diǎn)所處的計(jì)算節(jié)點(diǎn)集群內(nèi)的目標(biāo)計(jì)算節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交換,得到第一交換結(jié)果;根據(jù)所述第一交換結(jié)果,與所述當(dāng)前計(jì)算節(jié)點(diǎn)中的目標(biāo)處理單元進(jìn)行數(shù)據(jù)交換,得到第二交換結(jié)果;以及利用所述第二交換結(jié)果,對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。
根據(jù)本公開的另一方面,提供了一種訓(xùn)練深度學(xué)習(xí)模型的裝置,包括:劃分模塊,用于將訓(xùn)練數(shù)據(jù)劃分為N個(gè)第一數(shù)據(jù)集,其中,N為大于1的整數(shù);第一交換模塊,用于根據(jù)所述N個(gè)第一數(shù)據(jù)集,與當(dāng)前計(jì)算節(jié)點(diǎn)所處的計(jì)算節(jié)點(diǎn)集群內(nèi)的目標(biāo)計(jì)算節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交換,得到第一交換結(jié)果;第二交換模塊,用于根據(jù)所述第一交換結(jié)果,所述當(dāng)前計(jì)算節(jié)點(diǎn)中的目標(biāo)處理單元進(jìn)行數(shù)據(jù)交換,得到第二交換結(jié)果;以及訓(xùn)練模塊,用于利用所述第二交換結(jié)果,對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。
本公開的另一個(gè)方面提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本公開實(shí)施例所示的方法。
根據(jù)本公開實(shí)施例的另一方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行本公開實(shí)施例所示的方法。
根據(jù)本公開實(shí)施例的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開實(shí)施例所示方法的步驟。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構(gòu)成對(duì)本公開的限定。其中:
圖1是根據(jù)本公開實(shí)施例的可以應(yīng)用訓(xùn)練深度學(xué)習(xí)模型的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)的系統(tǒng)架構(gòu)示意圖;
圖2示意性示出了根據(jù)本公開的實(shí)施例的訓(xùn)練深度學(xué)習(xí)模型的方法的流程圖;
圖3示意性示出了根據(jù)本公開的實(shí)施例的與目標(biāo)計(jì)算節(jié)點(diǎn)進(jìn)行數(shù)據(jù)交換的方法的流程圖;
圖4示意性示出了根據(jù)本公開的實(shí)施例的與目標(biāo)處理單元進(jìn)行數(shù)據(jù)交換的方法的流程圖;
圖5示意性示出了根據(jù)本公開的實(shí)施例的對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練的方法的流程圖;
圖6A示意性示出了根據(jù)本公開另一實(shí)施例的訓(xùn)練深度學(xué)習(xí)模型的示意圖;
圖6B示意性示出了根據(jù)本公開另一實(shí)施例的訓(xùn)練深度學(xué)習(xí)模型的示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210275033.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





