[發(fā)明專利]模型訓(xùn)練方法、裝置、設(shè)備以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202211417195.0 | 申請日: | 2022-11-11 |
| 公開(公告)號: | CN115730681B | 公開(公告)日: | 2023-08-15 |
| 發(fā)明(設(shè)計(jì))人: | 李雨芮;沈亮;郝宏翔;鞏偉寶;于佃海 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F9/54 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 李世陽 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 方法 裝置 設(shè)備 以及 存儲 介質(zhì) | ||
本公開提供了一種模型訓(xùn)練方法、裝置、設(shè)備以及存儲介質(zhì),涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及人工智能、深度學(xué)習(xí)分布式計(jì)算等技術(shù)領(lǐng)域。具體實(shí)現(xiàn)方案為:獲取并行策略數(shù)據(jù)和至少一個(gè)候選節(jié)點(diǎn)的候選節(jié)點(diǎn)標(biāo)識,其中,并行策略數(shù)據(jù)包括多維數(shù)組,多維數(shù)組中記錄有多個(gè)節(jié)點(diǎn)標(biāo)識;根據(jù)至少一個(gè)候選節(jié)點(diǎn)的候選節(jié)點(diǎn)標(biāo)識在多維數(shù)組中的維度位置,與至少一個(gè)候選節(jié)點(diǎn)建立至少一個(gè)通信組,其中,維度位置包括多個(gè)位置值,多個(gè)位置值與多個(gè)維度一一對應(yīng);以及根據(jù)至少一個(gè)通信組,執(zhí)行模型訓(xùn)練操作。
技術(shù)領(lǐng)域
本公開涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及人工智能、深度學(xué)習(xí)分布式計(jì)算等技術(shù)領(lǐng)域。
背景技術(shù)
近年來,由于大模型(Foundation?Model)在各種應(yīng)用任務(wù)中的卓越表現(xiàn),大模型被應(yīng)用于越來越多的實(shí)際場景中。由于大模型的參數(shù)量和訓(xùn)練數(shù)據(jù)量較大,需要使用對應(yīng)的并行策略來加速整個(gè)訓(xùn)練過程,從而達(dá)到縮短訓(xùn)練時(shí)間的目的。
發(fā)明內(nèi)容
本公開提供了一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)以及程序產(chǎn)品。
根據(jù)本公開的一方面,提供了一種模型訓(xùn)練方法,包括:獲取并行策略數(shù)據(jù)和至少一個(gè)候選節(jié)點(diǎn)的候選節(jié)點(diǎn)標(biāo)識,其中,所述并行策略數(shù)據(jù)包括多維數(shù)組,所述多維數(shù)組中記錄有多個(gè)節(jié)點(diǎn)標(biāo)識;根據(jù)所述至少一個(gè)候選節(jié)點(diǎn)的候選節(jié)點(diǎn)標(biāo)識在所述多維數(shù)組中的維度位置,與所述至少一個(gè)候選節(jié)點(diǎn)建立至少一個(gè)通信組,其中,所述維度位置包括多個(gè)位置值,所述多個(gè)位置值與多個(gè)維度一一對應(yīng);以及根據(jù)所述至少一個(gè)通信組,執(zhí)行模型訓(xùn)練操作。
根據(jù)本公開的另一方面,提供了一種模型訓(xùn)練裝置,包括:獲取模塊,用于獲取并行策略數(shù)據(jù)和至少一個(gè)候選節(jié)點(diǎn)的候選節(jié)點(diǎn)標(biāo)識,其中,所述并行策略數(shù)據(jù)包括多維數(shù)組,所述多維數(shù)組中記錄有多個(gè)節(jié)點(diǎn)標(biāo)識;建立模塊,用于根據(jù)所述至少一個(gè)候選節(jié)點(diǎn)的候選節(jié)點(diǎn)標(biāo)識在所述多維數(shù)組中的維度位置,與所述至少一個(gè)候選節(jié)點(diǎn)建立至少一個(gè)通信組,其中,所述維度位置包括多個(gè)位置值,所述多個(gè)位置值與多個(gè)維度一一對應(yīng);以及執(zhí)行模塊,用于根據(jù)所述至少一個(gè)通信組,執(zhí)行模型訓(xùn)練操作。
本公開的另一個(gè)方面提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本公開實(shí)施例所示的方法。
根據(jù)本公開實(shí)施例的另一方面,提供了一種存儲有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行本公開實(shí)施例所示的方法。
根據(jù)本公開實(shí)施例的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開實(shí)施例所示方法的步驟。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構(gòu)成對本公開的限定。其中:
圖1是根據(jù)本公開實(shí)施例的模型訓(xùn)練方法、裝置、電子設(shè)備和存儲介質(zhì)的應(yīng)用場景示意圖;
圖2示意性示出了根據(jù)本公開的實(shí)施例的模型訓(xùn)練方法的流程圖;
圖3示意性示出了根據(jù)本公開的實(shí)施例的與至少一個(gè)候選節(jié)點(diǎn)建立至少一個(gè)通信組的方法的流程圖;
圖4示意性示出了根據(jù)本公開的實(shí)施例的與至少一個(gè)候選節(jié)點(diǎn)建立至少一個(gè)第一通信組的方法的流程圖;
圖5示意性示出了根據(jù)本公開另一實(shí)施例的與至少一個(gè)候選節(jié)點(diǎn)建立至少一個(gè)通信組的方法的流程圖;
圖6示意性示出了根據(jù)本公開另一實(shí)施例的與至少一個(gè)候選節(jié)點(diǎn)建立至少一個(gè)第二通信組的方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211417195.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





