[發(fā)明專利]模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)以及程序產(chǎn)品有效
| 申請?zhí)枺?/td> | 202110366052.0 | 申請日: | 2021-04-06 |
| 公開(公告)號: | CN112884086B | 公開(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 吳志華;于佃海;梁建中;李龍;鞏偉寶;王曦 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;G06T1/20 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 方法 裝置 設(shè)備 存儲 介質(zhì) 以及 程序 產(chǎn)品 | ||
本公開提供了一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)以及程序產(chǎn)品,涉及人工智能領(lǐng)域,尤其是深度學(xué)習(xí)技術(shù)領(lǐng)域。該方法的一具體實(shí)施方式包括:獲取訓(xùn)練樣本集;從預(yù)設(shè)的并行策略集合中開啟至少一個(gè)并行策略的開關(guān),其中,并行策略集合中的每個(gè)并行策略對應(yīng)設(shè)置有開關(guān);利用至少一個(gè)并行策略,基于訓(xùn)練樣本集對初始模型進(jìn)行訓(xùn)練,直至初始模型訓(xùn)練完成。該實(shí)施方式提供了一種混合并行策略,靈活支持不同并行策略的任務(wù)組合來并行訓(xùn)練模型,提高了模型的訓(xùn)練速度。
技術(shù)領(lǐng)域
本公開涉及人工智能領(lǐng)域,尤其是深度學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)以及程序產(chǎn)品。
背景技術(shù)
隨著大數(shù)據(jù)浪潮的推動與深度學(xué)習(xí)技術(shù)的長足發(fā)展,深度學(xué)習(xí)所涉及的數(shù)據(jù)規(guī)模與模型規(guī)模都發(fā)生了驚人的增長。大數(shù)據(jù)+大模型的雙重挑戰(zhàn),是單機(jī)訓(xùn)練無法承受之重。目前,一般采用分布式訓(xùn)練技術(shù)從本質(zhì)上解決日益提高的數(shù)據(jù)規(guī)模與模型復(fù)雜度所帶來的訓(xùn)練問題。
發(fā)明內(nèi)容
本公開實(shí)施例提出了一種模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)以及程序產(chǎn)品。
第一方面,本公開實(shí)施例提出了一種模型訓(xùn)練方法,包括:獲取訓(xùn)練樣本集;從預(yù)設(shè)的并行策略集合中開啟至少一個(gè)并行策略的開關(guān),其中,并行策略集合中的每個(gè)并行策略對應(yīng)設(shè)置有開關(guān);利用至少一個(gè)并行策略,基于訓(xùn)練樣本集對初始模型進(jìn)行訓(xùn)練,直至初始模型訓(xùn)練完成。
第二方面,本公開實(shí)施例提出了一種模型訓(xùn)練裝置,包括:獲取模塊,被配置成獲取訓(xùn)練樣本集;開啟模塊,被配置成從預(yù)設(shè)的并行策略集合中開啟至少一個(gè)并行策略的開關(guān),其中,并行策略集合中的每個(gè)并行策略對應(yīng)設(shè)置有開關(guān);訓(xùn)練模塊,被配置成利用至少一個(gè)并行策略,基于訓(xùn)練樣本集對初始模型進(jìn)行訓(xùn)練,直至初始模型訓(xùn)練完成。
第三方面,本公開實(shí)施例提出了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與至少一個(gè)處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個(gè)處理器執(zhí)行的指令,指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠執(zhí)行如第一方面中任一實(shí)現(xiàn)方式描述的方法。
第四方面,本公開實(shí)施例提出了一種存儲有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲介質(zhì),計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行如第一方面中任一實(shí)現(xiàn)方式描述的方法。
第五方面,本公開實(shí)施例提出了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
本公開實(shí)施例提供的模型訓(xùn)練方法、裝置、設(shè)備、存儲介質(zhì)以及程序產(chǎn)品,并行策略集合中的每個(gè)并行策略對應(yīng)設(shè)置有開關(guān),使得用戶能夠根據(jù)業(yè)務(wù)情況選擇每個(gè)并行策略的任意開啟或關(guān)閉。針對在不同硬件上訓(xùn)練千億規(guī)模模型,不同并行策略在不同硬件上遇到的瓶頸不同。針對顯存和通信的瓶頸,來選擇不同的并行策略。提供了一種混合并行策略,靈活支持不同并行策略的任務(wù)組合來并行訓(xùn)練模型,提高了模型的訓(xùn)練速度。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本公開的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯。附圖用于更好地理解本方案,不構(gòu)成對本公開的限定。其中:
圖1是根據(jù)本公開的模型訓(xùn)練方法的一個(gè)實(shí)施例的流程圖;
圖2是基于分片數(shù)據(jù)并行策略的模型訓(xùn)練方法的一個(gè)實(shí)施例的流程圖;
圖3是分片數(shù)據(jù)并行策略的一個(gè)示意圖;
圖4是分片數(shù)據(jù)并行策略的又一個(gè)示意圖;
圖5是分片數(shù)據(jù)并行策略的另一個(gè)示意圖;
圖6是基于流水線并行策略的模型訓(xùn)練方法的一個(gè)實(shí)施例的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110366052.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種直流充電樁及充電站
- 下一篇:成筒壓輪裝置
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





