[發(fā)明專利]一種深度學習模型的訓練方法、裝置、設備及存儲介質有效
| 申請?zhí)枺?/td> | 202210582633.2 | 申請日: | 2022-05-26 |
| 公開(公告)號: | CN114676795B | 公開(公告)日: | 2022-08-23 |
| 發(fā)明(設計)人: | 范高俊;曾煒;王暉 | 申請(專利權)人: | 鵬城實驗室 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市君勝知識產權代理事務所(普通合伙) 44268 | 代理人: | 孫果 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 學習 模型 訓練 方法 裝置 設備 存儲 介質 | ||
1.一種深度學習模型的訓練方法,其特征在于,包括:
獲取訓練數據集的數據容量;
依據所述數據容量,存儲所述訓練數據集至本地節(jié)點;
依據存儲至所述本地節(jié)點上的所述訓練數據集,完成所述深度學習模型的訓練;
依據所述數據容量,存儲所述訓練數據集至本地節(jié)點,包括:
當所述數據容量小于與所述訓練數據集所對應的預設容量,得到本地存儲方式;
依據所述本地存儲方式,將數據庫中的所述訓練數據集整體下載至所述本地節(jié)點,所述數據庫位于所述本地節(jié)點的外部,所述本地節(jié)點上設置了用于存儲訓練數據集的本地內存,將所有的訓練數據集一次下載至本地內存中;
所述依據存儲至所述本地節(jié)點上的所述訓練數據集,完成所述深度學習模型的訓練,包括:
依據所述訓練數據集訓練所述深度學習模型,直至訓練時長達到訓練預設時長時,得到預訓練之后的所述深度學習模型;
計算預訓練之后的所述深度學習模型的模型訓練精度;
當所述模型訓練精度小于模型預設訓練精度,得到本地分布式存儲方式,所述本地分布式存儲方式所對應的節(jié)點數量大于所述本地存儲方式所對應的節(jié)點數量;
依據所述本地分布式存儲方式,從所述數據庫中重新下載數據至所述本地節(jié)點;
依據重新下載的數據,更新所述訓練數據集;
依據更新之后的所述訓練數據集,繼續(xù)訓練預訓練之后的所述深度學習模型,完成所述深度學習模型的訓練;
或者,所述依據所述數據容量,存儲所述訓練數據集至本地節(jié)點,包括:
當所述數據容量大于等于與所述訓練數據集所對應的預設容量,得到本地分布式存儲方式;
依據所述本地分布式存儲方式,將數據庫中的所述訓練數據集采用并行方式按照所述深度學習模型的訓練進度下載至本地節(jié)點,即采用本地分布式存儲方式將數據庫中的訓練數據集先下載到本地存儲節(jié)點上,之后在訓練的過程中再將本地存儲節(jié)點上的訓練數據集轉存至本地節(jié)點上;
所述依據存儲至所述本地節(jié)點上的所述訓練數據集,完成所述深度學習模型的訓練,包括:
依據所述本地分布式存儲方式,得到與所述本地分布式存儲方式所對應的并行訓練方式;
依據所述并行訓練方式,得到構成所述并行訓練方式的各個加速卡,所述加速卡為訓練所述深度學習模型所需的硬件設備;
統(tǒng)計各個所述加速卡中單次訓練所述深度學習模型所需的單次訓練時長;
統(tǒng)計所述單次訓練時長大于預設計時時長所對應的所述加速卡的數量;
計算大于預設計時時長所對應的所述加速卡的數量與所述加速卡的總量之比,得到數量比值B ;
依據所述數量比值B,得到所述訓練數據集的目標更新方式:
若,目標更新方式為異步更新方式;
若,目標更新方式為同步更新方式,B1B2,計算△B=B-B2,并根據△B降低梯度;
依據所述目標更新方式,更新所述訓練數據集;
依據更新之后的所述訓練數據集,完成所述深度學習模型的訓練;
或者,所述依據存儲至所述本地節(jié)點上的所述訓練數據集,完成所述深度學習模型的訓練,包括:
采用所述訓練數據集對所述深度學習模型進行訓練,得到單次訓練之后的所述深度學習模型的模型訓練精度;
依據所述模型訓練精度和所述深度學習模型所對應的模型預設訓練精度,得到所述深度學習模型的梯度調節(jié)系數;
依據所述梯度調節(jié)系數,調整所述深度學習模型的梯度值;
依據調整之后的所述梯度值、所述訓練數據集,對單次訓練之后的所述深度學習模型進行繼續(xù)訓練,完成所述深度學習模型的訓練。
2.如權利要求1所述的深度學習模型的訓練方法,其特征在于,所述依據所述梯度調節(jié)系數,調整所述深度學習模型的梯度值,包括:
依據所述本地分布式存儲方式,得到與所述本地分布式存儲方式所對應的并行訓練方式;
依據所述并行訓練方式,得到構成所述并行訓練方式的各個加速卡,所述加速卡為訓練所述深度學習模型所需的硬件設備;
統(tǒng)計各個所述加速卡單次訓練所述深度學習模型所需的各個單次訓練時長;
依據各個所述單次訓練時長,得到最大的所述單次訓練時長;
依據最大的所述單次訓練時長、所述梯度調節(jié)系數,調整所述深度學習模型的梯度值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鵬城實驗室,未經鵬城實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210582633.2/1.html,轉載請聲明來源鉆瓜專利網。





