[發明專利]一種模型訓練方法、裝置、設備及存儲介質在審
申請號: | 202010529888.3 | 申請日: | 2020-06-11 |
公開(公告)號: | CN111695688A | 公開(公告)日: | 2020-09-22 |
發明(設計)人: | 朱子霖;姜曦楠;陳志博;楊博;郭晨陽;黃雪;周飛虎;郭振宇 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王兆林 |
地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 模型 訓練 方法 裝置 設備 存儲 介質 | ||
本申請實施例公開了一種應用于人工智能領域的模型訓練方法、裝置、設備及存儲介質,其中該方法包括:基于優化訓練模式對神經網絡模型進行訓練;當該神經網絡模型訓練至目標階段時,分別基于優化訓練模式和基礎訓練模式,對該神經網絡模型進行目標階段的訓練;根據優化訓練模式和基礎訓練模式各自在目標階段對于該神經網絡模型的訓練情況,確定優化訓練模式和基礎訓練模式各自對應的訓練參考信息;根據優化訓練模式和基礎訓練模式各自對應的訓練參考信息,從優化訓練模式和基礎訓練模式中選出目標訓練模式;基于目標訓練模式對該神經網絡模型繼續進行訓練。該方法能夠保證在模型訓練階段充分利用優化訓練模式,提升訓練效果。
技術領域
本申請涉及人工智能(Artificial Intelligence,AI)技術領域,尤其涉及一種模型訓練方法、裝置、設備及存儲介質。
背景技術
隨著AI技術的迅速發展,為了滿足對于神經網絡模型的各種訓練需求,越來越多的基于基礎訓練模式改進得到的訓練模式應運而生。例如,為了提高神經網絡模型的訓練速度,降低神經網絡模型的內存消耗,基于全精度訓練模式改進得到的混合精度訓練(Mixed Precision Training)模式,如今被廣泛地應用到各類神經網絡模型的訓練過程中,該混合精度訓練模式通過在深度學習訓練過程中對部分參數使用半精度浮點數(FP16),達到在保證一定的模型訓練精度的條件下提升模型訓練速度的效果。
然而,經相關技術人員實驗發現,使用改進后的訓練模式對一些神經網絡模型進行訓練,有時難以達到預期的效果,甚至還會帶來嚴重的負面效果。仍以混合精度訓練模式為例,使用混合精度訓練模式對一些神經網絡模型進行訓練時,可能會出現模型精度下滑或者收斂速度沒有加速的情況,嚴重時還會出現模型無法收斂的情況。
由于改進后的訓練模式性能不穩定,因此,導致改進后的訓練模式的使用場景受限,相關技術人員在很多業務場景中無法使用改進后的訓練模式訓練神經網絡模型,相應地,改進后的訓練模式的優勢也難以被充分地利用,在一定程度上限制了神經網絡模型訓練效果的提升,例如,限制了模型準確度的提升,限制了模型訓練速度的提升等等。。
發明內容
本申請實施例提供了一種模型訓練方法、裝置、設備及存儲介質,能夠擴展改進后的訓練模式的使用場景,保證在神經網絡模型訓練階段充分利用改進后的訓練模式,提升模型訓練效果。
有鑒于此,本申請第一方面提供了一種模型訓練方法,所述方法包括:
基于優化訓練模式對神經網絡模型進行訓練;
當所述神經網絡模型訓練至目標階段時,分別基于所述優化訓練模式和基礎訓練模式,對所述神經網絡模型進行所述目標階段的訓練;
根據所述優化訓練模式和所述基礎訓練模式各自在所述目標階段對于所述神經網絡模型的訓練情況,確定所述優化訓練模式和所述基礎訓練模式各自對應的訓練參考信息;
根據所述優化訓練模式和所述基礎訓練模式各自對應的訓練參考信息,從所述優化訓練模式和所述基礎訓練模式中選出目標訓練模式;
基于所述目標訓練模式對所述神經網絡模型繼續進行訓練。
本申請第二方面提供了一種模型訓練裝置,所述裝置包括:
訓練模塊,用于基于優化訓練模式對神經網絡模型進行訓練;
多模式訓練模塊,用于當所述神經網絡模型訓練至目標階段時,分別基于所述優化訓練模式和基礎訓練模式,對所述神經網絡模型進行所述目標階段的訓練;
參考信息確定模塊,用于根據所述優化訓練模式和所述基礎訓練模式各自在所述目標階段對于所述神經網絡模型的訓練情況,確定所述優化訓練模式和所述基礎訓練模式各自對應的訓練參考信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010529888.3/2.html,轉載請聲明來源鉆瓜專利網。