[發明專利]基于混合精度的深度學習模型訓練方法、裝置及系統有效
| 申請號: | 201910313866.0 | 申請日: | 2019-04-18 |
| 公開(公告)號: | CN110163368B | 公開(公告)日: | 2023-10-20 |
| 發明(設計)人: | 裴建國;侯金龍;劉偉;黃俊洲 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘;李娟 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 混合 精度 深度 學習 模型 訓練 方法 裝置 系統 | ||
1.一種基于混合精度的深度學習模型訓練方法,其特征在于,包括:
基于上次訓練得到的深度學習模型對樣本數據集中的樣本數據進行數據處理,獲得數據精度為第一數據精度的設定數量個第一權重梯度數據;
根據所述設定數量個第一權重梯度數據和第二數據精度,確定數據精度為第二數據精度的縮放系數,所述第一數據精度高于所述第二數據精度;
基于所述樣本數據集和所述縮放系數,對所述深度學習模型進行訓練以更新所述深度學習模型的權重參數,獲得本次訓練的深度學習模型,所述縮放系數用于在訓練所述深度學習模型的過程中對數據精度為第二數據精度的損失值進行放大處理。
2.根據權利要求1所述的方法,其特征在于,所述基于所述樣本數據集和所述縮放系數,對所述深度學習模型進行訓練以更新所述深度學習模型的權重參數,獲得本次訓練的深度學習模型,具體包括:
基于所述樣本數據集和所述縮放系數,對所述深度學習模型進行訓練以對所述深度學習模型的權重參數進行N次更新,所述N為每次進行模型訓練時的權重參數更新次數;
當第N次對權重參數的更新完成時,獲得本次訓練的深度學習模型并結束本次訓練。
3.根據權利要求2所述的方法,其特征在于,每一次對所述深度學習模型的權重參數進行更新,具體包括:
基于所述深度學習模型,得到所述樣本數據集中的一組樣本數據組中每個訓練數據對應的預測值,所述預設值的數據精度為第二數據精度;
基于損失函數確定所述樣本數據組中每個訓練數據對應的標注信息和預測值之間的損失值;
將所述樣本數據組中所有訓練數據對應的損失值的均值乘上所述縮放系數,得到放大后的損失值的均值;
對放大后的損失值的均值進行求導處理,得到所述樣本數據組對應的第二權重梯度數據,所述第二權重梯度數據的數據精度為第二數據精度;
將所述樣本數據組對應的第二權重梯度數據除以所述縮放系數,得到數據精度為第一數據精度的第三權重梯度數據;
基于所述第三權重梯度數據對所述深度學習模型的權重參數進行一次更新。
4.根據權利要求2所述的方法,其特征在于,所述方法還包括:
分別基于每一個第一權重梯度數據,對所述深度學習模型的權重參數進行一次更新。
5.根據權利要求2所述的方法,其特征在于,所述基于上次訓練得到的深度學習模型對樣本數據集中的樣本數據進行數據處理之前,還包括:
確定上次訓練已經結束。
6.根據權利要求1所述的方法,其特征在于,所述基于上次訓練得到的深度學習模型對樣本數據集中的樣本數據進行數據處理之前,還包括:
根據針對所述縮放系數設定的生命周期,確定當前生命周期已經開始;其中,所述上次訓練得到的深度學習模型為上一個生命周期中訓練得到的深度學習模型,所述本次訓練的深度學習模型為當前生命周期中訓練得到的深度學習模型。
7.根據權利要求1至6任一所述的方法,其特征在于,所述根據所述設定數量個第一權重梯度數據和第二數據精度,確定數據精度為第二數據精度的縮放系數,具體包括:
確定所述設定數量個第一權重梯度數據的對數分布范圍;
確定所述對數分布范圍的第一中軸線;
確定第二數據精度的可表示數值范圍的第二中軸線;
確定所述第一中軸線和所述第二中軸線之間的偏移值;
將與所述偏移值的差值在設定誤差以內的數值作為所述縮放系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910313866.0/1.html,轉載請聲明來源鉆瓜專利網。





