[發(fā)明專利]基于混合精度的深度學習模型訓練方法、裝置及系統有效
| 申請?zhí)枺?/td> | 201910313866.0 | 申請日: | 2019-04-18 |
| 公開(公告)號: | CN110163368B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設計)人: | 裴建國;侯金龍;劉偉;黃俊洲 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘;李娟 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 混合 精度 深度 學習 模型 訓練 方法 裝置 系統 | ||
本發(fā)明公開了一種基于混合精度的深度學習模型訓練方法、裝置及系統,該方法包括:基于上次訓練得到的深度學習模型對樣本數據集中的樣本數據進行數據處理,獲得數據精度為第一數據精度的設定數量個第一權重梯度數據;根據設定數量個第一權重梯度數據和第二數據精度,確定數據精度為第二數據精度的縮放系數,第一數據精度高于第二數據精度;基于樣本數據集和縮放系數,對深度學習模型進行訓練以更新深度學習模型的權重參數,獲得本次訓練的深度學習模型,縮放系數用于在訓練深度學習模型的過程中對數據精度為第二數據精度的損失值進行放大處理,以提高了訓練效率和訓練精度。
技術領域
本發(fā)明涉及模型訓練技術領域,尤其涉及一種基于混合精度的深度學習模型訓練方法、裝置及系統。
背景技術
深度學習模型已經廣泛應用到各個領域,如機器人、語音識別、圖像識別和自然語言處理等領域。實際應用中,在深度學習模型投入到應用之前,需要利用大量的樣本數據對深度學習模型進行訓練,如何提高深度學習模型的訓練效率、降低訓練成本顯得尤為重要。目前,各大硬件芯片廠商推出了在低精度數值范圍內計算能力超強的AI加速芯片,以V100芯片為例,其半精度數據處理單元的計算能力是單精度數據處理單元的10倍。為了利用V100芯片強大的半精度計算能力,提出了利用半精度數據處理單元和單精度數據處理單元進行混合精度訓練的方法,并通過引入用于放大損失函數輸出的損失值(loss)的縮放系數,來解決訓練過程中對損失值求導后得到的權重梯度數據可能會超出半精度數可表示的數值范圍的問題。在此基礎上,為了獲得合理的縮放系數,又提出了縮放系數自動搜索方法,通過判斷訓練過程中的損失值是否為非法值來調整縮放系數。
然而,現有的縮放系數自動搜索方法,實際上是先設定一個縮放系數,當訓練過程中發(fā)現loss為非法值時,再調整縮放系數,通過不斷試錯來搜索到合適的縮放系數。但是,調整縮放系數前的多次迭代計算得到的權重參數的更新結果是無效的,這浪費了模型訓練過程中使用的計算資源和時間。因此,如何提高搜索縮放系數的效率是目前需要考慮的問題。
發(fā)明內容
本發(fā)明實施例提供一種基于混合精度的深度學習模型訓練方法、裝置、電子設備、系統及存儲介質,以解決現有技術中如何提高搜索縮放系數的效率的問題。
第一方面,本發(fā)明一實施例提供了一種基于混合精度的深度學習模型訓練方法,包括:
基于上次訓練得到的深度學習模型對樣本數據集中的樣本數據進行數據處理,獲得數據精度為第一數據精度的設定數量個第一權重梯度數據;
根據所述設定數量個第一權重梯度數據和第二數據精度,確定數據精度為第二數據精度的縮放系數,所述第一數據精度高于所述第二數據精度;
基于所述樣本數據集和所述縮放系數,對所述深度學習模型進行訓練以更新所述深度學習模型的權重參數,獲得本次訓練的深度學習模型,所述縮放系數用于在訓練所述深度學習模型的過程中對數據精度為第二數據精度的損失值進行放大處理。
可選地,所述基于所述樣本數據集和所述縮放系數,對所述深度學習模型進行訓練以更新所述深度學習模型的權重參數,獲得本次訓練的深度學習模型,具體包括:
基于所述樣本數據集和所述縮放系數,對所述深度學習模型進行訓練以對所述深度學習模型的權重參數進行N次更新,所述N為每次進行模型訓練時的權重參數更新次數;
當第N次對權重參數的更新完成時,獲得本次訓練的深度學習模型并結束本次訓練。
可選地,每一次對所述深度學習模型的權重參數進行更新,具體包括:
基于所述深度學習模型,得到所述樣本數據集中的一組樣本數據組中每個訓練數據對應的預測值,所述預設值的數據精度為第二數據精度;
基于損失函數確定所述樣本數據組中每個訓練數據對應的標注信息和預測值之間的損失值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910313866.0/2.html,轉載請聲明來源鉆瓜專利網。





