[發明專利]神經網絡模型的訓練方法及其介質和電子設備在審
| 申請號: | 202010086380.0 | 申請日: | 2020-02-11 |
| 公開(公告)號: | CN111401546A | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 劉默翰;周力;白立勛;石文元;俞清華;隋志成 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 上海音科專利商標代理有限公司 31267 | 代理人: | 夏峰 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 模型 訓練 方法 及其 介質 電子設備 | ||
本申請涉及神經網絡技術領域,公開了一種神經網絡模型的訓練方法及其介質和電子設備。本申請的神經網絡模型的訓練方法包括:n個網絡層中的第一個網絡層獲取樣本數據,并將樣本數據輸入到第二個網絡層;對于n個網絡層中的第i個網絡層,執行如下操作:當i=2時,基于初始輸入數據和第i個網絡層的多個初始權重得到第i個網絡層的輸出數據,當2i≤n時,基于第i?1個網絡層的輸出數據和第i個網絡層的多個初始權重得到第i個網絡層的輸出數據,第i個網絡層的多個初始權重是基于m個離散值得到的。本申請將神經網絡模型的多個初始權重設定為低比特的離散值,能夠有效避免低比特權重訓練過程中神經網絡模型的梯度消失問題,加速神經網絡模型的收斂。
技術領域
本申請涉及神經網絡技術領域,特別涉及一種神經網絡模型的訓練方法及其介質和電子設備。
背景技術
神經網絡模型是一種由大量的節點(或稱為神經元)相互聯接組成的運算模型。常用的神經網絡模型包括輸入層、輸出層以及多個隱藏層(也稱為隱層)。每層的每個節點的輸入通常會被加權,因此在每個節點處生成加權總和(或其他加權運算結果)。在訓練期間每層的權重可以調整。
在傳統神經網絡模型的訓練時,每個訓練過程采用隨機初始化的方式對神經網絡模型的權重進行初始化。傳統神經網絡模型的權重一般為一定取值范圍內的浮點數,隨機初始化的方式即從該取值范圍內的任一浮點數開始進行訓練。在該訓練過程中,大量浮點數以及多個訓練過程使得神經網絡模型的訓練需要較長的時間。
發明內容
本申請實施例提供了一種神經網絡模型的訓練方法及其介質和電子設備。
第一方面,本申請實施例提供了一種神經網絡模型的訓練方法,所述神經網絡模型包括n個網絡層,n為大于1的正整數;并且所述方法包括:
所述n個網絡層中的第一個網絡層獲取樣本數據,并將所述樣本數據輸入到第二個網絡層,其中,所述樣本數據包括初始輸入數據和期望結果數據;
對于所述n個網絡層中的第i個網絡層,執行如下操作:
當i=2時,基于所述初始輸入數據和第i個網絡層的多個初始權重得到第i個網絡層的輸出數據,
當2i≤n時,基于第i-1個網絡層的輸出數據和第i個網絡層的多個初始權重得到第i個網絡層的輸出數據,其中,
所述第i個網絡層的所述多個初始權重是基于m個離散值得到的,其中,所述多個初始權重的數值范圍為且m={2,3},即離散值可以是兩個或者三個;
基于所述n個網絡層的輸出數據和所述樣本數據中的期望結果數據之間的誤差,對所述第i個網絡層的所述多個初始權重進行調節。
例如,第i個網絡層的所述多個初始權重的值域可以被設置為{-1,1}或者{-1,0,1}。即在本實施例中,為了使得最終得到的權重被限定為1和-1,并將乘法運算轉換為比特間的同或運算,以降低內存訪問率和占用率,將神經網絡模型的多個初始權重設定為{-1,1}或者{-1,0,1}這些離散值,從而在避免模型梯度消失的同時,加速模型的收斂。
在上述第一方面的一種可能的實現中,上述方法還包括:所述第i個網絡層的所述多個初始權重中的每一個為m個離散值中的一個。
在上述第一方面的一種可能的實現中,上述方法還包括:所述m個離散值為-1和1,并且所述第i個網絡層的所述多個初始權重的均值為0,方差為1。
在上述第一方面的一種可能的實現中,上述方法還包括:所述m個離散值為-1、0和1,并且所述第i個網絡層的所述多個初始權重的均值為0,方差為2/3。
在上述第一方面的一種可能的實現中,上述方法還包括:所述第i個網絡層具有p個初始權重并且所述第i個網絡層的所述p個初始權重通過以下公式計算:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010086380.0/2.html,轉載請聲明來源鉆瓜專利網。





