[發明專利]一種神經網絡模型訓練方法、裝置及電子設備有效
| 申請號: | 201611034481.3 | 申請日: | 2016-11-16 |
| 公開(公告)號: | CN108073986B | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 何長青;王宇光;陳偉 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06K9/62 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 馬苗苗 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 神經網絡 模型 訓練 方法 裝置 電子設備 | ||
1.一種神經網絡模型訓練方法,其特征在于,包括:
在對神經網絡模型進行訓練的過程中,確定出至少兩個第一計算設備訓練的已訓練輪數,以及在對神經網絡模型進行訓練的過程中,每個所述第一計算設備在得到訓練的權重值梯度后,通過所述權重值梯度異步更新所述神經網絡模型的主模型的權重值以及對應的第一計算設備的所述主模型的副本的權重值;
判斷所述已訓練輪數是否滿足預設條件,具體包括:判斷所述已訓練輪數是否為同步周期的倍數;其中,如果判斷結果為是,確定出所述已訓練輪數滿足所述預設條件;
如果所述已訓練輪數滿足所述預設條件,基于所述神經網絡模型的主模型的權重值對每個第一計算設備對應的所述主模型的副本的權重值進行同步更新。
2.如權利要求1所述的方法,其特征在于,所述判斷所述已訓練輪數是否滿足預設條件,包括:
判斷所述已訓練輪數是否為同步周期的倍數;
其中,如果判斷結果為是,確定出所述已訓練輪數滿足所述預設條件。
3.如權利要求1所述的方法,其特征在于,所述基于所述神經網絡模型的主模型的權重值對每個第一計算設備對應的所述主模型的副本的權重值進行同步更新,包括:
通過控制任務向每個所述第一計算設備發送更新指令,以使每個所述第一計算設備在接收到所述更新指令之后,拷貝所述主模型的所述權重值;或者,
通過控制任務將所述主模型的權重值發送至每個所述第一計算設備,以使每個所述第一計算設備通過所述主模型的權重值覆蓋所述副本的權重值。
4.如權利要求1所述的方法,其特征在于,所述通過所述權重值梯度異步更新所述主模型的權重值以及對應的第一計算設備的所述副本的權重值,包括:
通過所述權重值梯度對所述主模型的權重值進行更新;
通過更新后的所述主模型的權重值替換所述副本的權重值。
5.如權利要求1-3任一所述的方法,其特征在于,所述方法還包括:
在對所述神經網絡模型訓練的初始階段,隨機確定主模型的權重值;
根據隨機確定的主模型,通過至少兩個第二計算設備進行訓練,得到初始模型;
每個所述第一計算設備拷貝所述初始模型的副本,從而進行所述神經網絡模型的訓練。
6.如權利要求5所述的方法,其特征在于,所述根據隨機確定的主模型,通過至少兩個第二計算設備進行訓練,得到初始模型,包括:
通過所述至少兩個第二計算設備拷貝所述隨機確定的主模型的副本;
通過所述至少兩個計算設備對所述隨機確定的主模型的副本進行訓練,獲得訓練結果;
基于所述訓練結果對所述隨機確定的主模型的權重值進行更新獲得所述初始模型。
7.一種神經網絡模型訓練裝置,其特征在于,包括:
第一確定模塊,用于在對神經網絡模型進行訓練的過程中,確定出至少兩個第一計算設備訓練的已訓練輪數,以及在對神經網絡模型進行訓練的過程中,每個所述第一計算設備在得到訓練的權重值梯度后,通過所述權重值梯度異步更新所述神經網絡模型的主模型的權重值以及對應的第一計算設備的所述主模型的副本的權重值;
判斷模塊,用于判斷所述已訓練輪數是否滿足預設條件,具體包括:判斷所述已訓練輪數是否為同步周期的倍數;其中,如果判斷結果為是,確定出所述已訓練輪數滿足所述預設條件;
第一更新模塊,用于如果所述已訓練輪數滿足所述預設條件,基于所述神經網絡模型的主模型的權重值對每個第一計算設備對應的所述主模型的副本的權重值進行同步更新。
8.一種電子設備,其特征在于,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經配置以由一個或者一個以上處理器執行所述一個或者一個以上程序包含用于進行以下操作的指令:
在對神經網絡模型進行訓練的過程中,確定出至少兩個第一計算設備訓練的已訓練輪數,以及在對神經網絡模型進行訓練的過程中,每個所述第一計算設備在得到訓練的權重值梯度后,通過所述權重值梯度異步更新所述神經網絡模型的主模型的權重值以及對應的第一計算設備的所述主模型的副本的權重值;
判斷所述已訓練輪數是否滿足預設條件,具體包括:判斷所述已訓練輪數是否為同步周期的倍數;其中,如果判斷結果為是,確定出所述已訓練輪數滿足所述預設條件;
如果所述已訓練輪數滿足所述預設條件,基于所述神經網絡模型的主模型的權重值對每個第一計算設備對應的所述主模型的副本的權重值進行同步更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611034481.3/1.html,轉載請聲明來源鉆瓜專利網。





