[發明專利]一種神經網絡模型訓練方法、裝置及電子設備有效
| 申請號: | 201611034481.3 | 申請日: | 2016-11-16 |
| 公開(公告)號: | CN108073986B | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 何長青;王宇光;陳偉 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06K9/62 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 馬苗苗 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 神經網絡 模型 訓練 方法 裝置 電子設備 | ||
本發明涉及模式識別領域,公開了一種神經網絡模型訓練方法、裝置及電子設備,以解決現有技術中通過多計算設備異步更新算法訓練神經網絡模型時,訓練的穩定性較低的技術問題。該方法包括:在對神經網絡模型進行訓練的過程中,如果至少兩個第一計算設備訓練的已訓練輪數滿足預設條件,基于所述神經網絡模型的主模型的權重值對每個第一計算設備對應的所述主模型的副本的權重值進行同步更新,從而能夠在不顯著增加訓練時間的情況下,增加了神經網絡模型的權重值的同步策略,保證了主模型以及主模型的各個副本的權重值的一致性,從而達到了增加對神經網絡模型訓練的穩定性的技術效果。
技術領域
本發明涉及模式識別領域,尤其涉及一種神經網絡模型訓練方法、裝置及電子設備。
背景技術
神經網絡(NN:Neural Networks)模型是由大量的、簡單的處理單元(稱為神經元)廣泛地互相連接而形成的復雜網絡系統,它反映了人腦功能的許多基本特征,是一個高度復雜的非線性動力學習系統。神經網絡模型具有大規模并行、分布式存儲和處理、自組織、自適應和自學能力,特別適合處理需要同時考慮許多因素和條件的、不精確和模糊的信息處理問題。
現有技術中,往往通過學習訓練過程調整神經網絡模型的權重值,進而最終獲得收斂的神經網絡模型。圖形處理器(GPU:Graphic Processing Unit)往往可以用于大量并行計算,故而現有技術中可以通過GPU來訓練神經網絡模型,而為了提高訓練速度,則往往采用多GPU來訓練,然而在采用多GPU異步更新算法訓練神經網絡模型時會存在梯度值過時的問題,梯度值過會影響模型的收斂性(例如:導致無法收斂、或者收斂緩慢等等),從而影響對神經網絡模型訓練的穩定性。
發明內容
本發明提供一種神經網絡模型訓練方法、裝置及電子設備,以解決現有技術中通過多計算設備異步更新算法訓練神經網絡模型時,訓練的穩定性較低的技術問題。
第一方面,本發明實施例提供一種神經網絡模型訓練方法,包括:
在對神經網絡模型進行訓練的過程中,確定出至少兩個第一計算設備訓練的已訓練輪數;
判斷所述已訓練輪數是否滿足預設條件;
如果所述已訓練輪數滿足所述預設條件,基于所述神經網絡模型的主模型的權重值對每個第一計算設備對應的所述主模型的副本的權重值進行同步更新。
結合第一方面,在第一種可能的實現方式中,所述判斷所述已訓練輪數是否滿足預設條件,包括:
判斷所述已訓練輪數是否為同步周期的倍數;
其中,如果判斷結果為是,確定出所述已訓練輪數滿足所述預設條件。
結合第一方面,在第二種可能的實現方式中,所述確定出至少兩個第一計算設備訓練的已訓練輪數,包括:通過控制任務確定出所述至少兩個第一計算設備訓練的已訓練輪數;
所述判斷所述已訓練輪數是否滿足預設條件,包括:通過所述控制任務判斷所述已訓練輪數是否滿足所述預設條件。
結合第一方面,在第三種可能的實現方式中,所述基于所述神經網絡模型的主模型的權重值對每個第一計算設備對應的所述主模型的副本的權重值進行同步更新,包括:
通過控制任務向每個所述第一計算設備發送更新指令,以使每個所述第一計算設備在接收到所述更新指令之后,拷貝所述主模型的所述權重值;或者,
通過控制任務將所述主模型的權重值發送至每個所述第一計算設備,以使每個所述第一計算設備通過所述主模型的權重值覆蓋所述副本的權重值。
結合第一方面或第一方面的第一至三種可能的實現方式中的任意一種可能的實現方式,在第四種可能的實現方式中,在對神經網絡模型進行訓練的過程中,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611034481.3/2.html,轉載請聲明來源鉆瓜專利網。





