[發(fā)明專利]神經網絡訓練方法、裝置及計算機可讀存儲介質在審
| 申請?zhí)枺?/td> | 201910907549.1 | 申請日: | 2019-09-24 |
| 公開(公告)號: | CN110705691A | 公開(公告)日: | 2020-01-17 |
| 發(fā)明(設計)人: | 李亮亮 | 申請(專利權)人: | 北京邁格威科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06K9/62 |
| 代理公司: | 11722 北京鉦霖知識產權代理有限公司 | 代理人: | 馮志云;李志新 |
| 地址: | 100190 北京市海淀區(qū)科*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中間層 輸出 特征提取 特征圖 神經網絡模型 神經網絡輸出 神經網絡訓練 監(jiān)督信號 結果特征 神經網絡 蒸餾 迭代 收斂 節(jié)約 網絡 | ||
本公開提供了一種神經網絡訓練方法及裝置,其中,方法包括:獲取待訓練的神經網絡的多個中間層輸出的多個特征圖;通過特征提取網絡對多個特征圖進行特征提取,分別得到每個中間層的第一特征輸出;根據多個第一特征輸出與待訓練的神經網絡輸出的第二特征輸出,計算得到第一損失;基于第一損失,調整多個中間層的參數。通過自蒸餾的方式,將神經網絡模型自身的各中間層、以及各次迭代中提取的結果特征輸出,作為自身的監(jiān)督信號充分利用,能夠更快的收斂結果,完成訓練,節(jié)約了時間和資源。
技術領域
本公開一般地涉及人工智能領域,具體涉及一種神經網絡訓練方法及裝置、電子設備及計算機可讀存儲介質。
背景技術
隨著近幾年深度學習的崛起,人們在圖像分類、語音識別、自然語言處理、策略AI、自動駕駛等諸多領域取得了優(yōu)異的成績。然而,依靠著復雜的神經網絡以及超大的數據集取得良好的成績的基礎是強大的計算能力。隨著神經網絡層數的加深以及數據集的不斷擴展,訓練神經網絡對計算力要求以及調整參數試錯成本也越來越高,這對于神經網絡訓練來說是極大的時間成本。
目前,通過蒸餾方法對神經網絡進行訓練的方式中,教師模型所需資源多,訓練時間長。并且,不能統一優(yōu)化,首先要有教師模型,再進行蒸餾,時間串行,所需時間長。
發(fā)明內容
為了解決現有技術中存在的上述問題,本公開的第一方面提供一種神經網絡訓練方法,其中,方法包括:獲取待訓練的神經網絡的多個中間層輸出的多個特征圖;通過特征提取網絡對多個特征圖進行特征提取,分別得到每個中間層的第一特征輸出;根據多個第一特征輸出與待訓練的神經網絡輸出的第二特征輸出,計算得到第一損失;基于第一損失,調整多個中間層的參數。
在一例中,根據多個第一特征輸出與神經網絡輸出的第二特征輸出,計算得到第一損失,包括:每個第一特征輸出分別與第二特征輸出進行比對,得到每個中間層對應的中間層損失;基于第一損失,調整多個中間層的參數,包括:基于中間層損失,調整對應的中間層的參數以及對應的中間層前序全部中間層的參數。
在一例中,根據多個第一特征輸出與神經網絡輸出的第二特征輸出,計算得到第一損失,包括:根據當前輪的第二特征輸出與前N輪迭代的第二特征輸出,計算得到第一迭代損失,N為正整數;基于第一損失,調整多個中間層的參數,包括:基于第一迭代損失,調整多個中間層的參數。
在一例中,根據當前輪的第二特征輸出與前N輪迭代的第二特征輸出,計算得到第一迭代損失,包括:根據前N輪迭代的第二特征輸出分別對應的第一權重系數,對多個前N輪迭代的第二特征輸出進行加權拼接,得到前N輪迭代的加權特征輸出;根據當前輪的第二特征輸出與前N輪迭代的加權特征輸出,計算得到第一迭代損失。
在一例中,第i輪迭代的第二特征輸出對應的第一權重系數大于第j輪迭代的第二特征輸出對應的第一權重系數,i、j均為正整數,且i>j。
在一例中,方法還包括:存儲各輪迭代的第二特征輸出。
在一例中,根據多個第一特征輸出與待訓練的神經網絡輸出的第二特征輸出,計算得到第一損失,包括:對第一特征輸出和第二特征輸出進行拼接,得到第三特征輸出;根據當前輪的第二特征輸出與前M輪迭代的第三特征輸出或當前輪的第三特征輸出與前M輪迭代的第三特征輸出,計算得到第二迭代損失,M為正整數;基于第一損失,調整中間層的參數,包括:基于第二迭代損失,調整多個中間層的參數。
在一例中,根據當前輪的第二特征輸出與前M輪迭代的第三特征輸出或當前輪的第三特征輸出與前M輪迭代的第三特征輸出,計算得到第二迭代損失,包括:根據前M輪迭代的第三特征輸出分別對應的第二權重系數,對多個前M輪迭代的第三特征輸出進行加權拼接,得到前M輪迭代的加權特征輸出;根據當前輪的第二特征輸出或當前輪的第三特征輸出與前M輪迭代的加權特征輸出,計算得到第二迭代損失。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京邁格威科技有限公司,未經北京邁格威科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910907549.1/2.html,轉載請聲明來源鉆瓜專利網。





