[發明專利]神經網絡模型訓練方法、裝置、設備及存儲介質在審
| 申請號: | 201811284663.5 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN111126555A | 公開(公告)日: | 2020-05-08 |
| 發明(設計)人: | 張鵬國;李一力 | 申請(專利權)人: | 浙江宇視科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 王文紅 |
| 地址: | 310000 浙江省杭州市濱江區西興街道江陵路*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 模型 訓練 方法 裝置 設備 存儲 介質 | ||
本申請實施例提供一種神經網絡模型訓練方法、裝置、設備及存儲介質,涉及計算機技術領域。其中,所述方法通過計算預訓練得到的第一模型相對于待訓練的第二模型的第一KL距離,以及待訓練的第二模型相對于預訓練得到的第一模型的第二KL距離,然后將所述第一KL距離與所述第二KL距離之和作為所述第二模型的損失函數,最后根據所述損失函數對所述第二模型的神經網絡參數進行調整,使所述第二模型獲得所述第一模型的泛化能力。通過本申請實施例提供的方法,放大了所述第二模型與第一模型之間的不同,從而為所述第二模型提供更大的梯度回傳,提高了所述第二模型在訓練過程中的收斂速度和收斂狀態。
技術領域
本申請涉及計算機技術領域,具體而言,涉及神經網絡模型訓練方法、裝置、設備及存儲介質。
背景技術
深度卷積神經網絡在計算機視覺上的表現十分優異,甚至超出了人類水平。但是,往往表現越好的網絡,結構越復雜,模型越大,對硬件設備的要求也越高。因此,實現模型壓縮對很多深度卷積神經網絡模型而言,是實現商用的關鍵。
目前,已有人提出了知識蒸餾的概念,通過預訓練得到的復雜模型訓練簡單模型,讓簡單模型具有復雜模型的泛化能力。
通過該方法可以實現模型壓縮,但是,目前還存在訓練過程復雜、模型難以收斂等亟待解決的不足之處。
發明內容
為了克服現有技術中的上述不足,本申請提供一種神經網絡模型訓練方法、裝置、設備及存儲介質,以提高模型在訓練過程中的收斂速度和收斂狀態。
為了實現上述目的,本申請較佳實施例采用的技術方案如下:
第一方面,本申請實施例提供一種神經網絡模型訓練方法,所述方法包括:
計算預訓練得到的第一模型相對于待訓練的第二模型的第一KL距離,以及待訓練的第二模型相對于預訓練得到的第一模型的第二KL距離;
將所述第一KL距離與所述第二KL距離相加,得到所述第二模型的損失函數;
根據所述損失函數對所述第二模型的神經網絡參數進行調整,使所述第二模型獲得所述第一模型的泛化能力。
可選地,在本申請實施例中,所述第一模型包括第一特征層,所述第二模型包括第二特征層,所述計算預訓練得到的第一模型相對于待訓練的第二模型的第一KL距離,以及待訓練的第二模型相對于預訓練得到的第一模型的第二KL距離的步驟,包括:
獲取所述第一特征層與所述第二特征層對相同輸入數據進行處理得到的第一特征向量和第二特征向量;
對所述第一特征向量和所述第二特征向量進行處理,得到所述第一特征向量中每個元素相對于其他元素的相對概率所構成的第一概率向量,以及所述第二特征向量中每個元素相對于其他元素的相對概率所構成的第二概率向量;
基于所述第一概率向量和所述第二概率向量,計算得到所述第一KL距離及所述第二KL距離。
進一步地,所述基于所述第一概率向量和所述第二概率向量,計算得到所述第一KL距離及所述第二KL距離的步驟,包括:
對所述第一概率向量中每個元素與第二概率向量中對應元素的比值進行對數運算,再分別乘以所述第一概率向量中的對應元素,得到所述第一KL距離;
對所述第二概率向量中每個元素與第一概率向量中對應元素的比值進行對數運算,再分別乘以所述第二概率向量中的對應元素,得到所述第二KL距離。
可選地,在本申請實施例中,所述根據所述損失函數對所述第二模型的神經網絡參數進行調整的步驟,包括:
根據所述損失函數確定所述第二模型的反向傳播梯度;
根據所述反向傳播梯度對所述第二特征層的神經網絡參數進行調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江宇視科技有限公司,未經浙江宇視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811284663.5/2.html,轉載請聲明來源鉆瓜專利網。





