[發明專利]融合通道與關系特征學習的知識蒸餾方法、裝置及設備在審
| 申請號: | 202110713812.0 | 申請日: | 2021-06-25 |
| 公開(公告)號: | CN113344206A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 茍建平;熊祥碩;陳瀟君;夏書銀;歐衛華;柯佳 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G06N5/02 | 分類號: | G06N5/02;G06N3/04;G06N3/08 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司 51230 | 代理人: | 謝建;黃海斌 |
| 地址: | 212013 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 通道 關系 特征 學習 知識 蒸餾 方法 裝置 設備 | ||
1.融合通道與關系特征學習的知識蒸餾方法,其特征在于,包括:
構建未訓練的學生網絡和完成預訓練的教師網絡;
將訓練數據分別輸入所述學生網絡和所述教師網絡獲得所述學生網絡的輸出結果、所述教師網絡的輸出結果,所述訓練數據還包括對應的真實標簽數據;
基于所述學生網絡和所述教師網絡的通道數據、所述學生網絡的輸出結果、所述教師網絡的輸出結果、所述學習網絡與所述教師網絡遷移樣本間關系確定蒸餾損失函數;
基于所述蒸餾損失函數對所述學生網絡進行迭代訓練。
2.根據權利要求1所述的融合通道與關系特征學習的知識蒸餾方法,其特征在于,基于所述學生網絡和所述教師網絡的通道數據、所述學生網絡的輸出結果和所述教師網絡的輸出結果確定蒸餾損失函數:
基于所述學生網絡和所述教師網絡的通道數據確定第一損失函數;
基于所述學生網絡的輸出結果和所述教師網絡的輸出結果確定第二損失函數;
基于所述學習網絡與所述教師網絡之間樣本在通道內的關系確定第三損失函數;
基于所述學生網絡的輸出結果和所述真實標簽數據確定第四損失函數;
將所述第一損失函數、所述第二損失函數、所述第三損失函數和所述第四損失函數加權求和獲得所述蒸餾損失函數。
3.根據權利要求2所述的融合通道與關系特征學習的知識蒸餾方法,其特征在于,所述第一損失函數為:
其中,Lcd表示第一損失函數,s表示學生網絡,t表示教師網絡,m表示一個Batch中的樣本個數,k表示一個樣本中的總通道數,cij表示第i個樣本的第j個通道的權重。
4.根據權利要求2所述的融合通道與關系特征學習的知識蒸餾方法,其特征在于,所述第二損失函數為:
其中,Ldkd表示第二損失函數,表示網絡輸出的概率分布,Z表示網絡經過Logits函數的輸出結果,T表示溫度參數,Lkl表示學生網絡和教師網絡輸出之間的KL散度,Y表示真實標簽數據;
其中,D(·)表示降低教師網絡錯誤知識影響的函數,具體為:
其中,a表示超參數,λ表示恒定系數,epn表示訓練過程中第n個Epoch。
5.根據權利要求2所述的融合通道與關系特征學習的知識蒸餾方法,其特征在于,所述第三損失函數包括距離損失函數和角度損失函數,其中:
所述第三損失函數具體為:
Lrd=LDD(cu,cv)+βLAD(cu,cv,cω)
其中,Lrd表示第三損失函數,LDD表示距離損失函數,LAD表示角度損失函數,β表示權重系數,cu,cv,cw表示第u、v、w個樣本的權重;
所述距離損失函數具體為:
其中,χN表示一個Batch中N個不同樣本的組合個數,χ2={(cu,cv)|u≠v};
其中,l(·)表示距離函數,表示在教師網絡t、學生網絡s中樣本之間的距離,具體為:
其中,歸一化常數
其中,H(·)表示實例關系的Huber損失,具體為:
所述角度損失函數具體為:
其中,χ3={(cu,cv,cw)|u≠v≠w};
其中,r(·)表示角度函數,表示在教師網絡t、學生網絡s中樣本之間的角度,具體為:
其中,表示標記。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110713812.0/1.html,轉載請聲明來源鉆瓜專利網。





