[發明專利]一種知識顯著性與局部模式一致性的知識蒸餾方法與裝置在審
| 申請號: | 202110551343.7 | 申請日: | 2021-05-20 |
| 公開(公告)號: | CN112990447A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 唐乾坤;徐曉剛;王軍;徐冠雷;何鵬飛;曹衛強 | 申請(專利權)人: | 之江實驗室 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62;G06K9/46 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 孫孟輝 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 顯著 局部 模式 一致性 蒸餾 方法 裝置 | ||
1.一種知識顯著性與局部模式一致性的知識蒸餾方法,其特征在于包括如下步驟:
S1,從教師模型和學生模型中選擇需要進行知識蒸餾的特征層;
S2,計算所選學生模型特征層與教師模型特征層每個通道的語義相似性;
S3,計算所選學生模型特征層與教師模型特征層每個空間位置的語義相似性;
S4,計算所選學生模型中每個特征位置局部模式與教師模型特征層對應位置局部模式一致度S;
S5,將語義相似性及局部模式一致度融合入損失函數中,訓練學生模型。
2.根據權利要求1所述的一種知識顯著性與局部模式一致性的知識蒸餾方法,其特征在于所述步驟S1中,分別從教師模型和學生模型的中間卷積層中選擇一個以上特征層進行知識蒸餾。
3.根據權利要求1所述的一種知識顯著性與局部模式一致性的知識蒸餾方法,其特征在于所述步驟S1中,當教師模型特征層與學生模型特征層的維度不一致時,對學生模型或者教師模型特征層進行轉換,使兩者保持一致。
4.根據權利要求3所述的一種知識顯著性與局部模式一致性的知識蒸餾方法,其特征在于所述步驟S1中當教師模型特征層與學生模型特征層通道數不一致時,使用卷積層對學生模型特征層進行變換,使兩者一致。
5.根據權利要求3所述的一種知識顯著性與局部模式一致性的知識蒸餾方法,其特征在于所述步驟S1中當教師模型特征層與學生模型特征層空間維度不一致時,對維度較大的一方使用池化方式變換成與另一方維度相等;或對維度較小的一方使用上采樣方式變換成與另一方維度相等。
6.根據權利要求1所述的一種知識顯著性與局部模式一致性的知識蒸餾方法,其特征在于所述步驟S2中通過余弦距離計算的通道語義相似性:
其中,為通道語義相似度,表示教師模型特征層,表示學生模型特征層,表示2元范數,
7.根據權利要求1所述的一種知識顯著性與局部模式一致性的知識蒸餾方法,其特征在于所述步驟S3中通過余弦距離計算的空間位置語義相似性:
其中,表示空間位置語義相似度,表示教師模型特征層,表示學生模型特征層,表示2元范數。
8.根據權利要求1所述的一種知識顯著性與局部模式一致性的知識蒸餾方法,其特征在于所述步驟S4中,選擇教師模型或者學生模型每個空間位置,計算以該空間位置為中心,一定范圍內的局部結構相似性索引度量SSIM,即一致度S:
其中,表示局部結構的均值,表示歸一化權重核,
9.根據權利要求1所述的一種知識顯著性與局部模式一致性的知識蒸餾方法,其特征在于所述步驟S5中損失函數定義如下:
其中,dist表示特征距離函數,表示任務損失。
10.一種知識顯著性與局部模式一致性的知識蒸餾裝置,包括:學生模型模塊、教師模型模塊和模型優化模塊,其特征在于所述學生模型模塊、教師模型模塊,均通過知識顯著性模塊和局部結構一致性模塊,與模型優化模塊連接,學生模型模塊又與模型優化模塊單獨連接;
所述學生模型模塊,用于學習知識的神經網絡模型;
所述教師模型模塊,用于提取及傳輸知識的神經網絡模型;
所述知識顯著性模塊,用于計算教師模型和學生模型所選進行知識蒸餾的特征層的每個通道和每個空間位置的語義相似性;
所述局部結構一致性模塊,用于計算教師模型和學生模型所選進行知識蒸餾的特征層每個位置局部模式的一致度;
所述模型優化模塊,用于通過語義相似性及局部模式一致度,優化知識蒸餾損失和學生模型的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室,未經之江實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110551343.7/1.html,轉載請聲明來源鉆瓜專利網。





