[發明專利]一種多網絡聯合輔助生成式知識蒸餾方法在審
| 申請號: | 202210172188.2 | 申請日: | 2022-02-24 |
| 公開(公告)號: | CN114549901A | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 匡振中;王一琳;丁佳駿;顧曉玲;俞俊 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 聯合 輔助 生成 知識 蒸餾 方法 | ||
1.一種多網絡聯合輔助生成式知識蒸餾方法,其特征在于,包括如下步驟:
步驟1:圖像分類數據集預處理;
步驟2:根據確定的圖像分類數據集選擇教師網絡模型并訓練;
步驟3:根據確定的圖像分類數據集選擇困難樣本生成器G1和學生網絡,組成對抗知識蒸餾框架;
步驟4:建立生成對抗知識蒸餾的目標函數;
步驟5:對組建好的對抗知識蒸餾框架進行迭代訓練;
步驟6:引入簡單樣本生成器G2,使用困難樣本生成器G1和簡單樣本生成器G2交替調整學生網絡,得最終結果。
2.根據權利要求1所述的一種多網絡聯合輔助生成式知識蒸餾方法,其特征在于,步驟1具體步驟如下:
1-1.數據準備和預處理;
選取公開數據集,所述的公開數據集采用MNIST、CIFAR10或CIFAR100數據集;對于MNIST數據集,首先將它的分辨率放大到32x32,然后進行圖像歸一化,最后再進行標準化處理;對于CIFAR10和CIFAR100數據集,直接進行圖像歸一化,然后進行標準化處理;
1-2.圖像增強;MNIST數據過于簡單,所以不進行圖像增強;在CIFAR10和CIFAR100兩個數據集上做相同的圖像增強操作;即先將圖像上下左右各填充4個像素,然后隨機裁剪;最后將裁剪所得的圖像以0.5的概率隨機水平翻轉。
3.根據權利要求2所述的一種多網絡聯合輔助生成式知識蒸餾方法,其特征在于,步驟2具體步驟如下:
2-1.不同的圖像分類數據集對應的教師網絡不同;在MNIST數據集上,教師網絡使用LeNet;針對CIFAR10和CIFAR100,教師網絡都使用ResNet34,并在原ResNet34的基礎上進行了改進;首先對第一層卷積層的參數進行修改,將kernel_size從7改為3,stride從2改為1,padding從3改為1,然后將第一層卷積層的后面最大值池化層刪除;最后將出現在全連接層之前的平均值池化層刪除;
2-2.針對不同的數據集,不同的教師網絡,采取的訓練方法相同,但是參數的配置不同,使得教師網絡達到盡量好的效果;訓練方法如下:首先設定好總共的訓練輪數,每一輪訓練都將所選數據集的訓練集部分輸入到教師網絡中,得到教師網絡的輸出值與訓練集標簽一起放到目標函數中計算,最后將誤差反傳,優化教師網絡;目標函數采用多分類交叉熵。
4.根據權利要求3所述的一種多網絡聯合輔助生成式知識蒸餾方法,其特征在于,步驟3具體步驟如下:
3-1.對于所有數據集,困難樣本生成器G1都使用DCGAN中的生成網絡;
3-2.不同的數據集對應的學生網絡不同;
在MNIST數據集上,學生網絡使用LeNet-Half;針對CIFAR10和CIFAR100數據集,學生網絡都使用ResNet18;并在原ResNet18的基礎上進行了改進;首先對第一層卷積層的參數進行修改,將kernel_size從7改為3,stride從2改為1,padding從3改為1,然后將第一層卷積層的后面最大值池化層刪除;最后將出現在全連接層之前的平均值池化層刪除;
3-3.將困難樣本生成器G1,學生網絡和訓練好的教師網絡一起組成整個訓練框架,學生網絡和教師網絡將聯合起來作為一個判別器;整個訓練過程分為兩個階段,模仿階段和生成階段;模仿階段,固定生成器更新學生網絡;生成階段,固定學生網絡更新生成器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210172188.2/1.html,轉載請聲明來源鉆瓜專利網。





