[發明專利]一種基于改進MSDNet與知識蒸餾的識別方法在審
| 申請號: | 202111218803.0 | 申請日: | 2021-10-20 |
| 公開(公告)號: | CN114037856A | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 李尚鍇;王凱;袁明明 | 申請(專利權)人: | 浪潮通信信息系統有限公司 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/774;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜麗潔 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 msdnet 知識 蒸餾 識別 方法 | ||
1.一種基于改進MSDNet與知識蒸餾的識別方法,其特征在于,具有如下步驟:
S1、獲取識別圖片進行數據樣本采集;
S2、對識別圖片進行數據預處理和數據清洗獲得滿足要求的足量的識別圖片,并對識別圖片進行信息標注;
S3、對步驟S2中識別的圖片采用修改后的MSDNet模型進行訓練,從而獲得教師模型;
S4、將步驟S3中的訓練好的模型作為軟標簽配合圖片中原有的標簽,根據不同數據采用不同的temperture,從而訓練出學生模型;
S5、對步驟S1-S4采集到的數據組成識別的系統。
2.根據權利要求1所述的一種基于改進MSDNet與知識蒸餾的識別方法,其特征在于,所述修改后的MSDNet模型為在每個塊的末尾實現一個提前退出分類器,并且能夠通過在任何所需分類器處停止計算,且所有的子網都共享參數。
3.根據權利要求2所述的一種基于改進MSDNet與知識蒸餾的識別方法,其特征在于,所述識別圖片輸入時,若長寬比例不匹配,在數據清理階段通過添加空白像素點使圖片補充至指定要求。
4.根據權利要求3所述的一種基于改進MSDNet與知識蒸餾的識別方法,其特征在于,在MSDNet模型進行訓練時,卷積后使用ReLu激活函數:
φ(x)=max(0,x)
然后使用Inception網絡把稀疏矩陣轉換成密集的自矩陣,在沿著深度劃分為若干塊之后,在每個塊的末尾實現一個提前退出分類器,最后使用全聯接層,將卷積后神經網絡提取的特征轉換以數據的形式輸入到全聯接層之中。
5.根據權利要求4所述的一種基于改進MSDNet與知識蒸餾的識別方法,其特征在于,在知識蒸餾時,直接讓學生模型去學習教師模型的泛化能力,遷移泛化能力的方法為使用softmax層輸出的類別的概率來作為soft target。
6.根據權利要求5所述的一種基于改進MSDNet與知識蒸餾的識別方法,其特征在于,直接使用softmax層的輸出值作為soft target,當softmax輸出的概率分布熵相對較小時,負標簽的值都很接近0,對損失函數的貢獻非常小,小到可以忽略不計,無法有效的捕捉信息量,因此在softmax函數中添加“溫度”這個變量,在softmax函數為:
蒸餾過程中目標函數由distill loss和student loss加權得到:
L=αLsoft+βLhard
學生網絡和教師網絡使用相同的訓練集,將教師網絡的softmax作為softtarget,學生網絡在相同溫度T條件下的softmax輸出和soft target的cross entropy就是損失函數的第一部分;學生網絡在T=1的條件下的softmax輸出和標簽的交叉熵損失就是損失函數的第二部分。
7.根據權利要求6所述的一種基于改進MSDNet與知識蒸餾的識別方法,其特征在于,使用知識蒸餾后,修改了整個模型架構。將模型分為原有的教師模型和從教師模型中提取的眾多子模型,提取的眾多子模型稱作助教模型,助教模型為先向老師學習,然后再向學生傳授知識。
8.根據權利要求6所述的一種基于改進MSDNet與知識蒸餾的識別方法,其特征在于,所述助教模型分為兩種模型:帶一個助教的kd和帶多個助教的kd;
(1)帶一個助教的kd模型的IPKD損失為:
(2)帶多個助教的kd模型的IPKD損失為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮通信信息系統有限公司,未經浪潮通信信息系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111218803.0/1.html,轉載請聲明來源鉆瓜專利網。





