[發明專利]一種多網絡聯合輔助生成式知識蒸餾方法在審
| 申請號: | 202210172188.2 | 申請日: | 2022-02-24 |
| 公開(公告)號: | CN114549901A | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 匡振中;王一琳;丁佳駿;顧曉玲;俞俊 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 聯合 輔助 生成 知識 蒸餾 方法 | ||
本發明公開了一種多網絡聯合輔助生成式知識蒸餾方法,首先進行圖像分類數據集預處理;然后根據確定的圖像分類數據集選擇教師網絡模型并訓練;再根據確定的圖像分類數據集選擇困難樣本生成器G1和學生網絡,組成對抗知識蒸餾框架;建立生成對抗知識蒸餾的目標函數;對組建好的對抗知識蒸餾框架進行迭代訓練;最后引入簡單樣本生成器G2,使用困難樣本生成器G1和簡單樣本生成器G2交替調整學生網絡,得最終結果。本發明額外引入了一個簡單樣本生成器,并且簡單樣本生成器直接復制訓練好的困難樣本生成器,并沒有增加計算量,而且操作簡單。在簡單樣本生成器幫助學生網絡回顧簡單樣本的情況下,最終在目標任務上取得了更好的效果。
技術領域
本發明屬于計算機視覺領域內的知識蒸餾領域,具體提出了一種多網絡聯合輔助生成式知識蒸餾方法,用于圖像分類任務。
背景技術
卷積神經網絡(Convolutional Neural Network,CNN)憑借其強大的特征提取和表達能力,在圖像分類、分割、檢測等領域中取得了令人矚目的成就。但是,高表達能力的神經網絡的結構往往都很復雜,而且參數量巨大。在這個情況下,部署完整的CNN往往需要巨大的內存開銷和高性能的計算單元,而在計算資源受限的嵌入式設備以及高實時要求的移動終端上,CNN的應用存在局限性。因此,CNN迫切需要輕量化。
知識蒸餾作為一種模型壓縮方法,目前被廣泛使用。知識蒸餾將待壓縮的模型看作是“教師”,壓縮完的模型看作是“學生”。教師網絡能力強,但是結構復雜,不方便部署;學生網絡結構簡單,但是直接訓練得到的效果并不好。知識蒸餾就是通過教師網絡輔助學生網絡訓練的方式,提高學生網絡的性能,達到和教師網絡接近的效果。
在進行模型壓縮時,如果能夠直接訪問訓練數據,現有的大多數深度神經網絡壓縮和加速方法都是非常有效的。但是如果由于隱私或者法律原因,訓練數據不可訪問時,大多數的模型壓縮方法都會失效,于是有學者提出了一些不需要訓練數據的模型壓縮方法。
比如有人提出可以不用重新訓練一個輕型的神經網絡,而是直接在原模型的全連接層上進行剪枝,剔除掉那些相似的神經元,最后的輸出結果并不會相差太大。但是這種方法不能用在卷積層上面,這樣模型的壓縮程度會大大降低,而且在模型內部結構未知的情況下,這種方法也會失效。還有人提出可以通過原模型訓練過程中的“元數據”(比如網絡層的激活值)去重構訓練數據的方法,但是多數情況下原模型并沒有保留這些“元數據”。
不難發現,以上方法在實際中都不是很實用,后來有人提出結合生成對抗網絡(GenerativeAdversarialNetwork,GAN)進行知識蒸餾。GAN作為一種生成模型,能夠生成一些替代訓練數據的生成數據,可以使用這些生成數據來進行知識蒸餾。注意題目上說的無數據并不是不需要任何數據,而是指沒有用于訓練教師網絡的數據。
比如現在有一種對抗蒸餾的方法([1]Fang G,Song J,Shen C,et al.Data-FreeAdversarial Distillation[J].2019.),除了預訓練好的教師網絡之外,引入了一個生成器,然后將學生網絡和教師網絡聯合起來作為一個判別器。生成器的目的是要生成使得教師網絡和學生網絡輸出差異較大的困難樣本,而學生網絡的學習目標則是要在輸出上不斷減小和教師網絡的差異。學生網絡通過不斷地學習,困難樣本會逐漸被掌握變為簡單樣本,容易被區分出來。這個時候生成器就需要繼續去搜索樣本空間,找到能夠擴大學生網絡和教師網絡輸出差異、未被學生網絡掌握的困難樣本。整個訓練過程就是一個生成對抗的過程。
上面這種對抗知識蒸餾的方法,存在一個問題,就是生成器一昧地去生成困難樣本送入學生網絡訓練,最后學生網絡可能會對簡單樣本產生遺忘,從而導致預測錯誤,整體性能下降。
發明內容
本發明的目的是針對以上方法的不足,提出了一種多網絡聯合輔助生成式知識蒸餾方法。本方法增加了一個生成簡單樣本的生成器G2去輔助生成困難樣本的生成器G1,兩者共同調整學生網絡,防止學生網絡一昧追求在困難樣本上的表現而忽視了一些簡單樣本,從而導致整體性能的下降。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210172188.2/2.html,轉載請聲明來源鉆瓜專利網。





