[發明專利]基于剪枝和蒸餾的卷積神經網絡壓縮方法有效
| 申請號: | 201710421225.8 | 申請日: | 2017-06-07 |
| 公開(公告)號: | CN108334934B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 江帆;單羿 | 申請(專利權)人: | 賽靈思公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京卓孚律師事務所 11821 | 代理人: | 任宇 |
| 地址: | 美國加利福尼亞*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 剪枝 蒸餾 卷積 神經網絡 壓縮 方法 | ||
本公開提供一種基于剪枝和蒸餾的卷積神經網絡壓縮方法(400),包括:對原始卷積神經網絡模型進行剪枝操作,得到剪枝后的模型(S401);對剪枝后的模型進行參數微調(S403);利用原始卷積神經網絡模型作為蒸餾算法的老師網絡,將經過參數微調的剪枝后的模型作為蒸餾算法的學生網絡,根據蒸餾算法,通過老師網絡來指導學生網絡進行訓練(S405);將經過蒸餾算法訓練的學生網絡作為壓縮后的卷積神經網絡模型(S407)。本公開的方法通過將兩個傳統的網絡壓縮方法聯合使用,更有效地壓縮了卷積神經網絡模型。
技術領域
本發明涉及卷積神經網絡,更具體涉及基于剪枝和蒸餾的卷積神經網絡壓縮方法。
背景技術
卷積神經網絡(Convolutional Neural Network,CNN)目前被廣泛地應用在計算機視覺的各個領域,如圖像識別、物體檢測、圖像分割等等,是計算機視覺和多媒體領域的研究熱點和關鍵技術,具有重要的研究意義和實用價值。卷積神經網絡是深度學習技術中具有代表性的網絡結構之一,在圖像處理領域取得了很大的成功,在國際標準的ImageNet數據集上,許多成功的模型都是基于卷積神經網絡。相較于傳統的圖像處理算法,卷積神經網絡避免了對圖像復雜的前期預處理過程(提取人工特征等),可以直接輸入原始的圖像,是一種端到端的模型。
卷積神經網絡雖然取得了較好的效果,但由于卷積神經網絡模型的參數量較大,運算次數較多,目前卷積神經網絡的運算一般采用GPU進行加速,卷積神經網絡的應用也多在云端,在終端落地面臨巨大的挑戰。
為了減少網絡模型的冗余,科研人員提出對模型進行剪枝的壓縮。例如,參見S.Han,J.Pool,J.Tran,W.J.DalIy(2015)Learning both Weights and Connections forEfficient Neural Network.In Advances in Neural Information ProcessingSystems,其公開的全部內容通過援引加入進來。另外,也可以參見和S.Han,H.Mao,W.J.Dally(2016)Deep compression:Compressing deep neural network with pruning,trained quantization and huffman coding.In International Conference onLearning Representations,其公開的全部內容通過援引加入進來。在剪枝中,通過一定的準則,保留比較重要的連接或元素,并將其余的連接或者元素刪除,得到壓縮的網絡。然后,對壓縮后的網絡進行參數微調。圖1是對卷積神經網絡進行剪枝的示意圖。該剪枝方法能夠有效地減小模型的參數和運算量,但由于刪除了原始模型中的部分元素和模塊,壓縮后模型的準確率也有一定程度的損失。
另一類模型壓縮方法被稱為蒸餾算法。例如,參見G.Hinton,O.Vinyals,J.Dean(2015)Distilling the knowledge in a neural network.arXiv preprint arXiv:1503.02531,其公開的全部內容通過援引加入進來。在蒸餾算法中,將復雜模型的“知識”提煉或者蒸餾到小模型,指導小模型的訓練,從而也實現了對大模型的壓縮。該類方法能夠提升小模型的性能,減小大模型的運算量,但蒸餾后的小模型的性能往往不夠理想。
考慮到針對卷積神經網絡應用的現狀,希望提出一種新型的卷積神經網絡壓縮方法。
發明內容
本發明提出了一種基于剪枝和蒸餾的卷積神經網絡壓縮方法,該方法在有效壓縮模型的同時能達到較好的模型精度。對網絡模型進行剪枝后,模型精度往往會有所降低,我們首先對該模型進行參數微調來恢復模型的精度。進一步地,我們采用蒸餾的方法將原始模型中的知識提煉到壓縮模型中,提升壓縮模型的性能。在蒸餾中,原始的模型作為大模型,剪枝后的模型作為小模型。訓練時,我們使小網絡的輸出去擬合大網絡的輸出,從而達到蒸餾的目的。相對于剪枝方法和蒸餾方法,本發明將兩個傳統的網絡壓縮方法聯合使用,更有效地壓縮卷積神經網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于賽靈思公司,未經賽靈思公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710421225.8/2.html,轉載請聲明來源鉆瓜專利網。





