[發明專利]一種基于通道梯度剪枝的柔性深度學習網絡模型壓縮方法在審
| 申請號: | 202011308919.9 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112396179A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 禹鑫燚;戎錦濤;歐林林;張銘揚;林密 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 通道 梯度 剪枝 柔性 深度 學習 網絡 模型 壓縮 方法 | ||
1.一種基于通道梯度剪枝的柔性深度學習網絡模型壓縮方法,具體步驟如下:
步驟1:獲取待剪枝的深度卷積神經網絡初始模型,這一過程具體實現是在卷積層輸出后添加額外的遮掩層,上一層卷積層的輸出即當前卷積層的輸入,輸入可以記為zl-1,則對于當前卷積層操作可以記為f(zl-1),初始化一個權重為1,維度與f(zl-1)的結果一致的遮掩層張量mmask作為遮掩層的權重,然后在對應的卷積層后添加上遮掩層,得到受遮掩層約束的輸出:
zl=f(zl-1)×mmask (1)
掩碼為1的通道的輸出是原始輸出,而掩碼為0的通道的輸出為0(該通道的輸出對結果無影響并且通道權重無法被更新),當原始深度卷積神經網絡模型中所有考慮剪枝的卷積層都添加完約束后,就得到了掩碼數組Mmask和待剪枝的深度卷積神經網絡;
步驟2:訓練網絡模型,更新模型掩碼信息,設定模型的壓縮率s(既可以指網絡剩余通道數占全部通道數的百分比,也可以表示剩余FLOPs占原FLOPs的百分比),在壓縮率的限制下,使用訓練集訓練待剪枝深度卷積神經網絡模型;
步驟2-1:訓練過程中,計算全局通道重要性指標:依據模型表現越好,損失函數越低這一先驗知識,冗余的通道對于模型變化的影響是相對較小的,,以損失函數值的變化幅度來體現當前通道的重要性程度,其數學表示式為:
表示第l層第i個通道的重要性指標,L(x,y),分別表示剪枝第l層第i個通道的輸出前后的損失函數,x表示數據,y表示數據x對應的標簽,越小說明該通道對損失函數影響越小,在求取剪去單個通道后的損失函數變化值時,本發明采用泰勒一階展開式來逼近實際的損失函數變化幅度,以減少搜索的計算量,單個通道的重要性指標為:
指第l層第i個通道輸出值,則表示第l層第i個通道的輸出值的回傳梯度,具體實現時,回傳梯度和輸出值的獲取通過在網絡前向通道中插入Hook獲取,然后對回傳梯度和輸出值相乘得到積的絕對值做層歸一化處理,得到最終的通道重要性指標
步驟2-2:訓練過程中,網絡的權重參數W通過隨機梯度下降更新,掩碼數組M則通過迭代閾值選擇方法更新,生成閾值和調整掩碼過程是將考慮剪枝的通道按照通道的重要性指標從小到大排序,生成一張表,包括index,key和value,index為序列下標,key為通道坐標(l,i)((l,i)表示第l層第i個通道),value為通道重要性指標三者一一對應,統計通道總數n,則閾值為
TI=Is×n (4)
對重要性指標小于閾值的通道,按照表內對應關系將對應坐標的通道的掩碼置0,其余的通道掩碼置1;
步驟2-3:在訓練過程,柔性迭代更新掩碼信息,對于第m輪訓練,重置掩碼全部為1,整個網絡在數據集上被訓練,按照步驟2-2,步驟2-3更新掩碼信息并保存,對于第m+1輪訓練,依據上一輪的掩碼信息,屏蔽對應通道,殘余網絡在數據集上被訓練,對于第m+2輪訓練,按照第m輪訓練過程,整個網絡在數據集上被訓練,此時第m+1輪被剪枝的通道恢復,重復上述迭代過程,直到跑完所有訓練輪數后停止訓練,保存最后得到稀疏模型和掩碼信息;
步驟3:步驟2-3得到的掩碼信息是一張表,包括key和value,key為通道坐標(l,i)((l,i)表示第l層第i個通道),value為掩碼值0或1。統計每一層掩碼值為1的通道的個數,按照每一層剩余通道數量重新構造一個新的規模更小的網絡,將新網絡的通道坐標按順序對應掩碼信息中的通道坐標,再把稀疏模型中仍然處于激活態的權重參數按照坐標對應關系一一保存到新網絡中,得到緊湊的深度卷積神經網絡模型;
步驟4:完成緊湊的深度卷積神經網絡模型重訓練,在原數據集上重新訓練剪枝后的緊湊深度卷積神經網絡模型,超參數設置為每次迭代的批次數量選取為128,一共迭代50~100個epoch,優化方法選擇帶0.90~0.99動量的隨機梯度下降,權重衰減為0.0001~0.001,初始學習速率設置為0.01~0.1,然后在loss不發生顯著變化的3個epoch后將學習率除以10。輸出性能良好且模型參數量少的最終網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011308919.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能平移式皮帶助卷器
- 下一篇:一種滾珠絲桿及其防護裝置





