[發明專利]一種基于剪枝順序主動學習的模型壓縮方法在審
| 申請號: | 201811501702.2 | 申請日: | 2018-12-10 |
| 公開(公告)號: | CN109657780A | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 丁貴廣;鐘婧 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京八月瓜知識產權代理有限公司 11543 | 代理人: | 陳娟 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 剪枝 主動學習 模型壓縮 便攜設備 合理問題 技術支撐 精度損失 模型結構 模型移植 卷積核 全流程 數據集 網絡層 最小化 保證 壓縮 靈活 評估 應用 表現 決策 網絡 | ||
1.一種基于剪枝順序主動學習的模型壓縮方法,其特征在于,所述方法包括:
S1.利用LSTM學習網絡時序特征,做出每一網絡層是否需要剪枝的決策;
S2.在選定的網絡層對該網絡層的網絡層參數進行評估和裁剪,并提出恢復機制對剪枝后模型精度進行即刻恢復;
S3.對剪枝后的模型利用導師網絡進行加速重訓練;
S4.根據剪枝后重訓練的模型的表現力和復雜度,得到反饋激勵R,用增強學習方法更新LSTM;
S5.選取反饋激勵最高的5個模型作為新一輪LSTM的輸入,重復步驟1-步驟4,直至LSTM不再產生更優的剪枝決策時終止訓練過程,得到最優的剪枝后模型。
2.根據權利要求1所述的方法,其特征在于,所述步驟S1包括:
(1)首先將神經網絡模型用字符串表示出來,作為LSTM的輸入,具體方式為:
用(mi,ni)表示神經網絡的第i個節點ξi,其中,m表示節點類型,取值于{0,1,2},分別代表卷積,池化和全連接操作;n表示節點屬性值,當該節點為卷積時,n代表該層卷積核數量;當該節點為池化時,n代表池化步長;當該節點為全連接時,n代表該層神經元數量;
(2)獲取LSTM剪枝決策,具體包括:
在每個時刻,一個主節點和它的下一個節點作為多層LSTM的輸入,該輸入可表示為[mi,ni,mi+1.ni+1];LSTM利用softmax函數對當前輸入的主節點做出是否剪枝的決策,輔助節點只提供輔助信息,不對其進行剪枝預測。
3.根據權利要求1或2所述的方法,其特征在于,所述網絡層包括卷積層和/或全連接層;卷積層的網絡層參數為卷積核,全連接層的網絡層參數為全連接參數。
4.根據權利要求3所述的方法,其特征在于,在步驟S2中,在卷積層對卷積核進行評估和裁剪的方法包括:
通過計算第i+1個卷積層中每個通道集的L2范數,得到重要性分數sj,具體如以下公式:
sj=||Ci+1,j||2,s.t.j∈[1,xi]
其中,Ci+1,j表示第i+1個卷積層的第j個通道集,s.t.代表subject to的縮寫,xi表示在第i個卷積層的卷積核數量;
根據壓縮率,選擇并裁剪第i+1個卷積層中重要性分數sj最小的通道集和它們對應的第i個卷積層中的卷積核。
5.根據權利要求4所述的方法,其特征在于,所述恢復機制包括:選擇第i+1個卷積層的一部分卷積核并按照一定比例放大卷積核參數,具體如以下公式:
其中,Fi+1,j表示第i+1個卷積層的第j個卷積核;表示剪枝過的第i+1個卷積層的第j個卷積核;a是一個超參數,用來選擇偏差值較大的卷積核。
6.根據權利要求5所述的方法,其特征在于,在步驟S3中,采用知識萃取的方法加速重訓練過程,將LSTM的輸入模型作為老師網絡,剪枝后的模型作為學生網絡,學生網絡學習老師網絡輸出的各類別分類概率z,z相比于訓練標簽包含豐富的知識,包含類別間相似性和差異性。
7.根據權利要求6所述的方法,其特征在于,在步驟S4中,反饋激勵R由如下公式計算得到:
R=performance-λ×complexity
其中,表現力performance由模型在驗證集的準確率或者訓練集的損失表示;復雜度complexity由模型FLOPs或者參數量大小表示;λ是一個超參數,需要通過實驗的交叉驗證來選擇最優值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811501702.2/1.html,轉載請聲明來源鉆瓜專利網。





