[發明專利]一種用于神經網絡加速的漸進式塊知識蒸餾方法在審

申請號：	201810758814.X	申請日：	2018-07-11
公開（公告）號：	CN108921294A	公開（公告）日：	2018-11-30
發明（設計）人：	李璽;趙涵斌;汪慧	申請（專利權）人：	浙江大學
主分類號：	G06N3/08	分類號：	G06N3/08
代理公司：	杭州求是專利事務所有限公司 33200	代理人：	傅朝棟;張法高
地址：	310058 浙江***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	蒸餾過程網絡復雜網絡蒸餾神經網絡塊參數學生隨機初始化加速算法模型壓縮網絡模型相關參數硬件架構最優參數子網絡按塊教師壓縮
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種用于神經網絡加速的漸進式塊知識蒸餾方法，包括以下步驟：

S1、輸入原復雜網絡和相關參數，定義方法目標；

S2、將原復雜網絡分成多個子網絡塊，基于學生子網絡塊設計準則，按塊設計學生子網絡塊并隨機初始化其參數；

S3、蒸餾第一個子網絡塊，將S1中輸入的原復雜網絡作為第一次塊蒸餾過程的教師網絡，一次塊蒸餾過程完成后得到第一個學生網絡，其中蒸餾完成的第一個學生子網絡塊具有最優參數；

S4、蒸餾下一個子網絡塊，將上一次塊蒸餾過程得到的學生網絡作為本次塊蒸餾過程的教師網絡，一次塊蒸餾過程完成得到下一個學生網絡，其中蒸餾完成的下一個學生子網絡塊具有最優參數；

S5、重復步驟S4直到所有子網絡塊蒸餾過程完成，將最后一次塊蒸餾得到的學生網絡和最優參數作為最終的簡單學生網絡以及最終參數。

2.根據權利要求1所述的一種用于神經網絡加速的漸進式塊知識蒸餾方法，其特征在于S1中所述的原復雜網絡定義如下：

原復雜網絡T由N個子網絡塊構成，表示如下：

t_i是在T中的第i個子網絡塊，i∈{1，2，...，N}，c是分類器的映射函數，為簡化網絡表達的符號；

該復雜網絡的參數表示為W_c和是指c和t_i的參數，i∈{1，2，...，N}；

所述的子網絡塊定義如下：一個神經網絡由卷積層、池化層和全連接層構成，將神經網絡中兩個相鄰池化層間的子網絡定義為一個子網絡塊。

3.根據權利要求1所述的一種用于神經網絡加速的漸進式塊知識蒸餾方法，其特征在于S1中所述的方法目標定義如下：設計一個具有高計算效率和低存儲占用空間的學生網絡，并學習訓練得到最優的參數；所述學生網絡由N個學生子網絡塊構成，用表示，其中s_i表示S中的第i個學生子網絡塊，i∈{1，2，...，N}，c是分類器的映射函數；所述最優的參數用表示，W_c和是指c和s_i的參數。

4.根據權利要求1所述的一種用于神經網絡加速的漸進式塊知識蒸餾方法，其特征在于所述S2包含以下子步驟：

S21、將原復雜網絡T分成N個子網絡塊{t₁，t₂，t₃，...，t_N}；

S22、根據所述學生子網絡塊設計準則，按塊設計得到N個學生子網絡塊{s₁，s₂，s₃，...，s_N}；

S23、隨機初始化學生子網絡塊的參數；

所述的學生子網絡塊設計準則具體操作如下：首先，根據子網絡塊的結構，將塊中包含的所有卷積層的通道數剪枝一半來構建一個簡單的學生子網絡塊，然后通過在塊的末尾添加一層1×1的卷積層將輸出的通道數量擴展為原子網絡塊的輸出通道數量。

5.如權利要求1所述的一種用于神經網絡加速的漸進式塊知識蒸餾方法，S3中所述的一次塊蒸餾過程表示如下：

其中A^k表示第k次塊蒸餾的中間網絡，s_j是指蒸餾結束參數最優的學生子網絡塊，t_i是教師子網絡塊；A^k的參數表示如下：

塊蒸餾過程通過最小化目標損失函數得到學生子網絡塊的最優參數；蒸餾第k個子網絡塊時，對于單個輸入數據樣本對(I，y)的目標損失函數表示為：

其中λ_local是用來平衡目標損失函數的兩項影響的參數，表示整個目標損失函數的第一項，表示整個目標損失函數的第二項，I是整個網絡的單個輸入數據樣本，y是單個輸入數據樣本的真實標簽，||·||_F表示F范數，softmax(·)表示網絡最終的輸出和y的softmax損失值；

因此，針對共有M個輸入數據樣本對的訓練數據集{(I⁽¹⁾，y⁽¹⁾)，...(I^(M)，y^(M))}，其最終的目標損失函數表示通過優化這個目標損失函數，得到對應子網絡塊的最優參數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載