[發(fā)明專利]一種基于注意力圖的視覺Transformer模型剪枝方法在審
| 申請?zhí)枺?/td> | 202211239440.3 | 申請日: | 2022-10-11 |
| 公開(公告)號: | CN115310607A | 公開(公告)日: | 2022-11-08 |
| 發(fā)明(設(shè)計)人: | 王瓊;黃丹;毛君竹;姚亞洲 | 申請(專利權(quán))人: | 南京理工大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 南京創(chuàng)略知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32358 | 代理人: | 陳雅潔 |
| 地址: | 210018 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 注意 力圖 視覺 transformer 模型 剪枝 方法 | ||
1.一種基于注意力圖的視覺Transformer模型剪枝方法,應(yīng)用于機器視覺推理系統(tǒng),其特征在于,包括如下步驟:
步驟A、在機器視覺推理系統(tǒng)中,通過數(shù)據(jù)訓練網(wǎng)絡(luò)對ViT模型執(zhí)行若干輪初始訓練,以生成完整的注意力圖;
步驟B、計算注意力圖的信息熵,根據(jù)計算的信息熵大小對注意力頭進行剪枝操作,度量注意力圖的不確定性;
步驟C、移除被剪枝注意力頭關(guān)聯(lián)的各權(quán)重參數(shù),以獲得新ViT模型;
步驟D、重新微調(diào)新ViT模型的參數(shù)。
2.根據(jù)權(quán)利要求1所述的一種基于注意力圖的視覺Transformer模型剪枝方法,其特征在于:在所述的步驟A中,ViT模型將輸入圖像拆分為N個圖像塊,并對每個圖像塊附加一個類編碼,然后將附加類編碼的N個圖像塊饋送到與普通Transformer類似的編碼器中,形成N個圖像編碼塊。
3.根據(jù)權(quán)利要求2所述的一種基于注意力圖的視覺Transformer模型剪枝方法,其特征在于:所述的步驟A,包括如下步驟:
A1、在ViT模型訓練的初始階段,ViT模型沒有學習到有用的信息,此時注意力圖是無序的,且注意力圖具有大的信息熵;
A2、在ViT模型經(jīng)過若干輪的初始訓練,ViT模型學習到基本信息,并開始呈現(xiàn)出一定的模式;
A3、在ViT模型訓練的最終階段,當ViT模型收斂時,每個注意力頭都獲得了注意力圖,此時重要的圖像編碼塊會受到注意力頭的高度關(guān)注,使得信息熵降低,所有的注意力圖都是一個訓練輪次的平均結(jié)果。
4.根據(jù)權(quán)利要求1所述的一種基于注意力圖的視覺Transformer模型剪枝方法,其特征在于:在所述的步驟B中,在ViT模型執(zhí)行若干輪初始訓練后,當注意力頭學習到的有用信息增加,注意力頭會關(guān)注圖像編碼塊,使得信息熵降低,注意力圖具有確定性;當注意力頭學習到的有用信息少時,注意力頭會對全局有統(tǒng)一的關(guān)注,使得信息熵增加,從而產(chǎn)生大的不確定性,此過程中信息熵用于衡量注意力圖的不確定性。
5.根據(jù)權(quán)利要求4所述的一種基于注意力圖的視覺Transformer模型剪枝方法,其特征在于:在所述的步驟B中,對于Transformer塊而言,多頭自注意力MSA和多層感知機MLP是花費計算資源的主要部分;
表示第L層的輸入,且,則注意力頭h的注意力計算如公式(1)所示:
(1);
其中,;
Q、K、V分別表示多頭注意力機制中的“查詢”、“鍵”和“值”;
對于第L層中的第h個注意力頭模塊而言,參與生成注意力圖,計算的“查詢”、“鍵”和“值”分別表示為;
d表示注意力頭嵌入維度;
N表示輸入進ViT模型的圖像塊的數(shù)量;
T表示注意力頭為H的視覺Transformer網(wǎng)絡(luò);
則多頭自注意力MSA的計算如公式(2)所示:
(2);
表示4個投影矩陣的總和;
H表示注意力頭的數(shù)量。
6.根據(jù)權(quán)利要求5所述的一種基于注意力圖的視覺Transformer模型剪枝方法,其特征在于:通過公式(1)和公式(2)包含的參數(shù)計算復雜度如公式(3)所示:
(3);
C表示參數(shù)計算復雜度;
4NDHd表示投影計算的計算量總和;
同時參數(shù)量如公式(4)所示:
(4);
P表示參數(shù)量;
表示使用公式(1)計算注意力圖的計算量;
D表示嵌入維度,當ViT模型還沒有被剪枝時,D=Hd。
7.根據(jù)權(quán)利要求6所述的一種基于注意力圖的視覺Transformer模型剪枝方法,其特征在于:視覺Transformer的輸入序列是長序列場景時,自注意力的計算復雜度表示為;
當視覺Transformer的序列長度不能支配全部多頭注意力模塊的復雜度時,自注意力的計算復雜度表示為。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學,未經(jīng)南京理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211239440.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





