[發明專利]一種基于注意力圖的視覺Transformer模型剪枝方法在審
| 申請號: | 202211239440.3 | 申請日: | 2022-10-11 |
| 公開(公告)號: | CN115310607A | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 王瓊;黃丹;毛君竹;姚亞洲 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 南京創略知識產權代理事務所(普通合伙) 32358 | 代理人: | 陳雅潔 |
| 地址: | 210018 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意 力圖 視覺 transformer 模型 剪枝 方法 | ||
本發明公開了一種基于注意力圖的視覺Transformer模型剪枝方法,應用于機器視覺推理系統,包括如下步驟:在機器視覺推理系統中,通過數據訓練網絡對ViT模型執行若干輪初始訓練,以生成完整的注意力圖;計算注意力圖的信息熵,根據計算的信息熵大小對注意力頭進行剪枝操作;移除被剪枝注意力頭關聯的各權重參數,以獲得新ViT模型;重新微調新ViT模型的參數;通過對多頭注意力模塊進行剪枝,刪除具有高不確定性的特征圖和相應的注意力頭,以減少ViT模型的參數和復雜性,降低ViT模型的計算復雜度和參數量,能夠縮減ViT模型大小,最終達到在ViT模型性能有限損失的情況下實現ViT模型的輕量化。
技術領域
本發明屬于神經網絡輕量化技術領域,具體涉及一種基于注意力圖的視覺Transformer模型剪枝方法。
背景技術
Transformer是一種主要基于自注意機制的深度神經網絡,應用于自然語言處理領域,視覺Transformer模型簡稱ViT模型,Transformer具有強大的長程依賴關系的建模能力,已經在各種視覺任務中取得了令人矚目的成功,然而,Transformer模型的巨大計算量和內存消耗是其固有問題,使其無法在資源有限的邊緣端計算設備上成功部署并投入使用,剪枝是一種有效降低神經網絡推理成本的常用方法,已廣泛應用于計算機視覺和自然語言處理應用中。
基于注意力圖的模型剪枝方法可用于將神經網絡模型部署在低功耗、計算資源受限的嵌入式機器視覺推理系統中,包括基于圖形處理器加速的嵌入式計算板和基于神經網絡處理器,該類系統一般只能提供相當于高性能GPU不到20%的計算資源。
剪枝操作一般可以分為非結構化剪枝和結構化剪枝兩大類,具體來說,非結構化剪枝在特定標準下刪除單個不重要的權重,非結構化剪枝屬于精細范式,對精度有少許損害,實際加速需要特殊的硬件設計,結構化剪枝移除了模型的整個子結構,例如通道和注意力頭,已經有一些工作通過減少計算圖像編碼塊的數量修剪ViT,Tang等人開發了一種自上而下的圖像塊剪枝方法,該方法基于預訓練模型的重建誤差去除冗余圖像塊,Xu等人基于結構維持的圖像編碼塊選擇和慢-快結合的更新策略以完全利用整個空間結構;上述方法雖然可以節省計算成本,但不能降低推理復雜性和減小模型大小,為此我們提出一種基于注意力圖的視覺Transformer模型剪枝方法。
發明內容
本發明的目的在于提供一種基于注意力圖的視覺Transformer模型剪枝方法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種基于注意力圖的視覺Transformer模型剪枝方法,應用于機器視覺推理系統,包括如下步驟:
步驟A、在機器視覺推理系統中,通過數據訓練網絡對ViT模型執行若干輪初始訓練,以生成完整的注意力圖;
步驟B、計算注意力圖的信息熵,根據計算的信息熵大小對注意力頭進行剪枝操作,度量注意力圖的不確定性;
步驟C、移除被剪枝注意力頭關聯的各權重參數,以獲得新ViT模型;
步驟D、重新微調新ViT模型的參數。
優選的,在所述的步驟A中,ViT模型將輸入圖像拆分為N個圖像塊,并對每個圖像塊附加一個類編碼,然后將附加類編碼的N個圖像塊饋送到與普通Transformer類似的編碼器中,形成N個圖像編碼塊。
優選的,所述的步驟A,包括如下步驟:
A1、在ViT模型訓練的初始階段,ViT模型沒有學習到有用的信息,此時注意力圖是無序的,且注意力圖具有大的信息熵;
A2、在ViT模型經過若干輪的初始訓練,ViT模型學習到基本信息,并開始呈現出一定的模式;
A3、在ViT模型訓練的最終階段,當ViT模型收斂時,每個注意力頭都獲得了注意力圖,此時重要的圖像編碼塊會受到注意力頭的高度關注,信息熵會降低,所有注意力圖都是一個訓練輪次的平均結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211239440.3/2.html,轉載請聲明來源鉆瓜專利網。





