[發明專利]基于Transformer全局與局部注意力交互的目標檢測方法在審
| 申請號: | 202210399175.9 | 申請日: | 2022-04-15 |
| 公開(公告)號: | CN114743017A | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 王坤峰;陳陽;張書琴;陳思涵 | 申請(專利權)人: | 北京化工大學 |
| 主分類號: | G06V10/40 | 分類號: | G06V10/40;G06V10/80;G06K9/62;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100029 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 transformer 全局 局部 注意力 交互 目標 檢測 方法 | ||
1.一種基于Transformer全局與局部注意力交互的目標檢測方法,其特征在于,該目標檢測方法包括:
將待處理圖像劃分為4*4的圖像令牌,線性投影成高緯度向量,并對投影的第一初始特征圖進行第一設定次數的全局局部注意力特征變換,獲得第一特征圖;
對所述第一特征圖進行圖像令牌合并,并對合并的初始第二特征圖進行第二設定次數的全局局部注意力特征變換,獲得第二特征圖;
對所述第二特征圖進行圖像令牌合并,并對合并的初始第三特征圖進行第三設定次數的全局局部注意力特征變換,獲得第三特征圖;
對所述第三特征圖進行圖像令牌合并,并對合并的初始第四特征圖進行第四設定次數的全局局部注意力特征變換,獲得第四特征圖;
將所述第二特征圖、所述第三特征圖和所述第四特征圖的特征信息分別輸入檢測頭,獲得目標檢測結果。
2.根據權利要求1所述的基于Transformer全局與局部注意力交互的目標檢測方法,其特征在于,所述圖像令牌合并,其方法為:
將所述第一特征圖/第二特征圖/第三特征圖的每相鄰2*2個圖像令牌合并為1個圖像令牌,并通過線性投影層最終實現特征圖的分辨率2倍下采樣和特征維度2倍上采樣,獲得初始第二特征圖/初始第三特征圖/初始第四特征圖。
3.根據權利要求1所述的基于Transformer全局與局部注意力交互的目標檢測方法,其特征在于,所述全局局部注意力特征變換,其方法為:
對所述第一初始特征圖/第二初始特征圖/第三初始特征圖/第四初始特征圖進行層歸一化處理;
將層歸一化后的特征圖以設定大小分割為不重疊的多個局部窗口,并分別進行每一個局部窗口的多頭自注意力計算,獲得局部特征圖;
將所述局部特征圖分別與對應的初始特征圖進行殘差連接,并分別進行下采樣操作,將下采樣的圖像令牌拼接為全局窗口,進行全局窗口的多頭自注意力計算,獲得全局特征圖;
進行所述局部窗口和所述全局窗口的跨尺度全局局部注意力計算,獲得融入全局信息的局部特征圖;
進行所述融入全局信息的局部特征圖的窗口合并、層歸一化以及多層感知機操作,獲得第一特征圖/第二特征圖/第三特征圖/第四特征圖。
4.根據權利要求3所述的基于Transformer全局與局部注意力交互的目標檢測方法,其特征在于,所述多頭自注意力計算,其表示為:
其中,Q,K,V代表將特征圖通過線性層使特征維度擴大3倍后拆分獲取的查詢矩陣、鍵值矩陣和值矩陣,矩陣的每個張量代表窗口的像素特征,B為表征像素間的相對位置的相對位置偏移矩陣,T代表矩陣轉置,代表關系矩陣,代表注意力關系矩陣,Softmax為將一組注意力系數轉換為范圍在[0,1]并且和為1的概率分布的函數,d代表通道數;
局部多頭自注意力計算將查詢矩陣Q、鍵值矩陣K和值矩陣V的通道數拆分為若干組,每組屬于1個頭,每個頭獨立的進行自注意力計算,并將各個頭的結果進行橫向拼接,其表示為:
MultiHead(Q,K,V)=Concat(head1,…,headi,…,headh)
其中,h為局部多頭自注意力計算中頭的數目,獲取第一特征圖的階段,h=3,隨后獲取第二特征圖、第三特征圖和第四特征圖的階段,h以2倍遞增,headi,i∈[1,h]為第i組查詢矩陣Q、鍵值矩陣K和值矩陣V的進行自注意力計算的結果,Concat為橫向拼接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京化工大學,未經北京化工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210399175.9/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





