[發明專利]一種基于Transformer和融合注意力機制的目標檢測方法及系統在審
| 申請號: | 202211475396.6 | 申請日: | 2022-11-23 |
| 公開(公告)號: | CN115908772A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 趙志剛;張兆虔;耿麗婷;霍吉東;李傳濤;王春曉;張儉;李響 | 申請(專利權)人: | 山東省計算中心(國家超級計算濟南中心) |
| 主分類號: | G06V10/20 | 分類號: | G06V10/20;G06V10/42;G06V10/44;G06V10/774;G06V10/80;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 馬海波 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 transformer 融合 注意力 機制 目標 檢測 方法 系統 | ||
1.一種基于Transformer和融合注意力機制的目標檢測方法,其特征在于,包括:
獲取待檢測圖像進行預處理;
將預處理后的待檢測圖像輸入至訓練好的目標檢測模型中,輸出檢測結果;
其中,所述目標檢測模型包括Swin?Transformer模塊、、注意力融合模塊和檢測模塊,所述Swin?Transformer模塊用于提取待檢測圖像的全局特征,所述注意力融合模塊用于局部特征提取,并將全局特征和局部特征采用跨層級聯的方式進行融合,所述檢測模塊用于根據融合后的特征輸出檢測結果。
2.如權利要求1所述的一種基于Transformer和融合注意力機制的目標檢測方法,其特征在于,所述Swin?Transformer模塊包括依次順序連接的4個layer層,其中,layer1層包括依次連接的linear?embedding層和2個Swin?Transformer?Block層;layer2層包括依次連接的Patch?Merging層和2個Swin?Transformer?Block層;layer3層包括依次連接的PatchMerging層和6個Swin?Transformer?Block層;layer4層包括依次連接的Patch?Merging層和2個Swin?Transformer?Block層。
3.如權利要求1所述的一種基于Transformer和融合注意力機制的目標檢測方法,其特征在于,所述Swin?Transformer?Block層包括W-MSA結構以及SW-MSA結構,所述W-MSA結構對特征圖進行分割,分割為多個窗口;所述SW-MSA結構對分割的多個窗口進行像素偏移,使多個窗口實現信息交流。
4.如權利要求2所述的一種基于Transformer和融合注意力機制的目標檢測方法,其特征在于,1×1的卷積層分別對layer1層的輸出特征圖、layer2層的輸出特征圖以及layer4層的輸出特征圖進行維度變換分別得到第一特征圖、第二特征圖、第三特征圖。
5.如權利要求4所述的一種基于Transformer和融合注意力機制的目標檢測方法,其特征在于,分別將layer1層的linear?embedding層的輸出特征圖與第一特征圖、layer4層的Patch?Merging層的輸出特征圖和layer4層的輸出的第三特征圖作為所述注意力融合模塊的輸入進行特征融合后輸出第四特征圖和第五特征圖。
6.如權利要求5所述的一種基于Transformer和融合注意力機制的目標檢測方法,所述注意力融合模塊包括最大池化層和平均池化層,將注意力融合模塊的兩個輸入融合相加后分別輸入至兩個分支最大池化層、平均池化層;將兩個分支的輸出結果輸入至SharedMLP層,所述SharedMLP層將兩個分支輸出結果的像素點位置元素相加,得到特征融合信息;將所述特征融合信息輸入至Global_MLP層進行不同層的融合;
其中,所述Global_MLP層包括三個分支,第一分支包括順序連接的全局池化層、全連接層、GELU激活函數、全連接層和Sigmoid激活函數;
第二分支將所述第一分支的輸出與SharedMLP層的輸出點乘進行信息融合,然后與第三分支的的輸出融合相加;
第三分支包括依次順序連接的全局池化層、1×1卷積和BN層、ReLU、1×1卷積和BN層。
7.如權利要求5所述的一種基于Transformer和融合注意力機制的目標檢測方法,其特征在于,所述第四特征圖、layer2層輸出的特征圖、第五特征圖分別作為預測模塊的三個預測分支,所述預測模塊采用YOLOX檢測器;
或,所述YOLOX檢測器的Head層包括是三個相同的分支,其中一個分支包括依次連接的CBL層、并列的CBL層、Concat層和sigmoid;其中一個并列的CBL層后順序連接卷積層、sigmoid;另外一個并列的CBL層后連接并列的卷積層,其中一個卷積層后連接sigmoid。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省計算中心(國家超級計算濟南中心),未經山東省計算中心(國家超級計算濟南中心)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211475396.6/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





