[發(fā)明專利]一種基于Transformer和融合注意力機制的目標檢測方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202211475396.6 | 申請日: | 2022-11-23 |
| 公開(公告)號: | CN115908772A | 公開(公告)日: | 2023-04-04 |
| 發(fā)明(設計)人: | 趙志剛;張兆虔;耿麗婷;霍吉東;李傳濤;王春曉;張儉;李響 | 申請(專利權)人: | 山東省計算中心(國家超級計算濟南中心) |
| 主分類號: | G06V10/20 | 分類號: | G06V10/20;G06V10/42;G06V10/44;G06V10/774;G06V10/80;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 馬海波 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 transformer 融合 注意力 機制 目標 檢測 方法 系統(tǒng) | ||
本發(fā)明提出了一種基于Transformer和融合注意力機制的目標檢測方法,包括:獲取待檢測圖像進行預處理;將預處理后的待檢測圖像輸入至訓練好的目標檢測模型中,輸出檢測結果;其中,所述目標檢測模型包括Swin?Transformer模塊、注意力融合模塊和檢測模塊,所述Swin?Transformer模塊用于提取待檢測圖像的全局特征,所述注意力融合模塊用于局部特征提取,并將全局特征和局部特征采用跨層級聯(lián)的方式進行融合,所述檢測模塊用于根據(jù)融合后的特征輸出檢測結果。融合局部感受野與Transformer的全局信息,以進一步提升局部特征與全局信息融合的能力,增強低信噪比目標的檢測效果。
技術領域
本發(fā)明屬于深度學習計算機視覺相關技術領域,尤其涉及一種基于Transformer和融合注意力機制的目標檢測方法及系統(tǒng)。
背景技術
本部分的陳述僅僅是提供了與本發(fā)明相關的背景技術信息,不必然構成在先技術。
隨著近兩年深度學習技術的發(fā)展,越來越精良的模型結構應運而生,2020年以前,圖像視覺領域大多采用卷積神經網絡(CNN)用于圖像特征提取,卷積神經網絡采用分層方式進行特征表示,相較于自然語言處理(NLP)采用序列進行特征表示,CNN需要逐層積累,由淺入深提取更高級的語義信息特征。即便如此CNN所獲取的實際感受野仍遠小于理論感受野,不利于特征信息的捕獲,反而帶來了計算量的劇增。為此不少學者開始嘗試將NLP領域應用的Transformer應用于計算機視覺(CV)領域。2020年Google提出ViT模型驗證了Transformer模型在圖像分類領域的有效性。由此,基于Transformer的CV時代得以展開。Swin?Transformer模型提出于CVPR2021,該模型通過shifted?windows來計算,針對視覺實體的尺度變換以及圖像高分辨問題,借助Shifted?Windows?Multi-Head?Self-Attention(SW-MSA)概念,實現(xiàn)信息在相鄰窗口間的傳遞,加強上下文聯(lián)系,Swin?Transformer在性能上展現(xiàn)了較好的優(yōu)勢,但其更傾向于獲取圖像的全局特征,對于局部信息的提取能力不強,而目標檢測任務中存在較多低信噪比的目標特征,為此存在局部邊緣紋理等特征信息提取能力弱的情況。
發(fā)明內容
為克服上述現(xiàn)有技術的不足,本發(fā)明提供了一種基于Transformer和融合注意力機制的目標檢測方法及系統(tǒng),采用Swin?Transformer技術作為骨干網絡應用于目標檢測任務中。同時提出AGFF方法融合局部感受野與Transformer的全局信息,以進一步提升局部特征與全局信息融合的能力,增強低信噪比目標的檢測效果。同時采用YOLOX檢測器完成檢測任務。
為實現(xiàn)上述目的,本發(fā)明的一個或多個實施例提供了如下技術方案:一種基于Transformer和融合注意力機制的目標檢測方法,包括:
獲取待檢測圖像進行預處理;
將預處理后的待檢測圖像輸入至訓練好的目標檢測模型中,輸出檢測結果;
其中,所述目標檢測模型包括Swin?Transformer模塊、注意力融合模塊和檢測模塊,所述Swin?Transformer模塊用于提取待檢測圖像的全局特征,所述注意力融合模塊用于局部特征提取,并將全局特征和局部特征采用跨層級聯(lián)的方式進行融合,所述檢測模塊用于根據(jù)融合后的特征輸出檢測結果。
本發(fā)明的第二個方面提供一種基于Transformer和融合注意力機制的目標檢測系統(tǒng),包括:
圖像獲取模塊:獲取待檢測圖像進行預處理;
目標檢測模塊:將預處理后的待檢測圖像輸入至訓練好的目標檢測模型中,輸出檢測結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省計算中心(國家超級計算濟南中心),未經山東省計算中心(國家超級計算濟南中心)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211475396.6/2.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經網絡模型壓縮算法
- 點云分割方法、系統(tǒng)、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





