[發明專利]一種基于注意力機制的改進YOLOv3目標檢測方法在審
| 申請號: | 202011396416.1 | 申請日: | 2020-12-04 |
| 公開(公告)號: | CN112508014A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 李永勝;孫長銀;陸科林;徐樂玏 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 改進 yolov3 目標 檢測 方法 | ||
本發明公開了一種基于注意力機制的改進YOLOv3目標檢測方法,在主干網絡Darknet?53中引入注意力模塊SKNet,根據輸入自適應調整卷積核大小,聚焦到感興趣區域;在特征提取網絡的頂部引入空間金字塔池化模塊SPP,增加網絡的感受野;在特征融合網絡中引入通道注意力模塊SENet,為通道分配權重,充分提取通道的有效特征信息。實驗表明,該發明相較于原始YOLOv3模型,可以有效檢測小目標,加快訓練的收斂速度,并在檢測速度不受太大影響的前提下提高檢測精度。
技術領域
本發明涉及一種基于注意力機制的改進YOLOv3目標檢測方法,屬于圖像處理中的目標檢測技術領域。
背景技術
目標檢測作為圖像理解和計算機視覺的基石,它是解決分割、場景的理解、目標的追蹤、圖像描述、事件檢測和活動識別等更具有復雜性和更高層次的視覺任務的基礎。目標檢測在人工智能和信息技術等很多領域都有廣泛的應用,如安保、人機交互、自動駕駛、機器人視覺、消費電子產品、基于內容的圖像檢索、智能視頻監控和增強現實。
目前,基于深度學習的一系列目標檢測算法大致可以分為兩大流派:
1.兩步走(two-stage)算法:先產生候選區域然后再進行CNN分類(R-CNN系列),
2.一步走(one-stage)算法:直接對輸入圖像應用算法并輸出類別和相應的定位(YOLO系列)。
之前的R-CNN系列雖然準確率比較高,但是即使是發展到Faster R-CNN,檢測速度也僅為7FPS(原文為5FPS),而YOLO系列則在兼顧準確率的基礎上大大提升了檢測速度,使得檢測的工作能夠用到實時的場景。YOLO的檢測思想不同于R-CNN系列的思想,它將目標檢測作為回歸任務來解決。YOLO神經網絡在一次預測中,直接從完整圖像預測出目標位置和概率,是一種端到端的網絡結構。
YOLOv3是當前應用較多的一種目標檢測方法,對YOLO做出了很多改進,使得網絡在小目標檢測和檢測精度上都得到了較好的改善,并且檢測速度并沒有受到太大影響,依然符合檢測實時性要求。但YOLOv3仍存在以下問題:目標定位的精度不高;訓練收斂速度慢;小目標檢測錯誤率較高。
發明內容
本發明的目的是提供一種基于注意力機制的改進YOLOv3目標檢測方法,一定程度上可以有效檢測小目標,加快訓練的收斂速度,并在檢測速度不受太大影響的前提下提高檢測精度。
為達到此目的,本發明采用以下技術方案:
本發明所述的一種基于注意力機制的改進YOLOv3目標檢測方法,包括以下步驟:
S1:針對一張原始圖像,對其進行預處理,并歸一化為416×416×3,得到訓練樣本;
S2:修改Darknet-53的網絡結構,在每個殘差層Basic Block模塊中均引入自適應卷積核大小的注意力機制;
S3:在Darknet-53頂部引入空間金字塔池化模塊SPP,以增加特征提取網絡的感受野;
S4:用改進后的Darknet-53網絡提取圖像特征,并從網絡的不同深度引出三個尺度的特征圖(feature map)至特征融合支路;
S5:在三條特征融合支路中引入通道注意力機制,為通道分配權重,充分提取通道的有效特征信息;
S6:最后在三條支路上分別預測,得到多尺度目標檢測結果。
作為本發明的進一步技術方案,所述步驟S1中,預處理方式包括隨機旋轉、水平翻轉和標準化處理。
作為本發明的進一步技術方案,所述步驟S2中,在殘差層Basic Block模塊中引入自適應卷積核大小的注意力機制的方法為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011396416.1/2.html,轉載請聲明來源鉆瓜專利網。





