[發(fā)明專利]一種結(jié)合殘差密集塊與位置注意力的無錨框目標檢測方法有效
| 申請?zhí)枺?/td> | 202110793165.9 | 申請日: | 2021-07-14 |
| 公開(公告)號: | CN113393457B | 公開(公告)日: | 2023-02-28 |
| 發(fā)明(設(shè)計)人: | 鄺利丹;陶家俊;張建明 | 申請(專利權(quán))人: | 長沙理工大學 |
| 主分類號: | G06T7/00 | 分類號: | G06T7/00;G06N3/0464;G06N3/048;G06N3/084 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410114 湖南*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 密集 位置 注意力 無錨框 目標 檢測 方法 | ||
1.一種結(jié)合殘差密集塊與位置注意力的無錨框目標檢測方法,采用新型特征融合模塊,該模塊使用含有位置注意力的殘差密集塊(residual dense block with coordinateattention,RDBCA);使用多尺度預測方法解決大小樣本之間重疊的問題;提出非關(guān)鍵點抑制分支(non-key-point suppression,NKS)降低非關(guān)鍵點對檢測效果的影響,使其后續(xù)能在置信度閾值和非極大值抑制(non-maximum suppression,NMS)中被過濾,具體步驟如下:
第一步:以50%的概率對原始圖片進行隨機增強,包括(1)亮度,對比度,色度調(diào)整;(2)圖片的隨機裁剪;(3)圖片左右翻轉(zhuǎn);(4)保持圖片比例填充背景色;最后得到原始圖像數(shù)據(jù)I∈RH×W×3,H和W分別是原始圖像的長和寬,3為彩色通道數(shù);
第二步:將原始圖像數(shù)據(jù)輸入骨干網(wǎng)絡(luò),得到特征層;本方法提出的模型使用ResNet-18作為骨干網(wǎng)絡(luò),修改網(wǎng)絡(luò)最后的全連接層以構(gòu)造全卷積網(wǎng)絡(luò);骨干網(wǎng)絡(luò)每次下采樣,特征圖大小變?yōu)樵紙D像的一半,最后得到三層特征C3,C4和C5,特征層stride分別為8,16和32,特征圖通道數(shù)分別為128,256和512;
第三步:調(diào)整通道數(shù)大??;使用一個1×1卷積將特征層C3,C4和C5的通道數(shù)調(diào)整為64,64和128,記為D3,D4和D5;
第四步:將特征D5輸入RDBCA模塊得P5;記輸入RDBCA的特征數(shù)據(jù)為F0,首先使用連續(xù)三個3×3深度可分離卷積并且保存每次卷積后的特征信息分別記為F1_1、F1_2與F1;每個3×3深度可分離卷積后,都會與F0進行殘差連接,以降低梯度消失和梯度爆炸現(xiàn)象,最后輸出結(jié)果為F1:
其中是3×3深度可分離卷積,δ是ReLu激活函數(shù);然后將特征信息F0、F1_1、F1_2與F1共4層串聯(lián)起來,即concat([F0,F1_1,F1_2,F1]),得到比輸入數(shù)據(jù)F0通道數(shù)大4倍的新特征,再用一個1×1卷積將特征層通道數(shù)降低到與F0相同大小,并與F0相加作為局部特征融合得到特征層F2:
其中“concat”是串聯(lián)操作,是1×1卷積,δ是ReLu激活函數(shù);接著利用水平方向自適應平均池化和垂直方向自適應平均池化,從F2得到兩個不同方向的池化數(shù)據(jù),再將這一對方向感知特征串聯(lián)起來,送入一個共享參數(shù)的1×1卷積進行特征提取,得到輸出F3:
其中“HAvgPool”是水平方向自適應平均池化,“WAvgPool”是垂直方向自適應平均池化,“concat”是串聯(lián)操作,是1×1卷積;然后沿著空間維度將F3切分為兩個單獨的張量記為F3_1和F3_2:
F3_1,F3_2=split(F3), (4)
其中“split”函數(shù)可以將張量拆分為塊;接著再利用1×1卷積將F3_1和F3_2變換到和F2相同的通道數(shù),使用sigmoid函數(shù)將其映射到(0,1)范圍內(nèi),再與F2相乘得到輸出的特征數(shù)據(jù)F4:
其中是1×1卷積,σ是sigmoid激活函數(shù);最后,將輸入特征F0與輸出特征F4相加作為第二條局部特征融合得到最后輸出特征Fout:
Fout=δ(F0+F4) (6)
其中δ是ReLu激活函數(shù),F(xiàn)out即為RDBCA的輸出結(jié)果;
第五步:使用1×1卷積將P5的通道數(shù)縮小一倍,然后使用雙線性插值上采樣,將特征圖放大到與前一層D4一樣的大小,接著將D4與P5串聯(lián)起來,最后將串聯(lián)后的特征輸入第五步中的RDBCA模塊得到P4;
第六步:重復第四步與第五步,得到P3,使用最大池化將D5下采樣,并輸入第四步中的RDBCA模塊得到P6,最終得到4個特征層Pl,l∈{3,4,5,6};
第七步:生成檢測頭;對P3,P4,P5和P6分別使用一個通道數(shù)為128的3×3深度可分離卷積,采用FocalLoss損失函數(shù)計算方式,使用一個輸出通道數(shù)為C的1×1卷積生成分類分支,C為類別數(shù),得到各特征層各像素點各類的預測置信度采用FCOS中四維向量記錄檢測點到邊界框距離,得到檢測點向左、向上、向右和向下的距離,使用一個輸出通道數(shù)為4的1×1卷積生成定位分支,得到各特征層各像素點到邊界框的預測距離使用一個輸出通道數(shù)為1的1×1卷積生成“非關(guān)鍵點抑制分支”,用一個二分類器進行訓練,對于“非關(guān)鍵點抑制分支”預測到的各層各像素點的值,用sigmoid函數(shù)映射到(0,1)上,這些值即為各特征層各像素點“是關(guān)鍵點”的預測置信度其中l(wèi)={3,4,5,6},
第八步:計算損失;記特征層Pl上像素點的坐標為(il,jl),其中l(wèi)∈{3,4,5,6},對于一副H×W輸入圖像,假設(shè)有N個目標點,每個目標點Bn,1≤n≤N都包含其左上和右下坐標以及該目標類別的標注信息,記為其中且設(shè)置特征層Pl的最大距離為:
hl=A×2l-1,l=3,4,5,6, (7)
其中A取12;如果目標n滿足:
則認為該目標落入Pl層;對于任意一個落入Pl層的目標其“關(guān)鍵點”即為目標區(qū)域內(nèi)的中心點其中令其真實值權(quán)重其余點均為“非關(guān)鍵點”,令其真實值權(quán)重對所有特征層均進行如上操作,那么,采用二進制交叉熵計算非關(guān)鍵點抑制損失Lnks可表示為:
其中M為所有特征層樣本總數(shù),為原始圖像輸入神經(jīng)網(wǎng)絡(luò)后得到的Pl層上“非關(guān)鍵點抑制分支”預測值權(quán)重;模型分類損失采用FocalLoss計算方式得到分類損失Lcls;位置損失采用IoU Loss計算得到位置損失Liou;網(wǎng)絡(luò)的總損失L為三個分支損失之和:
L=Lcls+Liou+Lnks; (10)
第九步:迭代終止條件判斷;使用公式(10)計算損失,根據(jù)損失求取梯度,反向傳播更新優(yōu)化器參數(shù);重復第一步至第八步,直到迭代次數(shù)達到最大時結(jié)束;
第十步:推理階段;根據(jù)FocalLoss的檢測頭分類分支,得到各特征層各像素點各類別的預測結(jié)果根據(jù)FCOS的位置分支,得到各特征層各像素點到邊界框的預測距離從檢測頭的非關(guān)鍵點抑制分支,得到各特征層各像素點“是關(guān)鍵點”的預測結(jié)果,然后使用sigmoid函數(shù)將值映射到(0,1)上,這些值即為各特征層各像素點“是關(guān)鍵點”的預測置信度其中l(wèi)={3,4,5,6},C為類別數(shù);分類置信度首先利用“非關(guān)鍵點抑制分支”的預測結(jié)果與其進行計算,以抑制非關(guān)鍵點對檢測結(jié)果的影響,得到修正后的各像素點各類別的置信度
然后按置信度從大到小的順序選擇的前100個預測點,再過濾掉置信度低于0.05的點;最后計算預測點到四條邊的距離并利用非極大值抑制方法去除冗余的預測框;保留下來的類別和邊界框即為網(wǎng)絡(luò)對輸入圖像內(nèi)目標的預測結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于長沙理工大學,未經(jīng)長沙理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110793165.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





