[發(fā)明專利]基于注意力機制的雙流層次孿生網(wǎng)絡(luò)目標跟蹤方法有效
| 申請?zhí)枺?/td> | 202011067770.X | 申請日: | 2020-10-07 |
| 公開(公告)號: | CN112258554B | 公開(公告)日: | 2022-11-18 |
| 發(fā)明(設(shè)計)人: | 楊博;胡小鵬;王凡 | 申請(專利權(quán))人: | 大連理工大學 |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 機制 雙流 層次 孿生 網(wǎng)絡(luò) 目標 跟蹤 方法 | ||
1.一種基于注意力機制的雙流層次孿生網(wǎng)絡(luò)目標跟蹤方法,其特征在于,步驟如下:
第一步,構(gòu)建定位子網(wǎng)與語義子網(wǎng),每個子網(wǎng)均為一個孿生網(wǎng)絡(luò),在定位子網(wǎng)中,利用孿生網(wǎng)絡(luò)提取前一幀目標模板特征和搜索區(qū)域特征,在語義子網(wǎng)中,利用孿生網(wǎng)絡(luò)提取第一幀目標模板特征和搜索區(qū)域特征;
由定位子網(wǎng)和語義子網(wǎng)兩個子網(wǎng)絡(luò)組成,每一個子網(wǎng)絡(luò)都是一個深度孿生神經(jīng)網(wǎng)絡(luò);在孿生網(wǎng)絡(luò)中,模板分支和搜索分支的相同結(jié)構(gòu)共享網(wǎng)絡(luò)權(quán)值,學習一個用于計算目標模板區(qū)域和搜索區(qū)域之間的相似性得分的相似性匹配函數(shù);在定位子網(wǎng)中,將前一幀作為模板圖像,使用低層特征來獲取連續(xù)幀間的空間位置信息,此外,應(yīng)用空間注意模塊進一步突出目標的重要空間信息;在語義子網(wǎng)中,將第一幀為模板圖像,使用高層特征來計算搜索圖像與目標的語義相似度,此外,應(yīng)用通道注意模塊對不同的通道賦予不同的權(quán)重,進一步突出目標更重要的語義特征;每個子網(wǎng)通過相關(guān)操作都可得到一個響應(yīng)圖作為輸出;定位子網(wǎng)的響應(yīng)圖蘊含著連續(xù)幀間的空間位置信息,語義子網(wǎng)的響應(yīng)圖則反映了當前幀與第一幀之間的語義相似度;通過融合兩個子網(wǎng)的響應(yīng)圖可集成目標的空間信息與語義信息,利用互補優(yōu)勢從而得到最終的響應(yīng)輸出;
第二步,構(gòu)建空間注意力模塊增強定位子網(wǎng)中提取的空間特征;
在定位子網(wǎng)中構(gòu)建空間注意力模塊,空間注意力模塊用來關(guān)注輸入圖像中的重要空間信息,激活與目標相關(guān)性高的空間特征;首先在通道維度上分別做一個最大池化操作和平均池化操作,獲得兩個不同的特征描述;然后通過串聯(lián)合并兩個特征描述獲得具有兩個通道的特征圖;之后經(jīng)過一個卷積操作,將其降維為1個通道;再利用Sigmoid激活函數(shù)將權(quán)值圖元素限制在0至1之間,使得加權(quán)處理后得到的特征圖不會發(fā)生顯著變化,而且在一定程度上增強空間信息;具體方法如下:
Ms(F)=σ(f7*7([AvgPool(F);MaxPool(F)])) (1)
其中,
F代表輸入特征,Ms(F)代表最終得到的空間權(quán)值圖,σ代表Sigmoid激活函數(shù),f7*7代表卷積核為7×7的卷積操作,AvgPool和MaxPool分別代表平均池化操作和最大池化操作;
和分別代表F經(jīng)過最大池化操作和平均池化操作后得到的兩個特征描述;將輸入特征與權(quán)值進行元素級乘法完成空間特征選擇,然后利用相似性度量函數(shù)計算得到來自定位子網(wǎng)的響應(yīng)映射:
其中,RL(z;x)代表定位子網(wǎng)的響應(yīng)映射,g代表相似性度量函數(shù),Ms(F)為空間權(quán)值圖,代表原始圖像經(jīng)過卷積層進行特征提取,和分別代表模板分支和搜索分支經(jīng)過卷積層后得到的特征;
第三步,構(gòu)建通道注意力模塊激活語義子網(wǎng)中與目標信息相關(guān)性強的通道特征;
在語義子網(wǎng)中構(gòu)建通道注意力模塊,對跟蹤特定目標方面發(fā)揮更重要作用的通道賦予更高的權(quán)重,提高目標信息的敏感性,抑制背景信息所帶來的負面影響;通道注意力網(wǎng)絡(luò)的設(shè)計原理在于利用深度網(wǎng)絡(luò)獲取的特征圖各通道對目標特征表達的貢獻程度存在差異,不同目標激活不同特征通道;為了有效地計算通道注意力,將輸入的特征映射分別經(jīng)過基于寬度和高度的最大池化操作和平均池化操作得到特征向量,然后經(jīng)過一個雙層感知器MLP;將MLP輸出的特征進行元素級的加和操作,再經(jīng)過Sigmoid激活操作生成最終的通道注意力權(quán)值圖;具體方法如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (4)
其中,
F代表輸入特征,Mc(F)代表最終得到的通道
權(quán)值圖,σ代表Sigmoid激活函數(shù),
MLP代表多層感知機模型,AvgPool和MaxPool分別代表平均池化操作和最大池化操作;
和分別代表F經(jīng)過最大池化操作和平均池化操作后得到的兩個特征描述;W0和W1代表多層感知器模型中的參數(shù);將輸入特征與權(quán)值進行元素級乘法完成通道特征選擇,然后利用相似性度量函數(shù)計算得到來自語義子網(wǎng)的響應(yīng)映射:
其中,RS(z;x)代表語義子網(wǎng)的響應(yīng)映射,g代表相似性度量函數(shù),Mc(F)為通道權(quán)值圖,代表原始圖像經(jīng)過卷積層進行特征提取,和分別代表模板分支和搜索分支經(jīng)過卷積層后得到的特征;
第四步,對兩個子網(wǎng)的輸出響應(yīng)圖進行加權(quán)融合以實現(xiàn)跟蹤
對兩個子網(wǎng)的輸出響應(yīng)圖進行加權(quán)融合實現(xiàn)目標跟蹤;定位子網(wǎng)通過提取低層特征來表示當前幀與前一幀之間的空間位置信息,語義子網(wǎng)則使用高層特征來計算當前幀與第一幀之間的語義相似度;經(jīng)過計算,每個子網(wǎng)都可得到一個輸出響應(yīng)圖,對于不同的場景,定位子網(wǎng)和語義子網(wǎng)扮演著不同的角色;定位子網(wǎng)所得到的響應(yīng)圖中包含詳細的空間信息,語義子網(wǎng)所得到的響應(yīng)圖中包含豐富的語義信息;為了提高跟蹤器的魯棒性,通過將兩個網(wǎng)絡(luò)的響應(yīng)圖進行加權(quán)融合來定位目標;融合方法定義如下:
R=ωLRL+ωsRs (7)
其中,R代表最終的響應(yīng)輸出,RL和Rs分別是定位子網(wǎng)和語義子網(wǎng)的響應(yīng)輸出圖,ωL和ωs代表相應(yīng)的權(quán)重系數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學,未經(jīng)大連理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011067770.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種變量擺線液壓馬達
- 下一篇:一種提高偏光片光學對位精度的裝置





