[發(fā)明專利]一種基于編解碼結(jié)構(gòu)的目標跟蹤方法有效
| 申請?zhí)枺?/td> | 202010518310.8 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111696136B | 公開(公告)日: | 2023-06-16 |
| 發(fā)明(設(shè)計)人: | 王正寧;曾浩;潘力立;趙德明;曾儀;劉怡君;彭大偉 | 申請(專利權(quán))人: | 電子科技大學 |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 周劉英 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 解碼 結(jié)構(gòu) 目標 跟蹤 方法 | ||
1.一種基于編解碼結(jié)構(gòu)的目標跟蹤方法,其特征在于,該方法通過目標跟蹤網(wǎng)絡(luò)模型實現(xiàn),所述目標跟蹤網(wǎng)絡(luò)模型的結(jié)構(gòu)主要由三部分組成,第一部分是編碼器-解碼器部分:其中通過由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的編碼器提取出模板幀和搜索幀的深層特征,其中,模板幀為被搜索的對象圖像;搜索幀用于尋找被搜索對象的位置,而解碼器在訓練部分,將模板幀的深層特征還原回該對象圖像;第二部分是鑒別網(wǎng)絡(luò),用于鑒別解碼器輸出的圖像與輸入解碼器的圖像是否屬于同一對象;第三部分是確定對象位置:通過將提取出的模板幀特征與搜索幀特征送入?yún)^(qū)域推薦網(wǎng)絡(luò),獲得被跟蹤物體的位置;
所述目標跟蹤網(wǎng)絡(luò)模型的訓練過程主要由兩個階段組成,第一個階段是特征提取預訓練:通過編碼器-解碼器結(jié)構(gòu)與生成對抗網(wǎng)絡(luò),學習到訓練集中的跟蹤對象的深層特征,得到特征提取部分的預訓練模型;第二個階段是所述目標跟蹤網(wǎng)絡(luò)模型的整體訓練階段,通過對整個所述目標跟蹤網(wǎng)絡(luò)進行端到端的訓練,完成對區(qū)域推薦網(wǎng)絡(luò)的訓練以及對特征提取部分的微調(diào);
具體地,該方法包括以下步驟:
(1)數(shù)據(jù)集預處理:目標跟蹤所使用的數(shù)據(jù)集是由許多的視頻流及其對應的標簽所組成,標簽標注有每一幀對象的位置以及包圍框的長寬,通過標簽,將視頻流中的每一幀圖像進行裁切,以跟蹤對象為中心裁切成wo×ho像素的對象幀F(xiàn)o和wc×hc像素的搜索幀F(xiàn)c,wowc,hohc,其中屬于該視頻流中的第一幀對象幀F(xiàn)o為該視頻流的模板幀F(xiàn)t,且二者尺寸相同;完成裁切后,在每一個視頻流中,隨機挑選n個對象幀F(xiàn)o,將模板幀F(xiàn)t與對象幀F(xiàn)o做點對點相減,獲得殘差幀F(xiàn)r,作為訓練鑒別網(wǎng)絡(luò)的樣本;
(2)設(shè)計編碼器:編碼器用于圖像的特征提取,由深度殘差網(wǎng)絡(luò)組成,特征提取部分為兩個經(jīng)過預訓練的編碼器E1、E2,這兩個編碼器參數(shù)共享,兩個編碼器分別輸入模板幀F(xiàn)t與搜索幀F(xiàn)c,通過一系列卷積、下采樣、激活函數(shù)后,輸出模板幀特征Conv(Ft)與搜索幀特征Conv(Fc),這兩個編碼器之間參數(shù)共享,保證其提取特征具有一致性,其中輸入模板幀F(xiàn)t尺寸為wt×ht×3,搜索幀F(xiàn)c尺寸為wc×hc×3;輸出模板幀特征Conv(Ft)尺寸為wt-conv×ht-conv×Ccd,搜索幀特征Conv(Fc)尺寸為wc-conv×hc-conv×Ccd;解碼器的結(jié)構(gòu)與編碼器對稱,解碼器輸入是尺寸為wt-conv×ht-conv×Cde的模板幀特征Conv(Ft),通過一系列卷積、上采樣、激活函數(shù)后輸出尺寸為wt×ht×3的解碼模板幀對象
(3)設(shè)計鑒別網(wǎng)絡(luò):鑒別網(wǎng)絡(luò)為一個卷積神經(jīng)網(wǎng)絡(luò),輸入為解碼模板幀與模板幀的殘差通過卷積,下采樣,全連接層,激活函數(shù),輸出模板幀與解碼出的模板幀為同一對象的概率;
(4)編碼器-解碼器預訓練:編碼器為網(wǎng)絡(luò)的特征提取部分,同時使用一個對稱的解碼器,組成編碼器-解碼器結(jié)構(gòu),同時與一個鑒別網(wǎng)絡(luò)一起,組成了一個類生成對抗網(wǎng)絡(luò)結(jié)構(gòu);如果解碼器使用上述深度殘差網(wǎng)絡(luò),解碼器與編碼器網(wǎng)絡(luò)結(jié)構(gòu)對稱,將編碼器網(wǎng)絡(luò)中的所有殘差模塊按逆序放置,同時將編碼器中所用到的步長為2的卷積替換為步長為2的反卷積,池化層替換成上采樣層,即為對應的解碼器結(jié)構(gòu);
編碼器-解碼器結(jié)構(gòu)輸入模板幀F(xiàn)t,編碼器輸出該對象幀F(xiàn)o的特征Fe,也就是其深層特征,解碼器用于解碼Fe,輸出解碼結(jié)果鑒別網(wǎng)絡(luò)用于鑒別是否在可接受范圍,即判斷Ft與是否是同一對象;所述類生成對抗網(wǎng)絡(luò)的訓練優(yōu)化目標如下所示:
其中EG對應編碼器-解碼器,相當于一般生成對抗網(wǎng)絡(luò)的生成網(wǎng)絡(luò),但其輸入不再是噪聲而是模板幀F(xiàn)t,D對應鑒別網(wǎng)絡(luò),其作用與一般生成對抗網(wǎng)絡(luò)的鑒別網(wǎng)絡(luò)相同,輸出范圍是0~1,數(shù)值越大表示Ft與是同一對象的可能性越高;表示當x服從Fr的概率分布時,log(D(x))的期望;D(x)表示鑒別器在輸入為x時的輸出,也就是對x的鑒別結(jié)果;表示當z服從Ft的概率分布時,log(1-D(EG(z)-Ft))的期望;EG(z)表示編碼器-解碼器在輸入為z時的輸出,D(EG(z)-Ft)表示對EG(z)-Ft的鑒別結(jié)果;當達到納什均衡后,即編碼器-解碼器預訓練完成,其編碼器部分即為該目標跟蹤網(wǎng)絡(luò)模型的特征提取網(wǎng)絡(luò);
(5)設(shè)計區(qū)域推薦網(wǎng)絡(luò):區(qū)域推薦網(wǎng)絡(luò)輸入模板幀特征Conv(Ft)與搜索幀特征Conv(Fc),輸出被跟蹤對象的可能位置與其包圍框的長寬;輸入Conv(Ft)與Conv(Fc)后,首先將Con?v(Ft)從中心裁剪為wt-conv-cut×ht-conv-cut×256的尺寸,得到Conv(Ft)cut,之后通過卷積調(diào)整Conv(Ft)cut與Conv(Fc)的尺寸,并進行互相關(guān)運算,輸出尺寸為wres×hres×2k的分類結(jié)果CLS與wres×hres×4k的回歸結(jié)果REG,輸出的結(jié)果的wres×hres維度與搜索幀wc×hc在空間上對應,每個位置上有k個設(shè)置了比例和大小的錨定框;CLS的2k個通道代表了網(wǎng)絡(luò)預測的k種錨框包含目標的概率Ppos和不包含目標的概率Pneg;REG的4k個通道代表了網(wǎng)絡(luò)預測的k種錨框與實際目標框的長寬差異和位置差異,分別為dx,dy,dw,dh;其與實際目標框的關(guān)系為:
其中Ax、Ay表示參考框的中心點,由其所在位置決定,Aw、Ah表示參考框的寬高,這是人為預先設(shè)定的,Tx、Ty、Tw、Th表示目標的坐標與長寬的真實值;
(6)選取分類損失函數(shù):所述目標跟蹤網(wǎng)絡(luò)的輸入為模板幀F(xiàn)t與搜索幀F(xiàn)c,輸出為對應錨定框的分類結(jié)果CLS與回歸結(jié)果REG;所述目標跟蹤網(wǎng)絡(luò)的損失函數(shù)由分類損失Lcls和回歸損失Lreg構(gòu)成,分類損失Lcls使用Focal?Loss,公式如下所示:
y表示標簽值,表示實際分類值,即Ppos,其中α為平衡因子,平衡正負樣本本身的數(shù)量比例不均,γ用于減少易分類樣本的損失,當γ0時使得該目標跟蹤網(wǎng)絡(luò)關(guān)注于困難的、錯分的樣本;
(7)選取回歸損失函數(shù):回歸損失Lreg使用Distance-IoU?Loss,其公式為:
LDIoU=1-DIoU???????????????????????????????????(4)
其中:
b和分別代表真實包圍框和預測包圍框中心點,代表真實包圍框和預測包圍框中心點這兩個中心點距離,c代表能夠同時包含預測框和真實框的最小閉包區(qū)域的對角線距離,S和分別代表真實包圍框和預測包圍框的面積;
(8)目標跟蹤網(wǎng)絡(luò)整體訓練:完成所述步驟4)的預訓練后,開始整個目標跟蹤網(wǎng)絡(luò)的端到端訓練,將分類損失Lcls和回歸損失Lreg按照如下公式相加,即為最終的損失函數(shù):
loss=Lcls+λLreg???????????????????????????????????(7)
其中λ是一個人為預先設(shè)置的參數(shù),用于平衡分類損失與回歸損失的占比;整體訓練中,在編碼器-解碼器預訓練時作為特征提取的編碼器的前3層參數(shù)固定,后兩層被訓練微調(diào);當訓練到預先指定輪數(shù)時,經(jīng)過測試選取指標最好的模型參數(shù)作為最終的訓練結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學,未經(jīng)電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010518310.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學結(jié)構(gòu)





