[發(fā)明專利]基于注意力-關(guān)鍵點(diǎn)預(yù)測模型的單目標(biāo)跟蹤系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 202110547260.0 | 申請日: | 2021-05-19 |
| 公開(公告)號: | CN113379794B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設(shè)計(jì))人: | 孫開偉;王支浩;郭豪;鄧名新;劉期烈 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246;G06T7/11;G06N3/0464;G06N3/084 |
| 代理公司: | 重慶市恒信知識產(chǎn)權(quán)代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 關(guān)鍵 預(yù)測 模型 目標(biāo) 跟蹤 系統(tǒng) 方法 | ||
1.一種基于注意力-關(guān)鍵點(diǎn)預(yù)測模型的單目標(biāo)跟蹤系統(tǒng),其特征在于,包括目標(biāo)狀態(tài)估計(jì)模塊和目標(biāo)定位模塊,將注意力機(jī)制加入到單目標(biāo)跟蹤的目標(biāo)狀態(tài)估計(jì)模塊,將關(guān)鍵點(diǎn)檢測加入到目標(biāo)定位模塊,目標(biāo)狀態(tài)估計(jì)模塊用于通過添加注意力機(jī)制,并且用bounding_box來明確標(biāo)出目標(biāo)的完全狀態(tài),目標(biāo)定位模塊用于通過進(jìn)行兩個關(guān)鍵點(diǎn)的預(yù)測來確定目標(biāo)位置,bounding_box指的是目標(biāo)的矩形邊界框,關(guān)鍵點(diǎn)指的是bounding_box左上角和右下角兩個角點(diǎn);
所述目標(biāo)定位模塊通過進(jìn)行兩個關(guān)鍵點(diǎn)的預(yù)測來確定目標(biāo)位置,關(guān)鍵點(diǎn)指的是bounding_box左上角和右下角兩個角點(diǎn),具體包括:
首先找到第一幀bounding_box中的左上角和右下角兩個點(diǎn),并且以這兩個點(diǎn)為中心,以r為半徑畫圓,生成2個峰值為1的的高斯分布區(qū)域,圖像的其余像素區(qū)域規(guī)定為0,生成target_map;
所述目標(biāo)定位模塊還包括:將視頻流的第一幀做數(shù)據(jù)增強(qiáng)處理,將數(shù)據(jù)增強(qiáng)后的圖像輸入到一個雙層卷積神經(jīng)網(wǎng)絡(luò)中,并且以第一步中的target_map作為目標(biāo)來進(jìn)行更新,此時(shí)一共更新m次,m=5,使用共軛梯度下降法進(jìn)行更新:經(jīng)過第一幀的學(xué)習(xí),模型已經(jīng)能夠?qū)W習(xí)到了兩個關(guān)鍵點(diǎn),接著將后續(xù)幀依次輸入到模型中,得到后續(xù)每一幀的target_map,找到圖中的兩個最大值作為預(yù)測的角點(diǎn);
共軛梯度下降法進(jìn)行更新的過程中采用的損失函數(shù)為focal?loss,角點(diǎn)區(qū)域類似于正樣本,其余區(qū)域類似于負(fù)樣本,基于視頻中的連續(xù)兩幀之間滿足時(shí)空連續(xù)性和平滑性,在計(jì)算損失的時(shí),使用上一幀的target_map和當(dāng)前預(yù)測幀的target_map進(jìn)行計(jì)算,在線更新機(jī)制是在某幾幀之后才進(jìn)行更新,而不是每一幀都進(jìn)行更新,更新的次數(shù)不大于n次,n=5,損失也只是在需要更新的時(shí)候計(jì)算;最后每一幀以預(yù)測好的兩個關(guān)鍵點(diǎn)區(qū)域形成q個bounding_box,q=15;
所述目標(biāo)狀態(tài)估計(jì)模塊用bounding_box來明確標(biāo)出目標(biāo)的完全狀態(tài),具體包括:通過一個IOU預(yù)測網(wǎng)絡(luò)預(yù)測每一個框的IOU,即“預(yù)測的邊框”和“真實(shí)的邊框”的交集和并集的比值;
所述IOU預(yù)測網(wǎng)絡(luò)包括特征提取模塊、注意力機(jī)制模塊及合并輸出模塊,特征提取模塊用于提取圖片信息,注意力機(jī)制模塊用于提取圖片中的目標(biāo)信息和圖片的背景信息,及合并輸出模塊用于輸出最后的結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于注意力-關(guān)鍵點(diǎn)預(yù)測模型的單目標(biāo)跟蹤方法,其特征在于,所述目標(biāo)狀態(tài)估計(jì)模塊還包括訓(xùn)練步驟,具體包括:訓(xùn)練數(shù)據(jù)集使用的是GOT-10k,LaSOT兩個數(shù)據(jù)集,損失函數(shù)使用的是MSE,優(yōu)化器則選用的是Adam優(yōu)化器,訓(xùn)練時(shí)間約10個小時(shí);
訓(xùn)練完成后只保留模型的合并輸出模塊,將目標(biāo)定位模塊的q(q=15)個bounding_box輸入模型,對其中IOU預(yù)測的x個最大值求平均得到最后預(yù)測的bounding_box,x=3。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110547260.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測模型適用性量化的預(yù)測模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測方法及裝置、預(yù)測模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測的方法及裝置
- 圖像預(yù)測方法及裝置、電子設(shè)備和存儲介質(zhì)
- 文本預(yù)測方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)





