[發(fā)明專利]一種基于強化學(xué)習(xí)算法SAC的目標跟蹤方法、裝置及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210240273.8 | 申請日: | 2022-03-10 |
| 公開(公告)號: | CN114897930A | 公開(公告)日: | 2022-08-12 |
| 發(fā)明(設(shè)計)人: | 范保杰;吳育竹;蔣國平;徐豐羽 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246;G06N3/04;G06N3/08;G06N20/00;G06V10/25;G06V10/77;G06V10/774;G06V10/82;G06V20/40;G06V20/52 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 劉艷艷 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強化 學(xué)習(xí) 算法 sac 目標 跟蹤 方法 裝置 存儲 介質(zhì) | ||
1.一種基于強化學(xué)習(xí)算法SAC的目標跟蹤方法,其特征在于,包括:
獲取視頻數(shù)據(jù);
在視頻數(shù)據(jù)的當(dāng)前幀中確定搜索區(qū)域位置和大小;
判斷當(dāng)前幀是否為第一幀;
響應(yīng)于當(dāng)前幀非第一幀,獲取當(dāng)前幀的上一幀的預(yù)測結(jié)果,根據(jù)當(dāng)前幀的上一幀的預(yù)測結(jié)果在當(dāng)前幀裁取圖像得到當(dāng)前幀裁取圖像s,將當(dāng)前幀裁取圖像s輸入預(yù)訓(xùn)練好的actor網(wǎng)絡(luò)模型進行特征提取,得到輸出的預(yù)測框;
根據(jù)所述預(yù)測框?qū)δ繕诉M行跟蹤,并將預(yù)測框作為下一幀的groundTruth;
其中所述actor網(wǎng)絡(luò)模型的訓(xùn)練方法,包括:
在視頻數(shù)據(jù)的第一幀中確定目標的大小和位置,設(shè)置經(jīng)驗池參數(shù);
初始化actor、target_actor,critic1、target_critic1,critic2、target_critic2網(wǎng)絡(luò)參數(shù);
響應(yīng)于當(dāng)前輸入幀為第一幀,對actor、target_actor網(wǎng)絡(luò)進行初始化,
響應(yīng)于當(dāng)前幀非第一幀,根據(jù)當(dāng)前幀預(yù)測框在當(dāng)前幀裁取圖像,得到預(yù)測框裁取圖像s',并計算所述當(dāng)前幀預(yù)測框與當(dāng)前幀真實框之間的IoU;根據(jù)IoU,通過獎勵函數(shù)計算得到獎勵值;
將上一幀的預(yù)測結(jié)果在當(dāng)前幀裁取圖像s、動作、獎勵值、預(yù)測框裁取圖像s'存入經(jīng)驗池;
根據(jù)經(jīng)驗池中存儲的數(shù)據(jù),通過actor、critic網(wǎng)絡(luò)計算動作at、動作at在定義的分布Normal(mu.std)中對應(yīng)的概率的對數(shù)logπφ(a|s);
根據(jù)計算得到的動作at、動作at在定義的分布Normal(mu.std)中對應(yīng)的概率的對數(shù)logπφ(a|s),計算actor、critic1、critic2網(wǎng)絡(luò)損失,利用強化學(xué)習(xí)SAC算法更新網(wǎng)絡(luò)權(quán)值。
2.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)算法SAC的目標跟蹤方法,其特征在于,其中,所述設(shè)置經(jīng)驗池參數(shù),包括經(jīng)驗池容量X,表示可以存儲X條數(shù)據(jù),每一條數(shù)據(jù)符號為:(s,a,r,s'),其中s表示上一幀的預(yù)測結(jié)果在當(dāng)前幀裁取圖像、a表示動作、r表示獎勵值、s'表示當(dāng)前幀預(yù)測框在當(dāng)前幀裁取圖像。
3.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)算法SAC的目標跟蹤方法,其特征在于,所述設(shè)置經(jīng)驗池參數(shù),包括:根據(jù)經(jīng)驗設(shè)置經(jīng)驗池容量為X,表示可以存儲X條數(shù)據(jù)符號為:(s,a,r,s'),一條數(shù)據(jù)包含:在當(dāng)前幀所裁取1*3*107*107維度圖像,1*3維度的動作,1*1的獎勵值,當(dāng)前幀圖像采取動作后裁取的1*3*107*107維度圖像。
4.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)算法SAC的目標跟蹤方法,其特征在于,所述初始化actor、target_actor,critic1、target_critic1,critic2、target_critic2網(wǎng)絡(luò)參數(shù),包括:加載在imageNet預(yù)訓(xùn)練好的vgg-M網(wǎng)絡(luò)的前四層網(wǎng)絡(luò)參數(shù),并以此作為圖片特征提取模型網(wǎng)絡(luò),并將actor、critic1,critic2網(wǎng)絡(luò)參數(shù)分別賦值給target_actor、target_critic1,target_critic2網(wǎng)絡(luò)參數(shù)。
5.根據(jù)權(quán)利要求1所述的基于強化學(xué)習(xí)算法SAC的目標跟蹤方法,其特征在于,響應(yīng)于當(dāng)前輸入幀為第一幀,對actor、target_actor網(wǎng)絡(luò)進行初始化,包括:若此幀圖片為該視頻序列第一幀,最小化actor以及target_actor網(wǎng)絡(luò)輸出和標簽之間的誤差,損失函數(shù)表達式為:
其中μ(sm|φμ)為在groundTruth加入高斯噪聲,產(chǎn)生M個樣本,經(jīng)由actor網(wǎng)絡(luò)處理后輸出的預(yù)測動作,am為標簽,是M個樣本與groundTruth的真實距離,μ是actor網(wǎng)絡(luò),m表示第m個數(shù)據(jù);
通過Adam優(yōu)化器訓(xùn)練actor以及target_actor網(wǎng)絡(luò)參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210240273.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





