[發明專利]一種基于強化學習的目標追蹤的訓練方法、追蹤方法有效
| 申請號: | 202110345152.5 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113139655B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 于子毅;朱占星;賈政軒 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F17/15 |
| 代理公司: | 北京正理專利代理有限公司 11257 | 代理人: | 張雪梅 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 目標 追蹤 訓練 方法 | ||
本發明實施例公開一種基于強化學習的目標追蹤的訓練方法、追蹤方法。本發明實施例的基于強化學習的目標追蹤訓練方法,在傳統ppo算法的策略網絡損失函數上增加正則項對狀態價值函數估計器網絡和策略網絡進行訓練,強化學習的訓練過程分為兩個階段,在第一階段訓練強化學習前期的策略,在第二階段只采集設置好的閾值距離之內的數據進行訓練,使近距離下的控制更加精確。本發明利用強化學習的方法不需要顯式的預測未來時刻目標的加速度,只要知道了高速目標歷史時刻的加速度狀態,利用仿真環境中大量數據的訓練以及正確的訓練方法,可訓練出一個合理的追擊策略。解決了目標追蹤的模型給出的加速度波動過大以及最終的訓練精度不夠的問題。
技術領域
本發明涉及目標追蹤領域。更具體地,涉及一種基于強化學習的目標追蹤的訓練方法、追蹤方法、存儲介質和計算機設備。
背景技術
高速目標的追擊問題,問題定義:三維空間中有一個高速目標A(被追蹤方)在飛行,現在需要控制另一高速目標B(追蹤方)的加速度,使其能夠追擊到高速目標A。
有一些傳統的基于濾波的方法也可以實現整個追擊的過程,比如追蹤法、平行接近法、三點法、比例導引法等,但是這些方法有著共同的弊端就是需要對高速目標A完整的建模,需要知道高速目標A實時的位置速度加速度信息,以及未來所有時刻的加速度信息。也就是說,未來任意一個時刻高速目標A的位置都是可以直接計算出來的。但是在對抗的情況下,高速目標A如果不希望高速目標B能夠追擊到他,那么這個未來時刻的加速度顯然是無法預知的,在這種情況下,傳統方法只能通過大量的估計近似方法來預知未來高速目標A的加速度情況,這就導致了傳統方法的追擊精度很大程度上依賴于近似算法的精度。
發明內容
有鑒于此,本發明第一個實施例提供一種基于強化學習的目標追蹤訓練方法,包括:
S1、構建狀態價值函數估計器網絡和策略網絡結構;
S2、初始化狀態價值函數估計器網絡和策略網絡結構;
S3、利用策略網絡和環境交互生成狀態數據、動作數據,并計算獎勵回報;
S4、利用所述狀態數據、動作數據和增加正則項的損失函數訓練所述策略網絡和狀態價值函數估計器網絡,用訓練產生的參數更新策略網絡和狀態價值函數估計器網絡;
S5、利用更新以后的策略網絡在環境中做測試,如果最后追蹤方和被追蹤方的相對距離到了第一限定距離以內,則進行S6,否則重復S3-S4直到追蹤距離到第一限定距離以內;
S6、保存當前的策略網絡的策略為追蹤方前期策略,并固定該策略;
S7、采集追蹤方和被追蹤方的相對距離在閾值距離以內的狀態數據和動作數據作為第二數據;
S8、利用所述第二數據在當前訓練基礎上繼續訓練策略網絡和狀態價值函數估計器網絡;
S9、測試策略網絡,如果追蹤方和被追蹤方的相對距離降到第二限定距離以內,則保存當前的策略網絡的策略為追蹤方后期策略,否則繼續重復S7-S8;
其中,第二限定距離第一限定距離閾值距離初始距離;
所述增加正則項的損失函數表示為:
lossactor=ζ1|ai-ai-1|+ζ2|2ai-ai-1-ai+1|+ζ3|a0-0|+ppo_actor_loss
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110345152.5/2.html,轉載請聲明來源鉆瓜專利網。





