[發明專利]一種基于強化學習的目標追蹤的訓練方法、追蹤方法有效
| 申請號: | 202110345152.5 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113139655B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 于子毅;朱占星;賈政軒 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F17/15 |
| 代理公司: | 北京正理專利代理有限公司 11257 | 代理人: | 張雪梅 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 目標 追蹤 訓練 方法 | ||
1.一種基于強化學習的目標追蹤訓練方法,其特征在于,包括:
S1、構建狀態價值函數估計器網絡和策略網絡結構;
S2、初始化狀態價值函數估計器網絡和策略網絡結構;
S3、利用策略網絡和環境交互生成狀態數據、動作數據,并計算獎勵回報;
所述獎勵回報的計算式為:
r(st,at)=func1(dist)-func1(dist+1)+Anglet+1-Anglet
式中,dist、dist+1分別表示在t、t+1時刻追蹤方和被追蹤方的相對距離,Anglet、Anglet+1分別表示在t、t+1時刻的追蹤方和被追蹤方的速度方向的相對角度;func1是相對距離的分段線性函數;
S4、利用所述狀態數據、動作數據和增加正則項的損失函數訓練所述策略網絡和狀態價值函數估計器網絡,用訓練產生的參數更新策略網絡和狀態價值函數估計器網絡;
S5、利用更新以后的策略網絡在環境中做測試,如果追蹤方和被追蹤方的相對距離能到第一限定距離以內,則進行S6,否則重復S3-S4直到追蹤距離到第一限定距離以內;
S6、保存當前的策略網絡的策略為追蹤方前期策略,并固定該策略;
S7、采集追蹤方和被追蹤方的相對距離在閾值距離以內的狀態數據和動作數據作為第二數據;
S8、利用所述第二數據在當前訓練基礎上繼續訓練策略網絡和狀態價值函數估計器網絡;
S9、測試策略網絡,如果追蹤方和被追蹤方的相對距離降到第二限定距離以內,則保存當前的策略網絡的策略為追蹤方后期策略,否則繼續重復S7-S8;
其中,第二限定距離第一限定距離閾值距離初始距離;
所述增加正則項的損失函數表示為:
lossactor=ζ1|ai-ai-1|+ζ2|2ai-ai-1-ai+1|+ζ3|a0-0|+ppo_actor_loss
ai表示在時間步i網絡輸出的加速度,|ai-ai-1|表示加速度的一階導數,|2ai–ai-1–ai+1|表示加速度的二階導數,|a0-0|表示初始的加速度;ppo_actor_loss為傳統ppo算法的損失函數;ζ1,ζ2,ζ3分別表示對加速度的一階導數的平滑程度,加速度的二階導數的平滑程度,初始加速度的平滑程度,平滑程度的值越大,平滑程度越大。
2.根據權利要求1所述的方法,其特征在于,所述狀態價值函數估計器網絡結構和策略網絡結構,均使用三層全連接結構,并在每一個全連接層的輸出添加數據優化層。
3.根據權利要求1所述的方法,其特征在于,
所述狀態價值函數估計器網絡結構的輸入是當前的狀態數據,輸出是對應的價值函數;
所述策略網絡結構的輸入是當前的狀態數據,輸出是動作數據。
4.根據權利要求1所述的方法,其特征在于,所述狀態數據包括:追蹤方和被追蹤方在三維空間中的相對位置和相對速度,追蹤方目前的海拔高度、聲速、大氣密度,追蹤方和被追蹤方的相對速度偏角。
5.根據權利要求1所述的方法,其特征在于,所述動作數據為追蹤方的垂直于當前速度的平面上的加速度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110345152.5/1.html,轉載請聲明來源鉆瓜專利網。





