[發明專利]一種基于深度強化學習的波形自適應遴選方法在審
| 申請號: | 202211277900.1 | 申請日: | 2022-10-19 |
| 公開(公告)號: | CN115561723A | 公開(公告)日: | 2023-01-03 |
| 發明(設計)人: | 張向榮;阮恒宇;朱進;陶海紅;郭晶晶;張天揚;張超;曹雁軍;韓麗 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G01S7/40 | 分類號: | G01S7/40;G06F30/20;G06N3/04;G06N3/08 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 張洋 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 波形 自適應 遴選 方法 | ||
1.一種基于深度強化學習的波形自適應遴選方法,其特征在于,包括:
步驟S1:通過構建離散系統狀態空間模型,對仿真場景進行建模,基于該仿真場景,初始化離散系統狀態空間模型,并對DQN網絡的權重進行隨機初始化;
步驟S2:通過最小化目標參數估計的克拉美羅下界構建目標熵狀態,通過前后時刻的真實熵狀態構建波形參數選擇動作的真實熵獎勵;
步驟S3:利用容積卡爾曼濾波器對當前時刻不同波形參數選擇動作的下一時刻目標狀態進行預測;
步驟S4:根據預測的熵狀態構建預測熵獎勵組成前饋循環通路;
步驟S5:針對多節點場景設計下動作獎勵函數,利用DQN網絡對不同狀態下不同動作的獎勵期望進行價值逼近,得到最終的波形參數選擇動作。
2.根據權利要求1所述的一種基于深度強化學習的波形自適應遴選方法,其特征在于,所述步驟S1,包括:
離散系統狀態空間模型定義如下:
其中:
f(.)是向量轉換函數;
h(.)是另一個向量轉換函數將目標從狀態空間映射到觀測空間;
xk表示系統在k時刻的狀態;
zk表示在k時刻的觀測值;
vk表示一個附加的處理噪聲作為更新狀態的驅動力;
wk是附加的觀測噪聲;
系統方程定義如下:
f(xk)=[xk[0]-xk[1]*dt-0.5*xk[2]*dt*dt,xk[1]-xk[2]*dt,x[2]]
其中;
xk[0]為雷達與目標的相對距離
xk[1]目標的速度;
xk[2]為目標加速度;
系統協方差噪聲定義如下:
其中:
q1=0.01;q2=0.01;δ=1;
觀測噪聲協方差的克拉美羅下界定義如下:
其中:
fc=10.4GHz;
η為信噪比,
r0=50km;
c=3e8。
3.根據權利要求2所述的一種基于深度強化學習的波形自適應遴選方法,其特征在于,所述步驟S2,包括:
步驟S21:認知感知器從環境獲得當前k時刻的觀測向量;
步驟S22:將當前K時刻觀測噪聲協方差的克拉美羅下界作為容積卡爾曼濾波器輸入,得到下一時刻目標狀態的估計誤差協方差矩陣預測值Pk|k-1和估計誤差協方差矩陣Pk|k;
步驟S23:利用估計誤差協方差矩陣預測值Pk|k-1及估計誤差協方差矩陣Pk|k對目標狀態進行后驗概率估計,得到目標參數估計的預測熵狀態和目標參數估計的真實熵狀態;
步驟S24:真實熵狀態Hk|k反饋給認知控制器,構成反饋信息;
步驟S25:認知控制器接收認知感知器反饋的真實熵狀態信息;
步驟S26:從前后時刻熵狀態信息獲得真實熵獎勵;
步驟S27:儲存一組目標狀態、波形參數選擇動作、獲得的真實熵獎勵;
步驟S28:選擇發射波形參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211277900.1/1.html,轉載請聲明來源鉆瓜專利網。





