[發明專利]一種雷達智能認知抗干擾策略的生成方法在審
| 申請號: | 202110106779.5 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112904290A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 糾博;李思博;李康;劉宏偉 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G01S7/36 | 分類號: | G01S7/36 |
| 代理公司: | 西安嘉思特知識產權代理事務所(普通合伙) 61230 | 代理人: | 劉長春 |
| 地址: | 710000 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 雷達 智能 認知 抗干擾 策略 生成 方法 | ||
1.一種雷達智能認知抗干擾策略的生成方法,其特征在于,包括:
步驟1:構建干擾機的多個干擾策略;
步驟2:基于預先的模仿學習模型對多個干擾策略進行參數化,獲得每個干擾策略的參數化表達;
步驟3:對每個干擾策略的參數化表達進行參數攝動,獲得參數攝動后的干擾策略;
步驟4:構建基于WR2L的抗干擾策略生成網絡,將其作為FA雷達的代理;
步驟5:利用所述參數攝動后的干擾策略,對所述抗干擾策略生成網絡訓練,以使所述抗干擾策略生成網絡按照獎勵遞增的方向在動作數據中選擇動作執行,直至所述抗干擾策略生產網絡的執行動作的獎勵不再變化,得到訓練好的抗干擾策略生成網絡;
其中,所述獎勵根據一個雷達相干處理時間CPI中FA雷達代理的檢測概率計算得到;
步驟6:將干擾機的實時干擾策略輸入所述訓練好的抗干擾策略生成網絡,生成抗干擾策略。
2.根據權利要求1所述的生成方法,其特征在于,所述步驟2包括:
步驟2.1,在所述多個干擾策略中選定一個干擾策略
步驟2.2,構建映射函數fφ(·),初始化一個雷達相干處理時間CPI內的脈沖數T,專家軌跡數量NE,和Dω的初始抗干擾策略和蒙特卡洛估計法中判別器的參數ω0,初始化雷達的干擾策略πpre,定義空表τE;
其中,τE存儲樣本軌跡τ,τ=s0,a0,r1,s1,a1,r2,...sn,an,rn;
步驟2.3,令循環數n=1;
步驟2.4,根據給定的分布p0(s0)得到樣本s0;
步驟2.5,令時間步t=0;
步驟2.6,通過映射函數fφ(·)得到干擾機狀態s′t;
步驟2.7,雷達根據策略πpre(at|st)采取行動at;
步驟2.8,干擾機根據預先設定的干擾策略采取行動a′t,并轉換狀態到st+1;
步驟2.9,在τE中存儲s′t和a′t;
步驟2.10,令t=t+1,返回步驟2.5,直至t=N-1;
步驟2.11,令n=n+1,直至n=NE;
步驟2.12,令循環數i=0;
步驟2.13,當終止條件不滿足時執行步驟2.14,否則執行步驟2.18;
其中,所述終止條件為:生成器的累積獎勵收斂;
步驟2.14,從策略中得到樣本軌跡τ′i;
步驟2.15,根據蒙特卡洛估計法估計判別器的梯度,并更新其參數ωi到ωi+1;
步驟2.16,利用強化學習算法TRPO根據獎勵函數更新生成器參數到
其中,s′表示狀態,a′表示執行動作,為判別分類器,它將輸入{s′,a′}映射到一個0到1之間的實數;
步驟2.17,令i=i+1;
步驟2.18,獲得干擾策略參數φ。
3.根據權利要求1所述的生成方法,其特征在于,所述步驟3包括:
步驟3.1,從均值為方差為的高斯分布獨立抽取樣本Δφ;
步驟3.2,將干擾策略參數φ0與抽樣數據Δφ進行累加,得到隨機干擾策略φ;
其中,φ=φ0+Δφ;
步驟3.3,計算原干擾策略參數φ0與經過攝動的干擾策略參數φ之間的Wasserstein距離;
步驟3.4,將預設范圍內的隨機干擾策略參數作為攝動后的干擾策略的參數;獲得參數攝動后的干擾策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110106779.5/1.html,轉載請聲明來源鉆瓜專利網。





