[發明專利]一種面向博弈的雷達對抗策略生成方法有效
| 申請號: | 202010091616.X | 申請日: | 2020-02-13 |
| 公開(公告)號: | CN111275174B | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 楊健;王沙飛;李巖;肖德政;田震;張丁 | 申請(專利權)人: | 中國人民解放軍32802部隊;北京理工大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京豐浩知識產權代理事務所(普通合伙) 11781 | 代理人: | 李學康 |
| 地址: | 100191 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 博弈 雷達 對抗 策略 生成 方法 | ||
1.一種面向博弈的雷達對抗策略生成方法,其特征在于,具體步驟如下:
步驟1:將雷達和干擾系統看作博弈的兩個玩家,設定對抗場景:設定雷達有Nradar個工作狀態,干擾方有Njam個干擾樣式,設定雷達工作狀態轉換回報表,從根節點root出發構建雷達對抗博弈樹,在樹的每個終止節點根據狀態轉換回報表設置雷達和干擾系統的效用值u(I,ai),i=1,…,n;
設定迭代次數Niter和每次迭代中博弈樹從root節點開始的遍歷次數K,設定對抗策略神經網絡的訓練頻率Ns,設定神經網絡的訓練次數Nnn,設定判斷對抗策略是否收斂的閾值θ;
每個玩家設置遺憾值和對抗策略兩種神經網絡,每個神經網絡均有相應的訓練樣本緩存區,記為和緩存區存儲的內容為(I,[d(I,a1),…,d(I,an)]or[s(I,a1),…,s(I,an)],t),神經網絡的輸入是I,輸出為神經網絡計算得到的預測遺憾值向量或預測對抗策略向量訓練開始前清空四個緩存區和令迭代次數t=1,跳轉步驟2;
其中,訓練頻率Ns表示訓練Ns次遺憾值神經網絡后,訓練1次對抗策略神經網絡且滿足Niter%Ns=0;上標r和s分別代表遺憾值和對抗策略,下標0和1分別代表雷達和干擾系統;緩存區內容:I表示博弈樹每個節點對應的信息集,每個信息集有唯一且固定的玩家做出選擇動作,每個可選動作用ai表示,i=1,2,…,n,n是可選動作數量,d(I,ai)是遺憾值,表示當前信息集I下采取動作ai的遺憾值,i=1,…,n,是神經網絡預測的遺憾值,i=1,…,n,s(I,ai)是對抗策略,表示在當前信息集下采取動作ai的概率,i=1,…,n,是神經網絡預測的對抗策略,i=1,…,n,t是當前博弈所處的迭代次數,在神經網絡訓練時用于對數據的加權計算,u(I,ai)表示信息集I下動作ai的效用值,i=1,…,n;
步驟2:選擇當前玩家p=t%2,每次迭代過程從root節點開始遍歷K次雷達對抗博弈樹,每遍歷到一個信息集節點I,若該信息集所屬玩家為本次迭代的當前玩家p,輸入信息集I,根據玩家p的遺憾值神經網絡得到預測遺憾值向量根據來計算該信息集的對抗策略向量[s(I,a1),…,s(I,an)],再通過遍歷過程中得到的效用值和對抗策略向量乘加計算遺憾值向量[d(I,a1),…,d(I,an)],將該信息集節點I、遺憾值向量[d(I,a1),…,d(I,an)]和當前迭代次數t存入當前玩家p的遺憾值緩存區
若該信息集I所屬玩家為1-p,即非本次迭代的當前玩家,則輸入該信息集I,求其在玩家1-p的遺憾值神經網絡的輸出根據來計算該信息集的對抗策略[s(I,a1),…,s(I,an)],并將該信息集I、對抗策略[s(I,a1),…,s(I,an)]和當前迭代次數t存入玩家1-p的對抗策略緩存區
從root節點開始遍歷K次博弈樹之后,即1次迭代過程之后,根據當前玩家p的遺憾值緩存區中的數據訓練Nnn次當前玩家的遺憾值神經網絡,使輸出的向量與期望向量[d(I,a1),…,d(I,an)]盡可能地接近,即遺憾值神經網絡損失函數Lr越來越接近0;
迭代Ns次后,即滿足t%Ns=0時,跳轉步驟3;
步驟3:利用兩個對抗策略緩存區的數據訓練更新Nnn次兩個對抗策略神經網絡,使輸出的向量與期望向量[s(I,a1),…,s(I,an)]盡可能地接近,即對抗策略神經網絡損失函數Ls越來越接近0;
將每個信息集I輸入至其對應玩家的對抗策略網絡,并記錄該策略;
若步驟2的累計迭代次數未達到Niter,則回到步驟2再次進行迭代計算;
重復步驟2和步驟3至迭代次數達到Niter后,令第Niter次記錄的對抗策略與第Niter-Ns次記錄的對抗策略作差并取絕對值,找到其中最大的元素,若其小于閾值θ,則此時兩個對抗策略神經網絡的輸出應已達到收斂,雙方已達到納什均衡狀態,得到了各自的納什均衡策略;若其大于閾值θ,則說明尚未達到收斂,即迭代次數Niter過小,需要跳回步驟1更改Niter的值重新開始。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍32802部隊;北京理工大學,未經中國人民解放軍32802部隊;北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010091616.X/1.html,轉載請聲明來源鉆瓜專利網。





