[發明專利]基于DQN的航空兵多平臺協同智能對抗決策方法在審
| 申請號: | 202111244551.9 | 申請日: | 2021-10-26 |
| 公開(公告)號: | CN114330093A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 李妮;王澤;董力維;劉晨 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京航智知識產權代理事務所(普通合伙) 11668 | 代理人: | 陳磊;張楨 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 dqn 航空兵 平臺 協同 智能 對抗 決策 方法 | ||
本公開涉及作戰態勢分析技術領域、智能博弈技術領域、航空兵建模技術領域和仿真技術領域,提供了基于DQN的航空兵多平臺協同智能對抗決策方法,該方法包括:基于DQN算法和規則集,構建集調度層、編隊層、單機層的協同作戰行為模型作為指揮決策平臺;基于航空兵多平臺空戰特點以及影響多平臺聯合作戰結果相關因素的重要等級,構建調度層狀態空間;構建調度層行為空間;設計DQN算法中的獎勵函數;基于DQN算法,強化學習框架進行多平臺聯合指揮決策的迭代學習訓練,獲得多平臺協同作戰策略。本公開實現了指揮策略的自學習、自演化,在無經驗累積的全新作戰場景下探索、優化作戰指揮策略,實現協調指揮多平臺兵力聯合作戰的目標。
技術領域
本公開涉及作戰態勢分析技術領域、智能博弈技術領域、航空兵建模技術 領域和仿真技術領域,尤其涉及基于DQN的航空兵多平臺協同智能對抗決策方 法。
背景技術
經過多年的經驗累積,現有的航空兵力聯合作戰仿真平臺對單武 器平臺的物理及行為建模已相對成熟,但協調多平臺之間聯合作戰的 指揮決策仍然是依據規則庫,這些規則庫由專家的指揮經驗匯聚形成。 另外,也有一部分多平臺聯合對抗仿真系統的指揮決策為人在回路, 將有經驗的作戰指揮員的指揮決策接入仿真系統中。這些方法對已有 經驗的依賴性強,且基于規則庫的指揮決策不具有自學習、自演化的 能力;且基于規則庫的指揮決策不具有自學習、自演化的能力;基于 人在回路的指揮決策系統對作戰指揮員的要求較高且因為人的參與 使仿真系統的推進速度變慢,降低了仿真系統的運行效率。
因此,對于全新作戰場景,在沒有任何作戰經驗累積的情況下,如何實現 最優作戰策略的探索,實現作戰策略的自學習、自演化成為一個急需解決的問 題。
發明內容
有鑒于此,本公開提供了基于DQN算法的航空兵多平臺智能協同行為建 模方法,以解決現有技術中基于DQN算法的航空兵多平臺智能協同行為建模 方法的問題。
本公開提供了基于DQN算法的航空兵多平臺智能協同行為建模方法,包 括:
S1基于DQN算法和規則集,構建集調度層、編隊層、單機層的協同作 戰行為模型作為所述集調度層、編隊層、單機層的指揮決策平臺;
S2基于航空兵多平臺空戰特點以及影響多平臺聯合作戰結果相關因素的 重要等級,構建調度層狀態空間;
S3基于航空兵體系中不同兵力編隊的作戰特點,構建調度層行為空間;
S4針對具體作戰目標,設計所述DQN算法中的獎勵函數;
S5基于DQN算法,形成航空兵多平臺聯合作戰仿真對抗的強化學習框架, 并基于所述強化學習框架進行多平臺聯合指揮決策的迭代學習訓練,獲得多平 臺協同作戰策略。
所述S1,包括:
基于DQN算法,構建調度層行為決策模型;
基于規則集,分別構建所述編隊層和所述單機層作戰行為模型;
基于所述調度層行為決策模型、所述編隊層作戰行為模型和所述單機層作 戰行為模型,構成協同作戰行為模型。
所述S2,具體包括:
根據航空兵多平臺空戰特點和影響多平臺聯合作戰結果相關因素的重要等 級,提取關鍵元素構建調度層DQN算法的狀態空間向量,其中,關鍵元素包 括敵我雙方飛機的坐標位置、敵我雙方兵力類型、敵我雙方航向、我方攜彈量 以及敵我雙方探測信息域覆蓋比;
基于所述狀態空間向量,對航空兵多平臺聯合對抗戰場態勢進行數學化表 示,構建調度層狀態空間。
所述S3,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111244551.9/2.html,轉載請聲明來源鉆瓜專利網。





