[發明專利]基于深度強化學習的作戰體系設計方法及相關設備在審
| 申請號: | 202210535183.1 | 申請日: | 2022-05-17 |
| 公開(公告)號: | CN114970334A | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 陳濤;林萌龍;張萌萌;陳洪輝;張曉雪;徐成濤;劉俊先;羅愛民;舒振 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 曾志鵬 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 作戰 體系 設計 方法 相關 設備 | ||
本申請提供一種基于深度強化學習的作戰體系的設計方法及相關設備。該方法包括:利用預置的多個作戰系統的和多個作戰任務構建組合優化模型和輸入序列;將所述輸入序列輸入預構建的指針網絡的編碼器中,所述編碼器將所述輸入序列映射為特征向量;將所述特征向量輸入到預構建的所述指針網絡的解碼器中,所述解碼器采用注意力機制確定輸出序列,所述輸出序列中包括多個所述作戰體系;根據所述組合優化模型計算選擇各個所述作戰體系的獎勵回報,根據所述獎勵回報,采用梯度下降的方式更新所述指針網絡的參數,并利用更新的參數對指針網絡進行訓練,響應于達到預設的終止條件,完成訓練并利用訓練完的所述指針網絡實施作戰體系的設計。
技術領域
本申請的實施例涉及體系架構設計的技術領域,尤其涉及一種基于深度強化學習的作戰體系設計方法及相關設備。
背景技術
在相關的解決系統構建的方式中,多使用遺傳算法、差分算法等傳統方式進行,但相關的方式往往需要進行多次迭代,在體系設計復雜的問題中,所需時間成本高,難以在大規模的問題中應用;并且傳統方式不具備從問題中學習的能力,因此,對于現實中僅僅規模和初始化數據不同的同類型問題,又難以復制解決方案。
基于此,需要一種能夠實現不需要迭代,縮小時間成本,快速構建體系的方案。
發明內容
有鑒于此,本申請的目的在于提出一種基于深度強化學習的作戰體系設計方法及相關設備。
基于上述目的,本申請提供了一種基于深度強化學習的作戰體系的設計方法,包括:
利用預置的多個作戰系統的和多個作戰任務構建組合優化模型和輸入序列;
將所述輸入序列輸入預構建的指針網絡的編碼器中,所述編碼器將所述輸入序列映射為特征向量;
將所述特征向量輸入到預構建的所述指針網絡的解碼器中,所述解碼器采用注意力機制確定輸出序列,所述輸出序列中包括多個所述作戰體系;
根據所述組合優化模型計算選擇各個所述作戰體系的獎勵回報,根據所述獎勵回報,采用梯度下降的方式更新所述指針網絡的參數,并利用更新的參數對指針網絡進行訓練,響應于達到預設的終止條件,完成訓練并利用訓練完的所述指針網絡實施作戰體系的設計。
進一步地,利用預置的多個作戰系統的和多個作戰任務構建組合優化模型和輸入序列,包括:
確定所述作戰系統的個數、多個所述作戰系統各自提供的能力、作戰任務的個數、多個所述作戰任務各自的能力需求、和多個所述作戰系統各自的成本;
利用各個所述作戰系統各自提供的能力和各個所述作戰系統各自的成本構建組合優化模型;
利用各個所述作戰任務的能力需求、各個所述作戰系統提供的能力和各個所述作戰系統的成本建立輸入序列;
其中,所述輸入序列的包括有多個節點,每個所述節點包括1個作戰系統提供的能力、1個作戰任務的能力需求和該作戰系統的成本。
進一步地,利用各個所述作戰系統各自提供的能力和各個所述作戰系統各自的成本構建組合優化模型,包括:
利用各個所述作戰系統各自提供的能力和各個所述作戰系統各自的成本構建體系總成本最小化的目標;
將每個所述作戰系統約束為最多只用于完成1個作戰任務;
將完成1個作戰任務的多個作戰系統各自的能力之和約束為大于等于該作戰任務的能力需求。
進一步地,編碼器將所述輸入序列映射為特征向量,包括:
將所述輸入序列中的每個所述節點編碼1個嵌入向量;
將全部所述嵌入向量組成為特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210535183.1/2.html,轉載請聲明來源鉆瓜專利網。





