[發明專利]基于深度強化學習模型的兵棋推演協作策略獲取方法在審
| 申請號: | 202210270021.X | 申請日: | 2022-03-18 |
| 公開(公告)號: | CN114722701A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 馮旸赫;梁星星;劉忠;程光權;黃金才;許乃夫;陳麗;姚晨蝶 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06K9/62;G06F111/08 |
| 代理公司: | 長沙國科天河知識產權代理有限公司 43225 | 代理人: | 李楊 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 模型 推演 協作 策略 獲取 方法 | ||
1.一種基于深度強化學習模型的兵棋推演協作策略獲取方法,其特征在于,所述方法包括:
在兵棋平臺上搭建多智能體系統環境;
根據所述多智能體系統環境結合預設元組進行建模,生成決策模型;
根據專家先驗知識設計子目標,將所述子目標用于獎勵塑造;
選擇分布式決策、集中式訓練的多智能體強化學習架構結合分層獎勵塑造框架生成基于所述獎勵塑造的QMIX算法;
通過QMIX算法對所述決策模型進行求解以獲取兵棋推演協作策略。
2.如權利要求1所述的方法,其特征在于,所述根據所述多智能體系統環境結合預設元組進行建模,生成決策模型的步驟,包括:
使用改進的元組G=<S,U,P,r,Z,O,n,γ>對所述多智能體系統環境進行決策模型的建模,其中s∈S描述紅方對訓練環境全局態勢的觀測,在每一個時間步,每個智能體n在可選動作集Un中選取一個動作,所有智能體選擇的動作組成聯合動作u∈U≡Un,聯合動作推動環境上的狀態轉移,狀態轉移定義如下P(s'|s,u):S×U×S→[0,1],所有智能體共享同一個獎勵函數r(s,u):S×U→γ并且γ∈[0,1)。
3.如權利要求1所述的方法,其特征在于,所述根據專家先驗知識設計子目標,將所述子目標用于獎勵塑造的步驟,包括:
根據專家先驗知識確定子目標序列;
確定強化學習所學習的抽象狀態,并在所述抽象狀態上構建馬爾可夫決策模型;
搭建神經網絡求解所述馬爾可夫決策模型;
對神經網絡進行訓練,在所述神經網絡訓練收斂以后使用獲得的V(Z)值作為狀態的勢能,進行獎勵塑造。
4.如權利要求3所述的方法,其特征在于,所述搭建神經網絡求解所述馬爾可夫決策模型的步驟,包括:
在所述神經網絡中,輸入空間維度為四維,當達到第一個子目標時,第一維輸入是1,否則是0,第二、三、四維也是如此,經過一層維度為10維的隱藏層,選擇使用均值為0,標準差為0.01的正態分布進行參數初始化,輸出抽象狀態函數值以求解所述馬爾可夫決策模型。
5.如權利要求1所述的方法,其特征在于,所述選擇分布式決策、集中式訓練的多智能體強化學習架構結合分層獎勵塑造框架生成基于所述獎勵塑造的QMIX算法的步驟,包括:
選擇分布式決策、集中式訓練的多智能體強化學習架構,結合分層獎勵塑造框架搭建QMIX算法,所述QMIX算法包含一組DRQN和一個混合網絡,組中的每個DRQN網絡對應一個分布式執行的策略,混合網絡把一組DRQN網絡組合輸出的一組Qa以一種復雜的非線性模式加權組合,從而輸出Qtot。
6.如權利要求5所述的方法,其特征在于,所述選擇分布式決策、集中式訓練的多智能體強化學習架構結合分層獎勵塑造框架生成基于所述獎勵塑造的QMIX算法的步驟之后,還包括:
將輸入信息經過一層MLP網絡,選擇使用均值為0,標準差為1的正態分布進行參數初始化,并輸出一組特征向量;
使用整流線性單元對所述特征向量進行非線性化處理;
將處理好的特征向量和上一步存儲的隱藏層信息輸入到RNN層中,根據時序訓練的要求,將當前時間步的特征向量和上一步的隱藏層信息在RNN層融合生成新的特征向量和新的隱藏層信息;
將RNN層的輸出傳入最后一層MLP以獲得Q值;
采取epislon-greedy的方法,當隨機生成的概率小于預設概率時,使用argmax函數,選擇狀態動作值最大的動作并執行;
在生成的概率小于設定概率時,等概率隨機抽取動作并將當前步獲得的存入回放池中,等到網絡更新時再取出。
7.如權利要求1至6任一項所述的方法,其特征在于,所述通過QMIX算法對所述決策模型進行求解以獲取兵棋推演協作策略的步驟之前,還包括:
獲取預設地址中M個智能體的Q值列表;
獲取全局狀態St并經過一層單獨的線形層進行特征處理;
再經過一層絕對值激活函數,對特征進行非線性化處理,以生成混合網絡的權重;
輸出結果是四個向量<W1,W2,bias1,bias2,這四個向量被用于對第x1個智能體到第xm個智能體的Q值列表進行加權組合;
根據所述Q值列表作為混合網絡的輸入,經過計算后輸出Qtot(τ,a)值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210270021.X/1.html,轉載請聲明來源鉆瓜專利網。





