[發明專利]基于多智體強化學習的心智理論模型實現方法及裝置在審
| 申請號: | 202210635877.2 | 申請日: | 2022-06-06 |
| 公開(公告)號: | CN115081617A | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 胡錚;譚奇明;張春紅;莊本輝 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;G06F17/18;G05D1/10 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多智體 強化 學習 心智 理論 模型 實現 方法 裝置 | ||
1.一種基于多智體強化學習的心智理論模型實現方法,其特征在于,包括:
基于心智理論模型建立原始聯合心智模型網絡,通過所述原始聯合心智模型網絡預測多個己方智能體的友方智能體的意圖特征信息;
建立多智體強化學習的任務場景并結合所述意圖特征信息,分級建模所述場景任務的主目標及其子目標;
對所述主目標進行訓練,得到收斂后的主目標實現算法,并基于平臺底層規則得到所述子目標的規則化子目標實現算法;
通過所述收斂后的主目標實現算法和所述規則化子目標實現算法收集待使用數據對所述原始聯合心智模型網絡進行訓練,得到目標聯合心智模型網絡;
通過所述目標聯合心智模型網絡預測當前己方智能體的意圖信息,并在多智體算法的訓練過程中將所述意圖信息添加至所述多智體算法的輸入信息中,實現己方智能體的協同。
2.根據權利要求1所述的基于多智體強化學習的心智理論模型實現方法,其特征在于,所述通過所述目標聯合心智模型網絡預測當前己方智能體的意圖信息,并在多智體算法的訓練過程中將所述意圖信息添加至所述多智體算法的輸入信息中,實現己方智能體的協同,包括:
通過所述目標聯合心智模型網絡預測當前己方智能體的意圖信息,并在多智體算法的訓練過程中將所述意圖信息添加至所述多智體算法的輸入信息中,得到基于心智理論的多智體強化學習算法;
通過所述基于心智理論的多智體強化學習算法控制己方智能體,通過強化學習算法控制敵方智能體,并將場景任務的參數調整至預設參數以及設定己方智能體和敵方智能體的獎勵,在預設回合數以及預設回合時間下進行對戰訓練,記錄訓練期間每回合己方智能體和敵方智能體的第一整體雷達覆蓋率指標變化;
將所述第一整體雷達覆蓋率指標變化與單獨通過多智體強化學習算法訓練得到的第二整體雷達覆蓋率指標變化進行對比驗證,實現己方智能體的協同。
3.根據權利要求1所述的基于多智體強化學習的心智理論模型實現方法,其特征在于,所述基于心智理論模型建立原始聯合心智模型網絡,包括:
確定所述多個己方智能體的全局觀測信息,其中,所述全局觀測信息包括己方智能體信息和己方可觀測到的敵方智能體信息;
通過所述多個己方智能體的己方智能體信息和己方可觀測到的敵方智能體信息,對所述心智理論模型進行訓練,得到所述原始聯合心智模型網絡。
4.根據權利要求1所述的基于多智體強化學習的心智理論模型實現方法,其特征在于,所述通過所述原始聯合心智模型網絡預測多個己方智能體的友方智能體的意圖特征信息,包括:
通過所述原始聯合心智模型網絡對各個所述友方智能體的意圖概率分布進行預測,得到各個所述友方智能體的表層意圖信息;
通過所述原始聯合心智模型網絡對各個所述友方智能體的自身概率分布進行預測,得到各個所述友方智能體的深處意圖信息;
將各個所述友方智能體的表層意圖信息和深處意圖信息,確定為各個所述友方智能體的意圖特征信息。
5.根據權利要求1所述的基于多智體強化學習的心智理論模型實現方法,其特征在于,所述建立多智體強化學習的任務場景并結合所述意圖特征信息,分級建模所述場景任務的主目標及其子目標,包括:
確定多智體強化學習的任務場景,其中,所述任務場景的布局包括場景大小、作戰多方初始位置信息、任務目標和最終任務評價指標;
將所述場景大小、所述作戰多方初始位置信息、所述任務目標和所述最終任務評價指標與所述意圖特征信息進行結合,分級建模所述場景任務的主目標及其子目標。
6.根據權利要求1所述的基于多智體強化學習的心智理論模型實現方法,其特征在于,所述對所述主目標進行訓練,得到收斂后的主目標實現算法,并基于平臺底層規則得到所述子目標的規則化子目標實現算法,包括:
通過多智能體強化學習算法并以己方智能體信息和己方可觀測到的敵方智能體信息為輸入,以己方智能體選擇的覆蓋目標為輸出,對所述主目標進行訓練,得到所述收斂后的主目標實現算法;
對己方智能體選定的目標進行追擊并基于所述平臺底層規則,得到所述規則化子目標實現算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210635877.2/1.html,轉載請聲明來源鉆瓜專利網。





