[發(fā)明專利]基于多智體強化學習的心智理論模型實現(xiàn)方法及裝置在審

申請?zhí)枺?/td>	202210635877.2	申請日：	2022-06-06
公開（公告）號：	CN115081617A	公開（公告）日：	2022-09-20
發(fā)明（設計）人：	胡錚;譚奇明;張春紅;莊本輝	申請（專利權）人：	北京郵電大學
主分類號：	G06N3/08	分類號：	G06N3/08;G06N3/04;G06F17/18;G05D1/10
代理公司：	北京路浩知識產(chǎn)權代理有限公司 11002	代理人：	李相雨
地址：	100876 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于多智體強化學習心智理論模型實現(xiàn) 方法裝置
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請?zhí)峁┮环N基于多智體強化學習的心智理論模型實現(xiàn)方法及裝置，該方法包括：基于心智理論模型建立原始聯(lián)合心智模型網(wǎng)絡以預測多個己方智能體的友方智能體的意圖特征信息；建立多智體強化學習的任務場景結合意圖特征信息，分級建模場景任務的主目標及其子目標；通過主目標的收斂后的主目標實現(xiàn)算法和子目標的規(guī)則化子目標實現(xiàn)算法收集待使用數(shù)據(jù)，以對原始聯(lián)合心智模型網(wǎng)絡進行訓練，通過目標聯(lián)合心智模型網(wǎng)絡預測當前己方智能體的意圖信息并將其添加至多智體算法的輸入信息，實現(xiàn)己方智能體的協(xié)同。本申請實施例提供的基于多智體強化學習的心智理論模型實現(xiàn)方法結合多智體強化學習、心智理論模型和任務場景，提升了多智能體的協(xié)同效果。

技術領域

本申請涉及心智模型和多智體控制領域，尤其涉及一種基于多智體強化學習的心智理論模型實現(xiàn)方法及裝置。

背景技術

目前，在強化學習與心智理論結合的方法中大多使用的都是單智體算法與心智理論模型進行結合，并且任務場景中的智能體數(shù)目較少、不同的智能體之間需要單獨進行心智理論建模，而如果將這種方法直接應用到多智體場景中，將會給予網(wǎng)絡訓練極大的壓力，從而導致多智能體的協(xié)同效果不佳。

發(fā)明內容

本申請?zhí)峁┮环N基于多智體強化學習的心智理論模型實現(xiàn)方法及裝置，旨在提升多智能體的協(xié)同效果。

第一方面，本申請?zhí)峁┮环N基于多智體強化學習的心智理論模型實現(xiàn)方法，包括：

基于心智理論模型建立原始聯(lián)合心智模型網(wǎng)絡，通過所述原始聯(lián)合心智模型網(wǎng)絡預測多個己方智能體的友方智能體的意圖特征信息；

建立多智體強化學習的任務場景并結合所述意圖特征信息，分級建模所述場景任務的主目標及其子目標；

對所述主目標進行訓練，得到收斂后的主目標實現(xiàn)算法，并基于平臺底層規(guī)則得到所述子目標的規(guī)則化子目標實現(xiàn)算法；

通過所述收斂后的主目標實現(xiàn)算法和所述規(guī)則化子目標實現(xiàn)算法收集待使用數(shù)據(jù)對所述原始聯(lián)合心智模型網(wǎng)絡進行訓練，得到目標聯(lián)合心智模型網(wǎng)絡；

通過所述目標聯(lián)合心智模型網(wǎng)絡預測當前己方智能體的意圖信息，并在多智體算法的訓練過程中將所述意圖信息添加至所述多智體算法的輸入信息中，實現(xiàn)己方智能體的協(xié)同。

在一個實施例中，所述通過所述目標聯(lián)合心智模型網(wǎng)絡預測當前己方智能體的意圖信息，并在多智體算法的訓練過程中將所述意圖信息添加至所述多智體算法的輸入信息中，實現(xiàn)己方智能體的協(xié)同，包括：

通過所述目標聯(lián)合心智模型網(wǎng)絡預測當前己方智能體的意圖信息，并在多智體算法的訓練過程中將所述意圖信息添加至所述多智體算法的輸入信息中，得到基于心智理論的多智體強化學習算法；

通過所述基于心智理論的多智體強化學習算法控制己方智能體，通過強化學習算法控制敵方智能體，并將場景任務的參數(shù)調整至預設參數(shù)以及設定己方智能體和敵方智能體的獎勵，在預設回合數(shù)以及預設回合時間下進行對戰(zhàn)訓練，記錄訓練期間每回合己方智能體和敵方智能體的第一整體雷達覆蓋率指標變化；

將所述第一整體雷達覆蓋率指標變化與單獨通過多智體強化學習算法訓練得到的第二整體雷達覆蓋率指標變化進行對比驗證，實現(xiàn)己方智能體的協(xié)同。

所述基于心智理論模型建立原始聯(lián)合心智模型網(wǎng)絡，包括：

確定所述多個己方智能體的全局觀測信息，其中，所述全局觀測信息包括己方智能體信息和己方可觀測到的敵方智能體信息；

通過所述多個己方智能體的己方智能體信息和己方可觀測到的敵方智能體信息，對所述心智理論模型進行訓練，得到所述原始聯(lián)合心智模型網(wǎng)絡。

所述通過所述原始聯(lián)合心智模型網(wǎng)絡預測多個己方智能體的友方智能體的意圖特征信息，包括：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學，未經(jīng)北京郵電大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210635877.2/2.html，轉載請聲明來源鉆瓜專利網(wǎng)。