[發(fā)明專利]基于動態(tài)協(xié)作圖的多智能體強化學習方法在審

申請?zhí)枺?/td>	202011298827.7	申請日：	2020-11-19
公開（公告）號：	CN112396187A	公開（公告）日：	2021-02-23
發(fā)明（設計）人：	付悅;郝建業(yè);王立	申請（專利權(quán)）人：	天津大學
主分類號：	G06N20/00	分類號：	G06N20/00
代理公司：	天津市北洋有限責任專利代理事務所 12201	代理人：	李素蘭
地址：	300072***	國省代碼：	天津;12
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于動態(tài) 協(xié)作智能強化學習方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于動態(tài)協(xié)作圖的多智能體強化學習方法，其特征在于，該方法具體包括以下步驟：

步驟1、基于多智能體系統(tǒng)構(gòu)建動態(tài)協(xié)作圖：

將多智能體系統(tǒng)中的智能體作為圖結(jié)構(gòu)中的節(jié)點，節(jié)點信息為智能體的局部觀察o；對智能體局部觀察及其屬性信息進行隱式特征提取，使相關(guān)智能體的特征信息相似度盡可能的增大，明確當前狀態(tài)下的合作關(guān)系之后，采用注意力機制來構(gòu)建多智能體系統(tǒng)動態(tài)協(xié)作圖；動態(tài)協(xié)作圖構(gòu)建及多智能體分組過程如下：

步驟1-1、進行智能體特征的提取，輸出信息為該智能體的隱式特征信息x_i，公式如下：

x_i＝embedding(a_i，o_i) (1)

其中，o_i表示智能體的局部觀察及其屬性信息，a_i表示智能體基于局部觀察和策略所選擇的動作，embedding表示多層神經(jīng)元感知器，隱藏層激活函數(shù)為relu；

步驟1-2、基于注意力機制計算智能體之間的合作關(guān)系權(quán)重w_i，j，公式如下：

其中，V_Q表示智能體的特征矩陣，V_K表示除了當前智能體外其余智能體的特征矩陣，通過矩陣相乘計算兩兩智能體之間的相似度，softmax將相似度值進行歸一化，同滿足其他所有智能體的相關(guān)權(quán)重之和為1的約束；

完成合作關(guān)系權(quán)重的計算后，設置閾值ρ，篩選掉權(quán)重較小的關(guān)系，基于較大權(quán)重w_i，j連接協(xié)作圖內(nèi)的節(jié)點，構(gòu)建動態(tài)協(xié)作圖；

步驟1-3、完成動態(tài)協(xié)作圖的構(gòu)建后，將智能體動態(tài)的進行啟發(fā)式分組，進一步在保證高效合作的條件下提升訓練效率，具體步驟如下：

將多智能體系統(tǒng)中智能體之間的關(guān)系比作動態(tài)的協(xié)作圖，協(xié)作圖中的節(jié)點表示智能體，邊則表示智能體之間的隱式關(guān)系；以對抗單位為中心，智能體的視野距離為半徑作圓，圓內(nèi)存在的智能體作為同組智能體，對于處于多個組內(nèi)的智能體則依據(jù)合作關(guān)系權(quán)重分配到與其權(quán)重之和最大的組內(nèi)；對于不包含在任何小組的智能體采取上述同樣的分組機制；

步驟2、進行組內(nèi)聯(lián)合最優(yōu)策略搜索：每個智能體i重復地向其相關(guān)智能體j發(fā)送消息μ_i，j(a_j)；其中，μ_i，j將代理j的動作a_j映射到一個實數(shù)，如下所示：

其中，Γ(i)\j表示與智能體i相連所有智能體中，除了智能體j的任意其他智能體k，c_i，j表示歸一化向量；

直到收斂；

步驟3、進行組間信度分配：采用集中式訓練分布式執(zhí)行的訓練范式，各組智能體的集中式價值網(wǎng)絡收集各組聯(lián)合狀態(tài)和聯(lián)合動作信息，得到對應組的價值函數(shù)；于此同時，利用超網(wǎng)絡對全局狀態(tài)進行提取，網(wǎng)絡輸入全局狀態(tài)信息，分別輸出第一層網(wǎng)絡權(quán)重和偏差以及第二層網(wǎng)絡權(quán)重和偏差，并對各參數(shù)進行絕對值運算，以滿足價值分解的單調(diào)性假設；然后分別利用兩層權(quán)重和偏差對各個小組局部聯(lián)合動作價值的權(quán)重完成兩次加權(quán)求和運算，層間激活函數(shù)采用relu進行非線性變換；最終從全局的角度將全局價值分解成以組為最小單位的局部價值，完成隱式的信度分配過程，從而提升合作質(zhì)量。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學，未經(jīng)天津大學許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011298827.7/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：基于遞歸圖與多層卷積神經(jīng)網(wǎng)絡的電機軸承故障診斷方法
下一篇：一種腹腔引流管防止積液滲出輔助裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06N 基于特定計算模型的計算機系統(tǒng)

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】