[發(fā)明專利]基于動態(tài)協(xié)作圖的多智能體強化學習方法在審
| 申請?zhí)枺?/td> | 202011298827.7 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112396187A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設計)人: | 付悅;郝建業(yè);王立 | 申請(專利權(quán))人: | 天津大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 動態(tài) 協(xié)作 智能 強化 學習方法 | ||
1.一種基于動態(tài)協(xié)作圖的多智能體強化學習方法,其特征在于,該方法具體包括以下步驟:
步驟1、基于多智能體系統(tǒng)構(gòu)建動態(tài)協(xié)作圖:
將多智能體系統(tǒng)中的智能體作為圖結(jié)構(gòu)中的節(jié)點,節(jié)點信息為智能體的局部觀察o;對智能體局部觀察及其屬性信息進行隱式特征提取,使相關(guān)智能體的特征信息相似度盡可能的增大,明確當前狀態(tài)下的合作關(guān)系之后,采用注意力機制來構(gòu)建多智能體系統(tǒng)動態(tài)協(xié)作圖;動態(tài)協(xié)作圖構(gòu)建及多智能體分組過程如下:
步驟1-1、進行智能體特征的提取,輸出信息為該智能體的隱式特征信息xi,公式如下:
xi=embedding(ai,oi) (1)
其中,oi表示智能體的局部觀察及其屬性信息,ai表示智能體基于局部觀察和策略所選擇的動作,embedding表示多層神經(jīng)元感知器,隱藏層激活函數(shù)為relu;
步驟1-2、基于注意力機制計算智能體之間的合作關(guān)系權(quán)重wi,j,公式如下:
其中,VQ表示智能體的特征矩陣,VK表示除了當前智能體外其余智能體的特征矩陣,通過矩陣相乘計算兩兩智能體之間的相似度,softmax將相似度值進行歸一化,同滿足其他所有智能體的相關(guān)權(quán)重之和為1的約束;
完成合作關(guān)系權(quán)重的計算后,設置閾值ρ,篩選掉權(quán)重較小的關(guān)系,基于較大權(quán)重wi,j連接協(xié)作圖內(nèi)的節(jié)點,構(gòu)建動態(tài)協(xié)作圖;
步驟1-3、完成動態(tài)協(xié)作圖的構(gòu)建后,將智能體動態(tài)的進行啟發(fā)式分組,進一步在保證高效合作的條件下提升訓練效率,具體步驟如下:
將多智能體系統(tǒng)中智能體之間的關(guān)系比作動態(tài)的協(xié)作圖,協(xié)作圖中的節(jié)點表示智能體,邊則表示智能體之間的隱式關(guān)系;以對抗單位為中心,智能體的視野距離為半徑作圓,圓內(nèi)存在的智能體作為同組智能體,對于處于多個組內(nèi)的智能體則依據(jù)合作關(guān)系權(quán)重分配到與其權(quán)重之和最大的組內(nèi);對于不包含在任何小組的智能體采取上述同樣的分組機制;
步驟2、進行組內(nèi)聯(lián)合最優(yōu)策略搜索:每個智能體i重復地向其相關(guān)智能體j發(fā)送消息μi,j(aj);其中,μi,j將代理j的動作aj映射到一個實數(shù),如下所示:
其中,Γ(i)\j表示與智能體i相連所有智能體中,除了智能體j的任意其他智能體k,ci,j表示歸一化向量;
直到收斂;
步驟3、進行組間信度分配:采用集中式訓練分布式執(zhí)行的訓練范式,各組智能體的集中式價值網(wǎng)絡收集各組聯(lián)合狀態(tài)和聯(lián)合動作信息,得到對應組的價值函數(shù);于此同時,利用超網(wǎng)絡對全局狀態(tài)進行提取,網(wǎng)絡輸入全局狀態(tài)信息,分別輸出第一層網(wǎng)絡權(quán)重和偏差以及第二層網(wǎng)絡權(quán)重和偏差,并對各參數(shù)進行絕對值運算,以滿足價值分解的單調(diào)性假設;然后分別利用兩層權(quán)重和偏差對各個小組局部聯(lián)合動作價值的權(quán)重完成兩次加權(quán)求和運算,層間激活函數(shù)采用relu進行非線性變換;最終從全局的角度將全局價值分解成以組為最小單位的局部價值,完成隱式的信度分配過程,從而提升合作質(zhì)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學,未經(jīng)天津大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011298827.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于業(yè)務規(guī)則的跨部門流程協(xié)同方法
- 基站協(xié)作的動態(tài)連接方法、基站和協(xié)作多輸入多輸出系統(tǒng)
- 一種協(xié)作多點傳輸系統(tǒng)的信號發(fā)送方法及其裝置
- 協(xié)作方法、網(wǎng)絡和用戶終端
- 應用程序協(xié)作系統(tǒng)、應用程序協(xié)作方法以及應用程序協(xié)作程序
- 協(xié)作多點傳輸方法、裝置和系統(tǒng)
- 一種面向智能終端的內(nèi)容下載應用激勵方法及其系統(tǒng)
- 一種協(xié)作多點傳輸調(diào)度方法及裝置
- 一種協(xié)作實現(xiàn)方法和裝置
- 一種區(qū)塊鏈及智能合約系統(tǒng)協(xié)作層設計





