[發明專利]基于動態協作圖的多智能體強化學習方法在審
| 申請號: | 202011298827.7 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112396187A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 付悅;郝建業;王立 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 動態 協作 智能 強化 學習方法 | ||
本發明公開了一種基于動態協作圖的多智能體強化學習方法,首先,結合注意力機制對多智能體協作圖進行動態構建;其次,基于當前狀態下構造的協作圖,結合啟發式規則進行顯式分組;再其次,對于智能體小組內部的智能體采用max?plus算法進行組內全局最優策略搜索;最后,采用超網絡結合全局狀態信息估計各組局部聯合動作價值,進行信度分配。與現有技術相比,本發明針對多智能體系統提出的算法,在降低計算量的前提下,有效的提高了智能體之間的合作。
技術領域
本發明涉及多智能體強化學習領域領域,特別是涉及一種多智能體強化學習方法。
背景技術
基于協作圖的強化學習中的稀疏協作Q學習(sparse cooperative Q-learning)技術,將所有智能體的信息和相關關系表征在圖表中,但是很難擴展到更大位的狀態和動作空間動作值網絡的表征能力(The Representational Capacity of Action-ValueNetworks)。使用神經網絡近似不同尺寸大小的內在關系,但是僅僅在一次性決策博弈上進行了驗證深度協作圖(deep coordination graph)。基于Q學習端對端訓練的值函數,結合max-plus算法將協作圖擴展到深度學習下的連續決策任務下,但是由于該方法使用了完全連接協作圖的原因,算法的可擴展性收到了一定的限制。多智能體強化學習系統中,常見的做法就是假設所有智能體之間都存在著隱式合作關系,利用智能體獨立的動作值函數與兩兩智能體之間的局部聯合動作值函數之和作為全局聯合動作值函數進行策略估計。
基于值函數分解的強化學習中的值分解網絡(Value Decomposition Network)采用單獨動作值函數求和的方式計算聯合動作值函數,訓練過程中利用聯合動作值函數對神經網絡進行更新,執行時則基于單獨動作值函數選擇最優動作與環境交互。然而由于該方法假設聯合動作值函數和單獨動作值函數存在可加性假設,過于嚴格的限制以及對全局狀態的忽略導致在某些較為復雜的任務上無法達到期望的效果。
QMIX算法針對值分解網絡(VDN)的問題提出解決方案。為更準確的預測聯合動作值函數,QMIX在集中式訓練解決引入全局狀態s進行訓練,利用超網絡將全局狀態s映射到多維正值向量上,作為單獨動作值函數的權重和偏置。基于這種方式對單獨動作值函數進行加權求和,在放松可加性約束的同時利用全局信息提高值函數預測準確性。在一些值分解網絡無法有效學習的環境上有較好的實驗效果。
Qtran算法的提出是為了解決基于可加性約束的值分解網絡和基于單調性約束的QMIX對于不滿足其約束性的可分解任務無法做到有效的聯合動作值函數分解的此類問題,但該方法計算量過大,且較為寬松的約束使得其在多數任務上無法獲得較好的表現。
現有算法將多智能體系統類比為協作圖。具體的,將智能體類比為協作圖中的節點,智能體之間的合作關系類比為協作圖的邊。這些方法往往將協作圖設計為完全連接的圖結構,通過將聯合動作狀態值函數分解為智能體獨立的動作值函數與兩兩智能體之間的局部聯合動作值函數的方式,更準確的預測獨立動作價值和聯合動作價值,從而提高智能體之間的合作能力;另一方面,隱式的信度分配機制也能有效的避免智能體選擇損害合作行為的動作。但是智能體之間的關系往往是動態變化的,某些時刻合作關系并不存在于任意兩個智能體之間。顯然,更為準確的協作圖的構建會帶來更準確的值函數的表達,進而學習到更接近最優策略的聯合動作決策。
發明內容
本發明旨在解決多智能體系統下智能體之間的合作效率問題,而提出了一種基于動態協作圖的多智能體強化學習方法,結合注意力機制提取智能體之間的動態合作關系,進一步結合max-plus算法和超網絡進行智能體策略提升,有效促進了智能體之間的合作。
1.本發明的一種基于動態協作圖的多智能體強化學習方法,其特征在于,該方法具體包括以下步驟:
步驟1、基于多智能體系統構建動態協作圖:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011298827.7/2.html,轉載請聲明來源鉆瓜專利網。





