[發明專利]一種多智能體合作決策及訓練方法有效
| 申請號: | 201811210985.5 | 申請日: | 2018-10-17 |
| 公開(公告)號: | CN109635917B | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 盧宗青;姜杰川 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 劉廣達 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 合作 決策 訓練 方法 | ||
本發明提供一種多智能體合作決策及訓練方法,包括如下步驟:S1:編碼器使用多層感知器或卷積神經網絡對智能體獲得的局部觀察進行編碼,編碼為感受野內的特征向量;S2:圖卷積層利用多頭注意力機制的關系單元計算智能體之間的關系強度,關系單元的關系卷積核將感受野內的特征向量整合為新的特征向量,迭代多次圖卷積層,得到更大的感受野和更高階的多頭注意力機制的關系描述;S3:將感受野內的特征向量和圖卷積層整合的新的特征向量拼接,送入價值網絡,價值網絡選擇執行未來反饋期望最高的動作決策;S4:將智能體的局部觀察集合及相關集合存儲在緩沖區,在緩沖區采集樣本進行訓練,優化并改寫損失函數。
技術領域
本發明涉及深度強化學習領域,特別涉及一種多智能體合作決策及訓練方法。
背景技術
深度強化學習已經在圍棋等游戲任務中超越了人類水平,并逐漸被應用在自動化控制領域如自動駕駛等。在強化學習中,智能體通過觀察環境狀態,選擇回報期望最大的動作,并接收環境給出的反饋。通過時序差分或策略梯度的方法進行訓練,或者二者結合的actor-critic算法。但是當環境中存在多個智能體時,由于每個利益驅動的智能體只追求自身利益最大化,而容易忽視團隊的整體利益,這使得合作策略難以實現。每一個智能體將其他智能體視為環境的一部分,由于其他智能體的策略會發生變化,這使得環境變得不穩定,給訓練帶來一定的困難。
目前一些多智能體算法采用集中訓練分散執行的框架,如MADDPG,critic網絡接收其他所有智能體的狀態和動作,這樣避免了環境不穩定的問題。但是另一方面這種架構需要環境中所有智能體的信息,且需要為每一個智能體訓練一套決策網絡,訓練代價很高且難以應用到大規模分布式方法中。一些模型通過通信促進智能體之間的合作,CommNet使用連續的通信信號來解決合作情景,在每一個時間步,每個智能體的隱藏層狀態經過算術計算得到平均值作為下一層神經網絡的輸入。BiCNet采用循環神經網絡將所有智能體的決策網絡和價值網絡連接起來,更好的實現信息共享。通信的方法在一定程度上促進了合作,但是在真實情境中,特別是大規模多智能體環境,這些方法會受限于通信延時,帶寬以及信息冗余的問題。針對大規模智能體情景,Mean Field方法提出采用周圍臨近智能體的平均動作作為輸入,來表示其他智能體對中心智能體的影響。
圖卷積網絡在一些不規則甚至位于非歐空間的數據集上取得了較好的效果,如社交網絡、3D點云、蛋白質分子等。利用類似卷積的操作在圖結構上作回歸或者分類,預測隱藏的點特征和邊特征。關系網絡旨在學習實體之間的關系,并通過分析實體關系預測未來的狀態。
發明內容
本發明的目的是通過以下技術方案實現的。
一種多智能體合作決策及訓練方法,包括如下步驟:
S1:編碼器使用多層感知器或卷積神經網絡對智能體獲得的局部觀察進行編碼,編碼為感受野內的特征向量;
S2:圖卷積層利用多頭注意力機制的關系單元計算智能體之間的關系強度,所述關系單元的關系卷積核將所述感受野內的特征向量整合為新的特征向量,迭代多次所述圖卷積層,得到更大的感受野和更高階的多頭注意力機制的關系描述;
S3:將所述感受野內的特征向量和圖卷積層整合的所述新的特征向量拼接,送入價值網絡,所述價值網絡選擇執行未來反饋期望最高的動作決策;
S4:將所述智能體的局部觀察集合及相關集合存儲在緩沖區,在所述緩沖區采集樣本進行訓練,優化并改寫損失函數。
具體地,在任一時刻,每個智能體獲得的局部觀察若為低維向量數據,則所述編碼器使用多層感知器進行編碼;
每個智能體獲得的局部觀察若為視覺圖像輸入,則所述編碼器使用卷積神經網絡進行編碼。
具體地,在每一層圖卷積操作中,每個智能體通過通信通道獲取所述感受野內的特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811210985.5/2.html,轉載請聲明來源鉆瓜專利網。





