[發明專利]一種多智能體合作決策及訓練方法有效
| 申請號: | 201811210985.5 | 申請日: | 2018-10-17 |
| 公開(公告)號: | CN109635917B | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 盧宗青;姜杰川 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 劉廣達 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 合作 決策 訓練 方法 | ||
1.一種多智能體合作決策及訓練方法,其特征在于,包括如下步驟:
S1:編碼器使用多層感知器或卷積神經網絡對智能體獲得的局部觀察進行編碼,編碼為感受野內的特征向量;
S2:圖卷積層利用多頭注意力機制的關系單元計算智能體之間的關系強度,所述關系單元的關系卷積核將所述感受野內的特征向量整合為新的特征向量,迭代多次所述圖卷積層,得到更大的感受野和更高階的多頭注意力機制的關系描述;
S3:將所述感受野內的特征向量和圖卷積層整合的所述新的特征向量拼接,送入價值網絡,所述價值網絡選擇執行未來反饋期望最高的動作決策;
S4:將所述智能體的局部觀察集合及相關集合存儲在緩沖區,在所述緩沖區采集樣本進行訓練,優化并改寫損失函數。
2.如權利要求1所述的決策及訓練方法,其特征在于,在任一時刻,每個智能體獲得的局部觀察若為低維向量數據,則所述編碼器使用多層感知器進行編碼;
每個智能體獲得的局部觀察若為視覺圖像輸入,則所述編碼器使用卷積神經網絡進行編碼。
3.如權利要求1所述的決策及訓練方法,其特征在于,在每一層圖卷積操作中,每個智能體通過通信通道獲取所述感受野內的特征向量;
將所有智能體的特征向量拼接成一個大小為N×L的特征矩陣Ft,
其中N是環境中智能體的總數目,L是特征向量的長度;
對于每個智能體i構造一個大小為(K+1)×N的鄰接矩陣K是感受野內智能體的數目,t為時刻;
所述鄰接矩陣的第一行是智能體i的索引的獨熱表示,剩余的第j行是感受野內智能體j的索引的獨熱表示,通過點乘運算得到智能體i局部區域內的特征向量集
4.如權利要求3所述的決策及訓練方法,其特征在于,所述關系強度表示為:
其中,αij為智能體i和智能體j之間的關系強度,εi為智能體i的局部區域,包括k個臨近智能體和中心智能體,τ是規模系數,hi表示智能體i的特征向量,同理,j、e代表智能體,T表示矩陣轉置,Wq和Wk分別是需要學習的每個注意力頭的query向量參數和key向量參數,q為query,k為key。
5.如權利要求4所述的決策及訓練方法,其特征在于,所述多頭注意力機制產生的新的特征向量按照所述關系強度加權平均,并經過非線性變換函數σ得到該層圖卷積的特征向量hi′:
其中,Wv是需要學習的每個注意力頭的value向量參數,v為value,M為注意力頭的個數。
6.如權利要求5所述的決策及訓練方法,其特征在于,所述價值網絡為每一個可行的動作產生一個未來反饋的期望值,以1-∈的概率執行期望值最高的動作,或者以∈的概率執行隨機動作,∈表示執行概率,取值范圍[0,1]。
7.如權利要求6所述的決策及訓練方法,其特征在于,在所述價值網絡執行每一個動作后,將五元組(O,A,O′,R,C)存儲在緩沖區中,O={o1,o2,…,oN}代表當前時間步智能體的局部觀察集合,A={a1,a2,…,aN}代表智能體所選取的動作集合,O′={o′1,o′2,…,o′N}代表下一個時間步智能體的局部觀察集合,R={r1,r2,…,rN}代表智能體得到的實時環境反饋集合,C代表智能體的局部連接結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811210985.5/1.html,轉載請聲明來源鉆瓜專利網。





