[發明專利]用稀疏化注意力輔助決策的嵌入式多智能體強化學習方法在審
| 申請號: | 202210508557.0 | 申請日: | 2022-05-11 |
| 公開(公告)號: | CN114626499A | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 吳超;羅雙;李皓;王永恒 | 申請(專利權)人: | 之江實驗室;浙江大學 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N20/00 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 稀疏 注意力 輔助 決策 嵌入式 智能 強化 學習方法 | ||
1.一種用稀疏化注意力輔助決策的嵌入式多智能體強化學習方法,其特征在于,包括以下步驟:
步驟1:初始化多智能體的效用函數網絡參數、混合網絡參數和目標混合網絡參數;
步驟2:將每一個智能體當前時刻的本地觀測進行編碼,得到本地觀測編碼向量,分別利用自注意力和稀疏注意力獲取每一個智能體的自注意力輸出和稀疏化注意力輸出;
步驟3:使用門控循環單元模塊對智能體的本地觀測編碼向量和歷史觀測隱藏狀態進行編碼,得到當前觀測隱藏狀態和當前觀測輸出;
步驟4:將自注意力輸出與當前觀測輸出拼接,利用全連接層計算智能體的本地常規效用函數;同時,將稀疏化注意力輸出與當前觀測輸出拼接,利用全連接層計算智能體的本地稀疏效用函數;
步驟5:將各個智能體的本地常規效用函數和本地稀疏效用函數分別輸入到混合網絡中,各自擬合得到常規全局價值函數和稀疏全局價值函數,利用常規全局價值函數和稀疏全局價值函數的加權損失對效用函數網絡參數和混合網絡參數進行更新,完成強化學習的訓練;
步驟6:在決策推理階段,各個智能體根據本地觀測和自身效用函數來選擇動作輸出給環境,從而與環境進行交互。
2.根據權利要求1所述的一種用稀疏化注意力輔助決策的嵌入式多智能體強化學習方法,其特征在于,所述的步驟1具體為:
(1.1)初始化多智能體的效用函數網絡參數,記為;
(1.2)初始化混合網絡參數;
(1.3)將初始化混合網絡參數作為目標混合網絡參數,后續對混合網絡進行訓練時,每隔一段時間對目標混合網絡參數進行一次更新。
3.根據權利要求1所述的一種用稀疏化注意力輔助決策的嵌入式多智能體強化學習方法,其特征在于,所述的步驟2具體為:
(2.1)將每一個智能體的本地觀測中的不同個體通過嵌入函數編碼成統一維度,得到本地觀測編碼向量;其中,
(2.2)將所述的本地觀測編碼向量映射為注意力機制中的鍵矩陣、值矩陣和查詢矩陣,所述的注意力機制包括共享參數的自注意力和稀疏注意力;
(2.3)計算自注意力輸出和稀疏化注意力輸出。
4.根據權利要求3所述的一種用稀疏化注意力輔助決策的嵌入式多智能體強化學習方法,其特征在于,所述的自注意力輸出公式為:
所述的稀疏化注意力機制模塊的計算公式為:
其中,Attn(.)表示自注意力公式,softmax(.)表示softmax激活函數,上角標
5.根據權利要求1所述的一種用稀疏化注意力輔助決策的嵌入式多智能體強化學習方法,其特征在于,步驟(2.1)所述的嵌入函數采用全連接層網絡實現。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室;浙江大學,未經之江實驗室;浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210508557.0/1.html,轉載請聲明來源鉆瓜專利網。





