[發明專利]一種求解多智能體系統納什均衡的方法在審
| 申請號: | 202110382703.5 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN112966397A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 姜元男;譚拂曉 | 申請(專利權)人: | 上海海事大學 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G06F17/15 |
| 代理公司: | 上海元好知識產權代理有限公司 31323 | 代理人: | 張妍;張靜潔 |
| 地址: | 201306 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 求解 智能 體系 統納什 均衡 方法 | ||
1.一種求解多智能體系統納什均衡的方法,其特征在于,包含以下步驟:
步驟S1、根據多智能體系統的值函數給出初始策略和值函數的初始值
步驟S2、求解值函數
步驟S3、根據值函數的結果來改進策略
步驟S4、判斷是否收斂,若是,則達到納什均衡,結束,若否,則進行步驟S2。
2.如權利要求1所述的求解多智能體系統納什均衡的方法,其特征在于,所述值函數是基于Q函數設計的:
其中,是每個智能體i的解矩陣;是矩陣的一個子塊,是矩陣Q里的一個子矩陣,具有適當的位置指數(uik,εik);ε是一致性誤差;μ是智能體的策略;i,r,y是智能體的編號;k是時刻;T是矩陣的轉置;j是智能體i的鄰居;N是智能體i的鄰居所組成的集合;
給出了最優控制策略即:
則
根據最優控制定理
其中,l代表迭代指數,U代表智能體的值函數,
同理可得
所以
該算法有上界,是具有收斂性的;
同時,值函數的計算基于上一次迭代的值函數,與策略的提升是同步的,因此它的收斂速度快于策略迭代;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海海事大學,未經上海海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110382703.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種室內外兩用天線
- 下一篇:一種快速拆裝接頭及具有該接頭的起落架





