[發明專利]一種提高多智能體系統合作水平的多跳學習方法在審
| 申請號: | 202010094720.4 | 申請日: | 2020-02-16 |
| 公開(公告)號: | CN111294242A | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 王濤;韓樂;關潤宇;熊偉明;周達;秦宇;王卓婭;金鑫 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;G06N5/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410082 湖南省*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提高 智能 體系 統合 水平 學習方法 | ||
1.一種通過增加學習范圍促進演化博弈環境下的多智能體系統合作水平的方法,其特征在于,包括以下步驟:
步驟一、判斷該多智能體系統是否滿足本方法的3個條件:
(1)智能體之間的交互模式能夠建模到獵鹿博弈或囚徒博弈模型;此類博弈為困境博弈,獵鹿博弈納什均衡策略有2個,為(背叛,背叛)和(合作,合作),囚徒博弈納什均衡為(背叛,背叛),但是系統收益水平最高的策略是(合作,合作),也就是相互作用的兩個智能體只有采取合作策略,系統才能達到最優;獵鹿博弈的收益矩陣是(1r0);囚徒博弈的收益矩陣是(1r0),r為代價收益比,滿足該矩陣關系的其他收益矩陣表述也是此兩類博弈,適用于本方法;根據收益矩陣可以看出,系統收益正比于合作比率,因此將合作比率為考察指標;
此類博弈是對智能體之間交互作用的一個抽象建模,具體在不同應用場景中代表不同的行為,如群智系統中合作完成某個任務,無線傳感網絡中的合作消息傳遞,P2P網絡中限制搭便車的行為,適合于所有能夠使用獵鹿博弈和囚徒博弈模型描述的群體行為;
(2)智能體之間交互作用多次重復,參與智能體能根據環境調整自己的行為;
(3)智能體之間的相互聯系可以建模到某種空間網絡結構上,如2維網格;
步驟二、對同時滿足以上3個條件的多智能體系統,執行以下操作:(1)將智能體系統關鍵交互活動建模到獵鹿博弈或囚徒博弈;(2)將多個智能體安置在某種拓撲的網絡節點上,隨機初始化其策略(合作或背叛),博弈收益清0;重復執行步驟三,四,直至系統停止運行;
步驟三、每一代開始博弈時,智能體將博弈收益清0,然后開始和直接鄰居博弈;所有的兩兩相連的智能體各自博弈一次,根據收益矩陣參數計算各自收益,并將各自和鄰居博弈的收益累積;
步驟四、博弈完了后,智能體根據學習范圍,即學習多跳范圍內(2~5跳)的鄰居,調整策略(合作或背叛),策略有p=0.01的概率反轉,記錄系統合作比率;一代博弈結束,進入下一代,回到步驟三;
智能體的學習范圍,也就是學習跳數,表示對于個體學習能力的定義;首先,以4鄰居晶格網絡為例,假設每一個方格對應一個博弈個體,兩個方格相鄰即為一對博弈對象,個體僅能與他的鄰居博弈;為了方便觀察不同的學習范圍,定義參數S來表示當前學習的鄰居范圍大小;如圖1(a)所示,當S=1時,它表示最經典的馮·諾依曼鄰居(Von Neumannneighborhood,VNN);當范圍擴展到鄰居的鄰居時(即S=2),因為所有的個體只有4個鄰居分別表示4個方向(上、下、左、右),在范圍擴展時也只考慮4個方向的擴大,整個范圍大小如圖1(b)所示;以此規律,就可以通過調節S來表示不同的學習能力,圖1(c)表示了S=4時的所有鄰居范圍,同時方格中的數字分別代表了對應的S值時的鄰居范圍;根據這個規律,可以得到S與對應范圍內所有鄰居數的關系:2S*(S+1);1跳的學習是經典的學習范圍,只學習直接鄰居;我們的方法是指學習多跳范圍內(S=2~5)的鄰居的策略,經實驗表明,3~5跳為2維網格網絡環境的最佳跳數。
智能體調整策略具體按照如下兩種規則之一進行:
(1)無條件學習規則:一輪博弈之后,讓智能體去學習其鄰居中收益最大的鄰居所采取的策略,首先必須滿足的條件是這個鄰居的收益要大于該智能體所得收益。以智能體a和智能體b為例來描述模仿概率公式:
其中,p(sa→sb)指的是智能體a模仿智能體b的概率,sa和sb分別指智能體a和智能體b各自當前的策略,Ia和Ib是一輪博弈結束后a和b各自的累積收益;
(2)復制子動態規則:復制子動態規則是最接近復制動力學的學習策略。在復制子動態規則中,一輪博弈完成后,智能體a會隨機選擇一個鄰居智能體b,如果a的收益大于其隨機選擇到的這個鄰居b的收益,那么a仍然會堅持自己的策略,而不去學習鄰居b的策略。如果b的收益比a的大,那么智能體a將以一定的概率去學習b的策略。
為了保證學習概率p在(0,1)之間,令Φ=max(ka,kb)(max(R,T)-min(P,S))。
其中ka,kb分別表示智能體a和智能體b的直接鄰居個數。
系統合作比率計算方法如下:
Rc=Nc/(Nc+Nd)
其中Nc表示選擇合作的智能體數量,Nd表示選擇背叛的智能體數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010094720.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種掩膜版
- 下一篇:一種高壓電子束曝光機用真空鎖裝置





