[發明專利]一種博弈策略優化方法、系統及存儲介質有效
| 申請號: | 202010399728.1 | 申請日: | 2020-05-13 |
| 公開(公告)號: | CN111291890B | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 王軒;漆舒漢;張加佳;胡書豪;黃旭忠;劉洋;蔣琳;廖清;夏文;李化樂 | 申請(專利權)人: | 哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院) |
| 主分類號: | G06N5/04 | 分類號: | G06N5/04;G06N3/08;G06N20/00 |
| 代理公司: | 深圳市添源知識產權代理事務所(普通合伙) 44451 | 代理人: | 羅志偉 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 博弈 策略 優化 方法 系統 存儲 介質 | ||
1.一種博弈策略優化方法,該博弈策略優化方法基于多智能體強化學習和虛擬自我對局進行實現,其特征在于,包括如下步驟:
建立基于最大熵的策略遞度算法步驟:在最大熵強化學習中,除了要最大化累計期望收益這個基本目標,還要最大化策略熵:
其中在狀態 下智能體選擇動作 獲得的獎勵, 表示策略 在狀態 下的策略熵, 表示決定策略熵項重要程度的溫度系數,相當于用來控制智能體策略的隨機性,如果 則退化為傳統的強化學習算法;
多智能體最優反應策略求解步驟:采用中心化訓練分散式執行的方式來求解最優策略,通過基線獎勵評估合作博弈中的智能體收益;
將該博弈策略優化方法應用于多人游戲中,實現多智能體博弈;
將該博弈策略優化方法應用于多人游戲中的實現方式是:根據博弈場景特點提取每個智能體所處環境的原始狀態表示矩陣,編碼為一個11*11*19的狀態表征向量,作為網絡輸入;原始狀態表示矩陣中需要包括地圖信息、智能體炸彈威力、敵方智能體信息、存活時長;網絡主體結構采用卷積神經網絡結構;分為訓練和測試2個步驟,訓練時采用虛擬自我對局框架,其中最優反應策略求解采用中心化訓練分散式執行框架,通過智能體共享的全局信息和動作訓練了一個中心化的估值網絡Critic,并在損失函數中添加了策略熵來平衡探索和利用,Actor網絡用來擬合智能體的全局最優反應策略;訓練時,平均策略則是采用對Actor進行行為克隆從而更新網絡參數;在訓練和測試時均通過平均策略決定每個智能體的動作,平均策略的狀態輸入與最優反應策略一致,且共用一個主體卷積模塊進行特征映射,假設N是智能體的可選動作總數,平局策略輸出是一個N維向量,表示每個智能體的動作概率分布,即智能體策略,智能體將采取N維向量中概率最大的動作;
在所述多智能體最優反應策略求解步驟中,采用中心化訓練分散式執行的方式來求解最優策略的具體技術方案是:在訓練階段允許利用其他智能體的可見信息,在智能體根據策略執行動作時則僅根據自身可見信息做出判斷,對于智能體
其中為智能體i估值網絡的輸出,該網絡的輸入 中的表示智能體之間共享的全局信息,而 表示第
對于智能體
其中 表示策略組 中的策略網絡參數,而 則是中心化訓練的值網絡的輸出;
在所述多智能體最優反應策略求解步驟中,通過基線獎勵評估合作博弈中的智能體收益的具體技術方案是:利用一個集中的評估網絡Critic評估所有智能體的行為,通過中心化的對狀態
第一項表示選取動作 得到的全局收益,該獎勵可以通過中心化的 Critic 計算得到,第二項中 表示智能體
2.根據權利要求1所述的博弈策略優化方法,其特征在于,在所述建立基于最大熵的策略遞度算法步驟中,溫度系數a的損失函數如下:
其中表示在狀態 下智能體選擇動作 的概率分布,上述公式的意義就是保持策略熵大于的同時來優化策略,可以實現在博弈策略優化的不同階段溫度系數 α 可變。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院),未經哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010399728.1/1.html,轉載請聲明來源鉆瓜專利網。





