[發明專利]一種基于拆分動作空間的深度強化學習斗地主游戲方法在審
| 申請號: | 202210322815.6 | 申請日: | 2022-03-30 |
| 公開(公告)號: | CN114841311A | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 孔燕;芮燁鋒 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;A63F1/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 曹坤 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 拆分 動作 空間 深度 強化 學習 地主 游戲 方法 | ||
1.一種基于拆分動作空間的深度強化學習斗地主游戲方法,其特征在于,具體操作步驟如下:
(1)、對斗地主游戲空間進行拆分;
(2)、對樣本數據進行編碼;
(3)、構建主牌DQN網絡,定義主牌獎勵函數;
(4)、構建副牌DQN網絡,定義副牌獎勵函數;
(5)、訓練未進行動作空間拆分和獎勵函數設計的DQN網絡,確保該DQN網絡的結構和設置于主牌DQN和副牌DQN一致;
(6)、將主副牌DQN智能體和單一DQN智能體置于地主、下家農民和上家農民的位置上與隨機策略玩家進行模擬游戲,以勝率作為標準進行比較,將比較數據進行可視化展示。
2.根據權利要求1所述的一種基于拆分動作空間的深度強化學習斗地主游戲方法,其特征在于,
在所述步驟(1)中,對斗地主游戲空間進行拆分具體是:
(1.1)、根據斗地主游戲規則,區分一個出牌為主牌和副牌兩部分;
(1.2)、遍歷斗地主游戲所有的出牌可能性,拆分成主牌和副牌,進而構建主牌動作空間和副牌動作空間。
3.根據權利要求1所述的一種基于拆分動作空間的深度強化學習斗地主游戲方法,其特征在于,
在所述步驟(2)中,對樣本數據進行編碼具體是:
使用一個5*15的矩陣對牌信息進行編碼表示,列表示牌的點數,從3到大王;行表示數量,從0到4;
選擇以當前手牌信息、最近三次出牌信息、已經出了的牌和還剩下的牌作為狀態信息,拼接成一個6*5*15的矩陣;
將斗地主游戲數據處理為s,a,r,s’,構建s,a,r,s’樣本集,
其中,a表示是一個集合,包括主牌動作和副牌動作;s表示一個6*5*15的one-hot矩陣;r表示一個集合,包括采取主牌動作后的即時獎勵和采取副牌動作后的即時獎勵;s’表示一個6*5*15的one-hot矩陣,表示轉移到的下一個狀態。
4.根據權利要求1所述的一種基于拆分動作空間的深度強化學習斗地主游戲方法,其特征在于,
在所述步驟(3)中,構建主牌DQN網絡,定義主牌獎勵函數的具體步驟如下:
(3.1)、收集并處理高水平人類玩家的游戲數據為特征數據和標簽二元組:收集高水平人類玩家的斗地主游戲數據,并以當前手牌信息為特征數據,出牌動作處理為one-hot編碼形式作為標簽數據,形成以特征數據,標簽數據二元組為元素的集合作為專家數據集合;
(3.2)、構建主牌獎勵網絡;將專家數據放入主牌獎勵網絡中訓練,即使用高水平人類玩家游戲數據進行訓練;網絡的輸入為玩家的手牌信息,輸出為玩家在該手牌信息下,采用動作的可能性;
主牌獎勵網絡訓練好后,以一個狀態下采取該動作的softmax值作為該動作的即時獎勵;
(3.3)、構建主牌DQN網絡,使用主牌獎勵網絡得出樣本中一個狀態下采取一個動作對應的獎勵值,將經過主牌獎勵網絡更新后的主牌樣本數據輸入到主牌經驗池中,更新為新的樣本數據,訓練主牌DQN網絡。
5.根據權利要求1所述的一種基于拆分動作空間的深度強化學習斗地主游戲方法,其特征在于,
在所述步驟(4)中,構建副牌DQN網絡,定義副牌獎勵函數是根據副牌本身的點數和副牌在其他可能性牌組出現的次數定義副牌獎勵函數,其具體步驟如下:
(4.1)、定義副牌獎勵規則,其具體公式為:
reward=k*e-(a+b)
式中,a表示該副牌在其他可能動作中出現的次數,b表示該副牌組合牌面大小的總和,k表示常數超參數;
(4.2)、構建副牌DQN網絡,將經過副牌獎勵函數規則更新后斗地主游戲樣本的副牌樣本數據,并作為副牌DQN網絡的輸入,通過新的深度強化學習框架進行訓練,訓練副牌DQN網絡。
6.根據權利要求1所述的一種基于拆分動作空間的深度強化學習斗地主游戲方法,其特征在于,
在所述步驟(5)中,確保該DQN網絡的結構和設置于主牌DQN和副牌DQN一致具體是構建單一的DQN網絡,不拆分動作空間,不構建獎勵函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210322815.6/1.html,轉載請聲明來源鉆瓜專利網。





