[發明專利]一種基于拆分動作空間的深度強化學習斗地主游戲方法在審
| 申請號: | 202210322815.6 | 申請日: | 2022-03-30 |
| 公開(公告)號: | CN114841311A | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 孔燕;芮燁鋒 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;A63F1/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 曹坤 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 拆分 動作 空間 深度 強化 學習 地主 游戲 方法 | ||
本發明公開了一種基于拆分動作空間的深度強化學習斗地主游戲方法。涉及游戲人工智能技術領域與深度強化學習領域。對斗地主游戲動作空間按照主牌和副牌拆分為主牌動作空間和副牌動作空間;對樣本數據進行編碼和預處理;再構建主牌DQN網絡,預訓練主牌獎勵函數來更新樣本中的獎勵值,將新的樣本輸入主牌DQN網絡進行訓練;構建副牌DQN網絡,設計副牌獎勵函數、更新樣本中獎勵值并放入副牌DQN網絡訓練;以單一DQN網絡的智能體作為比較對象,以游戲勝率作為比較標準,比較主副牌DQN和單一DQN的表現,并進行可視化展示。本發明能夠有效解決斗地主游戲中強化學習面臨的動作空間巨大和獎勵稀疏的問題,提升了智能體在游戲中的表現。
技術領域
本發明屬于計算機技術應用領域,涉及應用于游戲領域的人工智能技術,主要包括深度強化學習和深度學習,具體是涉及一種基于拆分動作空間的深度強化學習斗地主游戲方法。
背景技術
近些年,人工智能技術被廣泛運用于人們生活的各個領域之中。隨著AlphaGo在圍棋領域帶來的卓越成就,強化學習漸漸地在游戲領域嶄露頭角。其中,基于時序差分的強化學習方法是對狀態或狀態動作價值的估計進而指導智能體使其按照一定的策略選擇動作,以達到較好的結果。然而,強化學習被運用到斗地主游戲中面臨著動作空間巨大和獎勵稀疏的問題。一方面,斗地主游戲的動作空間是根據游戲規則對牌進行組合進而構成的,動作空間總量高達兩萬多。由于動作都是牌的組合,所以拆分組合元素會大幅度降低動作空間。另一方面,斗地主游戲是典型的稀疏獎勵環境,游戲期間,環境并不會返回有效的即時獎勵信息,所以設計獎勵機制能有效解決獎勵稀疏的問題,促進網絡訓練。
發明內容
發明目的:本發明所要解決的技術問題是克服強化學習運用于斗地主游戲時動作空間巨大和獎勵稀疏的問題,本發明根據斗地主游戲規則將動作空間分為主牌和副牌兩個部分并為這兩個部分構建獎勵機制,形成主副牌DQN結構。本發明能夠有效解決動作空間巨大和獎勵稀疏的問題,進而提升斗地主游戲中智能體的智能性,提升游戲勝率。
技術方案:本發明所述的一種基于拆分動作空間的深度強化學習斗地主游戲方法,具體操作步驟如下:
(1)、對斗地主游戲空間進行拆分;
(2)、對樣本數據進行編碼;
(3)、構建主牌DQN網絡,定義主牌獎勵函數;
(4)、構建副牌DQN網絡,定義副牌獎勵函數;
(5)、訓練未進行動作空間拆分和獎勵函數設計的DQN網絡,確保該DQN網絡的結構和設置于主牌DQN和副牌DQN一致;
(6)、將主副牌DQN智能體和單一DQN智能體置于地主、下家農民和上家農民的位置上與隨機策略玩家進行模擬游戲,以勝率作為標準進行比較,將比較數據進行可視化展示。
進一步的,在所述步驟(1)中,對斗地主游戲空間進行拆分具體是:
(1.1)、根據斗地主游戲規則,區分一個出牌為主牌和副牌兩部分;
(1.2)、遍歷斗地主游戲所有的出牌可能性,拆分成主牌和副牌,進而構建主牌動作空間和副牌動作空間。
進一步的,在所述步驟(2)中,對樣本數據進行編碼具體是:
使用一個5*15的矩陣對牌信息進行編碼表示,列表示牌的點數,從3到大王;行表示數量,從0到4;
選擇以當前手牌信息、最近三次出牌信息、已經出了的牌和還剩下的牌作為狀態信息,拼接成一個6*5*15的矩陣;
將斗地主游戲數據處理為s,a,r,s’,構建s,a,r,s’樣本集,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210322815.6/2.html,轉載請聲明來源鉆瓜專利網。





