[發明專利]國標麻將游戲自動博弈方法、系統、設備及存儲介質在審
| 申請號: | 202310243197.0 | 申請日: | 2023-03-14 |
| 公開(公告)號: | CN116236791A | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 李厚強;周文罡;范智磊;趙鑒;趙有朋 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | A63F13/67 | 分類號: | A63F13/67;G06N20/00;G06N3/08;G06N3/0464 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 國標 麻將 游戲 自動 博弈 方法 系統 設備 存儲 介質 | ||
1.一種國標麻將游戲自動博弈方法,其特征在于,包括:
構建訓練架構并進行訓練,訓練架構包括:數據訓練模塊、數據收集模塊與消息傳輸中間件;其中,數據收集模塊包含多個容器,容器之間采用docker虛擬化技術進行隔離,每個容器中包含國標麻將游戲環境內核和四個實時與環境交互并采集數據的智能體,四個智能體結合國標麻將游戲環境內核進行國標麻將游戲對局,國標麻將游戲對局記錄數據經處理后作為一個容器采集到的訓練數據,所有容器采集到的訓練數據即為數據采集模塊采集到的訓練數據;數據訓練模塊利用數據收集模塊采集到的訓練數據進行智能體的訓練,更新的智能體參數廣播至數據收集模塊由所有智能體共享;消息傳輸中間件連接數據收集模塊與數據訓練模塊,負責訓練數據與智能體參數的傳輸;
訓練完畢后,將智能體應用于國標麻將游戲自動博弈。
2.根據權利要求1所述的一種國標麻將游戲自動博弈方法,其特征在于,該方法還包括:設置一個Elo評估模塊,其通過帶有CPU的容器實現,定期獲取最新智能體參數的智能體,并與對手池中多個對手并行進行對局評測。
3.根據權利要求2所述的一種國標麻將游戲自動博弈方法,其特征在于,該方法還包括:采用容器的地址映射技術,建立數據訓練模塊、數據收集模塊與Elo評估模塊共同映射地址;其中,開辟一塊共享空間,使數據訓練模塊的容器、數據收集模塊的容器與Elo評估模塊的容器對共享空間都有讀寫訪問權限,且共享空間的內容是所有容器共享的,每個容器會將自身虛擬地址映射為共享空間的物理地址,實現共享空間的讀寫訪問。
4.根據權利要求1所述的一種國標麻將游戲自動博弈方法,其特征在于,一個容器采集到的訓練數據包括:每一回合時游戲環境的狀態,輸出的動作的采樣概率、狀態價值與執行的動作,國標麻將游戲環境內核反饋的獎勵值;其中,動作是指智能體打出的手牌。
5.根據權利要求1或4所述的一種國標麻將游戲自動博弈方法,其特征在于,所述智能體參數包括智能體中神經網絡的參數,所述神經網絡包括:依次設置的多個卷積層、歸一化與激活函數層以及多個殘差塊,最后一個殘差塊連接兩部分全連接層,第一部分全連接層輸出動作概率分布,根據動作概率分布采樣一個動作并執行;第二部分全連接層輸出狀態價值;其中,動作是指智能體打出的手牌,動作概率分布、采樣的動作以及狀態價值均為訓練數據中的一部分。
6.根據權利要求4所述的一種國標麻將游戲自動博弈方法,其特征在于,在對局過程中,每一智能體輸入為狀態信息以及根據狀態信息生成的合法動作集合;其中,所述狀態信息是根據國標麻將游戲環境內核提供的游戲環境的狀態轉換得到,所述游戲環境的狀態包括:智能體當前自己手牌信息、四個智能體吃碰杠之后展示的信息、四個智能體的出牌記錄、剩余牌墻數、對局的門風、對局的圈風以及未出現的手牌;
狀態信息輸入至智能體中神經網絡的第一個卷積層,合法動作集合輸入至第一部分全連接層。
7.根據權利要求1所述的一種國標麻將游戲自動博弈方法,其特征在于,訓練中設置獎勵函數指引智能體朝著預期目標行動,游戲未結束的階段獎勵設為0,在游戲結束時根據番型與贏牌類型給予終局獎勵,其中,游戲結束后,根據番型與贏牌類型計算一個獎勵值,根據游戲勝負情況確定終局獎勵,如果流局或非本人點炮,則將終局獎勵設定為第一固定值;如果為本人點炮,終局獎勵設定為第二固定值;獲勝時終局獎勵為獎勵值的平方根。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310243197.0/1.html,轉載請聲明來源鉆瓜專利網。





