[發明專利]游戲模型的數據處理方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110228510.4 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN113159313B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 查道琛;馬文曄;謝靜如 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;A63F13/79;G06N3/04 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 黃麗霞 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 游戲 模型 數據處理 方法 裝置 電子設備 存儲 介質 | ||
本公開關于一種游戲模型的數據處理方法、裝置、電子設備及存儲介質,其通過獲取設置在遠端的游戲模擬器基于第一出牌模型的神經網絡自我博弈產生的各角色對象的對局數據,并將各角色對象的對局數據輸入與第一出牌模型的神經網絡參數相同的第二出牌模型的神經網絡,進而采用強化學習算法訓練該第二出牌模型的神經網絡,從而得到神經網絡的參數更新后的目標出牌模型。由于本公開通過遠端的游戲模擬器進行自我博弈以產生相應的對局數據作為訓練數據,從而不需要依賴人類角色的數據和經驗,通過強化學習算法訓練神經網絡,使得訓練后的目標出牌模型能夠提高出牌的準確性,且提高了模型的訓練速度。
技術領域
本公開涉及計算機技術領域,尤其涉及一種游戲模型的數據處理方法、裝置、電子設備及存儲介質。
背景技術
隨著電子、網絡等技術的發展,網絡游戲作為人們生活中的一種娛樂形式,已經成為人們生活中不可缺少的部分。例如斗地主、麻將等。而在斗地主游戲的過程中,出牌是最重要的一環,玩家出牌的好壞直接決定游戲中的勝負。而游戲中機器人出牌的好壞將會影響游戲中人類玩家的游戲體驗。給人類玩家匹配上水平相當的機器人可以給玩家有趣的游戲體驗。因此,出牌策略是斗地主智能決策中至關重要的部分。
相關技術中,一般采用基于監督學習的出牌策略,即根據線上產生的大量人類玩家的出牌數據,通過監督學習算法去模仿人類出牌。然而,由于其依賴于人類玩家的出牌數據,因此,性能很大程度上取決于數據的質量,從而導致訓練出的策略很難超過人類水平,使得訓練出的機器人對出牌控制的準確性較低。
發明內容
本公開提供一種游戲模型的數據處理方法、裝置、電子設備及存儲介質,以至少解決相關技術中機器人出牌準確性低的問題。本公開的技術方案如下:
根據本公開實施例的第一方面,提供一種游戲模型的數據處理方法,所述方法包括:
獲取設置在遠端的游戲模擬器自我博弈產生的對局數據,所述對局數據包括所述游戲模擬器基于第一出牌模型的神經網絡自我博弈時各角色對象的狀態數據、與所述狀態數據對應的目標行為以及對局結果;
基于所述對局結果,將所述各角色對象的狀態數據和與所述狀態數據對應的目標行為輸入與所述第一出牌模型的神經網絡參數相同的第二出牌模型的神經網絡,所述第一出牌模型的神經網絡通過同步第二出牌模型的神經網絡參數得到;
采用強化學習算法訓練所述第二出牌模型的神經網絡,得到神經網絡的參數更新后的目標出牌模型。
在其中一個實施例中,所述獲取設置在遠端的游戲模擬器自我博弈產生的對局數據,包括:獲取設置在遠端的所述游戲模擬器基于第一出牌模型的神經網絡自我博弈時對應目標角色對象的狀態數據以及與所述狀態數據對應的所有候選行為;基于游戲策略和狀態數據,獲取與所述狀態數據對應的每一個候選行為的決策數據;根據每一個候選行為的決策數據確定與所述狀態數據對應的目標行為;獲取執行所述目標行為后的執行結果,直到游戲結束時獲取所述游戲的對局結果。
在其中一個實施例中,在所述獲取設置在遠端的游戲模擬器自我博弈產生的對局數據之后,所述方法還包括:基于游戲中的不同角色對象,將所述對局數據存儲在與各角色對象對應的緩沖區中;所述采用強化學習算法訓練所述第二出牌模型的神經網絡,得到神經網絡的參數更新后的目標出牌模型,包括:基于各角色對象對應的緩沖區中的對局數據,采用強化學習算法并行訓練各角色對象對應的第二出牌模型的神經網絡,得到與各角色對象對應的神經網絡的參數更新后的目標出牌模型。
在其中一個實施例中,所述基于各角色對象對應的緩沖區中的對局數據,采用強化學習算法并行訓練各角色對象對應的第二出牌模型的神經網絡,得到與各角色對象對應的神經網絡的參數更新后的目標出牌模型,包括:當存在數據量達到設定值的緩沖區時,則基于所述數據量達到設定值的緩沖區中的對局數據,采用強化學習算法訓練與所述緩沖區的角色對象對應的第二出牌模型的神經網絡,得到對應角色對象的神經網絡的參數更新后的目標出牌模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110228510.4/2.html,轉載請聲明來源鉆瓜專利網。





