[發明專利]基于游戲樹搜索算法的決策模型數據處理方法及系統在審
| 申請號: | 202110369855.1 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN112765242A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 王嘉旸;雷捷維;李一華;任航;黃偉;熊喚亮;王命延 | 申請(專利權)人: | 中至江西智能技術有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 何世磊 |
| 地址: | 330100 江西省南*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 游戲 搜索 算法 決策 模型 數據處理 方法 系統 | ||
本發明公開了一種基于游戲樹搜索算法的決策模型數據處理方法及系統,該方法包括:在游戲樹搜索算法的剪枝策略的設計過程中,利用雙深度Q學習算法模型預估在當前出牌決策中出每張牌對應的分數,選擇預估得分大于或等于分數閾值的出牌動作來擴展游戲樹;在游戲樹搜索算法的估值函數的設計過程中,若游戲樹搜索算法能夠在限定時間內搜索到游戲終局,則將估值函數設置為游戲終局能夠獲取到的游戲得分,若游戲樹搜索算法不能在限定時間內搜索到游戲終局,則利用雙深度Q學習算法模型計算當前游戲節點的每個動作的預估分數,并將預估分數的最大值作為估值函數的值。本發明能夠在沒有大量高質量玩家數據的情況下,構建高水平的智能決策系統。
技術領域
本發明涉及計算機數據處理技術領域,特別是涉及一種基于游戲樹搜索算法的決策模型數據處理方法及系統。
背景技術
對決策模型中涉及的數據進行數據處理是構建決策模型的前提,以麻將為例,麻將決策模型是先在當前麻將游戲中獲取一些數據信息(包括手牌、副露、對手的副露、棄牌、莊家位置等),通過對這些數據信息進行一定的處理,進行合理的決策動作,從而追求在麻將游戲中贏取更多的分數。在麻將游戲中,決策主要包括出牌決策與吃碰杠決策。
目前關于智能麻將決策模型的構建主要是應用了游戲樹搜索算法(ExpectimaxSearch)來實現。在2008年,T.Lin根據在每輪決策中結合運用Expectimax Search算法與動態規劃設計了麻將程序LongCat。該程序通過在搜索的過程追求向聽數的減少,以此獲得較高的勝率。在2015年,相關技術人員提出了“轉張”的概念來改進以前的LongCat程序,以此來追求更高的勝率。但是在麻將游戲的對局中,追求更高的得分比更高的勝率顯得更重要,然而目前基于Expectimax Search算法的模型都沒有很好地解決這一問題。除此之外,目前Expectimax Search算法的剪枝策略和估值函數都要依賴于人工先驗知識進行設計,這難免會引入設計者自身理解的偏差。
此外,日本東京大學Naoki Mizukami and Yoshimasa Tsuruoka團隊在2006~2016年,基于日本麻將規則,成功開發了日麻AI“爆打”,應用在日本天鳳麻將平臺。該技術方案使用的是傳統的機器學習算法,通過收集人類在麻將中對打的大量數據,來訓練麻將智能決策模型。這種方法的實現需要大量專業玩家的高水平對戰數據,對于剛上線、用戶量不多的游戲平臺則無能為力。
發明內容
為此,本發明的一個目的在于提出一種基于游戲樹搜索算法的決策模型數據處理方法,以在沒有大量高質量玩家數據的情況下,構建高水平的智能決策系統。
本發明提供一種基于游戲樹搜索算法的決策模型數據處理方法,包括:
在游戲樹搜索算法的剪枝策略的設計過程中,利用雙深度Q學習算法模型預估在當前出牌決策中出每張牌對應的分數,選擇預估得分大于或等于分數閾值的出牌動作來擴展游戲樹,以得到對游戲樹進行剪枝的結果;
在游戲樹搜索算法的估值函數的設計過程中,若游戲樹搜索算法能夠在限定時間內搜索到游戲終局,則將估值函數設置為游戲終局能夠獲取到的游戲得分,若游戲樹搜索算法不能在限定時間內搜索到游戲終局,則利用雙深度Q學習算法模型計算當前游戲節點的每個動作的預估分數,并將預估分數的最大值作為估值函數的值。
根據本發明提供的基于游戲樹搜索算法的決策模型數據處理方法,結合了雙深度Q學習算法(Double Deep Q Network,簡稱Double DQN)與游戲樹搜索算法,利用DoubleDQN彌補了Expectimax Search算法在剪枝策略設計、估值函數設計的不足,能夠在沒有大量高質量玩家數據的情況下,構建高水平的智能決策系統,與現有技術相比,本發明具有以下有益效果:
1、本發明不需要大量的高水平玩家用戶數據進行訓練,具有更好的普適性以及更高的商業價值,由于在實際商業運用的過程中,很多游戲公司需要在剛上線的游戲內配置高水平的AI,但是由于沒有積累足夠多的用戶數據,所以很難利用監督學習方法構建AI,相比之下,本發明可以解決這種問題,更好的普適性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中至江西智能技術有限公司,未經中至江西智能技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110369855.1/2.html,轉載請聲明來源鉆瓜專利網。





