[發(fā)明專利]基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡斗地主策略研究方法在審
| 申請?zhí)枺?/td> | 202010589925.X | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111729300A | 公開(公告)日: | 2020-10-02 |
| 發(fā)明(設計)人: | 王以松;彭啟文 | 申請(專利權(quán))人: | 貴州大學 |
| 主分類號: | A63F13/46 | 分類號: | A63F13/46;A63F13/822;G06N3/04;G06N3/08 |
| 代理公司: | 北京眾合誠成知識產(chǎn)權(quán)代理有限公司 11246 | 代理人: | 劉妮 |
| 地址: | 550025 *** | 國省代碼: | 貴州;52 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 蒙特卡洛樹 搜索 卷積 神經(jīng)網(wǎng)絡 地主 策略 研究 方法 | ||
本發(fā)明公開了機器學習技術領域的基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡斗地主策略研究方法,所述的方法包括如下步驟:隨機開始游戲并在每個玩家出牌時,以玩家當前狀態(tài)為根節(jié)點,玩家按照斗地主規(guī)則可能采用的動作作為根節(jié)點的直接子節(jié)點;再從博弈樹的根節(jié)點開始,使用蒙特卡洛樹搜索算法進行不斷的模擬抽樣學習;當使用蒙特卡洛樹搜索算法獲得的數(shù)據(jù)足夠多時,以(狀態(tài)及可能出牌,當前狀態(tài)下可能出牌對應的收益)為數(shù)據(jù)樣本,不斷訓練卷積神經(jīng)網(wǎng)絡CNN學習網(wǎng)絡,直到該網(wǎng)絡穩(wěn)定為止;針對CNN網(wǎng)絡在學習時可能存在的誤差,進一步使用策略改善算法對CNN網(wǎng)絡學習結(jié)果進行修正改善。
技術領域
本發(fā)明涉及機器學習技術領域,具體為基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡斗地主策略研究方法。
背景技術
近年來,隨著機器學習的發(fā)展,該方法也在完備信息博弈方面取得了顯著的成果。其中具有里程碑意義的是:2016年3月15日,谷歌公司使用深度學習和強化學習等方法,開發(fā)的AlphaGo在圍棋領域打敗了世界圍棋冠軍李世石,其標志機器在圍棋領域?qū)崿F(xiàn)了超人的表現(xiàn)。隨后AlphaGo Zero的訓練完全是通過自我學習來進行,AlphaGo Zero從隨機游戲開始,無需任何監(jiān)督或使用人類數(shù)據(jù),并且僅使用棋盤上的黑白子作為原始輸入特征,通過不斷地學習最后以顯著優(yōu)勢勝過使用人類數(shù)據(jù)參與訓練的AlphaGo。與機器學習在圍棋、象棋等棋盤游戲中取得的傲人成果相比,在諸如德州撲克、“斗地主”等紙牌游戲并未實現(xiàn)較好的表現(xiàn)。
研究者對于紙牌游戲的研究,主要集中在德州撲克這種不完備信息博弈游戲中,并取得了不錯的成果,如卡耐基梅隆大學開發(fā)的Libratus和阿爾伯塔大學開發(fā)的DeepStack都能在與人類玩家進行一對一的模式中取得不錯的結(jié)果。其中Libratus假設兩玩家在每次決策都使用Monte Carlo Counterfactual Regret Minimization(MCCFR)求解得到,以使得所求策略趨近于納什均衡,但是納什均衡等博弈知識大部分都是建立在非合作博弈之上,目前對于像“斗地主”游戲中農(nóng)民間體現(xiàn)出的合作博弈暫無較好的解決方案;而DeepStack則使用了深度學習的方法。此外,不論是Libratus或DeepStack,它們都只能進行一對一游戲。
相較于德州撲克的研究,在“斗地主”游戲方面的研究較少,其中上海交通大學的YangYou等人提出一種Combinational Q-Learning(CQL)的解決方案,該方案在于原始深度強化學習如DQN、A3C的比較中,取得了顯著效果(其中原文實驗表明:在“斗地主”游戲中,DQN算法并未收斂)。但是在與人類進行實際游戲的過程中,效果往往沒有那么好。
斗地主,作為在中國比較流行的紙牌游戲,深受大眾的喜歡。在2018年騰訊公司年度“斗地主”錦標賽中,參與人數(shù)多達8000萬。與之相反的是,現(xiàn)在對于“斗地主”的研究較少,主要因為其較難且對其重視度不夠。斗地主是一款3人的紙牌游戲,對“斗地主”游戲規(guī)則屬于現(xiàn)有技術。其中研究難主要體現(xiàn)在如下方面:(1)在游戲過程中,撲克信息是部分隱藏的;(2)按照“斗地主”游戲規(guī)則,游戲過程中游戲空間較大;(3)該游戲是多人博弈的問題,在游戲中還體現(xiàn)了合作博弈。
基于此,本發(fā)明設計了基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡斗地主策略研究方法,以解決上述提到的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡斗地主策略研究方法,以解決上述背景技術中提出的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡斗地主策略研究方法,所述的方法包括如下步驟:
隨機開始游戲并在每個玩家出牌時,以玩家當前狀態(tài)為根節(jié)點,玩家按照斗地主規(guī)則可能采用的動作作為根節(jié)點的直接子節(jié)點;
再從博弈樹的根節(jié)點開始,使用蒙特卡洛樹搜索算法進行不斷的模擬抽樣學習;
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于貴州大學,未經(jīng)貴州大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010589925.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





