[發(fā)明專利]基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法在審
| 申請?zhí)枺?/td> | 202010589925.X | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111729300A | 公開(公告)日: | 2020-10-02 |
| 發(fā)明(設(shè)計)人: | 王以松;彭啟文 | 申請(專利權(quán))人: | 貴州大學(xué) |
| 主分類號: | A63F13/46 | 分類號: | A63F13/46;A63F13/822;G06N3/04;G06N3/08 |
| 代理公司: | 北京眾合誠成知識產(chǎn)權(quán)代理有限公司 11246 | 代理人: | 劉妮 |
| 地址: | 550025 *** | 國省代碼: | 貴州;52 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 蒙特卡洛樹 搜索 卷積 神經(jīng)網(wǎng)絡(luò) 地主 策略 研究 方法 | ||
1.基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法,其特征在于:所述的方法包括如下步驟:
隨機開始游戲并在每個玩家出牌時,以玩家當(dāng)前狀態(tài)為根節(jié)點,玩家按照斗地主規(guī)則可能采用的動作作為根節(jié)點的直接子節(jié)點;
再從博弈樹的根節(jié)點開始,使用蒙特卡洛樹搜索算法進行不斷的模擬抽樣學(xué)習(xí);
當(dāng)使用蒙特卡洛樹搜索算法獲得的數(shù)據(jù)足夠多時,以(狀態(tài)及可能出牌,當(dāng)前狀態(tài)下可能出牌對應(yīng)的收益)為數(shù)據(jù)樣本,不斷訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)CNN學(xué)習(xí)網(wǎng)絡(luò),直到該網(wǎng)絡(luò)穩(wěn)定為止;
針對CNN網(wǎng)絡(luò)在學(xué)習(xí)時可能存在的誤差,進一步使用策略改善算法對CNN網(wǎng)絡(luò)學(xué)習(xí)結(jié)果進行修正改善。
2.根據(jù)權(quán)利要求1所述的基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法,其特征在于:所述狀態(tài)包括但不僅限于每個玩家已出牌,玩家手牌張數(shù),當(dāng)前玩家手牌。
3.根據(jù)權(quán)利要求1所述的基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法,其特征在于:所述蒙特卡洛樹搜索算法為蒙特卡洛方法和博弈樹搜索相結(jié)合的方法。
4.根據(jù)權(quán)利要求3所述的基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法,其特征在于:所述蒙特卡洛方法是利用經(jīng)驗平均來代替隨機變量的期望,具體方法為:
通過蒙特卡洛方法獲取到一系列收益G1(s),G2(s),……,Gn(s)。根據(jù)大數(shù)定律,當(dāng)n趨于無窮大時,抽樣收益的均值趨近于期望值,定義ν(s)為系列收益的平均值,即:
ν(s)→νπ(s)as n→∞ (2)
其中,s為游戲狀態(tài),νπ(s)為游戲s狀態(tài)時的期望值。
5.根據(jù)權(quán)利要求3所述的基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法,其特征在于:所述博弈樹搜索算法包括以下步驟:
擴展節(jié)點的選擇:遞歸地應(yīng)用節(jié)點選擇函數(shù),從所有待選擇的節(jié)點中,選擇一個節(jié)點作為本次擴展的根節(jié)點,從該節(jié)點開始,對該節(jié)點表示的博弈局面進行一次模擬;
擴展步驟:將一個或多個節(jié)點增加到MCTS搜索樹中,普通的策略是每次迭代,只向博弈樹種增加一個新節(jié)點;
模擬:模擬實際玩家博弈過程,進行從本次開始模擬的節(jié)點到終止?fàn)顟B(tài)的一次博弈過程;
反饋:模擬的結(jié)果會從本次模擬的終止節(jié)點開始,通過逐層反饋給父節(jié)點的方式,最終將模擬結(jié)果返回給根節(jié)點。
6.根據(jù)權(quán)利要求1所述的基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法,其特征在于:所述擴展節(jié)點的選擇使用的算法為UCT算法,所述UCT算法為:
式中γi表示節(jié)點i的選擇評估值,表示節(jié)點i的平均收益;C是常數(shù),其作用是為了平衡探索和利用;ni是以第i個節(jié)點作為模擬搜索的根節(jié)點的次數(shù)。
7.根據(jù)權(quán)利要求1所述的基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法,其特征在于:所述蒙特卡洛樹搜索算法在滿足最大抽樣次數(shù)或者達(dá)到時間耗盡等設(shè)置后,根據(jù)博弈樹中第一層子節(jié)點中每個節(jié)點的估值,從中選擇一個決策作為本次MCTS算法的最佳決策。
8.根據(jù)權(quán)利要求1所述的基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法,其特征在于:所述CNN學(xué)習(xí)網(wǎng)絡(luò)由4層卷積層和3層全連接層構(gòu)成,在其中還增加了3層池化層并使用Relu作為激活函數(shù),該網(wǎng)絡(luò)使用當(dāng)前狀態(tài)及某一種可能的出牌作為輸入,其輸入大小為15*15*29,輸出為當(dāng)前狀態(tài)及某一種可能出牌的收益。
9.根據(jù)權(quán)利要求1所述的基于蒙特卡洛樹搜索和卷積神經(jīng)網(wǎng)絡(luò)斗地主策略研究方法,其特征在于:所述策略改善方法實質(zhì)是蒙特卡洛樹搜索算法,通過給CNN學(xué)習(xí)網(wǎng)絡(luò)輸入某一狀態(tài)及該狀態(tài)下的一種可能出牌后,CNN學(xué)習(xí)網(wǎng)絡(luò)會輸出當(dāng)前狀態(tài)下該可能出牌的收益值,通過循環(huán)每種可能出牌可求解出當(dāng)前狀態(tài)下每種可能出牌的收益;然后將當(dāng)前狀態(tài)下每種可能出牌的收益值作為策略改善模塊中蒙特卡洛樹搜索的初始值,在一定時間范圍內(nèi),再對當(dāng)前狀態(tài)進行不斷抽樣模擬,修正CNN學(xué)習(xí)網(wǎng)絡(luò)中可能存在的誤差。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于貴州大學(xué),未經(jīng)貴州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010589925.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種區(qū)塊鏈生成方法、分布式節(jié)點和區(qū)塊鏈網(wǎng)絡(luò)
- 一種通用的計算機博弈問題策略搜索引擎類庫
- 一種基于區(qū)塊鏈的信息推送方法
- 一種基于蒙特卡洛樹搜索的透平轉(zhuǎn)子動葉片的排序方法
- 一種基于蒙特卡洛樹的系統(tǒng)運行狀態(tài)表示方法
- 一種基于蒙特卡洛樹搜索和神經(jīng)網(wǎng)絡(luò)的故障預(yù)測方法
- 基于人工智能的博弈業(yè)務(wù)執(zhí)行方法、裝置、設(shè)備及介質(zhì)
- 一種蒙特卡洛樹搜索方法、系統(tǒng)及應(yīng)用
- 一種輸出參考數(shù)據(jù)的方法及計算機設(shè)備
- 基于強化學(xué)習(xí)與蒙特卡洛搜索樹的MIMO雷達(dá)布站方法
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)





