[發明專利]基于UCT算法的亞馬遜棋機器博弈系統在審
| 申請號: | 201710247262.1 | 申請日: | 2017-04-14 |
| 公開(公告)號: | CN107050839A | 公開(公告)日: | 2017-08-18 |
| 發明(設計)人: | 李學俊;陳睿卿;劉劍秋;陸夢軒;朱二周 | 申請(專利權)人: | 安徽大學 |
| 主分類號: | A63F3/02 | 分類號: | A63F3/02;A63F3/00;A63F13/822 |
| 代理公司: | 南京知識律師事務所32207 | 代理人: | 高玲玲 |
| 地址: | 230039*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 uct 算法 亞馬遜 機器 博弈 系統 | ||
1.一種基于UCT算法的亞馬遜棋機器博弈系統,其特征在于包括:外部顯示裝置、輸入裝置和內部處理單元;
其中所述外部顯示裝置,用于與內部處理單元建立通訊,顯示棋盤信息和博弈過程;
所述輸入裝置,用于用戶設置參數和在博弈模式下的策略選擇,并與內部處理單元建立通訊,進行亞馬遜棋游戲;
所述內部處理單元:采用智能的博弈技術實現游戲系統的智能化,實現智能博弈技術之間自動博弈以及人與智能博弈技術之間的博弈。
2.根據權利要求1所述的博弈系統,其特征在于:所述內部處理單元包括:
搜索模塊,采用基于UCT算法的概率估值搜索方法,根據當前棋盤的狀態,模擬各種下棋選擇將會獲得的結果,不斷地對博弈樹進行搜索與更新,最后根據搜索樹的各節點的收益值找到當前的最優的下棋選擇;
存儲模塊,通過使用大小為10×10的字符型數組實現棋盤存儲,當下棋過程中棋局狀態發生變化時,通過改變數組實現對棋盤信息的更新;
信息交互模塊,用于實現外部裝置、輸入裝置與處理單元之間的數據傳輸、信息交互,對游戲系統的狀態進行控制;
互動模塊,通過在外部顯示裝置彈出選擇對話框來讓用戶進行游戲模式選擇,用于人人對弈、人機對弈與機機對弈的選擇入口。
3.根據權利要求2所述的博弈系統,其特征在于:所述于UCT算法的概率估值搜索方法采用以下步驟:
(1)選擇節點:根據博弈樹中各分支節點的UCB值進行節點選擇,獲取UCB值最大的節點;
(2)展開節點:當一個節點被選中,如果該節點沒有子節點并且達到預設的訪問次數時,為該節點擴展子節點并進行剪枝;
(3)模擬棋局:對所拓展的節點按照一定的方法進行模擬下棋,不區分博弈的雙方,知道棋局結束為止;模擬結束后統計模擬次數與勝負結果,為下一步提供數據;
(4)回溯更新:根據模擬棋局得到的勝負結果與模擬次數對模擬棋局的節點進行估值,并將模擬棋局的勝負結果沿著父節點回溯更新整個博弈樹。
4.根據權利要求3所述的博弈系統,其特征在于:所述步驟1中UCB值采用式1的計算公式:
式中:α是調整系數,M是到目前為止在整個博弈樹中已訪問的節點的次數,Cj是博弈樹分支j的訪問次數,是博弈樹中第j個分支的平均回報。
5.根據權利要求3所述的博弈系統,其特征在于:所述步驟2中對所得節點進行修剪保留,采用式2的估值公式對所得節點進行篩選:
Evaluation=f(S,m1)+f(S,m2)+f(S,a) (2)
式中:S表示當前形局勢,m1、m2、a分別代表QueenMove、KingMove和靈活度的估值,f是靈活度函數。
6.根據權利要求3所述的博弈系統,其特征在于:所述步驟4中更新采用以下步驟:把從代表當前局面的父節點到步驟2中所找到的子節點所形成的路徑上的所有點,依照模擬棋局的結果來更新勝利場數和訪問次數,亦即若此點為先手,且模擬棋局的結果為先手勝,則此節點的勝利次數加一,反之亦如此;訪問次數則是此路徑上的所有節點都加一,根據博弈樹每個分支的訪問次數和收益值對每個分支進行概率估值的修改。
7.根據權利要求6所述的博弈系統,其特征在于:所述概率估值采用收益值反映,其計算方式為:若模擬結果為勝,則收益值為1,若模擬結果為負,則收益值為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽大學,未經安徽大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710247262.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:落子信號放大采集裝置
- 下一篇:一種九宮盲文數獨游戲盤





