[發明專利]游戲人工智能系統及其性能提升系統及方法有效
| 申請號: | 201911389843.4 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111178541B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 王志偉;涂仕奎;徐雷 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 上海恒慧知識產權代理事務所(特殊普通合伙) 31317 | 代理人: | 劉翠 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 游戲 人工智能 系統 及其 性能 提升 方法 | ||
1.一種游戲人工智能系統的性能提升方法,其特征在于,包括:
S0:獲取數據集作為游戲人工智能系統的輸入數據,其中,s為多通道游戲數據,為S2中得到的最終優先度,z為游戲結束時游戲人工智能系統根據勝負返回的二值信息;
S1:對數據集記錄的多通道游戲數據,使用深度并行計算框架計算節點優先度初始值和返回信息近似值;
S2:利用S1計算得到的節點優先度初始值形成樹形結構,生成新的數據節點,并填入認知模塊計算得到的節點優先度初始值作為數據節點信息,再將S1中得到的返回信息近似值填入數據節點,然后將數據節點信息回傳,更新各個數據節點保存的信息,輸出一個行動后驗預測結果,即為最終優先度;
S3:對數據集記錄的多通道游戲數據,使用深度并行計算框架計算多通道游戲數據權重比例;
S4:將數據集記錄的優先度和S2中得到的最終優先度,結合S3中得到的權重比例,計算得到兩種優先度的加權組合;
所述S1中,深度并行計算框架,包括L層殘差模塊和第L+1層特征調整模塊,其中,多通道游戲數據經過L層殘差模塊的過程數據大小不變,用于對數據進行壓縮操作和批歸一化處理;所述第L+1層特征調整模塊包括如下兩部分:
-?第一部分,調整特征圖尺寸后經過softmax函數計算輸出節點初始優先度;
-?第二部分,調整多通道數據尺寸后經過tanh函數計算輸出對返回信息的估計;
其中:
節點優先度初始值,即第L+1層特征調整模塊第一部分計算輸出的節點初始優先度,為一個362維數組,作為S2中的計算初始值;
返回信息近似值,即第L+1層特征調整模塊第二部分計算輸出的返回信息的估計,該估計是對游戲人工智能系統返回二值結果的近似值估計;
所述S3中,深度并行計算框架包括L層殘差模塊和第L+1層特征調整模塊,其中,多通道游戲數據經過L層殘差模塊的過程數據大小不變,用于對數據進行壓縮操作和批歸一化處理;第L+1層特征調整模塊調整多通道數據尺寸后經過sigmoid函數計算權重比例。
2.根據權利要求1所述的游戲人工智能系統的性能提升方法,其特征在于,所述S1,還包括如下步驟:所述深度并行計算框架基于數據集進行訓練;其中:
深度并行計算框架通過定義更新機制來更新框架的參數,其中,所述更新機制如下所示:
式中,第一項是交叉熵機制,用于計算框架輸出的節點優先度初始值與數據集記錄的優先度之間的差異,是S2中得到的最終優先度,p是深度并行計算框架給出的節點優先度初始值;第二項是平方誤差損失,用于計算框架輸出的返回信息近似值與根據游戲勝負返回的二值信息之間的差異,z是游戲結束時系統根據勝負返回的二值信息,v是深度并行計算框架給出的返回信息近似值;第三項是L2正則項,用于縮小框架的規模,是深度并行計算框架的全部參數,c是用于L2控制正則項的系數;
所述更新機制所采用方法如下所示:
其中,是更新率,用于控制框架更新的幅度;是更新機制計算后對深度并行計算框架反饋的梯度信息,代表框架需要更新的方向。
3.根據權利要求1所述的游戲人工智能系統的性能提升方法,其特征在于,所述S2中,樹形結構的數據節點間建立連接,其中每一個數據節點均用于存儲如下信息:
-?節點優先度初始值,代表選擇該數據節點的優先程度,由S1計算得到;
-?訪問次數,代表該數據節點被訪問過的次數;
-?平均結果信息,由S1計算得到的返回信息近似值累計平均值得來;
重復以下4個步驟:
-?選擇:樹形模擬采用最優優先原則,即每一層按高節點初始值、低訪問次數、高動作值的原則訪問子數據節點,最終到達的末端節點即為被選擇的數據節點;
-?展開:根據S1中的計算,初始化末端節點下的所有合法節點,節點初始值初始化為S1中計算的節點優先度初始值,訪問次數和平均返回信息近似值初始化為0;
-?評估:得到S1中對末端節點的返回信息近似值v;
-?回傳:向上逐層更新數據節點信息,直至初始數據節點;具體地,訪問次數自增1,平均返回信息近似值累加評估v后,取平均值;v是深度并行計算框架給出的返回信息近似值;
以上步驟重復多次后,利用每個子數據節點的訪問次數除以所有子數據節點訪問次數之和,計算選擇每個行動的最終優先度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911389843.4/1.html,轉載請聲明來源鉆瓜專利網。





