[發明專利]游戲智能體訓練的優化方法、裝置、終端設備與存儲介質有效
| 申請號: | 201811492348.1 | 申請日: | 2018-12-06 |
| 公開(公告)號: | CN109663359B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 徐波 | 申請(專利權)人: | 廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司 |
| 主分類號: | A63F13/67 | 分類號: | A63F13/67;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 麥小嬋;郝傳鑫 |
| 地址: | 510000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 游戲 智能 訓練 優化 方法 裝置 終端設備 存儲 介質 | ||
1.一種游戲智能體訓練的優化方法,其特征在于,游戲智能體模型包括動作網絡和評論家網絡;所述方法包括:
S11、根據預設的游戲腳本獲取第一觀測序列,并將所述第一觀測序列設為當前觀測序列;其中,所述第一觀測序列由所述游戲腳本在預設的游戲環境中執行生成;
S12、基于所述動作網絡和預先訓練的自編碼網絡,根據當前觀測序列獲得下一觀測序列和當前環境回報;其中,所述下一觀測序列和所述當前環境回報由所述動作網絡根據當前觀測序列獲得的動作序列在所述游戲環境中執行生成;
S13、基于所述預先訓練的自編碼網絡和預先訓練的預測網絡,根據當前觀測序列和所述下一觀測序列獲取當前自我驅動回報;
S14、根據所述評論家網絡判斷累積回報是否小于預設的目標值;其中,所述累積回報根據所述當前環境回報、所述當前自我驅動回報、歷史獲取的環境回報和歷史獲取的自我驅動回報獲得;
S15、當所述累積回報小于所述目標值時,將所述下一觀測序列設為當前觀測序列,并返回步驟S12;當所述累積回報不小于所述目標值時,訓練過程結束;
所述基于所述預先訓練的自編碼網絡和預先訓練的預測網絡,根據當前觀測序列和所述下一觀測序列獲取當前自我驅動回報,具體包括:
基于所述預先訓練的自編碼網絡,根據當前觀測序列獲取當前觀測序列的投影向量;
基于所述預先訓練的預測網絡,根據所述當前觀測序列的投影向量獲取預測投影向量;
根據所述預測投影向量和所述下一觀測序列獲得均方誤差或余弦距離;
將所述均方誤差或所述余弦距離作為所述當前自我驅動回報;當自我驅動回報用均方誤差表示時,其計算公式如下:其中,p表示預測投影向量,z′表示下一觀測序列對應的投影向量,n表示向量維數;
所述方法通過以下公式獲得所述累積回報:
R=R1+r*R2+r2*R3+…+rn-1*Rn;
其中,R表示累積回報,r表示衰減系數,Ri表示第i次獲取的環境回報與第i次獲取的自我驅動回報之和,i=1,2,···,n。
2.如權利要求1所述的游戲智能體訓練的優化方法,其特征在于,所述基于所述動作網絡和預先訓練的自編碼網絡,根據當前觀測序列獲得下一觀測序列和當前環境回報,具體包括:
基于所述預先訓練的自編碼網絡,根據當前觀測序列獲取當前觀測序列的投影向量;
基于所述動作網絡,根據所述當前觀測序列的投影向量獲取動作序列;
根據所述動作序列在所述游戲環境中執行的結果獲取所述下一觀測序列和所述當前環境回報。
3.如權利要求1或2所述的游戲智能體訓練的優化方法,其特征在于,所述自編碼網絡包括編碼器和解碼器;所述方法通過以下步驟對所述自編碼網絡進行預先訓練:
根據所述編碼器對訓練觀測序列進行壓縮編碼獲得訓練投影向量;
根據所述解碼器對所述訓練投影向量進行解碼獲得訓練輸出序列;
根據所述訓練輸出序列與所述訓練觀測序列獲得交叉熵,并將所述交叉熵作為代價函數;
根據所述代價函數和反向傳播算法對所述自編碼網絡進行優化。
4.如權利要求1或2所述的游戲智能體訓練的優化方法,其特征在于,所述預測網絡為循環神經網絡;所述方法通過以下步驟對所述預測網絡進行預先訓練:
根據所述預測網絡對當前訓練投影向量進行預測得到當前預測訓練投影向量;
根據所述當前預測訓練投影向量與下一訓練投影向量獲得均方誤差,并將所述均方誤差作為代價函數;
根據所述代價函數和反向傳播算法對所述預測網絡進行優化;
其中,所述當前訓練投影向量和所述下一訓練投影向量為通過預設的訓練游戲腳本獲取的訓練觀測序列對應的訓練投影向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司,未經廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811492348.1/1.html,轉載請聲明來源鉆瓜專利網。





