[發明專利]一種游戲機器人訓練方法及裝置在審
| 申請號: | 202210488342.7 | 申請日: | 2022-05-06 |
| 公開(公告)號: | CN115089967A | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 胡裕靖;胡志鵬;劉賀;呂唐杰;范長杰 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | A63F13/55 | 分類號: | A63F13/55;G06N3/08;G06N20/00 |
| 代理公司: | 北京清源匯知識產權代理事務所(特殊普通合伙) 11644 | 代理人: | 劉瑞英 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 游戲 機器人 訓練 方法 裝置 | ||
1.一種游戲機器人訓練方法,其特征在于,包括:
獲取待訓練的游戲機器人所在游戲局面當前的多組游戲狀態信息;
對每組所述游戲狀態信息進行特征提取處理,獲得每組所述游戲狀態信息對應的嵌入向量;
將所述多組游戲狀態信息分別對應的所述嵌入向量進行特征融合處理,獲得融合嵌入向量;
基于所述融合嵌入向量進行強化學習,獲得所述游戲機器人的行為策略;
基于所述游戲機器人執行所述行為策略后的執行結果,獲取所述游戲機器人的獎勵信號;
基于所述獎勵信號以及所述游戲狀態信息,對所述游戲機器人進行訓練。
2.根據權利要求1所述的方法,其特征在于,所述對每組所述游戲狀態信息進行特征提取處理,獲得每組所述游戲狀態信息對應的嵌入向量,包括:
通過每組所述游戲狀態信息對應的第一多層感知器,獲取每組所述游戲狀態信息對應的嵌入向量。
3.根據權利要求1所述的方法,其特征在于,所述獲取待訓練的游戲機器人所在游戲局面中的多組游戲狀態信息,包括:
獲取待訓練的游戲機器人所在游戲局面中的多個游戲狀態信息;
基于所述多個游戲狀態信息之間的語義相關性,對所述多個游戲狀態信息進行分組,獲得多組游戲狀態信息。
4.根據權利要求1所述的方法,其特征在于,所述游戲狀態信息包括絕對數值型信息和相對數值型信息。
5.根據權利要求1所述的方法,其特征在于,所述游戲狀態信息包括游戲模式和/或所述游戲機器人的歷史動作序列。
6.根據權利要求2所述的方法,其特征在于,所述方法還包括:
根據每組所述游戲狀態信息的維度變化,調整與每組所述游戲狀態信息對應的第一多層感知器的輸入層神經元數量,所述輸入層神經元用于接收向所述第一多層感知器輸入的游戲狀態信息。
7.根據權利要求6所述的方法,其特征在于,所述根據每組所述游戲狀態信息的維度變化,調整與每組所述游戲狀態信息對應的第一多層感知器的輸入層的神經元數量,包括:
若所述游戲狀態信息的維度變大,則增加與所述游戲狀態信息對應的第一多層感知器的輸入層的神經元數量,并建立增加的神經元與所述第一多層感知器的隱藏層神經元之間的連接,設定新增參數的初始權重,在訓練過的游戲機器人的已有參數基礎上訓練所述游戲機器人。
8.根據權利要求1所述的方法,其特征在于,所述執行結果包括所述游戲機器人在所述游戲局面中的位置。
9.根據權利要求8所述的方法,其特征在于,所述基于所述游戲機器人執行所述行為策略后的執行結果,獲取所述游戲機器人的獎勵信號,包括:
獲取所述游戲局面中預設的關鍵位置信息和獎勵觸發條件;
如果確定所述游戲機器人在所述游戲局面中的位置與所述關鍵位置信息相匹配,并且,所述游戲局面的當前游戲狀態滿足與所述關鍵位置信息對應的獎勵觸發條件,則生成所述游戲機器人的獎勵信號。
10.根據權利要求8所述的方法,其特征在于,基于所述游戲機器人執行所述行為策略后的執行結果,獲取所述游戲機器人的獎勵信號,包括:
檢測到所述游戲機器人控制目標游戲要素,或者,檢測到與所述游戲機器人具有共同團體屬性的其他游戲機器人控制目標游戲要素;
確定所述游戲機器人以及與其具有共同團體屬性的其他游戲機器人構成的多邊形,作為第一區域;
獲取與預設關鍵位置信息對應的第一關鍵區域;
如果所述第一區域朝向目標位置移動至與所述第一關鍵區域至少部分重疊,則生成用于表征正向獎勵的獎勵信號;
如果所述第一區域與所述第一關鍵區域重疊部分減少,則生成用于表征負向獎勵的獎勵信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210488342.7/1.html,轉載請聲明來源鉆瓜專利網。





