[發明專利]一種游戲智能體訓練方法及裝置有效

申請號：	201910327828.0	申請日：	2019-04-23
公開（公告）號：	CN110141867B	公開（公告）日：	2022-12-02
發明（設計）人：	徐波	申請（專利權）人：	廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司
主分類號：	A63F13/79	分類號：	A63F13/79;A63F13/822
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	麥小嬋;郝傳鑫
地址：	510000 廣***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種游戲智能訓練方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種游戲智能體訓練方法，其特征在于，包括：

對玩家角色的自身狀態、觀測狀態及輸出行為進行編碼，得到玩家數據，并根據所述玩家數據，構建玩家智能體；

采用預先建立的初始NPC對所述玩家智能體進行交互訓練，并根據訓練后的玩家智能體的參數更新玩家行為策略對應的參數；

對NPC的自身狀態、觀測狀態及輸出行為進行編碼，得到NPC數據，并根據所述NPC數據，構建NPC智能體；

根據所述玩家行為策略對應的參數，采用所述訓練后的玩家智能體對所述NPC智能體進行交互訓練，并根據訓練后的NPC智能體的參數更新NPC行為策略對應的參數；

迭代地使用所述NPC行為策略對應的參數優化所述玩家行為策略對應的參數，以及使用所述玩家行為策略對應的參數優化所述NPC行為策略對應的參數，直至所述NPC行為策略穩定，具體包括：

重復執行以下步驟，直至所述NPC行為策略穩定：

使用上次訓練后的NPC智能體，固定其行為策略對應的參數，對上次訓練后的玩家智能體進行交互訓練，并根據當前訓練后的玩家智能體的參數更新上次訓練得到的玩家行為策略對應的參數；使用所述當前訓練后的玩家智能體，固定其行為策略對應的參數，對所述上次訓練后的NPC智能體進行交互訓練，并根據當前訓練后的NPC智能體的參數更新所述上次訓練得到的NPC行為策略對應的參數；

其中，根據游戲的NPC的性能要求判斷NPC行為策略是否穩定。

2.如權利要求1所述的游戲智能體訓練方法，其特征在于，所述對玩家角色的自身狀態、觀測狀態及輸出行為進行編碼，得到玩家數據，并根據所述玩家數據，構建玩家智能體，具體包括：

選擇編碼模式；其中，所述編碼模式包括向量編碼模式、第一圖像編碼模式和第二圖像編碼模式；

根據所述編碼模式，對所述玩家角色的自身狀態、觀測狀態進行編碼，得到玩家狀態數據；

采用one-hot方式對所述玩家角色的輸出行為進行編碼，得到玩家輸出行為數據；

根據所述玩家狀態數據和所述玩家輸出行為數據，生成玩家數據，并根據所述玩家數據，構建玩家智能體。

3.如權利要求2所述的游戲智能體訓練方法，其特征在于，所述對玩家角色的自身狀態、觀測狀態及輸出行為進行編碼，得到玩家數據，并根據所述玩家數據，構建玩家智能體，具體包括：

當所述編碼模式為向量編碼模式時，提取玩家游戲狀態數據，對所述玩家角色的自身狀態和觀測狀態進行向量形式編碼；

根據所述玩家游戲狀態數據，提取連續狀態特征和離散狀態特征；

對所述連續狀態特征進行歸一化處理，得到連續狀態數據；

采用one-hot方式對所述離散狀態特征進行編碼，得到離散狀態數據，并根據所述離散狀態數據和所述連續狀態數據，得到向量形式的玩家狀態數據；

采用one-hot方式對所述玩家角色的輸出行為進行編碼，得到玩家輸出行為數據；

根據所述向量形式的玩家狀態數據和所述玩家輸出行為數據，生成玩家數據，并根據所述玩家數據，構建玩家智能體。

4.如權利要求2所述的游戲智能體訓練方法，其特征在于，所述對玩家角色的自身狀態、觀測狀態及輸出行為進行編碼，得到玩家數據，并根據所述玩家數據，構建玩家智能體，具體包括：

當所述編碼模式為第一圖像編碼模式時，獲取當前的游戲畫面作為決策數據，作為智能體的輸入；

根據圖像灰度化是否丟失信息決策的數據信息，選擇是否對所述當前的游戲畫面進行灰度化處理，得到第一圖像形式的玩家狀態數據；

采用one-hot方式對所述玩家角色的輸出行為進行編碼，得到玩家輸出行為數據；

根據所述第一圖像形式的玩家狀態數據和所述玩家輸出行為數據，生成玩家數據，并根據所述玩家數據，構建玩家智能體。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司，未經廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910327828.0/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：游戲登錄方法和裝置
下一篇：一種用于競速類游戲應用的AI追逐方法

同類專利

專利分類

A 農業

A63 運動；游戲；娛樂活動
A63F 紙牌、棋盤或輪盤賭游戲；利用小型運動物體的室內游戲；其他類目不包含的游戲
A63F13-00 使用二維或多維電子顯示器
A63F13-02 .附件
A63F13-08 .結構零件或布置，例如其他類目不包括的殼體、導線、連接件、操縱臺
A63F13-10 .游戲過程的控制，例如開始、進行、結束
A63F13-12 .涉及若干游戲裝置之間的相互作用，例如傳送和分配系統
A63F13-04 ..用于命中顯示器上的特殊區域，如具有光電探測裝置的

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】