[發明專利]游戲智能體訓練的優化方法、裝置、終端設備與存儲介質有效
| 申請號: | 201811492348.1 | 申請日: | 2018-12-06 |
| 公開(公告)號: | CN109663359B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 徐波 | 申請(專利權)人: | 廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司 |
| 主分類號: | A63F13/67 | 分類號: | A63F13/67;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 麥小嬋;郝傳鑫 |
| 地址: | 510000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 游戲 智能 訓練 優化 方法 裝置 終端設備 存儲 介質 | ||
本發明公開了一種游戲智能體訓練的優化方法、裝置、終端設備與存儲介質,包括:根據游戲腳本獲取第一觀測序列,并設為當前觀測序列;基于預先訓練的自編碼網絡,根據當前觀測序列獲得下一觀測序列和當前環境回報;基于預先訓練的自編碼網絡和預先訓練的預測網絡,根據當前觀測序列和下一觀測序列獲取當前自我驅動回報;將當前環境回報和當前自我驅動回報加入到累積回報中,并判斷累積回報是否小于目標值;如果累積回報小于目標值,則將下一觀測序列作為當前觀測序列繼續訓練,直至累積回報達到目標值停止訓練。本發明能夠使游戲智能體獲得額外的自我驅動回報進行訓練,從而提高訓練效率,節省運行資源。
技術領域
本發明涉及人工智能領域,尤其涉及一種游戲智能體訓練的優化方法、裝置、終端設備與存儲介質。
背景技術
游戲智能體(Game Agents)是一種能在游戲環境中通過算法實現具有類似人類智能行為的非玩家個體。在游戲環境中訓練智能體,已經成為人工智能研發的常用手段。強化學習作為一種常用的訓練游戲智能體的方法,能夠使訓練后的游戲智能體在游戲環境交互中完成很多復雜的任務;游戲智能體通過與游戲環境互動以學習類似人類智能的游戲玩法,其目標在于學習策略,即每個游戲步驟如何執行才能達到理想狀態,通過強化學習,游戲智能體利用已設置的程序進行自我探索以及對人類行為進行模仿,自發地產生應對游戲環境變化的響應行為,從而達成目標并獲得環境回報。
但是,在許多的游戲環境中,環境回報可能非常稀疏,即游戲智能體需要采取較長的一系列正確行動才能達到目標回報,并且當環境回報非常稀疏時,容易導致游戲智能體的自我探索陷入大量重復的無效嘗試中,造成訓練效率的低下以及游戲智能體運行資源的浪費。
發明內容
針對上述問題,本發明實施例的目的是提供一種游戲智能體訓練的優化方法、裝置、終端設備與存儲介質,能夠使游戲智能體獲得額外的自我驅動回報進行訓練,從而提高訓練效率,節省運行資源。
為實現上述目的,本發明一方面提供了一種游戲智能體訓練的優化方法,游戲智能體模型包括動作網絡和評論家網絡;所述動作網絡和所述評論家網絡均包括全連接層,所述方法包括:
S11、根據預設的游戲腳本獲取第一觀測序列,并將所述第一觀測序列設為當前觀測序列;其中,所述第一觀測序列由所述游戲腳本在預設的游戲環境中執行生成。
S12、基于所述動作網絡和預先訓練的自編碼網絡,根據當前觀測序列獲得下一觀測序列和當前環境回報;其中,所述下一觀測序列和所述當前環境回報由所述動作網絡根據當前觀測序列預測獲得的動作序列在所述游戲環境中執行生成。
S13、基于所述預先訓練的自編碼網絡和預先訓練的預測網絡,根據當前觀測序列和所述下一觀測序列獲取當前自我驅動回報。
S14、根據所述評論家網絡判斷累積回報是否小于預設的目標值;其中,所述累積回報根據所述當前環境回報、所述當前自我驅動回報、歷史獲取的環境回報和歷史獲取的自我驅動回報獲得。
S15、當所述累積回報小于所述目標值時,將所述下一觀測序列設為當前觀測序列,并返回步驟S12;當所述累積回報不小于所述目標值時,訓練過程結束。
優選地,所述基于所述動作網絡和預先訓練的自編碼網絡,根據當前觀測序列獲得下一觀測序列和當前環境回報,具體包括:
基于所述預先訓練的自編碼網絡,根據當前觀測序列獲取當前觀測序列的投影向量;
基于所述動作網絡,根據所述當前觀測序列的投影向量獲取動作序列;
根據所述動作序列在所述游戲環境中執行的結果獲取所述下一觀測序列和所述當前環境回報。
優選地,所述基于所述預先訓練的自編碼網絡和預先訓練的預測網絡,根據當前觀測序列和所述下一觀測序列獲取當前自我驅動回報,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司,未經廣州多益網絡股份有限公司;廣東利為網絡科技有限公司;多益網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811492348.1/2.html,轉載請聲明來源鉆瓜專利網。





