[發明專利]基于內在獎勵的視頻游戲決策方法有效
| 申請號: | 202010370070.1 | 申請日: | 2020-05-06 |
| 公開(公告)號: | CN111260040B | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 王軒;漆舒漢;張加佳;曹睿;何志坤;劉洋;蔣琳;廖清;夏文;李化樂 | 申請(專利權)人: | 哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院) |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;A63F13/45;A63F13/46 |
| 代理公司: | 深圳市添源知識產權代理事務所(普通合伙) 44451 | 代理人: | 羅志偉 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內在 獎勵 視頻 游戲 決策 方法 | ||
本發明提供了一種基于內在獎勵的視頻游戲決策方法,包括以下步驟:S1、獲取視頻游戲模擬環境;S2、構建神經網絡模型;S3、設計內在獎勵模型;S4、將內在獎勵模型與構建的神經網絡模型結構結合;S5、通過模擬環境獲取游戲的記錄;S6、通過獲取的游戲記錄,更新神經網絡模型;S7、循環訓練神經網絡模型直至收斂。本發明的有益效果是:較好的解決了三維場景中較為常見的缺乏環境反饋獎勵值的問題。
技術領域
本發明涉及視頻游戲決策方法,尤其涉及一種基于內在獎勵的視頻游戲決策方法。
背景技術
視頻游戲出現于20世紀70年代初,自視頻游戲誕生起,通過人工智能技術實現視頻游戲中的智能體的自動決策這項技術,一直是工業界和學術界研究的熱點,有著巨大的商業價值。近年來,深度強化學習方法的快速發展為實現這項技術提供了有效途徑。通常來講,游戲決策技術的好壞完全由游戲中得分多少或者能否贏得比賽而決定,視頻游戲也是如此。
深度強化學習算法應用于復雜博弈場景的優勢在于其端到端的特性,通過深度強化學習算法學習智能體行動策略從而直接完成從輸入游戲狀態到輸出可行動作的映射,這為解決各類博弈任務提供了一套通用的算法框架,而Actor-Critic算法是其中較具代表性的算法。在以Actor-Critic算法為基本框架的深度強化學習算法中,為了訓練出各類機器博弈智能體,通常的做法是首先通過設計卷積網絡對博弈狀態進行特征提取,然后利用Actor網絡進行智能體行動策略學習,利用Critic網絡進行策略評估與改善,不斷迭代訓練直至收斂。然而在少數幾個Atari視頻游戲場景中,以該算法為基本框架的智能體很難學習到高效獲取環境獎勵的策略,這類場景所具備的一個相似點是智能體所處的環境比較復雜,很難直接獲得獎勵反饋,智能體往往需要經過一系列的行動決策或者參考較多的歷史信息才能做出獲得正向獎勵值的動作。原因在于Actor-Critic算法實質上是綜合考慮了值迭代方法與策略梯度方法,其中策略梯度方法需要根據智能體交互過程中的軌跡進行采樣和策略更新,如果缺乏充足的采樣軌跡或者采樣軌跡的質量不夠好,就會影響策略梯度的優化過程從而導致智能體無法學習到正確且高效的策略。在三維視頻游戲Vizdoom中,智能體在游戲場景中只能接觸到視線范圍內的小部分環境,同時場景中具有大量迷宮和陷阱等設計機制影響智能體的探索和獎勵獲取,由于獎勵反饋的稀疏性,采樣軌跡中高收益值動作所占比例較小,策略梯度算法的訓練過程缺乏正向獎勵采樣軌跡,整體訓練過程方差較高。而Actor-Critic算法引入值迭代方法中的價值模型后以價值網絡對軌跡值進行估計,從理論上能緩解策略梯度方法方差較高的缺點,但是在Vizdoom場景實際的訓練過程中使用該算法在訓練時仍然會產生智能體行動策略更新幅度震蕩過高、不夠穩定的問題。在部分環境獎勵反饋稀疏的Vizdoom場景中,缺乏獎勵信號會使算法無法進行策略更新或者在訓練中產生大幅度震蕩導致無法收斂。因此,對于深度強化學習算法在三維視頻游戲Vizdoom中的應用,存在三維場景中較為常見的缺乏環境反饋獎勵值的問題。
發明內容
為了解決現有技術中的問題,本發明提供了一種基于內在獎勵的視頻游戲決策方法。
本發明提供了一種基于內在獎勵的視頻游戲決策方法,包括以下步驟:
S1、獲取視頻游戲模擬環境;
S2、構建神經網絡模型;
S3、設計內在獎勵模型;
S4、將內在獎勵模型與構建的神經網絡模型結構結合;
S5、通過模擬環境獲取游戲的記錄;
S6、通過獲取的游戲記錄,更新神經網絡模型;
S7、循環訓練神經網絡模型直至收斂。
本發明的有益效果是:通過上述方案,較好的解決了三維場景中較為常見的缺乏環境反饋獎勵值的問題。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院),未經哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010370070.1/2.html,轉載請聲明來源鉆瓜專利網。





