[發明專利]基于內在獎勵的視頻游戲決策方法有效
| 申請號: | 202010370070.1 | 申請日: | 2020-05-06 |
| 公開(公告)號: | CN111260040B | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 王軒;漆舒漢;張加佳;曹睿;何志坤;劉洋;蔣琳;廖清;夏文;李化樂 | 申請(專利權)人: | 哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院) |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;A63F13/45;A63F13/46 |
| 代理公司: | 深圳市添源知識產權代理事務所(普通合伙) 44451 | 代理人: | 羅志偉 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內在 獎勵 視頻 游戲 決策 方法 | ||
1.一種基于內在獎勵的視頻游戲決策方法,其特征在于,包括以下步驟:
S1、獲取視頻游戲模擬環境;
S2、構建神經網絡模型;
S3、設計內在獎勵模型;
S4、將內在獎勵模型與構建的神經網絡模型結合;
S5、通過模擬環境獲取游戲的記錄;
S6、通過獲取的游戲記錄,更新神經網絡模型;
S7、循環訓練神經網絡模型直至收斂;
其中,
步驟S3包括內在獎勵生成算法,該內在獎勵生成算法如下:
輸入:
隨機初始化步長, 訓練回合終止步長E, 隨機策略 ,
衰減因子, 時間步 ;
輸出:
內在獎勵值 ,
1): 初始化參數;
2):當時,循環執行步驟3)至7),否則執行步驟8);
3):根據隨機策略 采樣當前時間步動作 ;
4):基于動作 得到下一狀態 ;
5):歸一化環境信息 ;
6):時間步更新 ;
7): i的取值增加1;
8):當j∈[1,E]時,循環執行步驟9)至13),否則執行步驟14);
9):根據智能體行動策略 采樣當前時間步動作 ;
10):基于動作 得到下一狀態 ;
11):計算內在獎勵值 ;
12):時間步更新 ;
13):j的取值增加1;
14):返回內在獎勵值。
2.根據權利要求1所述的基于內在獎勵的視頻游戲決策方法,其特征在于:步驟S3包括:設計內在獎勵生成模塊,該內在獎勵生成模塊定義相同結構的目標映射網絡與預測網絡,利用目標映射網絡和預測網絡對輸入三維狀態畫面進行特征抽取與狀態映射,分別得到對應的嵌入向量,通過計算兩者的相似度來得到內在獎勵的數值。
3.根據權利要求2所述的基于內在獎勵的視頻游戲決策方法,其特征在于:在步驟S3中,目標映射網絡與預測網絡的定義分別如公式 (3-1) 和公式 (3-2) 所示:
目標映射網絡定義為狀態到目標嵌入向量的映射:
式中,
——— 目標映射網絡;
——— 狀態;
——— 目標嵌入向量;
預測網絡定義為狀態到目標嵌入向量的映射:
式中,
——— 預測網絡;
——— 狀態;
——— 目標嵌入向量。
4.根據權利要求3所述的基于內在獎勵的視頻游戲決策方法,其特征在于:在步驟S3中,內在獎勵生成模塊的損失函數 定義為:
式中——— 預測向量;
——— 目標向量;
——— 參數正則化項;
——— 正則項懲罰因子。
5.根據權利要求1所述的基于內在獎勵的視頻游戲決策方法,其特征在于:在步驟S4中,采用長期內在獎勵和回合制外部獎勵的結合方式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院),未經哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010370070.1/1.html,轉載請聲明來源鉆瓜專利網。





