[發明專利]基于專家經驗的強化學習方法在審
| 申請號: | 202210810781.5 | 申請日: | 2022-07-11 |
| 公開(公告)號: | CN115511099A | 公開(公告)日: | 2022-12-23 |
| 發明(設計)人: | 曹江;楊思明;高原;郭洋;王平;王景;王曉楠 | 申請(專利權)人: | 中國人民解放軍軍事科學院戰爭研究院 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/08 |
| 代理公司: | 上海洞見未來專利代理有限公司 31467 | 代理人: | 苗繪 |
| 地址: | 100091 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 專家 經驗 強化 學習方法 | ||
1.一種基于專家經驗的強化學習方法,其特征在于,包含如下步驟:
在外部的智能體中創建專家數據緩沖器、優先級數據緩沖器、目標網絡、預測網絡、策略網絡、learner模塊與若干個worker模塊;
對外部的任務環境進行數據采集,獲得若干組第一經驗數據與若干組第二經驗數據;
處理所述若干組第一經驗數據與所述若干組第二經驗數據,獲得若干組高優先級數據與若干組替換數據;
將所述若干組高優先級數據與所述若干組替換數據輸入至所述learner模塊中,獲得若干組訓練經驗數據;
所述智能體通過獲取所述若干組訓練經驗數據來對所述策略網絡的當前策略進行更新。
2.如權利要求1所述基于專家經驗的強化學習方法,其特征在于,對外部的任務環境進行數據采集,獲得若干組第一經驗數據與若干組第二經驗數據,包含如下子步驟;
通過人工采集的方式對所述任務環境中的高價值經驗數據進行采集,獲得若干組第一經驗數據;
所述若干個worker模塊獲取并使用所述策略網絡的當前策略與所述任務環境進行交互,獲得若干組第二經驗數據。
3.如權利要求2所述基于專家經驗的強化學習方法,其特征在于,所述worker模塊每個時隙采集一組所述第二經驗數據,直至完成一整幕經驗數據的收集,獲得所述若干組第二經驗數據。
4.如權利要求1所述基于專家經驗的強化學習方法,其特征在于,處理所述若干組第一經驗數據與所述若干組第二經驗數據,獲得若干組高優先級數據與若干組替換數據,包含如下子步驟:
將所述若干組第一經驗數據存儲于所述專家數據緩沖器;
將所述若干組第二經驗數據存儲于所述優先級數據緩沖器,并將所述當前策略同步至所述learner模塊;
利用哈希算法處理所述若干組第一經驗數據,獲得與所述若干組第一經驗數據一一對應的若干個第一哈希值;
使用所述目標網絡與所述預測網絡對所述若干組第二經驗數據進行內部獎勵評估,獲得若干個內部獎勵值;
利用所述若干個內部激勵值與所述若干組第二經驗數據的若干個外部獎勵值對所述若干組第二經驗數據的狀態價值函數估計,獲得若干個內部狀態價值函數與若干個外部狀態價值函數;
根據所述若干個內部狀態價值函數與所述若干個外部狀態價值函數計算獲得所述若干組第二經驗數據的總狀態價值函數;
所述優先級數據緩沖器對所述若干組第二經驗數據進行篩選,將所述若干組第二經驗數據中總狀態價值函數較高、出現次數較少的所述第二經驗數據賦予較高的優先級,獲得若干組高優先級數據;
利用哈希算法對其余的所述第二經驗數據進行計算,獲得若干個第二哈希值;
將所述若干個第二哈希值與所述若干個第一哈希值進行對比,在其余的所述第二經驗數據中篩選出若干組與所述第一哈希值近似的所述第二經驗數據,獲得若干組替換數據。
5.如權利要求4所述基于專家經驗的強化學習方法,其特征在于,所述總狀態價值函數的計算公式如下:
其中,參數V的含義為總狀態價值函數,參數的含義為內部狀態價值函數,參數的含義為外部狀態價值函數。
6.如權利要求4所述基于專家經驗的強化學習方法,其特征在于,所述智能體通過獲取所述若干組訓練經驗數據來對所述策略網絡的當前策略進行更新,包含如下子步驟:
使用V-trace方法通過重要性采樣的方式,將所述總狀態價值函數改寫為可供所述learner模塊學習的近似狀態價值函數;
所述智能體使用所述目標網絡與所述預測網絡的預測均方誤差作為損失函數優化所述預測網絡的參數;
所述智能體使用所述總狀態價值函數作為損失函數,通過策略梯度的方法更新所述策略網絡的當前策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍軍事科學院戰爭研究院,未經中國人民解放軍軍事科學院戰爭研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210810781.5/1.html,轉載請聲明來源鉆瓜專利網。





