[發明專利]基于專家經驗的強化學習方法在審
| 申請號: | 202210810781.5 | 申請日: | 2022-07-11 |
| 公開(公告)號: | CN115511099A | 公開(公告)日: | 2022-12-23 |
| 發明(設計)人: | 曹江;楊思明;高原;郭洋;王平;王景;王曉楠 | 申請(專利權)人: | 中國人民解放軍軍事科學院戰爭研究院 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/08 |
| 代理公司: | 上海洞見未來專利代理有限公司 31467 | 代理人: | 苗繪 |
| 地址: | 100091 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 專家 經驗 強化 學習方法 | ||
本發明公開了一種基于專家經驗的強化學習方法,包含如下步驟:在外部的智能體中創建專家數據緩沖器、優先級數據緩沖器、目標網絡、預測網絡、策略網絡、learner模塊與若干個worker模塊;對任務環境進行數據采集,獲得若干組第一經驗數據與若干組第二經驗數據;處理若干組第一經驗數據與若干組第二經驗數據,獲得若干組高優先級數據與若干組替換數據;將若干組高優先級數據與若干組替換數據輸入至learner模塊中,獲得若干組訓練經驗數據;智能體通過獲取若干組訓練經驗數據來對當前策略進行更新。本發明解決了現有技術中存在的算法收斂困難、訓練速度降低、算法魯棒性差的缺陷,實現了智能體對環境的高效探索,具有單位時隙吞吐率高、學習速度快的特點。
技術領域
本發明涉及強化學習方法技術領域,特別涉及一種基于專家經驗的強化學習方法。
背景技術
現有技術中的強化學習算法,大多基于值函數的方法或基于策略梯度的方法。這兩類方法都需要智能體與環境進行大量的數據交互,利用海量的實時經驗數據對算法模型進行訓練,才能得到較好的行動策略,然而,現有技術中的強化學習方法對于采樣成本較高的任務難以取得較好的結果,存在算法收斂困難、訓練速度降低、算法魯棒性差的缺陷。
發明內容
根據本發明實施例,提供了一種基于專家經驗的強化學習方法,包含如下步驟:
在外部的智能體中創建專家數據緩沖器、優先級數據緩沖器、目標網絡、預測網絡、策略網絡、learner模塊與若干個worker模塊;
對外部的任務環境進行數據采集,獲得若干組第一經驗數據與若干組第二經驗數據;
處理若干組第一經驗數據與若干組第二經驗數據,獲得若干組高優先級數據與若干組替換數據;
將若干組高優先級數據與若干組替換數據輸入至learner模塊中,獲得若干組訓練經驗數據;
智能體通過獲取若干組訓練經驗數據來對策略網絡的當前策略進行更新。
進一步,對外部的任務環境進行數據采集,獲得若干組第一經驗數據與若干組第二經驗數據,包含如下子步驟;
通過人工采集的方式對任務環境中的高價值經驗數據進行采集,獲得若干組第一經驗數據;
若干個worker模塊獲取并使用策略網絡的當前策略與任務環境進行交互,獲得若干組第二經驗數據。
進一步,worker模塊每個時隙采集一組第二經驗數據,直至完成一整幕經驗數據的收集,獲得若干組第二經驗數據。
進一步,處理若干組第一經驗數據與若干組第二經驗數據,獲得若干組高優先級數據與若干組替換數據,包含如下子步驟:
將若干組第一經驗數據存儲于專家數據緩沖器;
將若干組第二經驗數據存儲于優先級數據緩沖器,并將當前策略同步至learner模塊;
利用哈希算法處理若干組第一經驗數據,獲得與若干組第一經驗數據一一對應的若干個第一哈希值;
使用目標網絡與預測網絡對若干組第二經驗數據進行內部獎勵評估,獲得若干個內部獎勵值;
利用若干個內部激勵值與若干組第二經驗數據的若干個外部獎勵值對若干組第二經驗數據的狀態價值函數估計,獲得若干個內部狀態價值函數與若干個外部狀態價值函數;
根據若干個內部狀態價值函數與若干個外部狀態價值函數計算獲得若干組第二經驗數據的總狀態價值函數;
優先級數據緩沖器對若干組第二經驗數據進行篩選,將若干組第二經驗數據中總狀態價值函數較高、出現次數較少的第二經驗數據賦予較高的優先級,獲得若干組高優先級數據;
利用哈希算法對其余的第二經驗數據進行計算,獲得若干個第二哈希值;
將若干個第二哈希值與若干個第一哈希值進行對比,在其余的第二經驗數據中篩選出若干組與第一哈希值近似的第二經驗數據,獲得若干組替換數據。
進一步,總狀態價值函數的計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍軍事科學院戰爭研究院,未經中國人民解放軍軍事科學院戰爭研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210810781.5/2.html,轉載請聲明來源鉆瓜專利網。





