[發明專利]基于置信上界思想的經驗回放采樣強化學習方法及系統在審
| 申請號: | 202110038613.4 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112734014A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 劉帥;韓思源;王小文 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 置信 上界 思想 經驗 回放 采樣 強化 學習方法 系統 | ||
1.基于置信上界思想的經驗回放采樣強化學習方法,其特征是,包括:
采集智能體與環境交互獲得的經驗,并將所述經驗數據存儲至經驗回放池中;
在更新當前訓練策略時,從所述經驗回放池中根據優先概率隨機選取經驗,生成候選訓練樣本集;
根據每個候選訓練樣本的置信上界值,選擇訓練樣本集;
根據所述訓練樣本數據對用于函數逼近的神經網絡進行參數更新。
2.如權利要求1所述的基于置信上界思想的經驗回放采樣強化學習方法,其特征是,采集智能體與環境交互獲得的經驗之前,首先初始化深度強化學習算法的網絡參數,當前最大時序差分誤差值和智能體的初始觀測值。
3.如權利要求2所述的基于置信上界思想的經驗回放采樣強化學習方法,其特征是,初始化之后,在每個時間步,智能體和環境交互獲得經驗,設置每條經驗的優先值為當前最大優先值,并將經驗存儲到經驗回放池中,具體為:
智能體從環境中獲取當前時刻的觀測值;
智能體根據當前策略和當前時刻觀測值計算出當前時刻選擇的動作;
智能體與環境交互執行動作,環境根據智能體的動作轉移至下一狀態并返回給智能體獎勵信號、下一時刻的觀測值和判斷回合是否終止的指標;
使用當前最大時序差分誤差計算當前最大優先值,將該時間步經驗對應的優先值設置為當前最大優先值;
將交互過程中產生的數據添加到經驗回放池中。
4.如權利要求1所述的基于置信上界思想的經驗回放采樣強化學習方法,其特征是,生成候選訓練樣本集時:
獲取當前經驗回放池中經驗的優先值總和,將優先值總和平均分成λ·K份;
根據優先概率從每份中取出一個經驗并添加至候選訓練樣本集中。
5.如權利要求1所述的基于置信上界思想的經驗回放采樣強化學習方法,其特征是,根據每個候選訓練樣本的置信上界值,選擇訓練樣本集,具體為:
計算每個候選訓練樣本的置信上界值;
將置信上界值由小到大排序,選擇前K個經驗添加至訓練樣本集中;
根據訓練樣本集數據對網絡參數進行更新;
計算每條訓練樣本的時序差分誤差,并保存所有數據中時序差分誤差的最大值;
根據前向傳播得到的時序差分誤差計算出損失函數,并進行梯度的反向傳播;
根據梯度以及學習率的大小更新神經網絡的參數。
優選的,計算每條訓練樣本的時序差分誤差,并保存所有數據中時序差分誤差的最大值時,將訓練樣本數據輸入神經網絡中,進行前向傳播,獲得每條訓練樣本的時序差分誤差;
比較訓練前存儲的最大時序差分誤差和當前訓練樣本對應的最大時序差分誤差,并保存兩者之間的最大值作為當前經驗回放池中所有經驗的時序差分誤差最大值。
6.基于置信上界思想的經驗回放采樣強化學習系統,其特征是,包括:
采集模塊,用于收集智能體與環境交互生成的經驗數據,并將所述經驗數據添加至經驗回放池中;
采樣模塊,用于從所述經驗回放池中根據優先概率隨機選取多個經驗,生成候選訓練樣本集;
排序模塊,用于根據置信上界值對候選訓練樣本集中的經驗進行排序,生成訓練樣本集;
更新模塊,用于根據所述訓練樣本集更新神經網絡的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110038613.4/1.html,轉載請聲明來源鉆瓜專利網。





