[發明專利]基于GP與PPO實現連續性動作決策的智能決策方法和系統有效
| 申請號: | 202210404484.0 | 申請日: | 2022-04-18 |
| 公開(公告)號: | CN114647986B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 方文其;吳冠霖;葛品;平洋;欒紹童;戴迎楓;繆正元;沈源源;金新竹 | 申請(專利權)人: | 南湖實驗室 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N5/01;G06N20/00 |
| 代理公司: | 浙江永鼎律師事務所 33233 | 代理人: | 張曉英 |
| 地址: | 314000 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 gp ppo 實現 連續性 動作 決策 智能 方法 系統 | ||
1.一種用于實現連續性動作決策的智能決策模型訓練方法,其特征在于,包括以下步驟:
S1.策略模型針對狀態s選擇執行動作a,環境響應狀態s’,回報值r和終止標志符t,保存經驗(s,a,r,t)至經驗池策略區以用于直接訓練策略模型,保存(s,a,s’,r)至經驗池世界區以用于訓練世界模型;
策略模型用經驗池中的模擬經驗進行強化學習,模擬經驗由世界模型基于真實經驗模仿環境而生成;
S2.世界模型從經驗池世界區中采樣,利用損失函數Lworld=αLNLL+βLppo更新模型參數θw;
S3.訓練后的世界模型從經驗池策略區中采樣得到狀態s,動作a和終止標志符t’,并響應狀態差Δs和回報值r,s’=s+Δs,將(s,a,r,t’)作為模擬經驗保存至經驗池策略區;
S4.策略模型從經驗池策略區中采樣,利用損失函數L=Lpolicy-c1Lvalue+c2Lentropy更新模型參數θQ,并保存本次訓練中每一步的L;
S5.對L取平均值作為Lppo后代入Lworld=αLNLL+βLppo,用于下一次世界模型的訓練;
所述的策略模型包括策略損失函數,以及值函數損失函數和/或熵損失函數:
L=Lpolicy-c1Lvalue+c2Lentropy????(1)
其中,Lpolicy為策略損失函數,Lvalue表示值函數損失函數,Lentropy為熵損失函數,c1,c2是權重值;
策略損失函數包括:
Et表示求平均值,min表示取小的值,rt(θ)表示新舊策略變化比例,表示PPO算法的優勢函數,clip表示截斷函數,∈是截斷系數;
值函數損失函數包括:
Lvalue=Et[(Rt-Vθ(st))2]????(3)
其中,Rt表示跟隨軌跡所積累的回報值,Vθ(st)為值函數,Et表示求平均值;
用于訓練世界模型的損失函數包括:
Lworld=αLNLL+βLppo????(4)
α、β分別為可調系數,LNLL為世界模型優化函數,Lppo為策略模型的損失函數;
世界模型優化函數LNLL包括:
其中,∑為預測得到的協方差,D是N*M維的對角矩陣,I表示單位矩陣,Kf用于描述不同任務之間的關聯,Kx表示訓練數據之間的關聯矩陣,y表示訓練數據中的輸出值。
2.根據權利要求1所述的用于實現連續性動作決策的智能決策模型訓練方法,其特征在于,所述的世界模型由多維輸出的GP模型構建而成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南湖實驗室,未經南湖實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210404484.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種抗炎醫用無紡布
- 下一篇:一種雙金屬包覆冶金覆合的裝置及方法





