[發明專利]動態優勢函數建模方法、裝置、存儲介質及電子設備在審
| 申請號: | 202110564559.7 | 申請日: | 2021-05-24 |
| 公開(公告)號: | CN113392952A | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 胡紀鋒;陳賀昌;孫智孝;樸海音;詹光;常毅 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00;G06N20/00 |
| 代理公司: | 北京恒博知識產權代理有限公司 11528 | 代理人: | 張曉芳 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動態 優勢 函數 建模 方法 裝置 存儲 介質 電子設備 | ||
1.一種動態優勢函數的建模方法,其特征在于,所述方法包括:
針對靜態優勢函數的演員-評論家模型中包括的靜態優勢函數添加權重因子,得到第一動態優勢函數;
基于長短期記憶網絡模型對所述演員-評論家模型中包括的原始策略網絡進行動作延遲跟隨和重構,得到第二動態優勢函數;
基于所述第一動態優勢函數和所述第二動態優勢函數構成所述動態優勢函數。
2.根據權利要求1所述的建模方法,其特征在于,所述針對靜態優勢函數的演員-評論家模型中包括的靜態優勢函數添加權重因子,得到第一動態優勢函數,包括:
為目標狀態值函數添加所述權重因子,得到動態目標狀態值函數;所述靜態優勢函數包括所述目標狀態值函數和狀態值函數;
由所述動態目標狀態值函數、所述狀態值函數和所述權重因子得到所述第一動態優勢函數。
3.根據權利要求2所述的建模方法,其特征在于,所述由所述動態目標狀態值函數、所述狀態值函數和所述權重因子得到所述第一動態優勢函數,包括:
為所述權重因子添加弱化系數;
由所述動態目標狀態值函數、所述狀態值函數、所述弱化系數和所述權重因子得到所述第一動態優勢函數。
4.根據權利要求3所述的建模方法,其特征在于,所述由所述動態目標狀態值函數、所述狀態值函數、所述消除參數和所述權重因子得到所述第一動態優勢函數,包括:
其中,Jc(Θ)表示評論家網絡損失函數,表示所述第一動態優勢函數,Θ表示所述評論家網絡的參數,k表示所述弱化系數,episode表示訓練輪數,表示所述動態目標狀態值函數,表示所述狀態值函數,st表示狀態值,表示所述權重因子。
5.根據權利要求1所述的建模方法,其特征在于,所述針對靜態優勢函數的演員-評論家模型中包括的靜態優勢函數添加權重因子,得到第一動態優勢函數之前,包括:
計算所述權重因子;其中,所述權重因子計算公式如下:
其中,表示所述權重因子,log表示log函數,ε是常數,取0.2,πθ(at,i|st)表示在狀態值st下選擇動作值at,i的概率。
6.根據權利要求1所述的建模方法,其特征在于,所述基于長短期記憶網絡模型對所述演員-評論家模型中包括的原始策略網絡進行動作延遲跟隨和重構,得到第二動態優勢函數,包括:
針對所述原始策略網絡的優勢動作,通過所述長短期記憶網絡模型得到與所述原始策略網絡之間散度最小的延遲跟隨策略;
針對所述原始策略網絡的劣勢動作,融合后驗知識,對所述原始策略網絡進行劣勢動作重構,得到動作重構策略;
基于所述延遲跟隨策略和所述動作重構策略構成長短期記憶網絡損失函數;
通過所述長短期記憶網絡損失函數得到所述第二動態優勢函數。
7.根據權利要求6所述的建模方法,其特征在于,所述基于所述延遲跟隨策略和所述動作重構策略構成長短期記憶網絡損失函數,包括:
其中,表示所述長短期記憶網絡模型的參數,包含延遲跟隨策略參數以及動作分布重構參數,表示所述長短期記憶網絡損失函數,λ取10,rt表示獎勵值,clip表示clip函數,KL表示在優勢動作上,所述延遲策略網絡與所述原始策略網絡之間的KL散度,H表示在劣勢動作上,所述動作重構策略對所述原始策略網絡的動作分布重構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110564559.7/1.html,轉載請聲明來源鉆瓜專利網。





