[發明專利]一種基于PPER-DQN的雙變跳頻圖案智能決策方法有效
| 申請號: | 202110593616.4 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113411099B | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 朱家晟;趙知勁;李春;岳克強;姜明 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | H04B1/713 | 分類號: | H04B1/713;H04B1/715 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 pper dqn 雙變跳頻 圖案 智能 決策 方法 | ||
1.一種基于PPER-DQN的雙變跳頻圖案智能決策方法,其特征在于,步驟如下:
步驟1、根據感知到的頻譜狀態,估計干擾的主要參數,預測未來短時間Δ內的頻譜狀態;
步驟2、初始化估值Q網絡、目標Q網絡、經驗池和Sumtree存儲結構,設置網絡的學習率lr、目標Q網絡的更新周期Ttar、采樣樣本數量M、折扣因子γ、參數α、β、λ、η、ξ、z、G以及總訓練回合數隨機初始化狀態s0;
步驟3、對于當前狀態st,根據動作選擇策略及估值Q網絡選擇最佳動作at并執行,得到下一狀態st+1,代入獎賞函數計算立即獎勵rt;
步驟4、判斷st+1是否滿足終止該訓練回合的條件,將樣本按當前狀態st、動作at、下一狀態st+1、立即獎勵rt、是否滿足結束條件的形式存入經驗池,賦予當前經驗池最大優先級并更新Sumtree;
步驟5、當經驗池未被填滿時,跳轉至步驟11,否則,繼續執行;
步驟6、若迭代次數t達到目標Q網絡更新周期Ttar則更新估值Q網絡,否則不更新;
步驟7、采用基于Pareto樣本的優先經驗回放方法,根據存儲時長計算置信度并調整樣本優先度,從經驗池中篩選Pareto樣本,利用Sumtree結構根據優先級pi分別從Pareto樣本集和非Pareto樣本集采集樣本形成訓練集;
步驟8、根據估值Q網絡、目標Q網絡分別計算訓練集樣本的TD-error、優先度pi和目標值yi;再進一步計算各個樣本的采樣概率Pi'、重要性采樣權重wi和網絡的損失函數L(θval)并通過神經網絡的梯度反向傳播更新估值Q網絡的參數θval;
步驟9、更新訓練集樣本的TD-error、經驗池樣本的優先級和Sumtree;
步驟10、更新狀態,st←st+1;
步驟11、若網絡訓練回合數達到則結束算法,否則,返回步驟3;
步驟7具體方法如下:
使用TD-error作為評判優先級的標準,其形式如式(4)所示;
其中,為在第t次迭代中產生的第i樣本的TD-error;rt為在第t次迭代中Agent處于狀態st并執行動作at得到的立即獎勵;γ為折扣因子,代表對未來獎勵的重視程度;Q(st,at;θval)和Q(st,at;θtar)分別為通過估值Q網絡和目標Q網絡得到的Q值,θval和θtar分別為兩個網絡的參數;越接近0代表網絡預測精度的上升空間越小,回放該樣本對網絡的提升越小;反之,回放該樣本的收益越大,越值得被回放;更多地回放遠離0的樣本將能提高網絡訓練的效率,使算法更容易收斂;
在式(4)基礎上,優先級定義為基于TD-error的優先級形式如式(5)所示,樣本采樣概率則如式(6)所示;
其中,pi為第i個樣本的優先度;σ為一個在設定閾值內的正數;α為用于控制優先度使用程度的系數,取值范圍為[0,1],當α=1時表示采用均勻隨機采樣;Pi為根據優先級得到的第i個樣本被采樣的概率;N為經驗池容量;
在進行經驗回放時同時考慮TD-error和立即獎勵,進一步提高訓練集的優越性和學習價值,從而提高算法性能和收斂速度;
為更高效地采樣,引出如下定義:
定義1 Pareto支配(Pareto Dominance):有樣本e1及樣本e2,當且僅當所有的fu(e1)都優于fu(e2),u=1,2,…,U時,稱e2受e1的支配,否則e1和e2互不支配;其中fu(·)表示樣本的第u個性能函數;
根據上述定義提出基于Pareto樣本的優先經驗回放;該方法中根據Pareto支配的定義從立即獎勵和TD-error兩個方面在經驗池中篩選Pareto樣本;將頻譜劃分為G段,在處于同一分段內的樣本中選擇Pareto樣本,從而保障Pareto樣本集能包含各個頻段的樣本;
針對在經驗池中存儲時間過長的樣本可信度下降的問題,引入置信度參數衡量樣本;判斷支配關系時,對如式(7)所示的置信度參數歸一化,用其調整樣本的優先級;
其中,μ為置信度參數,tstore為樣本在經驗池中的存儲時長,μ將隨著tstore的增長先緩慢下降,再快速下降,最后趨于平穩,ξ用于控制μ隨存儲時長開始快速下降的轉折點,z用于控制下降的速率;
為提高采樣效率,采用Sumtree結構存儲樣本和完成采樣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110593616.4/1.html,轉載請聲明來源鉆瓜專利網。





