[發明專利]基于深度強化學習的能量采集認知物聯網資源分配方法在審
| 申請號: | 202211278767.1 | 申請日: | 2022-10-19 |
| 公開(公告)號: | CN115712497A | 公開(公告)日: | 2023-02-24 |
| 發明(設計)人: | 林瑞全;劉佳鑫;丘航丁;王俊;鮑家旺;王銳亮 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G16Y30/00;G06N3/0442;G06N3/045;G06N3/092 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 張燈燦;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 能量 采集 認知 聯網 資源 分配 方法 | ||
1.一種基于深度強化學習的能量采集認知物聯網資源分配方法,其特征在于,包括:
搭建能量采集認知物聯網系統模型,并推導出資源分配的數學模型;
搭建強化學習模型,將次發射機到次接收機、協作干擾器到竊聽節點這兩條鏈路的2m條子信道以及一個能量采集時間分配網絡t0共建模為2m+1個強化學習智能體,能量采集認知物聯網中的其他部分為強化學習環境,智能體與環境不斷進行交互;
構建基于深度強化學習的能量采集認知物聯網資源分配模型,并對其進行訓練;
通過訓練好的資源分配模型對認知物聯網進行聯合能量采集時間和傳輸功率的最優分配。
2.根據權利要求1所述的基于深度強化學習的能量采集認知物聯網資源分配方法,其特征在于,對基于深度強化學習的能量采集認知物聯網資源分配模型進行訓練,具體包括以下步驟:
S1、生成認知物聯網的拓撲結構,初始化每條鏈路的信道增益,回合訓練次數N,經驗緩沖池Dk的最大容量Nk,以及決策網絡和目標網絡權重參數θk、其中
S2、在每個訓練回合的開始,隨機初始化認知物聯網所有節點的位置,更新每條鏈路的信道增益,設置環境的初始狀態為S0;
S3、在每個訓練回合的第t=0,1,2,…,Tmax-1個時間步,基于當前環境狀態St,每個智能體k獲得環境局部觀測并根據ε-greedy算法采取動作更新ST和J的電池容量和更新信道增益,當前環境狀態St轉移到下一狀態St+1,智能體k獲得下一個局部觀測和獎勵rt;
S4、更新神經網絡參數θk和即從Dk中隨機抽取設定批量的樣本送入決策網絡,計算損失函數L(θk),并進行梯度下降最小化L(θk)更新參數θk;每間隔M個連續時間步將θk復制給目標網絡權重參數
3.根據權利要求2所述的基于深度強化學習的能量采集認知物聯網資源分配方法,其特征在于,所述步驟S2中,在每個訓練回合的開始,采用隨機化方案來更新認知物聯網中所有節點的位置,每條鏈路的信道增益的更新遵循瑞利信道衰落模型,設置該次訓練回合的環境初始狀態為:
S0=St|t=0={Gt,SINRt,Bt-1}t=0={G0,SINR0,{BST,max,BJ,max}}
式中,PR、SR、E處的信干噪比集合ST和J的電池容量集合并有B-1={BST,max,BJ,max},其中,為子信道編號集合,為子信道增益,分別為次發射機ST和協作干擾器J在第k個子信道的發射功率,BST,max和BJ,max分別為ST和J的最大電池容量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211278767.1/1.html,轉載請聲明來源鉆瓜專利網。





