[發明專利]基于深度強化學習的信道接入和能量調度方法、裝置在審
| 申請號: | 202310130805.7 | 申請日: | 2023-02-02 |
| 公開(公告)號: | CN116113038A | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 羅勝;王曉桐;伍楷舜 | 申請(專利權)人: | 深圳大學 |
| 主分類號: | H04W72/044 | 分類號: | H04W72/044;H04W72/0446;H04W72/53;H04W52/02;G06N3/045;G06N3/092 |
| 代理公司: | 北京市誠輝律師事務所 11430 | 代理人: | 耿慧敏;陳麗 |
| 地址: | 518060 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 信道 接入 能量 調度 方法 裝置 | ||
1.一種基于深度強化學習的信道接入和能量調度方法,其特征在于:
用戶設備模塊獲取用戶設備UE?i的前T1個時隙信息在每個信道發送成功與否的狀態和用戶設備UE?i的電池剩余容量作為輸入信息,將輸入信息輸入該用戶設備UE?i對應的訓練好的深度強化學習網絡,深度強化學習網絡輸出用戶設備UE?i的最優動作,i=1,2,…,N,N為用戶設備UE總數,大于等于信道數;
其中:
T1為設定值;
所述動作為用戶設備UE?i在時隙t時刻選擇消耗能量發送信息給接入點或用戶設備UE在時隙t時刻選擇掛起不發送信息。
2.根據權利要求1所述的方法,其特征在于,用戶設備UE?i的電池剩余容量滿足能量模型;
在能量模型中,用戶設備UE?i收集能量存放到其對應的電池中,收集能量的過程滿足馬爾科夫性,若電池容量達到上限Bmax,則丟棄多余的能量,用戶設備UE?i發送信息給接入點消耗能量;
用戶設備UE?i從時隙t到t+1的電池演變方程為:
Bi[t+1]=min{Bmax,Bi[t-1]-Pi[t]+Ei[t]}
Bi[t+1]為用戶設備uE?i時隙t+1時刻的電池剩余容量,Bi[t-1]為用戶設備UE?i時隙t-1時刻的電池剩余容量,Pi[t]為用戶設備uE?i時隙t時刻發送信息時的能量消耗值,Ei[t]為第i個uE在時隙t時刻收集到的能量。
3.根據權利要求1所述的方法,其特征在于,用戶設備UE?i前T1個時隙信息在每個信道信息發送成功與否的狀態,采用1×(T1×K)的向量Hi[t]記錄,其中,K為信道數;從第1個元素開始,每K個元素表示一個時隙的信息發送成功與否的狀態,元素值為對應的信道狀態,信道狀態為信道中能夠發送的信息數量值。
4.根據權利要求3所述的方法,其特征在于,信息發送滿足信道模型,在信道模型中,如果有超過1個用戶設備UE同時選擇了同一個信道發送信息,則這個信道上會發生信息碰撞,所有選擇這個信道發送信息的用戶設備UE都會發送失敗,接入點AP收不到信息。
5.根據權利要求1所述的方法,其特征在于,深度強化學習網絡的實現包括下述步驟:
S1、將用戶設備模塊獲取的用戶設備UE?i的輸入信息整合為當前狀態si[t],i=1,2,…,N,N為用戶設備uE總數;
S2、采用ε-greedy算法選取動作Ai[t],i=1,2,…,N;
S3、用戶設備uE?i執行選取的動作Ai[t],i=1,2,…,N;
S4、基于各個用戶設備UE的動作Ai[t],獲得動作集合A[t]={Ai[t],i=1,2,...,N};
S5、基于動作集合A[t],獲得一個大小為1×N的向量R[t]表示獎勵向量,獎勵向量中的每個值為對應uE所獲得的獎勵值,同時使環境狀態S[t]轉移到下一個狀態S[t+1];
S[t]={si[t],i=1,2,...,N}
S[t+1]={si[t+1],i=1,2,...,N)
R[t]={ri[t],i=1,2,...,N}
S6、用戶設備模塊將UE?i對應的si[t],Ai[t],Ri[t],si[t+1]進行保存并更新深度強化學習網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳大學,未經深圳大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310130805.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鍋爐自動注水裝置及其方法
- 下一篇:一種防污衛浴陶瓷及其制備方法





