[發明專利]基于強化學習解決認知無線電中的功率分配算法有效
| 申請號: | 202011161787.1 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112367132B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 梁微;溫書慧;楊思遠;王大偉;高昂;李立欣 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | H04B17/382 | 分類號: | H04B17/382;H04W52/34 |
| 代理公司: | 西安維賽恩專利代理事務所(普通合伙) 61257 | 代理人: | 劉春 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 解決 認知 無線電 中的 功率 分配 算法 | ||
1.基于強化學習解決認知無線電中的功率分配算法,其特征在于,
所述功率分配方法基于覆蓋式CR-NOMA系統,所述覆蓋式CR-NOMA系統包括主用戶發射機-接收機對以及認知網絡;所述認知網絡中的認知發送器包括認知基站和K個認知用戶,所述認知用戶的索引包含在集合K中;所述覆蓋式CR-NOMA系統中,多個認知用戶利用NOMA技術接入同一主要用戶頻譜資源上;
所述功率分配方法按照以下步驟實施:
S1、設置深度學習算法的初始值參數,包括:
設置動作空間集合的學習率ηa,設置評論空間集合的學習率ηc,設置覆蓋式CR-NOMA系統的折扣因子β,設置初始值函數Q(.),則Q(sini,αini)=0,設置狀態空間集合S={s1(t),s2(t),...,sK(t)},設置算法的動作空間At={α1(t),α2(t),…,αK(t)},設置輸入狀態si;
其中,sint是初始狀態下狀態空間集合內的元素,αint是初始狀態下動作空間集合內的元素,sK(t)是狀態空間集合內的元素;αK(t)是動作空間集合內的元素,t表示某一時刻,i∈[1,K];
S2、設置關于CR-NOMA系統的場景模型,在該場景模型下,設置初始狀態集合為移動用戶的信道特征集合,設置動作的初始狀態集合為移動用戶的功率分配參數;
S3、當某一計算時刻t小于等于最大限制的時間值Tmax時,求得時刻t下的狀態值并計算相對應的獎勵函數,獎勵函數是由認知系統的頻譜效率來決定,即并計算深度學習算法中的TD誤差δt;
其中,Rt為t時刻的獎勵函數,SE為頻譜有效率,CU為認知用戶,k為認知用戶的索引,TD誤差為時差誤差;
S4、基于值函數選擇算法的下一步動作,即選擇認知網絡中移動用戶的功率參數值,利用學習率以及TD誤差值函數,將初始值函數更新為Q(st,at)←Q(st,at)+ηcδt;再根據已選擇的執行動作獲得相應的獎勵,并獲得策略函數π(.),然后將其更新為π(st,at)←π(st,at)-ηaδt;
其中,st是t時刻狀態空間集合內的元素;αt是t時刻動作空間集合內的元素;
S5、根據步驟S3使TD誤差值達到最小,不停的迭代更新,最后獲得最大的獎勵函數值,即在滿足最大化CR-NOMA系統頻譜效率值的前提下,求得NOMA認知用戶組的最優功率分配系數值。
2.如權利要求1所述的基于強化學習解決認知無線電中的功率分配算法,其特征在于,所述步驟S3中,獎勵函數為CR-NOMA系統的頻譜效率值根據誤差函數δt=Rt+1+βQ(st+1,at+1)-Q(st,at)來計算TD誤差,在誤差迭代達到最小值時,找到NOMA認知用戶組中,認知用戶的功率最優分配值;其中算法中的折扣因子β的取值范圍為0到1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011161787.1/1.html,轉載請聲明來源鉆瓜專利網。





