[發明專利]一種基于聯邦學習的頻譜資源管理分配方法有效

申請號：	202110279397.2	申請日：	2021-03-16
公開（公告）號：	CN113038616B	公開（公告）日：	2022-06-03
發明（設計）人：	張科;袁鑫	申請（專利權）人：	電子科技大學
主分類號：	H04W72/04	分類號：	H04W72/04;H04L41/142
代理公司：	北京正華智誠專利代理事務所(普通合伙) 11870	代理人：	李林合
地址：	611731 四川省成***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于聯邦學習頻譜資源管理分配方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于聯邦學習的頻譜資源管理分配方法，其特征在于，包括以下步驟：

S1、終端設備從環境中收集狀態信息；其中收集的狀態信息包括當前時刻信道增益信息g_ij^k(t)、上一時刻信道增益信息g_ij^k(t-1)、上一時刻的動作信息a^k(t-1)和上一時刻的信道干擾信息I_ij^k(t-1)，表示為：

S_t^k＝{{g_ij^k(t)}_i∈N,j∈Bi,{g_ij^k(t-1)}_i∈N,j∈Bi,{I_ij^k(t-1)}_i∈N,j∈Bi,a^k(t-1)}；

其中收集的上一時刻信道干擾信息表示為：

其中為上一時刻終端設備m對i頻段的j子信道的動作信息，p^m(t-1)為上一時刻終端設備m的發射功率，為上一時刻終端設備m在i頻段的j子信道的信道增益；

S2、終端設備判斷步驟S1收集的當前時刻狀態信息和上一時刻狀態信息變化差值是否超過預設差值門限值，若是，執行步驟S3，否則返回步驟S1；

S3、終端設備根據當前狀態信息對主網絡中的行動者網絡信道傳輸的頻譜、子信道和傳輸功率進行決策；

S4、終端設備收集決策后下一時刻的狀態信息和獎勵信息，并將當前時刻狀態信息、當前時刻動作、下一時刻狀態信息和獎勵信息組成經驗元組，把經驗元組放入記憶池；其中獎勵信息表示為：

其中x_ij^k(t)為當前時刻設備k對i頻段的j子信道的選擇，W_ij為頻段i的j子信道的帶寬，γ_ij^k(t)為當前設備k在頻段i的j子信道的信干噪比；

獎勵信息表達式中的約束條件為：

S5、終端設備利用所述步驟S4放入記憶池的經驗元組采用梯度下降法訓練主網絡中的行動者網絡和評論家網絡，包括以下分步驟：

S51、終端設備從經驗池中小批量的選取經驗元組，利用行動者網絡和評論家網絡計算相應的損失函數值，行動者網絡的損失函數表達式為：

J(θ_π)＝-Q(s,a；θ)

評論家網絡的損失函數表達式為：

L(θ)＝[r(s,a)+γQ(s',π(s'；θ_π^T)；θ^T)-Q(s,a；θ)]²

其中r(s,a)為當前狀態下采取的動作所獲得的獎勵，γ為折扣因子，θ為主評論家網絡的參數，θ^T為評論家網絡的參數，s'為t+1時刻狀態，θ_π^T為目標行動者網絡參數；

S52、計算行動者網絡損失函數的梯度，其表達式為：

計算評論家網絡損失函數的梯度，其表達式為：

S53、更新主網絡的行動者網絡參數，其表達式為：

其中α_π為行動者網絡參數的學習率；

更新主網絡的評論家網絡參數，其表達式為：

其中α_Q為評論家網絡參數的學習率；

S6、判斷終端設備累計梯度是否達到預設梯度門限值，若是，執行步驟S7，否則返回所述步驟S1；

S7、終端設備將其主網絡參數上傳至基站；

S8、基站判斷其收集的主網絡參數量是否達到預設收集門限值，若是，根據設定權重將所有的主網絡參數進行聚合并廣播給所有終端設備并執行步驟S9，否則繼續收集主網絡參數；

S9、終端設備根據接收到的聚合參數更新其主網絡和目標網絡的參數，并返回所述步驟S1。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于電子科技大學，未經電子科技大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110279397.2/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】