[發明專利]一種基于聯邦學習的頻譜資源管理分配方法有效
| 申請號: | 202110279397.2 | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN113038616B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 張科;袁鑫 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | H04W72/04 | 分類號: | H04W72/04;H04L41/142 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 李林合 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聯邦 學習 頻譜 資源管理 分配 方法 | ||
1.一種基于聯邦學習的頻譜資源管理分配方法,其特征在于,包括以下步驟:
S1、終端設備從環境中收集狀態信息;其中收集的狀態信息包括當前時刻信道增益信息gijk(t)、上一時刻信道增益信息gijk(t-1)、上一時刻的動作信息ak(t-1)和上一時刻的信道干擾信息Iijk(t-1),表示為:
Stk={{gijk(t)}i∈N,j∈Bi,{gijk(t-1)}i∈N,j∈Bi,{Iijk(t-1)}i∈N,j∈Bi,ak(t-1)};
其中收集的上一時刻信道干擾信息表示為:
其中為上一時刻終端設備m對i頻段的j子信道的動作信息,pm(t-1)為上一時刻終端設備m的發射功率,為上一時刻終端設備m在i頻段的j子信道的信道增益;
S2、終端設備判斷步驟S1收集的當前時刻狀態信息和上一時刻狀態信息變化差值是否超過預設差值門限值,若是,執行步驟S3,否則返回步驟S1;
S3、終端設備根據當前狀態信息對主網絡中的行動者網絡信道傳輸的頻譜、子信道和傳輸功率進行決策;
S4、終端設備收集決策后下一時刻的狀態信息和獎勵信息,并將當前時刻狀態信息、當前時刻動作、下一時刻狀態信息和獎勵信息組成經驗元組,把經驗元組放入記憶池;其中獎勵信息表示為:
其中xijk(t)為當前時刻設備k對i頻段的j子信道的選擇,Wij為頻段i的j子信道的帶寬,γijk(t)為當前設備k在頻段i的j子信道的信干噪比;
獎勵信息表達式中的約束條件為:
S5、終端設備利用所述步驟S4放入記憶池的經驗元組采用梯度下降法訓練主網絡中的行動者網絡和評論家網絡,包括以下分步驟:
S51、終端設備從經驗池中小批量的選取經驗元組,利用行動者網絡和評論家網絡計算相應的損失函數值,行動者網絡的損失函數表達式為:
J(θπ)=-Q(s,a;θ)
評論家網絡的損失函數表達式為:
L(θ)=[r(s,a)+γQ(s',π(s';θπT);θT)-Q(s,a;θ)]2
其中r(s,a)為當前狀態下采取的動作所獲得的獎勵,γ為折扣因子,θ為主評論家網絡的參數,θT為評論家網絡的參數,s'為t+1時刻狀態,θπT為目標行動者網絡參數;
S52、計算行動者網絡損失函數的梯度,其表達式為:
計算評論家網絡損失函數的梯度,其表達式為:
S53、更新主網絡的行動者網絡參數,其表達式為:
其中απ為行動者網絡參數的學習率;
更新主網絡的評論家網絡參數,其表達式為:
其中αQ為評論家網絡參數的學習率;
S6、判斷終端設備累計梯度是否達到預設梯度門限值,若是,執行步驟S7,否則返回所述步驟S1;
S7、終端設備將其主網絡參數上傳至基站;
S8、基站判斷其收集的主網絡參數量是否達到預設收集門限值,若是,根據設定權重將所有的主網絡參數進行聚合并廣播給所有終端設備并執行步驟S9,否則繼續收集主網絡參數;
S9、終端設備根據接收到的聚合參數更新其主網絡和目標網絡的參數,并返回所述步驟S1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110279397.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分散灰染料組合物
- 下一篇:一種半干法磨米的工藝





