[發明專利]基于深度強化學習的4G與5G網絡間動態頻譜共享方法有效
| 申請號: | 202111098334.3 | 申請日: | 2021-09-18 |
| 公開(公告)號: | CN113810910B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 李軒衡;陳幸運 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | H04W16/10 | 分類號: | H04W16/10;H04W16/14;H04W24/02 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 網絡 動態 頻譜 共享 方法 | ||
1.一種基于深度強化學習的4G與5G網絡間動態頻譜共享方法,其特征在于,
考慮一個單基站覆蓋的蜂窩網絡,網絡中包括4G和5G兩種類型用戶;基站覆蓋區域被分為L個子區域,并且基站能收集每個子區域中4G流量數據信息;基站總帶寬為NMHz,分為F個子頻帶,每個子頻帶的帶寬為B=N/FMHz;基站可調度的最小資源單位定義為資源塊,每個資源塊包含時間和頻率兩個維度,時域持續時間為T,頻域帶寬為B;在本方法中,基站針對資源塊周期地制定共享策略,即在每個決策周期T內決定哪些資源塊共享用于5G服務供應;
具體步驟如下:
(1)基站首先構建兩個結構完全相同的神經網絡,分別是帶有參數θ的Q主網絡和帶有參數的Q目標網絡;對于任意第t個決策周期,狀態定義為基站在上一個決策周期內觀測到的各子區域的4G流量數據,記為st={w1,t,w2,t,...,wL,t},并且將其作為Q主網絡的輸入;Q主網絡的作用是對當前狀態st下所有可選的共享策略進行評估,其輸出為對各策略的打分,稱為Q值,對于任意策略a,記為Q(st,a;θ);
(2)基站會基于獲取的狀態st制定共享策略at,又稱為動作;在本方法中,任意第t個決策周期內基站的動作為at={a1,t,a2,t,...,aF,t},其中af,t={0,1},用于標識各資源塊是否被共享,af,t=1表示第f個資源塊被共享,否則af,t=0;因此,總的共享資源塊數量表示為動作的選擇基于ε-greedy策略,即以εt概率從所有可選動作中隨機選擇一個,用于學習探索,以1-εt概率根據Q主網絡輸出選擇對應Q值最大的動作,作為當前最佳決策;
(3)當基站根據ε-greedy策略執行了動作at后,基站根據動作結束后觀測到的狀態st+1={w1,t+1,w2,t+1,...,wL,t+1}去計算獎勵值rt+1;具體來說,基站根據st+1計算得到整個基站覆蓋區域所需要的資源塊數量Mt,通過與共享之后剩余的資源塊數量進行比較,評價共享決策的好壞;因此,獎勵值函數rt+1定義為:
該獎勵值設定對應三種情況:一是錯誤決策,當共享之后剩余的資源塊數量少于需求量時,會對4G網絡的吞吐量帶來損失,故給予負獎勵值;二是正確決策,即當共享之后剩余的資源塊數量等于需求量時,此時共享效率最高,故給與正獎勵值;三是保守決策,即當共享之后剩余的資源塊數量多于需求量時,此時沒有影響4G網絡吞吐量,但沒有使得共享效率最大化,所以令基站得到的獎勵值為0;當基站計算得到獎勵值后,會將經驗元組(st,at,st+1,rt+1)存入基站的經驗池當中;
(4)每一個決策周期,基站都會執行上述的步驟;當內存為G的基站經驗池溢出時,基站會移除最舊的經驗元組并存入最新的經驗元組,同時開始從經驗池當中隨機采樣數量為S的一小批經驗數據對網絡進行訓練;具體而言,小批量采樣中的每一個經驗元組(st,at,st+1,rt+1)的狀態st作為Q主網絡的輸入,然后Q主網絡輸出對應的估計Q值;而st+1則作為Q目標網絡的輸入,用于計算目標Q值,表示為其中γ∈[0,1],是一個折扣因子;估計Q值和目標Q值構成損失函數:
通過對損失函數求梯度來更新Q主網絡參數,即其中α為學習率;每隔固定J個決策周期,Q主網絡的參數θ就會復制給目標網絡的參數
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111098334.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種動力擾動下吸能-抗變形錨桿
- 下一篇:一種旋風發生器





