[發明專利]一種應用于蜂窩網絡的基于深度強化學習的動態多信道接入方法有效
| 申請號: | 202011055360.3 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112188503B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 徐友云;李大鵬;蔣銳 | 申請(專利權)人: | 南京愛而贏科技有限公司;南京南郵通信網絡產業研究院有限公司 |
| 主分類號: | H04W16/10 | 分類號: | H04W16/10;G06N3/08 |
| 代理公司: | 北京沁優知識產權代理有限公司 11684 | 代理人: | 王麗君 |
| 地址: | 210000 江蘇省南京市棲*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 應用于 蜂窩 網絡 基于 深度 強化 學習 動態 信道 接入 方法 | ||
1.一種應用于蜂窩網絡的基于深度強化學習的動態多信道接入方法,其特征在于:提供信道分配系統以及若干用戶終端,所述信道分配系統與所述用戶終端通信連接;
所述信道分配系統內配置有動態多信道模型,所述動態多信道模型根據當前時隙的各信道狀態通過最優策略算法計算下一時隙的最優信道分配方式,所述信道狀態表征在所述信道上是否成功發送數據,所述最優策略算法通過深度強化學習方法進行優化,所述深度強化學習方法包括以下步驟;
S10,所述信道分配系統內配置有經驗池、主神經網絡以及目標神經網絡,所述經驗池用于存儲數據集,所述經驗池具有容量閥值D,所述容量閥值D表征所述經驗池存儲數據集的最大值,通過所述最優策略算法構建所述主神經網絡和目標神經網絡,所述主神經網絡和所述目標神經網絡的參數均包括信道狀態、執行動作以及神經網絡的權重,所述信道狀態為s,所述執行動作為a,所述執行動作a表征信道的分配方式,所述主神經網絡的權重為w,所述目標神經網絡的權重為w-,另目標神經網絡的權重等于主神經網絡的權重,并進入S20;
S20,所述信道分配系統根據用戶終端當前時隙分配的信道的信道狀態s,通過預設的分配算法得到下一時隙的執行動作a,并進入S30;
S30,所述信道分配系統根據執行動作a分配信道至用戶終端,所述通信分配系統通過預設的獎勵算法,以用戶終端是否通過信道成功發送數據為變量,計算得到獎勵值rt+1并保存,并進入S40;
S40,所述信道分配系統通過當前時隙的信道狀態st、當前時隙的執行動作at獲得下一時隙的信道狀態st+1,并將(st,at,rt,st+1)作為一組數據集保存至所述經驗池,rt為t-1時隙的信道狀態st-1,執行動作at-1后在t時隙獲得的獎勵值,并進入S50;
S50,判斷所述經驗池的容量是否達到所述容量閥值D,若未達到,則令st=st+1并返回步驟S20;反之,則進入步驟S60;
S60,所述信道分配系統以隨機采樣方式從所述經驗池中獲取若干組數據集(st,at,rt,st+1),所述主神經網絡對每組數據集進行訓練得到估計Q值,所述目標神經網絡通過預設的實際Q值算法計算得到實際Q值,并進入S70;
S70,通過預設的誤差算法計算估計Q值與實際Q值的誤差值,并根據梯度下降法更新主神經網絡的權重w,并進入S80;
S80,每隔預設的更新間隔步數C,令w-=w,所述更新間隔步數C表征將目標神經網絡的權重改為主神經網絡的權重所經過的步數,并進入S90;
S90,將誤差值與預設的收斂臨界值比較,當誤差值大于收斂臨界值時,返回步驟S30,反之,則結束,所述收斂臨界值表征主神經網絡收斂狀態下的最大誤差值。
所述動態多信道模型為遵循部分可觀測馬爾可夫鏈的動態多信道模型,所述動態多信道模型遵循的約束條件為:
C1:S={s1,...,s3N}
C2:
C3:
C4:Ω(t+1)=Ω'(t)P
C5:
C6:
其中:C1為部分可觀測馬爾可夫鏈的狀態空間,每個狀態si(i∈{1,2,...,3N})都是一個長度為N的向量[si1,...,sij,...,siN],sij表示j信道的信道狀態;
C2是置信向量,為所述信道分配系統處于si狀態,并且知道過去時隙的執行動作以及下一時隙的各個信道的信道狀態的條件概率;
C3是置信向量中每個可能的狀態的更新方式,I(·)是一個指示函數,a(t)為t時隙用戶終端接入的信道,o(t)為t時隙用戶終端接入的信道的信道狀態觀測值,所述觀測值為1表征信道狀態好,所述觀測值為0.5表征信道狀態不確定,所述觀測值為0表征信道狀態差;
C4是置信向量的更新公式,P是部分可觀測馬爾可夫鏈的轉移矩陣;
C5是最優策略算法,γ為預設的折扣因子,rt+1為t時隙的信道狀態s執行動作a后在t+1時隙獲得的獎勵值;
C6是當累計的獎勵值最大時得到的最優的信道分配策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京愛而贏科技有限公司;南京南郵通信網絡產業研究院有限公司,未經南京愛而贏科技有限公司;南京南郵通信網絡產業研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011055360.3/1.html,轉載請聲明來源鉆瓜專利網。





