[發明專利]基于雙向長短時記憶網絡的動態頻譜接入方法有效
| 申請號: | 202011505701.2 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112672359B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 高玉龍;陳鵬;郭士增 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | H04W16/14 | 分類號: | H04W16/14;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱華夏松花江知識產權代理有限公司 23213 | 代理人: | 楊曉輝 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 雙向 短時記憶 網絡 動態 頻譜 接入 方法 | ||
1.基于雙向長短時記憶網絡的動態頻譜接入方法,其特征在于,該動態頻譜接入方法包括:
通信系統在正交頻分多址的情況下,每個信道固定分配給一個主用戶,主用戶依據自主接入策略傳輸信息,次級用戶在每個時隙依據歷史動作數據預測信道占用狀態,并選取其中一個未占用信道傳輸信息;
次級用戶傳輸信息的方法包括:
采用雙向長短時記憶網絡優化DQN強化學習算法,形成DBRQN算法模型;
將歷史動作數據輸入DBRQN算法模型中,預測動態頻譜空洞;
次級用戶感知預測到的動態頻譜空洞,獲取最優信道接入策略,然后動態接入空閑頻譜空洞,實現動態頻譜共享;
DBRQN算法模型的訓練方法包括:
S2-1、初始化多個主用戶的參數和信道占用情況;
S2-2、初始化次級用戶智能體的網絡權重參數,同時初始化經驗回放池;
S2-3、次級用戶輸入歷史感知信道標號和歷史感知結果序列數據,以隨機的感知結果序列作為初始啟動數據,輸出值Q最大的最優動作,同時輸出一個0至1的隨機數,當隨機數大于預先設置的閾值時選取輸出的值Q最大的最優動作,當隨機數小于預先設置的閾值時采用隨機動作進行隨機探索;逐步減小閾值,使隨機探索的概率隨訓練的進行逐步減?。?/p>
S2-4、將歷史動作數據輸入環境模擬器,從環境模擬器的反饋獲取獎賞,當環境模擬器中的歷史動作數據傳輸成功獲得正反饋,當環境模擬器中的歷史動作數據傳輸未成功獲得負反饋;同時,環境模擬器自動生成下一個狀態;環境模擬器根據獲取的獎賞和下一個狀態合并生成下一個時隙的輸入向量;
S2-5、將動作S2-4獲取的獎賞、下一個狀態和下一個狀態的動作組成元組,將該元組存入經驗回放池;
S2-6、從經驗回放池中隨機選取訓練數據進行網絡訓練,更新網絡權重參數;
S2-7、判斷更新網絡權重參數過程中的網絡估計誤差是否小于閾值,否則返回執行S2-3,是則執行S2-8;
判斷更新網絡權重參數過程中的訓練步數是否達到預設的最大訓練步長值,否則返回執行S2-3,是則執行S2-8;
S2-8、DBRQN算法模型訓練完成,保存當前訓練參數;
S2-4所述歷史動作數據為:
動作A=(a0,a1,a2,…,an),其中,n表示信道總數,ai,i=0,1…,n表示選取對應的信道i進行接入及信息傳輸;
特別的,次級信道在a0時隙退避,不進行信息傳輸;
動作均以獨熱編碼形式給出,即對應位置為1,其余位置為0;
選取動作后獲得當前動作的環境反饋確認字符,反饋集合為R={0,1},0表示所選信道已被占用且傳輸失敗,1表示所選信道空閑且傳輸成功;
S2-4所述獎賞包括:
獲取最大累計折扣獎賞對應的最優策略:
采用折扣回報表示t時刻的狀態具備的回報Gt:
其中,λ表示累計折扣因子,Rt+k+1表示t+k+1時刻的反饋集合,k表示疊加上下界符號;
S2-6所述更新網絡權重參數的方法包括:
采用值函數Q(s,a)表示當前狀態s、當前狀態對應動作a的優劣,結合貝爾曼方程與時間差分方法對值函數進行更新:
Q(st,at)←Q(st,at)+α(Rt+1+λmaxaQ(st+1,at+1)-Q(st,at));
其中,α表示學習步長,表征更新速率;
當面對連續狀態或狀態集合較大時,采用結合深度學習的多層神經網絡代替價值函數估計器,使用多層全連接網絡,形成DQN強化學習算法,通過梯度反向傳播算法最小化網絡估計誤差進行網絡權重訓練,網絡估計誤差為:
L(w)=E[(r+γmaxa'Q(s',a',w)-Q(s,a,w))2];
其中,E表示對作用對象求期望,r表示采取動作后的即時獎賞,γ表示折扣因子,w表示網絡的權重參數,s'表示下一個狀態,a'表示下一個動作。
2.根據權利要求1所述的基于雙向長短時記憶網絡的動態頻譜接入方法,其特征在于,將歷史動作數據輸入DBRQN算法模型中,預測動態頻譜空洞,次級用戶感知預測到的動態頻譜空洞,獲取最優信道接入策略的方法包括:
S6-1、初始化主用戶的參數和信道占用情況;
S6-2、將訓練好的DBRQN算法模型加載到新的網絡模型中;
S6-3、次級用戶將輸入數據上傳至S6-2獲取的網絡模型中,選取網絡模型值Q最大的輸出作為當前時刻的動作數據,網絡模型同時輸出動作數據;
所述輸入數據包括歷史感知信道標號和歷史感知結果序列數據,以隨機的感知結果序列作為初始啟動數據;
S6-4、將當前時刻的動作數據輸入環境模擬器,獲取獎賞和下一個狀態,生成下一個時隙的輸入向量;
S6-5、判斷測試步數是否達到預設的最大測試步長值,否則返回執行S6-3,是則執行S6-6;
S6-6、統計網絡模型輸出的各動作數據,計算成功率和沖突率,并繪制相應曲線;
S6-7、根據成功率和沖突率選取最優信道接入策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011505701.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種不含硫的新型防銹油
- 下一篇:一種建筑逃生結構以及快裝式逃生器





