[發明專利]基于強化學習的智能頻譜協同感知方法有效
| 申請號: | 201810647284.1 | 申請日: | 2018-06-22 |
| 公開(公告)號: | CN108833040B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 吳凡;寧文麗;黃曉燕;馬立香;冷甦鵬 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | H04B17/382 | 分類號: | H04B17/382;H04W24/04 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 智能 頻譜 協同 感知 方法 | ||
1.基于強化學習的智能頻譜協同感知方法,其特征在于,對每個次用戶,當到達一個呼叫請求時,首先根據基于Q-Learning技術學習各次用戶最近的信道狀態得到的信道優先級列表,以最小化掃描開銷為目的做出感知信道的決定;其次,節點在檢測信道時請求其他次用戶進行協作頻譜感知,具體通過bandit賭博機機制選取檢測能力強的次用戶進行協作;最后信道被檢測完成,則廣播被檢測信道的狀態和檢測權重通知其他次用戶;
當一個呼叫請求到達次用戶SUk時,具體包括以下步驟:
S1、采用ε-greedy決策策略確定待測信道;
S2、采用UCB策略確定協作次用戶SUf;
S3、根據步驟S1確定的待測信道與步驟S2確定的協作次用戶SUf,更新信道優先級列表;
S4、更新待測信道的信道狀態和協作次用戶SUf檢測能力估計值;
S5、循環步驟S1-S4,當次用戶SUk成功接入待測信道,停止迭代,并且次用戶SUk將當前迭代的待測信道的信道狀態、該待測信道對應的權重值以及協作次用戶SUf檢測能力估計值進行廣播;或者當達到最大檢測次數,停止迭代,并宣告阻塞;
其中,k、f均為次用戶的序號,k=1,2,…,N,f=1,2,…,N且f≠k,N表示次用戶的總數。
2.根據權利要求1所述的基于強化學習的智能頻譜協同感知方法,其特征在于,步驟S1具體為:
S11.每個次用戶分別維護一張Q表,Q表中對每條信道都用一個Q值代表其空閑可能性大小,初始時將Q表中Q值初始化為0;
S12.當一個呼叫到達節點SUk時,Q-Learning按照ε-greedy決策策略來采取行動,得到待檢測信道ci。
3.根據權利要求2所述的基于強化學習的智能頻譜協同感知方法,其特征在于,步驟S2具體為:選擇待測信道ci后,運行UCB算法,根據待測信道檢測能力的估計值和估計過程中的不確定性,確定協作次用戶SUf。
4.根據權利要求3所述的基于強化學習的智能頻譜協同感知方法,其特征在于,步驟S3具體為:
S31、協作次用戶SUf對待測信道進行本地能量檢測,若檢測結果為待測信道空閑且SUk成功接入,則更新該信道狀態為1,否則更新該信道狀態為0,然后執行步驟S32;
S32、次用戶SUk學習其他次用戶對待測信道的占用情況,從而計算待測信道獎勵點;
S33、根據獎勵點更新待測信道Q值;
S34、按照Q值遞減順序重新排列信道的動態優先級列表。
5.根據權利要求4所述的基于強化學習的智能頻譜協同感知方法,其特征在于,步驟S33所述待測信道Q值的更新具體為:通過Q-Learning機制根據鄰居對待測信道占用的最近歷史和最近的行動回饋更新檢測信道Q值;更新表達式為:
Qk(st,ci)=(1-α)Qk(st,ci)+α{rk(st,ci)-γ(exp-τ*m)}
其中,α表示學習率,0≤α≤1,γ為折扣因子,表示對未來獎勵的衰減值,0≤γ≤1,τ是一個固定常數,0≤τ≤1,m表示當前掃描信道的嘗試次數,st代表實際網絡環境,rk(st,ci)表示獎勵點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810647284.1/1.html,轉載請聲明來源鉆瓜專利網。





