[發明專利]基于強化學習的跳躍式頻譜感知方法有效
| 申請號: | 202011067956.5 | 申請日: | 2020-10-08 |
| 公開(公告)號: | CN112367131B | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 李軒衡;董一鋒;張雨浩;孫弘毅;張仁浩;丁海川 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | H04B17/382 | 分類號: | H04B17/382;H04W72/04;G06N20/00 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 跳躍 頻譜 感知 方法 | ||
1.一種基于強化學習的跳躍式頻譜感知方法,其特征在于,與已有的周期性頻譜感知方法不同,設備在感知信道的同時會決定在接下來的一段時間不感知信道,從而大幅度減小感知開銷;具體步驟如下:
(1)定義狀態集、動作集、動作結束判斷原則和獎勵函數
定義1:對于任意時隙,發射機的狀態集定義為包括設備接入和感知的信道編號以及對應第個信道的狀態其中0表示信道空閑,1表示信道被占用,i=[1,2…,N];
定義2:對于任意時隙,發射機的動作集a={ν,γ},其中ν∈{1,…,M}表示選擇接入和感知的信道編號,γ∈{1,…ωmax}表示選擇跳過感知的時隙數,ωmax為發射機可跳過時隙數的最大值;
定義3:定義兩個判斷動作是否結束的原則:1)接入的某個信道在感知跳過期間一直空閑,即設備成功跳過所選擇的感知時隙;2)設備未能成功跳過所選跳過感知時隙,即在跳過感知的過程中信道被主用戶占用,產生沖突;當上述兩種原則任意一種發生時,認為對應動作結束;
定義4:獎勵函數定義為其中δ=0表示成功傳輸即定義3的原則1),δ=1表示傳輸失敗即定義3的原則2),目的是在成功傳輸時給予一個正的獎勵值,傳輸失敗時則給予一個負的獎勵值;表示在定義3的原則1)時跳過的時隙數越多,節省的感知開銷越多,獎勵值越大;在定義3的原則2)時跳過的時隙數越多,對主用戶造成的影響越大,即獎勵值越小;Bν表示信道ν的帶寬;
(2)基于步驟(1)中定義的狀態集、動作集、動作結束判斷原則和獎勵函數,發射機在每次處于某個狀態下執行某個動作結束之后都會對該狀態下執行該動作進行評價,亦稱為Q值,隨著算法逐漸收斂,Q值將指導發射機在動態環境下選擇最優動作;
(2.1)為了記錄所有“狀態-動作”的Q值,建立二維Q表,并將所有值初始化為0;假設初始化狀態為全部信道空閑;
(2.2)判斷目前接入的信道數量,若接入Z個,則需要選擇N-Z個動作執行,即選擇N-Z個信道接入;對于每個動作選擇,遵循如下方式:以概率1-ε選擇Q表對應狀態s下的所有動作中Q值最大的動作,即以概率ε隨機選擇動作;該選擇執行N-Z次,確定N-Z個接入信道;
(2.3)執行步驟(2.2)中選擇的動作a;設備感知第ν個信道,若該信道空閑,則接入該信道,同時在接下來的γ個時隙持續接入該信道并不執行感知;若該信道被占用,則不接入該信道;
(2.4)對于任意接入頻帶,基于定義3中的原則判斷是否有動作結束;對于結束的動作基于定義4計算其在對應狀態下的獎勵值,并得到該動作結束時的狀態s',s'中的和即為在此時設備接入的信道的編號和其對應的占用情況;
(2.5)根據獎勵值更新Q表中對應的“狀態-動作”Q值,對于每一個狀態s下做出動作a的Q值更新公式如下:
其中α為學習率,η為折扣因子;
(2.6)重復步驟(2.2)-(2.5),直到傳輸任務結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011067956.5/1.html,轉載請聲明來源鉆瓜專利網。





