[發明專利]基于深度強化學習的認知無線電空頻二維抗敵意干擾方法在審
| 申請號: | 201710181997.9 | 申請日: | 2017-03-24 |
| 公開(公告)號: | CN106961684A | 公開(公告)日: | 2017-07-18 |
| 發明(設計)人: | 肖亮;韓國安;李炎達 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | H04W16/14 | 分類號: | H04W16/14;H04W24/02;G06N3/08;G06N99/00 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙)35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 認知 無線電 二維 抗敵 干擾 方法 | ||
1.基于深度強化學習的認知無線電空頻二維抗敵意干擾方法,其特征在于包括以下步驟:
1)認知無線電次用戶的動作記為x∈[0,N],其中,x=0表示次用戶離開該區域,x∈[1,N]表示次用戶選擇信道編號為x的信道進行通信,N表示可用的信道數量;
2)構造深度卷積神經網絡;
3)在k時刻,次用戶記錄上一個時刻認知無線電主用戶的接入狀態(λk-1)和無線信號的信干比(SINRk-1),并組成當前狀態sk=[λk-1,SINRk-1];
4)在k時刻,當k≤W時,次用戶隨機選取一個動作xk∈[0,N];當k>W時,構造深度卷積神經網絡的輸入序列將狀態序列輸入到深度卷積神經網絡,計算每一個動作的Q值;次用戶根據貪婪算法選取動作xk,以1-ε的概率選取具有最大Q值的動作,以ε概率隨機選取其他動作;
5)當xk=0時,次用戶離開該區域;當xk∈[1,N]時,次用戶選擇信道編號為xk的信道進行通信;
6)次用戶觀測認知無線電主用戶當前的接入狀態(λk),當λk=1時,表示認知無線電主用戶正在使用目標通信信道,反之,λk=0;同時觀察無線信號的信干比(SINRk);
7)根據公式(1)計算效益uk:
uk=λkSINRk-Cmf(xk=0) (1)
其中,Cm為次用戶離開目前區域的移動損耗;f(ξ)是一個指示函數,當ξ為真時其值為1,反之為0;
8)次用戶獲取下一時刻狀態sk+1=[λk,SINRk],下一時刻輸入序列
9)記錄k時刻經驗到經驗池D中;
10)對第k時刻網絡的權重參數θk進行B次更新操作,在每一次更新過程中,隨機從經驗池D中選取一個經驗
根據公式(2)計算損失值L(θk):
其中,x′為輸入序列為下使Q值最大的動作,表示對xd,ud,隨機變量做統計期望計算;
根據公式(3)計算損失值的梯度值
采用隨機梯度下降法,利用神經網絡反向反饋更新深度卷積神經網絡的權重參數θk,使得梯度值最小化;
11)根據環境變化,次用戶重復步驟3)~10),直到次用戶學習到穩定的動作選擇策略。
2.如權利要求1所述基于深度強化學習的認知無線電空頻二維抗敵意干擾方法,其特征在于在步驟2)中,所述構造深度卷積神經網絡的具體方法為:
(1)初始化深度卷積神經網絡的權重參數θ、輸入序列包含的以往狀態動作對個數W以及網絡更新的操作次數B;
(2)初始化深度卷積神經網絡的Q值,對次用戶的所有動作分配一個對應的輸出Q值;
(3)初始化折扣因子γ,貪婪因子ε。
3.如權利要求1所述基于深度強化學習的認知無線電空頻二維抗敵意干擾方法,其特征在于在步驟2)中,所述構造深度卷積神經網絡包含卷積層H層和全連接層M層,在H層卷積層中,第一層的卷積層輸入大小為3×B+2,具有h1個濾波器;在M層全連接層中最后一層的全連接層輸出大小與次用戶的可選動作范圍大小一致,即N+1;其中,H≥1,M≥1。
4.如權利要求1所述基于深度強化學習的認知無線電空頻二維抗敵意干擾方法,其特征在于在步驟4)中,在第k時刻,深度卷積神經網絡的輸入是由當前狀態以及以往記錄的W個狀態動作對組成,即
5.如權利要求1所述基于深度強化學習的認知無線電空頻二維抗敵意干擾方法,其特征在于在步驟6)中,所述無線信號的信干比(SINRk)為單次通信時間內測得的信號平均信干比。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710181997.9/1.html,轉載請聲明來源鉆瓜專利網。





