[發明專利]基于深度強化學習的認知無線電空頻二維抗敵意干擾方法在審
| 申請號: | 201710181997.9 | 申請日: | 2017-03-24 |
| 公開(公告)號: | CN106961684A | 公開(公告)日: | 2017-07-18 |
| 發明(設計)人: | 肖亮;韓國安;李炎達 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | H04W16/14 | 分類號: | H04W16/14;H04W24/02;G06N3/08;G06N99/00 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙)35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 認知 無線電 二維 抗敵 干擾 方法 | ||
技術領域
本發明涉及無線網絡安全,尤其是涉及基于深度強化學習的認知無線電空頻二維抗敵意干擾方法。
背景技術
隨著無線通信的迅猛發展,頻譜資源的短缺和利用率等問題日益嚴重,認知無線電(Cognitive Radio,CR)技術的提出能夠有效提高頻譜的利用率。由于認知無線電采用開放式的頻譜和動態接入方式,極易遭受到敵意干擾的攻擊,其安全問題亟待解決。
敵意干擾機通過占用網絡節點通信信道,使合法用戶不能進行正常數據轉發,繼而發動拒絕服務攻擊(DoS)。擴頻通信作為傳統的抗干擾技術,能夠有效抵御干擾,而跳頻、直接序列擴頻和線性調頻擴頻為擴頻的主要3種方式(Viterbi A J.Spread spectrum communications:myths and realities[J].Communications Magazine,IEEE,2002,40(5):34-41)。
然而,隨著軟件無線電設備的發展,干擾機的攻擊模式越發多樣化和智能化,傳統的抗干擾技術對抗這類攻擊性能不佳。因此,人工神經網絡、強化學習用于學習干擾機的攻擊模式并實施抗干擾策略的研究得到國內外學者的廣泛關注。(Y.Wu,B.Wang,K.J.R.Liu,and T.C.Clancy,“Anti-jamming games in multi-channel cognitive radio networks,”IEEE J.Sel.Areas Commun.,vol.30,no.1,pp.4–15,2012)提出了一種基于Q學習的信道接入策略。(K.Dabcevic,A.Betancourt,L.Marcenaro,and C.S.Regazzoni,“A fictitious play-based game-theoretical approach to alleviating jamming attacks for cognitive radios,”IEEE Int’l Conf.Acoustich,Speech and Signal Processing(ICASSP),pp.8208–8212,2014)提出一種優化的抗干擾功率分配策略。
然而,人工神經網絡在訓練過程中需要先對數據進行分類。同時,強化學習算法例如Q學習算法在狀態集和動作集維度大的情況下,它的學習速度會快速下降。這些問題制約著人工神經網絡和強化學習算法的應用。
發明內容
本發明的目的是提供可克服人工神經網絡需要在訓練過程中需要先對數據進行分類以及Q學習算法在狀態集和動作集維度大的情況下學習速度會快速下降問題的基于深度強化學習的認知無線電空頻二維抗敵意干擾方法。
本發明包括以下步驟:
1)認知無線電次用戶的動作記為x∈[0,N],其中,x=0表示次用戶離開該區域,x∈[1,N]表示次用戶選擇信道編號為x的信道進行通信,N表示可用的信道數量;
2)構造深度卷積神經網絡;
在步驟2)中,所述構造深度卷積神經網絡的具體方法可為:
(1)初始化深度卷積神經網絡的權重參數θ、輸入序列包含的以往狀態動作對個數W以及網絡更新的操作次數B;
(2)初始化深度卷積神經網絡的Q值,對次用戶的所有動作分配一個對應的輸出Q值;
(3)初始化折扣因子γ,貪婪因子ε。
在步驟2)中,所述構造深度卷積神經網絡包含卷積層H層和全連接層M層,在H(H≥1)層卷積層中,第一層的卷積層輸入大小為3×B+2,具有h1個濾波器;在M(M≥1)層全連接層中最后一層的全連接層輸出大小與次用戶的可選動作范圍大小一致,即N+1。
3)在k時刻,次用戶記錄上一個時刻認知無線電主用戶的接入狀態(λk-1)和無線信號的信干比(SINRk-1),并組成當前狀態sk=[λk-1,SINRk-1];
4)在k時刻,當k≤W時,次用戶隨機選取一個動作xk∈[0,N];當k>W時,構造深度卷積神經網絡的輸入序列將狀態序列輸入到深度卷積神經網絡,計算每一個動作的Q值;次用戶根據貪婪算法選取動作xk,以1-ε的概率選取具有最大Q值的動作,以ε概率隨機選取其他動作;
在步驟4)中,在第k時刻,深度卷積神經網絡的輸入是由當前狀態以及以往記錄的W個狀態動作對組成,即
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710181997.9/2.html,轉載請聲明來源鉆瓜專利網。





