[發明專利]基于元強化學習的非正交多址系統物理層安全通信方法在審
| 申請號: | 202310259528.X | 申請日: | 2023-03-16 |
| 公開(公告)號: | CN116405930A | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 萬城瑞;周小林;王涵 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | H04W12/033 | 分類號: | H04W12/033;H04W52/26 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 正交 系統 物理層 安全 通信 方法 | ||
1.一種基于元強化學習的非正交多址系統物理層安全通信方法,其特征在于,包括構建最大化系統物理層安全和傳輸速率為目標的功率分配優化目標函數;采用元強化學習網絡,對系統物理層進行安全加密,實現非正交多址系統物理層安全通信;
(一)構建最大化系統物理層安全和傳輸速率為目標的功率分配優化目標函數
所述非正交多址系統,包含無線系統發送端用戶、接收端基站,以及惡意竊聽端;
設發送端第i個用戶發送信號Si表示為:
其中,Ptotal為發送端的發射總功率,αi為第i個用戶的功率分配因子,Xi為第i個用戶的信息信號;i=1,2...n,n為用戶數;用戶-基站、用戶-竊聽端以及基站-竊聽端的信道分別用信道系數表示:hsd,hse,hde,信道系數為服從瑞利分布的隨機變量;
設接收端基站處的接收信號yl表示為:
其中,分別表示從無線信號源到接收端處的信道系數,nd為接收端加性高斯白噪聲;
設非法竊聽端處的接收信號ye表示為:
其中,分別表示從無線信號源到非法竊聽端處的信道系數,nd為接受端加性高斯白噪聲,na為基站處發送的干擾竊聽者的人工噪聲;
在接收端,采用連續干擾消除技術,按照信號功率大小區分解碼順序,第1個用戶的信干噪比為:
第2個用戶的信干噪比為:
依此類推,第n個用戶的信干噪比為:
其中,為合法接受端的噪聲功率;
假設竊聽端的竊聽能力強,能夠分辨不同的用戶并對各個用戶信號單獨解碼;同時,模型系統存在多個竊聽端,假設多個竊聽端中存在一個竊聽能力最強的竊聽用戶,若系統在考慮最強竊聽端時保證信息傳輸的安全,則表示系統在多個竊聽端下都可以進行安全的信息傳輸;以下考慮竊聽能力最強的竊聽端的情況;
竊聽端第1個用戶的信干噪比為:
竊聽端第2個用戶的信干噪比為:
竊聽端第個n用戶的信干噪比為:
其中,為竊聽端的噪聲功率;
為了使系統的物理層安全得到加強,以系統的安全和速率為優化目標,根據安全速率的定義,信號的安全速率等于合法端速率與非法竊聽端速率之差:
其中,Rs為合法端用戶速率,Re為非法竊聽端速率,[x]+=max{0,x},當計算結果為負值時,安全速率為0,即無法進行安全可靠的通信;
安全和速率定義為系統中所有用戶的安全速率之和:
于是,NOMA上行鏈路模型下的優化目標函數如下:
Pmin≤αi*Ptotal≤Pmax
其中,Pmin,Pmax為系統中用戶的最小發射功率與最大發射功率;優化目標函數的解為使得系統安全和速率最大的一組功率分配因子;
(二)采用元強化學習網絡,對系統物理層進行安全加密;
具體步驟為:
S1、元強化學習網絡采用DQN和DQN_target雙網絡結構,兩個網絡結構相同,用全連接層網絡實現動作-行為值函數Q;每次迭代DQN網絡參數都進行更新,而DQN_target網絡為目標網絡,為最終訓練完成進行應用的網絡,其參數更新為每隔syn_num步克隆DQN網絡的參數;隨機初始化DQN網絡、DQN_target網絡的網絡參數;設置初始化參數為θ,待更新參數為θ;
S2、為解(12)式所示優化問題,對連續動作離散化,具體使用編碼離散動作至用戶功率分配因子的增、減以及不變三種狀態;
S3、元強化學習訓練任務集合為預先設置的K組不同的信道分布參數,具體為服從不同標準差與期望的無線信道分布,從元強化學習網絡訓練任務集合中選擇M組(MK)不同的信道環境作為元強化學習網絡訓練的任務,對于每個任務進行如下步驟:
S3.1、初始化采樣到的任務環境,初始化經驗回放緩存;相應的DQN以及DQN_target載入相同的參數temp_param;初始化優化器為Adam優化器,優化參數為DQN的參數;
S3.2、進行episode輪次的訓練,每一輪訓練重置環境得到初始狀態state1,當訓練沒有結束時,根據隨時間衰減的ε-greedy策略,決定當前動作是隨機產生的動作還是依據DQN網絡輸出q值最大的動作,動作標記為a1;并將動作帶入環境中進行狀態更新得到state2;選擇當前動作的回報r1,以及表示該回合是否中止的標記done,將得到的
(state1,a1,r1,state2,done)存入經驗回放緩存中,依此類推,得到
(staten,an,rn,staten+1,done),直至達到最小緩存經驗數量,即開始接下去的訓練;
S3.3、根據batch_size從經驗緩存中隨機抽取批量經驗元組,計算損失函數的值,并進行梯度反向傳播;損失函數的公式如下:
其中,rn為當前經驗的回報,γ為折扣因子,用于減少下一步對于整體學習方向的貢獻度,Qtarget(Sn+1,an+1)為目標網絡對下一狀態輸出的q值,Q(Sn,an)即為當前網絡在當前狀態下輸出的q值;
S3.4、每間隔syn_num步將DQN的網絡參數復制給DQN_target網絡;
S3.5、每個回合進行K次梯度下降,最后所得任務i(i=1,2,3,...,M)的DQN_target參數為θ′;
S4、進行元強化學習網絡學習梯度更新,按照下式:
其中,∈為學習更新步長,具體到每次任務的學習中,可寫為待更新參數變量temp_param的更新,如下式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310259528.X/1.html,轉載請聲明來源鉆瓜專利網。





