[發明專利]一種基于深度強化學習的全雙工認知通信功率控制方法有效
| 申請號: | 202110473425.4 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113225794B | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 卜智勇;魯敏;周斌 | 申請(專利權)人: | 成都中科微信息技術研究院有限公司 |
| 主分類號: | H04W52/14 | 分類號: | H04W52/14;H04W52/24;H04W52/26;G06N3/08 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 徐靜 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 雙工 認知 通信 功率 控制 方法 | ||
1.一種基于深度強化學習的全雙工認知通信功率控制方法,其特征在于,包括如下步驟:
步驟1,建立全雙工認知通信系統;所述全雙工認知通信系統包括一對下行鏈路模式下工作在半雙工模式下的主用戶發射機TX1和主用戶接收機RX1,一個工作在全雙工模式下的次用戶發射機TX2,以及一個工作在半雙工模式下的次用戶接收機RX2;
步驟2,初始化所述全雙工認知通信系統的系統參數;
步驟3,基于主用戶發射機TX1和次用戶發射機TX2的某發射功率,計算主用戶接收機RX1和次用戶接收機RX2相應的信干噪比;
步驟4,初始化主用戶發射機TX1,次用戶發射機TX2的發射功率以及動作集合,構建次用戶發射機TX2功率控制的馬爾可夫決策模型;
步驟5,基于所述次用戶發射機TX2功率控制的馬爾可夫決策模型,運用深度強化學習中的DQN算法訓練優化目標函數,得到最優的次用戶發射機TX2的功率控制策略;
步驟6,采用所述最優的次用戶發射機TX2的功率控制策略進行次用戶發射機TX2的功率控制;
步驟1中所述全雙工認知通信系統中的主用戶發射機TX1、主用戶接收機RX1、次用戶發射機TX2和次用戶接收機RX2設置如下:
(1)次用戶發射機TX2具有自干擾消除能力,并能夠在同一時間和頻率上進行信號的發送和接收;
(2)主用戶發射機TX1、主用戶接收機RX1和次用戶接收機RX2不具備自干擾消除能力,在同一時間和頻率上進行信號的發送或者接收;
(3)主用戶發射機TX1與次用戶發射機TX2采用不同的功率控制方法,即主用戶發射機TX1采用預先定義的功率控制算法,次用戶發射機TX2采用所述基于深度強化學習的全雙工認知通信功率控制方法;
(4)主用戶發射機TX1與次用戶發射機TX2彼此不知道對方的功率控制方法;
(5)主用戶發射機TX1、主用戶接收機RX1、次用戶發射機TX2和次用戶接收機RX2均工作在相同頻段上;
步驟2中所述初始化所述全雙工認知通信系統的系統參數包括初始化所述全雙工認知通信系統中的所有信道增益,次用戶發射機的自干擾消除系數,噪聲功率,發射功率集合,以及接收機的服務質量要求;其中:
主用戶發射機TX1與主用戶接收機RX1的信道增益為h11,主用戶發射機TX1與次用戶接收機RX2的信道增益為h12、次用戶發射機TX2與次用戶接收機RX2的信道增益為h22、次用戶發射機TX2與主用戶接收機RX1的信道增益為h21;主用戶發射機TX1與次用戶發射機TX2的信道增益為hps;
次用戶發射機TX2的自干擾消除系數χ,χ∈[0,1];
噪聲功率為Pn;
發射功率共有k檔,發射功率集合為PT,PT={p1,p2,......,pk},其中p1<p2<......<pk;
主用戶接收機RX1滿足服務質量要求的最小信干噪比為τ1∈[0,1],次用戶接收機RX2滿足服務質量要求的最小信干噪比為τ2∈[0.5,1.5],且τ1<τ2;
步驟3中所述基于發射機發射的某功率信號計算接收機相應的信干噪比的方法包括:
主用戶接收機RX1的信干噪比SINR1為:
次用戶接收機RX2的信干噪比SINR2為:
其中,P1為主用戶發射機TX1的發射功率,P2為次用戶發射機TX2的發射功率;
步驟4中所述構建次用戶發射機TX2功率控制的馬爾可夫決策模型的方法包括:
(1)初始化主用戶發射機TX1的發射功率P1∈PT,次用戶發射機TX2的發射功率P2∈PT,動作選擇空間A=PT;
(2)得到主用戶發射機TX1的觀測功率信號并通過功率信號抽樣將觀測功率信號離散化,得到系統狀態離散化表示:K表示系統狀態數量;
(3)定義系統獎勵函數,確定次用戶發射機TX2在執行每個動作a∈A即選取動作集合A中的某個發射功率時得到的獎勵值r,若SINR1>τ1且SINR2>τ2,記錄獎勵值r=Rc,否則記獎勵值r=0;
步驟5中所述目標函數定義為:
其中,Rt表示t時刻累積獎勵函數,即要優化的所述目標函數;rl(sl,al)表示l時刻基于狀態-動作對(sl,al)的獎勵值,sl表示第l個狀態,al表示與sl對應的動作;λ表示獎勵值衰減因子,取值范圍為(0,1];
步驟5中所述運用深度強化學習中的DQN算法訓練優化目標函數的方法包括:
步驟5-1,構建兩個結構相同的卷積神經網絡,其中一個記作CNN1;另一個為目標網絡,記作CNN2;
步驟5-2,初始化網絡CNN1的參數θ,目標網絡CNN2的參數θ-,數據容器ME的緩存容量NE以及目標網絡CNN2更新步數T;
步驟5-3,生成經驗數據ei=(si,ri,ai,si+1)并存儲在數據容器ME中;i表示生成經驗數據的時刻;
步驟5-4,當存儲在數據容器ME中的經驗數據超過緩存容量NE時,隨機抽取B條經驗數據傳到網絡CNN1中,B<NE,通過最小化損失函數進行訓練;
步驟5-5,每經過T步對目標網絡CNN2進行更新,即令θ-=θ;
步驟5-6,判斷訓練迭代次數是否達到最大值,如果是,則訓練結束,得到最優的次用戶發射機TX2的功率控制策略;否則,返回步驟5-3繼續訓練;
步驟5-4中所述損失函數定義為:
θ:minL(θ)=E[Qtarget(s,a;θ-)-Q(s,a;θ)] (4)
其中,L(θ)表示損失函數的值,Qtarget(s,a;θ-)表示目標網絡CNN2的Q值,Q(s,a;θ)表示網絡CNN1的Q值,E[]表示期望運算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都中科微信息技術研究院有限公司,未經成都中科微信息技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110473425.4/1.html,轉載請聲明來源鉆瓜專利網。





