[發(fā)明專利]一種基于深度強化學習的智能通信波束碰撞避免方法有效
| 申請?zhí)枺?/td> | 202110503924.3 | 申請日: | 2021-05-10 |
| 公開(公告)號: | CN113242068B | 公開(公告)日: | 2022-04-01 |
| 發(fā)明(設計)人: | 黃永明;葛瑤;何偉梁;張鋮;吳珩 | 申請(專利權(quán))人: | 東南大學 |
| 主分類號: | H04B7/0456 | 分類號: | H04B7/0456;H04B7/0408;H04B7/06;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 孫建朋 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強化 學習 智能 通信 波束 碰撞 避免 方法 | ||
1.一種基于深度強化學習的智能通信波束碰撞避免方法,其特征在于,包括以下步驟:
步驟1、構(gòu)建多天線多小區(qū)下行通信系統(tǒng)模型,定義波束碰撞事件以及波束碰撞參數(shù),建立關(guān)于基站簇工程參數(shù)的最小化平均總波束碰撞參數(shù)的原始優(yōu)化問題;
步驟2、根據(jù)波束碰撞參數(shù)和波束域信道信息與信干噪比以及頻譜效率的關(guān)系,將步驟1中所述的原始優(yōu)化問題近似轉(zhuǎn)變成依據(jù)波束域統(tǒng)計信道信息最大化平均頻譜效率的優(yōu)化問題;
步驟3、針對步驟2中所述的優(yōu)化問題,在強化學習的框架下,將多天線多小區(qū)下行通信系統(tǒng)當作環(huán)境,基站簇當作智能體,并將基站簇工程參數(shù)的調(diào)優(yōu)過程建模成馬爾科夫決策過程,然后對其狀態(tài)、動作以及獎勵函數(shù)進行設計;
步驟4、基于步驟3所述強化學習框架,利用深度強化學習算法,在基站簇與無線通信環(huán)境的交互下,根據(jù)波束域統(tǒng)計信道信息進行基站簇工程參數(shù)的自適應調(diào)整,避免波束碰撞,提高平均頻譜效率;
所述步驟1中基于多天線多小區(qū)下行通信系統(tǒng)模型建立最小化平均總波束碰撞參數(shù)的原始優(yōu)化問題包括以下步驟:
步驟1.1、對于多天線多小區(qū)下行傳輸場景,M個基站均采用TDD模式,并配置具有V根天線的平面天線陣列,所有基站均支持波束成形,每個基站覆蓋一個小區(qū);在覆蓋區(qū)域內(nèi),N個用戶隨機分布且均配置單根全向天線,每個用戶僅與一個基站進行關(guān)聯(lián),所有小區(qū)和用戶采用相同的時頻資源;
步驟1.2、基站集為用戶集為每個基站的服務用戶集為并且基站服務用戶集之間不存在相同用戶;
步驟1.3、第n個用戶關(guān)聯(lián)到第m個基站上,該用戶的接收信號yn可表達成下式:
其中,yn和zn分別表示第n個用戶的接收信號和噪聲,zn滿足均值為0,方差為σ2的復高斯分布,σ2為噪聲功率;sj,sk分別表示第j個和第k個用戶的發(fā)射信號,均滿足均值為0,方差為1的復高斯分布,pn,pk,pj分別為第n個、第k個和第j個用戶的下行傳輸功率,wm,n為第m個基站和第n個用戶之間的信道矢量的轉(zhuǎn)置和預編碼矢量,wm,n由hm,n確定,且滿足wm,n=g(hm,n),g為預編碼函數(shù);表示去除第m個基站的基站集;表示去除第n個用戶的第m個基站用戶集;
步驟1.4、建模成函數(shù)h(x,θ),其中h表示基站與用戶間的信道矢量,x表示用戶位置,θ表示基站工程參數(shù);
其中,x=[x,y,z]T為用戶相對于基站的位置坐標,θ=[Γ,Υ]T為基站工程參數(shù),Γ,Υ分別是基站的方位角和下傾角;L為散射路徑數(shù)目,αl為第l條路徑的復增益,其中復增益包含幅度和相位,ψl為第l條路徑的方向;αl和ψl均受用戶位置x和基站工程參數(shù)θ的影響;a為天線陣列導引矢量,Λ為天線單元空間響應;
步驟1.5、第n個用戶與第m個基站關(guān)聯(lián),同時第j個用戶與第i個基站關(guān)聯(lián),定義第n個用戶接收到第j個用戶干擾信號的強度與其有用信號的比值是波束碰撞參數(shù)βn,j;當波束碰撞參數(shù)βn,j大于預設閾值ε時,波束碰撞事件發(fā)生:
其中,Pcollision表示波束碰撞事件的概率,P表示概率,pn和pj分別表示第n個用戶和第j個用戶的下行傳輸功率,hi,n和hm,n分別為第i個基站和第n個用戶之間的信道矢量和第m個基站和第n個用戶之間的信道矢量,wi,j和wm,n分別為第i個基站和第j個用戶之間的預編碼矢量和第m個基站以及第n個用戶之間的預編碼矢量;H表示轉(zhuǎn)置變換,ε為預設的波束碰撞參數(shù)的閾值;
步驟1.6、通過優(yōu)化基站簇工程參數(shù)Θ以避免波束碰撞;波束碰撞參數(shù)βn,j會受到用戶位置分布X和基站簇工程參數(shù)Θ的影響,定義平均總波束碰撞參數(shù)計算公式如下:
其中,X=[x1,x2,...,xN]T,Θ=[θ1,θ2,...,θM]T,E{βn,j|X,Θ}表示給定用戶位置分布X和基站簇工程參數(shù)Θ條件下的波束碰撞參數(shù)βn,j的平均值;
步驟1.7、建立關(guān)于基站簇工程參數(shù)Θ的最小化平均總碰撞參數(shù)的優(yōu)化問題,具體如下:
其中,表示基于基站簇工程參數(shù)的最小化平均總碰撞參數(shù)的優(yōu)化問題,s.t.Θ表示基站簇工程參數(shù)的約束條件,為基站簇工程參數(shù)Θ的可行范圍;
所述步驟2中所述的原始優(yōu)化問題近似轉(zhuǎn)變成依據(jù)波束域統(tǒng)計信道信息最大化平均頻譜效率的優(yōu)化問題包括以下步驟:
步驟2.1基于步驟1中所述的多天線多小區(qū)下行通信系統(tǒng)模型,當?shù)趎個用戶關(guān)聯(lián)到第m個基站時,其信干噪比的計算公式如下:
其中,pk為第k個用戶的下行傳輸功率;
步驟2.2、定義波束碰撞事件以及波束碰撞參數(shù),當前用戶信干噪比γn的倒數(shù)可近似表達成下式:
步驟2.3、根據(jù)香農(nóng)容量定理,推導出波束碰撞參數(shù)βn,j與當前用戶頻譜效率Rn之間的關(guān)系,表達式如下:
波束碰撞參數(shù)和頻譜效率之間存在負相關(guān)關(guān)系,即當波束碰撞程度增加時,系統(tǒng)中波束干擾增強,頻譜效率降低,網(wǎng)絡性能下降;
步驟2.4、信干噪比和頻譜效率根據(jù)基站與用戶間的波束域信道信息進行計算,使基站在下行數(shù)據(jù)傳輸開始之前進行波束掃描以感知用戶信道,
具體計算方式如下:
其中,D為波束掃描碼本,DH為碼本的轉(zhuǎn)置變換,滿足Di為D的第i行,即表示波束碼本中的第i個波束,1≤i≤S,S為碼書維度;波束域信道信息為基站與用戶間的信道矢量h在不同波束上的投影值,可表達成根據(jù)上式可知,信干噪比可由波束域信道信息確定;根據(jù)香農(nóng)公式可知,頻譜效率由波束域信道信息確定;
步驟2.5、定義平均頻譜效率具體表達式如下:
其中,表示給定用戶位置分布X和基站簇工程參數(shù)Θ下的頻譜效率Rn的平均值;
平均頻譜效率R和波束域統(tǒng)計信息H之間的映射關(guān)系:
其中,f表示平均頻譜效率與波束域統(tǒng)計信道信息H之間的映射;H(X,Θ)是指給定用戶位置分布X和基站簇工程參數(shù)Θ下的波束域統(tǒng)計信道信息,H=[h1,1,h1,2,...,hM,N],hm,n表示第m個基站與第n個用戶之間的波束域統(tǒng)計信道信息,M與N分別是基站的總數(shù)目和用戶的總數(shù)目;表示基于用戶位置分布X和基站簇工程參數(shù)Θ下的波束域信道信息的變換的平均值,E{·}表示期望,1≤s≤S;
步驟2.6、結(jié)合波束碰撞參數(shù)與頻譜效率的負相關(guān)關(guān)系以及平均頻譜效率和波束域統(tǒng)計信息之間的映射關(guān)系,將步驟一中建立的最小化平均總波束碰撞參數(shù)的原始優(yōu)化問題轉(zhuǎn)變成基于波束域統(tǒng)計信道信息H最大化平均頻譜效率的優(yōu)化問題,具體如下:
其中,表示基于基站簇工程參數(shù)Θ的平均頻譜效率的最大化問題,f(H)指的是波束域統(tǒng)計信道信息H的映射函數(shù),s.t.Θ表示基站簇工程參數(shù)Θ的約束條件;通過統(tǒng)計一段時間內(nèi)系統(tǒng)速率的平均值得到,H通過統(tǒng)計波束域參考信號的接收強度得到;
所述步驟4所述的基于深度強化學習的基站簇工程參數(shù)優(yōu)化算法的實現(xiàn)過程包括如下步驟:
步驟4.1初始化深度強化學習網(wǎng)絡權(quán)重及其算法超參數(shù),將算法作用于智能體,使其與步驟一所述的無線通信環(huán)境進行若干輪次的交互;
步驟4.2、在每個交互輪次開始時,初始化基站簇工程參數(shù)Θ=Θ0,并且在每個交互輪次中設計時間步;
步驟4.3、在每個時間步更迭時,智能體采集波束域統(tǒng)計信道信息H并輸入深度強化學習網(wǎng)絡,然后根據(jù)深度強化學習網(wǎng)絡的輸出調(diào)整基站簇工程參數(shù)Θ;
步驟4.4當無線通信環(huán)境再次達到穩(wěn)定時,智能體對環(huán)境中新的波束域信道信息H'以及網(wǎng)絡性能指標進行測量,并將基站簇工程參數(shù)Θ調(diào)整前的狀態(tài)s=ξ(H)、基站簇工程參數(shù)Θ調(diào)整后的狀態(tài)s'=ξ(H')、動作a=ζ(Θ)以及獎勵函數(shù)緩存到一個經(jīng)驗數(shù)據(jù)庫Ω中;與此同時,深度強化學習網(wǎng)絡從經(jīng)驗數(shù)據(jù)庫Ω中隨機抽取批量數(shù)據(jù)進行神經(jīng)網(wǎng)絡的訓練;
步驟4.5、重復以上交互過程,直到深度強化學習算法收斂以及網(wǎng)絡性能指標達到穩(wěn)定;記錄此時的基站簇最優(yōu)工程參數(shù)配置Θ*以及最優(yōu)的網(wǎng)絡性能指標
2.根據(jù)權(quán)利要求1所述的基于深度強化學習的智能通信波束碰撞避免方法,其特征在于,步驟3中建立的馬爾科夫決策過程模型如下:
在強化學習框架下,將步驟1中所述的多天線多小區(qū)下行通信系統(tǒng)當作環(huán)境,基站簇當作智能體,并將基站工程簇參數(shù)的調(diào)優(yōu)過程建模成馬爾科夫決策過程模型;
其中根據(jù)步驟3中所述的優(yōu)化問題設計的狀態(tài)、動作以及獎勵函數(shù)具體如下:
狀態(tài):定義所有用戶的服務小區(qū)和相應鄰區(qū)對應的全部波束域統(tǒng)計信道信息H和其變換形式ξ(H)作為馬爾科夫決策過程模型的狀態(tài)s,s=ξ(H),ξ表示變換;
動作:定義基站簇工程參數(shù)Θ或其變換形式ζ(Θ)為馬爾科夫決策過程模型的動作a,a=ζ(Θ),ζ表示變換;
獎勵:定義平均頻譜效率和相關(guān)性能指標作為馬爾科夫決策過程模型的獎勵r,表示變換。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學,未經(jīng)東南大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110503924.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





