[發(fā)明專利]基于深度強化學(xué)習(xí)的毫米波混合波束成形設(shè)計方法有效
| 申請?zhí)枺?/td> | 202010004664.0 | 申請日: | 2020-01-03 |
| 公開(公告)號: | CN111181619B | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計)人: | 李瀟;王琪勝;金石 | 申請(專利權(quán))人: | 東南大學(xué) |
| 主分類號: | H04B7/06 | 分類號: | H04B7/06;G06N3/08;G06N3/04 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 薛雨妍 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強化 學(xué)習(xí) 毫米波 混合 波束 成形 設(shè)計 方法 | ||
1.一種基于深度強化學(xué)習(xí)的毫米波混合波束成形設(shè)計方法,其特征在于,包括以下步驟:
步驟一、t=0時刻,基站配置Nt個天線單元的均勻線性天線陣列,發(fā)送Ns路獨立數(shù)據(jù)流,用戶側(cè)配備Nr個天線單元的均勻線性天線陣列;基站與用戶側(cè)分別配備和個射頻鏈路;基站已知其與用戶間的信道矩陣其中Ncl為散射簇數(shù)目,Nray為每個散射簇的散射與反射徑數(shù),αij為第i簇中第j徑的路徑增益,歸一化發(fā)射端信道響應(yīng)向量歸一化接收端信道響應(yīng)向量d為天線陣元間距,λ為載波波長,和分別為第i簇中第j徑信號的出發(fā)角和到達角;計算發(fā)射端信道響應(yīng)矩陣與信道右酉矩陣的互相關(guān)矩陣T=ΩΩH,其中Vopt=SVDright(H),SVDright(·)表示求矩陣奇異值分解后的右酉矩陣,并從互相關(guān)矩陣T的對角元T(i,i),i=1,2,...,NclNray,中選出最大的前Ns個對角元,選出的下標(biāo)集合記作選擇中索引屬于τ的Ns個列向量組成發(fā)射端模擬預(yù)編碼矩陣VRF;隨機初始化由神經(jīng)網(wǎng)絡(luò)構(gòu)成的深度強化學(xué)習(xí)智能體X,用于學(xué)習(xí)數(shù)字預(yù)編碼矩陣VBB和模擬合并矩陣WRF;隨機初始化數(shù)字預(yù)編碼矩陣VBB、模擬合并矩陣WRF和數(shù)字合并矩陣WBB,令t=t+1;
所述深度強化學(xué)習(xí)智能體包括以下元素:動作輸出現(xiàn)實網(wǎng)絡(luò)A,根據(jù)來自環(huán)境的狀態(tài)產(chǎn)生當(dāng)前最優(yōu)的動作;動作輸出目標(biāo)網(wǎng)絡(luò)其參數(shù)復(fù)制自動作現(xiàn)實網(wǎng)絡(luò)A,每隔NT個時隙更新一次;狀態(tài)動作評價現(xiàn)實網(wǎng)絡(luò)C,輸出對當(dāng)前的狀態(tài)動作的價值函數(shù);狀態(tài)動作評價目標(biāo)網(wǎng)絡(luò)其參數(shù)復(fù)制自評價現(xiàn)實網(wǎng)絡(luò)C,每隔NT個時隙更新一次;容量為ND的經(jīng)驗池D,用于存儲智能體學(xué)習(xí)過程中產(chǎn)生的樣本;
步驟二、在時刻t,智能體X執(zhí)行如下操作:智能體X的狀態(tài)
其中為前一時刻的數(shù)字預(yù)編碼矩陣,為前一時刻的模擬合并矩陣,Re(·),Im(·)分別表示取實部和虛部,vec(·)表示將矩陣轉(zhuǎn)換為列向量;將狀態(tài)s(t)輸入智能體X的動作現(xiàn)實網(wǎng)絡(luò)A,輸出為其中將A(s(t))與服從標(biāo)準(zhǔn)正態(tài)分布的噪聲相加得到智能體的動作a(t)=A(s(t))+n(t),將向量a(t)的前個元素作為當(dāng)前時刻數(shù)字預(yù)編碼矩陣的實部和虛部,將a(t)的后個元素作為當(dāng)前時刻模擬合并矩陣的實部和虛部,并將a(t)重排得到當(dāng)前時刻的數(shù)字預(yù)編碼矩陣和模擬合并矩陣對中所有元素做模歸一化處理其中表示矩陣中的第(i,j)個元素;
步驟三、基站利用最小均方誤差準(zhǔn)則更新數(shù)字合并矩陣其中為用戶端噪聲方差;然后按照下式計算此時的系統(tǒng)頻譜效率
其中ρ為平均發(fā)射功率,;智能體X的獎勵函數(shù)r(t)=R(t),并得到下一時刻狀態(tài)
并將四元組<s(t),a(t),r(t),s(t+1)>作為一個樣本元組存入經(jīng)驗池D中;
步驟四、智能體X將狀態(tài)-動作對(s(t),a(t))輸入其評價現(xiàn)實網(wǎng)絡(luò)C中,輸出對(s(t),a(t))的評價值QC(s(t),a(t)),隨后從經(jīng)驗池中以批尺寸N進行隨機采樣來計算評價網(wǎng)絡(luò)的目標(biāo)值;然后對動作網(wǎng)絡(luò)和評價網(wǎng)絡(luò)進行梯度下降更新,并對動作目標(biāo)網(wǎng)絡(luò)和評價目標(biāo)網(wǎng)絡(luò)進行軟更新,令t=t+1,若|R(t)-R(t-1)|≤0.0001或t>10N,則停止迭代,否則轉(zhuǎn)到步驟二;
所述隨機采樣與網(wǎng)絡(luò)更新方法按如下步驟進行:
a1)判斷t,如果t之N,從經(jīng)驗池D中隨機采樣N個樣本d=[d1,d2,...,dN],其中每個樣本為經(jīng)驗池中存儲的第ki個時刻的樣本四元組,且當(dāng)經(jīng)驗池存滿后,每次加入最新的樣本,去掉最舊的樣本;否則不采樣,轉(zhuǎn)到步驟二繼續(xù)產(chǎn)生并存儲樣本;
a2)將d中所有樣本的狀態(tài)-動作對輸入評價目標(biāo)網(wǎng)絡(luò)得到該狀態(tài)-動作對的價值函數(shù)估計值按照貝爾曼方程計算得到價值函數(shù)目標(biāo)值其中γ∈(0,1)為獎勵函數(shù)的折扣因子,為由動作目標(biāo)網(wǎng)絡(luò)根據(jù)產(chǎn)生的動作;
a3)計算d中N個樣本均方誤差作為評價現(xiàn)實網(wǎng)絡(luò)C的損失函數(shù):
其中θC為評價現(xiàn)實網(wǎng)絡(luò)C的參數(shù);
a4)損失函數(shù)中同時涉及到動作現(xiàn)實網(wǎng)絡(luò)A和評價現(xiàn)實網(wǎng)絡(luò)C的更新,記網(wǎng)絡(luò)A的參數(shù)為θA,更新的目標(biāo)是讓評價現(xiàn)實網(wǎng)絡(luò)C的輸出與目標(biāo)值盡可能接近,利用隨機梯度下降對兩個網(wǎng)絡(luò)進行更新:
其中J(θC)為用N個樣本d表示的網(wǎng)絡(luò)C的累計價值函數(shù);
a5)每個時隙對動作目標(biāo)網(wǎng)絡(luò)和評價目標(biāo)網(wǎng)絡(luò)的參數(shù)和進行軟更新:
其中,和表示動作目標(biāo)網(wǎng)絡(luò)和評價目標(biāo)網(wǎng)絡(luò)的參數(shù),θA和θC表示動作現(xiàn)實網(wǎng)絡(luò)和目標(biāo)現(xiàn)實網(wǎng)絡(luò)的參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010004664.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





