[發(fā)明專利]一種基于深度強化學(xué)習(xí)的智能反射表面相位優(yōu)化方法有效
| 申請?zhí)枺?/td> | 202010004455.6 | 申請日: | 2020-01-03 |
| 公開(公告)號: | CN111181618B | 公開(公告)日: | 2022-05-10 |
| 發(fā)明(設(shè)計)人: | 李瀟;馮軻銘;金石 | 申請(專利權(quán))人: | 東南大學(xué) |
| 主分類號: | H04B7/06 | 分類號: | H04B7/06;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 薛雨妍 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強化 學(xué)習(xí) 智能 反射 表面 相位 優(yōu)化 方法 | ||
1.一種基于深度強化學(xué)習(xí)的智能反射表面相位優(yōu)化方法,其特征在于,包括以下步驟:
步驟1、基站配置均勻線性天線陣,該天線陣包括M個天線陣元,智能反射表面配置均勻平面反射單元,包括垂直方向Ny行反射單元,水平方向每行Nx個反射單元,用戶配置單根接收天線;基站及反射單元已知用戶的信道狀態(tài)信息;
所述信道狀態(tài)信息包括:基站到用戶信道矢量基站到智能反射表面的信道矩陣和智能反射表面到用戶的信道矢量hd中的第m個元素[hd]m為基站端第m個天線單元與用戶間的信道系數(shù);hr中的第n個元素[hr]n為智能反射表面的第n個反射單元與用戶間的信道系數(shù);G中的第m行第n列元素[G]m,n為智能反射表面的第m個反射單元與基站第n個天線單元之間的信道系數(shù);
步驟2、構(gòu)建智能體的經(jīng)驗池及深度強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),包括:動作估計網(wǎng)絡(luò)、動作現(xiàn)實網(wǎng)絡(luò)、評價估計網(wǎng)絡(luò)和評價現(xiàn)實網(wǎng)絡(luò);所述動作估計網(wǎng)絡(luò)和動作現(xiàn)實網(wǎng)絡(luò)構(gòu)成智能反射表面的動作網(wǎng)絡(luò),所述評價估計網(wǎng)絡(luò)和評價現(xiàn)實網(wǎng)絡(luò)構(gòu)成智能反射表面的評價網(wǎng)絡(luò);所述智能體以智能反射表面的相位偏置所構(gòu)成的矢量為動作,以用戶的接收信噪比為獎勵,以動作和獎勵構(gòu)成的矢量為狀態(tài);上述各部分網(wǎng)絡(luò)功能如下:
所述動作估計網(wǎng)絡(luò)負(fù)責(zé)根據(jù)智能反射表面當(dāng)前狀態(tài)s選擇當(dāng)前動作a=μ(s;θμ)用于與無線通信系統(tǒng)交互生成下一狀態(tài)s′以及獎勵r,其中,μ(·)代表動作估計網(wǎng)絡(luò)函數(shù),θμ為其網(wǎng)絡(luò)參數(shù);
所述動作現(xiàn)實網(wǎng)絡(luò)負(fù)責(zé)根據(jù)經(jīng)驗池中采樣樣本中的下一狀態(tài)s′選擇下一個動作a′=μ′(s′;θμ′),其中μ′(·)為動作現(xiàn)實網(wǎng)絡(luò)函數(shù),θμ′為其網(wǎng)絡(luò)參數(shù);
所述評價現(xiàn)實網(wǎng)絡(luò)負(fù)責(zé)根據(jù)狀態(tài)s′及動作a′計算下一狀態(tài)的動作價值函數(shù)Q′(s′,a′;θq′),其中θq′為其網(wǎng)絡(luò)參數(shù);
所述評價估計網(wǎng)絡(luò)負(fù)責(zé)計算當(dāng)前動作價值函數(shù)Q(s,a;θq)和目標(biāo)Q值y=r+Q′(s′,a′;θq′),其中θq為評價估計網(wǎng)絡(luò)參數(shù);
步驟3、隨機(jī)初始化動作估計網(wǎng)絡(luò)參數(shù)θμ及動作現(xiàn)實網(wǎng)絡(luò)參數(shù)θq,并令動作現(xiàn)實網(wǎng)絡(luò)及評價現(xiàn)實網(wǎng)絡(luò)初始化參數(shù)滿足θq′=θq、θμ′=θμ;設(shè)置經(jīng)驗池容量D,單次隨機(jī)采樣數(shù)量NB;
步驟4、對步驟2中構(gòu)建的深度強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練完畢的動作網(wǎng)絡(luò)及評價網(wǎng)絡(luò)參數(shù)用于最優(yōu)智能反射表面相位偏置矩陣生成,具體包括以下子步驟:
a1)設(shè)置初始時刻t=1;隨機(jī)生成包含N=NxNy個元素的時刻t-1智能反射表面相位偏置角矢量其元素均從[0,2π]中隨機(jī)選取,生成時刻t-1的角度偏置矩陣其中diag(x)表示以矢量x中的元素為對角元的對角陣;根據(jù)用戶信道狀態(tài)信息和智能反射表面的角度偏置矩陣Φ(t-1)計算時刻t-1用戶的接收信噪比其中為時刻t-1基站的波束賦形矢量,Pmax為基站發(fā)射功率,(·)H代表共軛轉(zhuǎn)置,|·|表示取絕對值,σ2為用戶接收噪聲功率;設(shè)置時刻t的狀態(tài)
a2)將時刻t的狀態(tài)st作為動作網(wǎng)絡(luò)輸入得到時刻t的動作其中為探索噪聲;之后將當(dāng)前動作at中元素整合為時刻t智能反射表面相位偏置矩陣并根據(jù)步驟a1)所述方法計算時刻t的用戶接收信噪比γ(t)作為時刻t的獎勵rt;得到時刻t+1的狀態(tài)將經(jīng)驗樣本(st,at,rt,st+1)存入經(jīng)驗池中;
a3)若經(jīng)驗池中的記錄數(shù)量小于取樣數(shù)量NB,則令t=t+1進(jìn)入步驟a2);若經(jīng)驗池中的樣本數(shù)目大于等于取樣數(shù)量NB則進(jìn)入步驟a4);若經(jīng)驗池中的樣本數(shù)達(dá)到容量上限,則新增加的經(jīng)驗樣本覆蓋經(jīng)驗池中最早的一條記錄,然后進(jìn)入a4);
a4)從經(jīng)驗池中隨機(jī)采樣NB個樣本,將第j,j=1,…,NB個樣本中的下一個狀態(tài)輸入動作目標(biāo)網(wǎng)絡(luò)得到對應(yīng)于下一個狀態(tài)的最優(yōu)動作將與構(gòu)成新的矢量作為評價現(xiàn)實網(wǎng)絡(luò)的輸入用于計算目標(biāo)Q值,其中tj為第j個樣本中第一個元素所對應(yīng)的時刻;將樣本中的與構(gòu)成新的矢量作為評價估計網(wǎng)絡(luò)的輸入用于計算Q值;利用隨機(jī)梯度下降更新動作估計網(wǎng)絡(luò)參數(shù),利用策略梯度更新評價估計網(wǎng)絡(luò)參數(shù),利用軟更新更新動作、評價現(xiàn)實網(wǎng)絡(luò)參數(shù),若網(wǎng)絡(luò)收斂則進(jìn)入步驟5,否則進(jìn)入步驟a2);
步驟5、得到收斂之后的網(wǎng)絡(luò)模型參數(shù),輸出在當(dāng)前信道狀態(tài)信息下的最優(yōu)智能反射表面相位偏置矩陣Φopt。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010004455.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





