[發明專利]一種基于多智能體深度強化學習的D2D資源分配方法有效
| 申請號: | 201910161391.8 | 申請日: | 2019-03-04 |
| 公開(公告)號: | CN109729528B | 公開(公告)日: | 2020-08-18 |
| 發明(設計)人: | 郭彩麗;李政;宣一荻;馮春燕 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | H04W16/14 | 分類號: | H04W16/14;H04W24/02;H04W76/14 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 冀學軍 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 深度 強化 學習 d2d 資源 分配 方法 | ||
1.一種基于多智能體深度強化學習的D2D資源分配方法,其特征在于,具體步驟包括:
步驟一、構建蜂窩網絡與D2D通信共享頻譜的異構網絡模型;
異構網絡模型包括蜂窩基站BS、M個蜂窩下行用戶以及N個D2D通信對;
設定第m個蜂窩用戶為Cm,其中1≤m≤M;第n個D2D通信對為Dn,其中1≤n≤N;D2D通信對Dn中的發射用戶和接收用戶分別用和表示;
蜂窩下行通信鏈路和D2D鏈路通信都采用正交頻分復用技術,每個蜂窩用戶占用一個通信資源塊RB,任意兩個蜂窩鏈路之間沒有干擾;同時允許一個蜂窩用戶與多個D2D用戶共享相同的RB,由D2D用戶自主選擇通信資源塊RB和傳輸功率;
步驟二、基于異構網絡模型中存在的干擾,建立D2D接收用戶的信干噪比SINR以及蜂窩用戶的SINR;
蜂窩用戶Cm接收到的來自基站的第k個通信資源塊RB上的信號SINR為:
PB表示基站的固定發射功率;為基站到蜂窩用戶Cm的下行目標鏈路的信道增益;Dk代表共享第k個RB的所有D2D通信對組成的集合;表示D2D通信對Dn中發射用戶的發射功率;為當多個鏈路共享RB時,D2D通信對Dn中發射用戶到蜂窩用戶Cm的干擾鏈路的信道增益;N0代表加性高斯白噪聲的功率譜密度;
D2D通信對Dn的接收用戶在第k個RB上的接收信號的SINR為:
為D2D通信對Dn的發射用戶到接收用戶的D2D目標鏈路的信道增益;為當多個鏈路共享RB時,基站到D2D通信對Dn的接收用戶的干擾鏈路的信道增益;表示D2D通信對Di中發射用戶的發射功率;為當多個鏈路共享RB時,D2D通信對Di中發射用戶到接收用戶的干擾鏈路的信道增益;
步驟三、利用蜂窩用戶的SINR以及D2D接收用戶的SINR分別計算蜂窩鏈路和D2D鏈路的單位帶寬通信速率;
蜂窩鏈路的單位帶寬通信速率計算公式為:
D2D鏈路的單位帶寬通信速率計算公式為:
步驟四、利用蜂窩鏈路和D2D鏈路的單位帶寬通信速率計算系統容量,并將最大化系統容量為優化目標,構建異構網絡中的D2D資源分配優化模型;
優化模型如下所示:
C1:
C2:
C3:
BN×K=[bn,k]為D2D通信對的通信資源塊RB的分配矩陣,bn,k為D2D通信對Dn的RB選擇參數,為所有D2D通信對的發射功率共同組成的功率控制向量;
約束條件C1表示每個蜂窩用戶的SINR都要大于蜂窩用戶接收SINR的最小門限保證蜂窩用戶的通信質量;約束條件C2表征D2D鏈路頻譜分配約束條件,每個D2D用戶對最多只能分配一個通信資源塊RB;約束條件C3表征每個D2D通信對的發射用戶的發射功率不能超過最大發射功率門限Pmax;
步驟五、針對時隙t,在D2D資源分配優化模型的基礎上,構建每一個D2D通信對的深度強化學習模型;
具體構建步驟如下:
步驟501、針對某個D2D通信對Dp,構建在時隙t的狀態特征矢量st;
為D2D通信鏈路的瞬時信道狀態信息;為基站到該D2D通信對Dp中接收用戶的干擾鏈路的瞬時信道狀態信息;It-1為上一個時隙t-1該D2D通信對Dp中接收用戶收到的干擾功率值;為上一個時隙t-1該D2D通信對Dp的鄰近D2D通信對所占用的RB;為上一個時隙t-1該D2D通信對Dp的鄰近蜂窩用戶所占用的RB;
步驟502、同時構建該D2D通信對Dp在時隙t的回報函數rt;
rn為負回報,rn<0;
步驟503、利用該D2D通信對的狀態特征矢量構建多智能體馬爾可夫博弈模型的狀態特征;為優化馬爾可夫博弈模型,利用該D2D通信對的回報函數建立多智能體行動者評論家深度強化學習模型中的回報函數;
每個智能體馬爾可夫博弈模型Γ為:
其中,是狀態空間,是動作空間,rj是第j個D2D通信對的回報函數對應的回報的回報值,j∈{1,...,N};p是整個環境的狀態轉移概率,γ是折扣系數;
每一個D2D通信對學習的目標都是最大化該D2D通信對的總折扣回報;
總折扣回報計算公式為:
T是時間范圍;γt是折扣系數的t次方;rtj是第j個D2D通信對的回報函數在時隙t的回報值;
所述的行動者評論家深度強化學習模型,由行動者和評論家組成;
訓練過程中,行動者的策略使用深度神經網絡做擬合,使用如下的確定性策略梯度公式進行更新,以取得最大的期望回報;
令μ={μ1,...,μN}表示所有智能體的確定性策略,θ={θ1,...,θN}表示策略所包含的參數,第j個智能體期望回報的梯度公式為:
s包含了所有智能體的狀態信息,s={s1,...,sN};a包含了所有智能體的動作信息,a={a1,...,aN};是經驗重放緩沖區;
評論家也使用深度神經網絡來做擬合,通過最小化集中式動作-價值函數的損失函數來更新:
其中,每個樣本以元組(st,at,rt,st+1)的形式記錄所有智能體的歷史數據,rt={rt1,...,rtN}包括了所有智能體在時隙t的回報;
步驟504、使用歷史通信數據對深度強化學習模型進行線下訓練,獲得求解該D2D通信Dp資源分配問題的模型;
步驟六、分別對后續時隙中的每個D2D通信對提取各自的狀態特征矢量,輸入訓練好的深度強化學習模型中,得到各個D2D通信對的資源分配方案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910161391.8/1.html,轉載請聲明來源鉆瓜專利網。





