[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源分配方法有效

申請?zhí)枺?/td>	202110006111.3	申請日：	2021-01-05
公開（公告）號：	CN112351433B	公開（公告）日：	2021-05-25
發(fā)明（設(shè)計）人：	孫君;吳錫	申請（專利權(quán)）人：	南京郵電大學(xué)
主分類號：	H04W16/10	分類號：	H04W16/10;H04W52/24;H04W52/34;H04W72/04
代理公司：	南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249	代理人：	徐激波
地址：	210003 江蘇***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于強(qiáng)化學(xué)習(xí) 網(wǎng)絡(luò)資源分配方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源分配方法，其特征在于，在一個具有M個基站和N個移動用戶的異構(gòu)網(wǎng)絡(luò)的下行鏈路中，宏基站MBS有個，微基站PBS有個，且滿足；

設(shè)定表示基站m與用戶n之間的關(guān)聯(lián)關(guān)系，表示基站m與用戶n關(guān)聯(lián)；表示基站m與用戶n無關(guān)；

設(shè)定表示頻譜狀態(tài)，當(dāng)用戶n與子載波k上的基站m相關(guān)聯(lián)時，頻譜狀態(tài)使用以下規(guī)則確定：表示用戶n使用子載波k；表示用戶n不使用子載波k；

設(shè)定表示用戶n與基站m在子載波k上的傳輸功率；具體如下：

表示每個小區(qū)基站的總發(fā)射功率應(yīng)該在預(yù)設(shè)功率限制之下；

采用塊衰落模型表示時隙t中用戶n到基站m的下行鏈路信道增益如下：

其中，表示包括路徑損耗和對數(shù)正態(tài)陰影在內(nèi)的大尺度衰落分量，遵循Jakes衰落模型；將小尺度瑞利衰落分量表示為一階高斯-馬爾可夫過程：

其中是獨(dú)立的且具有單位方差的均勻分布的圓對稱復(fù)高斯隨機(jī)變量；，其中是第一類零階貝塞爾函數(shù)，是最大多普勒頻率；

當(dāng)不同小區(qū)中的用戶分配相同的子載波時遭受到的小區(qū)間干擾ICI如下表示：

其中表示基站m在子載波k上服務(wù)的用戶n受到的小區(qū)間干擾；表示在子載波k上基站m'到用戶n'的發(fā)射功率；是在子載波k上從基站m'到用戶n的信道增益的平方；當(dāng)時，由基站m在子載波k上服務(wù)的用戶n的信號干擾加噪聲比如下：

其中是從基站m到用戶n的加性高斯白噪聲的冪；當(dāng)基站m的用戶n和基站m' 的用戶n'同時被分配了子載波k時，將干擾基站m的用戶n，且；

步驟S1、針對每個基站部署DNN框架，所述DNN框架基于ADMM算法，并將信道信息CSI作為異構(gòu)網(wǎng)絡(luò)權(quán)重；根據(jù)基站所得用戶關(guān)聯(lián)信息、平均干擾功率，給出當(dāng)前狀態(tài)下最佳的資源分配策略；具體地，

頻譜效率目標(biāo)優(yōu)化函數(shù)如下：

能源效率目標(biāo)優(yōu)化函數(shù)如下：

基于ADMM算法解決所述頻譜效率目標(biāo)優(yōu)化函數(shù)，增廣拉格朗日函數(shù)如下：

其中，代表拉格朗日乘數(shù)，是懲罰參數(shù)；此時，所述頻譜效率目標(biāo)優(yōu)化函數(shù)表示為：

通過分別對求偏導(dǎo)找到的最佳解；

步驟S2、將每個基站視為獨(dú)立代理，基站的狀態(tài)被作為建模環(huán)境；若干代理程序觀察同一異構(gòu)網(wǎng)絡(luò)環(huán)境，并采取行動，同時代理程序通過環(huán)境的獎勵相互溝通；代理商根據(jù)獎勵調(diào)節(jié)政策；具體地：

狀態(tài)集S：由個狀態(tài)組成，包括；所述代理程序觀察到的用于表征異構(gòu)網(wǎng)絡(luò)環(huán)境的狀態(tài)包括用戶關(guān)聯(lián)信息和干擾功率，則異構(gòu)網(wǎng)絡(luò)狀態(tài)表示為：；

動作集A：根據(jù)當(dāng)前狀態(tài)，代理基于決策策略π在處采取動作；該動作包括選擇子載波和相應(yīng)的傳輸功率；則將動作表示為；

獎勵：采取行動后，代理程序計算環(huán)境的回報；將能源效率函數(shù)定義為系統(tǒng)模型中的獎勵：

設(shè)計一個基于DNN的優(yōu)化框架，結(jié)合Q學(xué)習(xí)以生成策略π；其中所述基于DNN的優(yōu)化框架的輸入是觀察到的狀態(tài)集S，基于DNN的優(yōu)化框架的輸出是動作集A中的所有可執(zhí)行動作；每個狀態(tài)動作對都有對應(yīng)的Q值；每個步驟都會選擇在每個狀態(tài)下獲得最大Q值的動作，具體如下表示

根據(jù)Q學(xué)習(xí)算法，通過以下公式更新Q值：

其中和分別是學(xué)習(xí)率和折扣因子；表示下一狀態(tài)，表示在狀態(tài)下采取行動后獲得的報酬，表示狀態(tài)下的可執(zhí)行行動，為可執(zhí)行行動集；表示狀態(tài)下的Q值，表示更新后的Q值；表示狀態(tài)下的可執(zhí)行動作集合中的最大Q值；每一個代理中的損失函數(shù)可以表示為：

其中表示目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)，表示在線網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)；將信道增益的平方以及加性高斯噪聲作為第l層的網(wǎng)絡(luò)參數(shù)，其中代表ADMM算法第l次迭代；

使用貪心策略從在線網(wǎng)絡(luò)中選擇動作，目標(biāo)網(wǎng)絡(luò)是在線網(wǎng)絡(luò)的副本，但網(wǎng)絡(luò)參數(shù)在迭代中固定不變；目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)每經(jīng)過一次迭代后，替換為在線網(wǎng)絡(luò)中的網(wǎng)絡(luò)參數(shù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué)，未經(jīng)南京郵電大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110006111.3/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：產(chǎn)塔格糖的枯草芽孢桿菌基因工程菌及制備塔格糖的方法
下一篇：一種流動式起重機(jī)支撐裝置

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04W 無線通信網(wǎng)絡(luò)
H04W16-00 網(wǎng)絡(luò)規(guī)劃，例如覆蓋或業(yè)務(wù)量規(guī)劃工具；網(wǎng)絡(luò)配置，例如資源劃分或小區(qū)結(jié)構(gòu)
H04W16-02 .在各網(wǎng)絡(luò)組成部分當(dāng)中的資源劃分，例如，再用劃分
H04W16-14 .頻譜共享裝置
H04W16-18 .網(wǎng)絡(luò)規(guī)劃工具
H04W16-22 .業(yè)務(wù)量模擬工具或模型
H04W16-24 .小區(qū)結(jié)構(gòu)

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】