[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源分配方法有效
| 申請?zhí)枺?/td> | 202110006111.3 | 申請日: | 2021-01-05 |
| 公開(公告)號: | CN112351433B | 公開(公告)日: | 2021-05-25 |
| 發(fā)明(設(shè)計)人: | 孫君;吳錫 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | H04W16/10 | 分類號: | H04W16/10;H04W52/24;H04W52/34;H04W72/04 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 徐激波 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 網(wǎng)絡(luò)資源 分配 方法 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的異構(gòu)網(wǎng)絡(luò)資源分配方法,其特征在于,在一個具有M個基站和N個移動用戶的異構(gòu)網(wǎng)絡(luò)的下行鏈路中,宏基站MBS有個,微基站PBS有個,且滿足;
設(shè)定表示基站
設(shè)定表示頻譜狀態(tài),當(dāng)用戶
設(shè)定表示用戶
表示每個小區(qū)基站的總發(fā)射功率應(yīng)該在預(yù)設(shè)功率限制之下;
采用塊衰落模型表示時隙
其中,表示包括路徑損耗和對數(shù)正態(tài)陰影在內(nèi)的大尺度衰落分量,遵循Jakes衰落模型;將小尺度瑞利衰落分量表示為一階高斯-馬爾可夫過程:
其中是獨(dú)立的且具有單位方差的均勻分布的圓對稱復(fù)高斯隨機(jī)變量;,其中是第一類零階貝塞爾函數(shù),是最大多普勒頻率;
當(dāng)不同小區(qū)中的用戶分配相同的子載波時遭受到的小區(qū)間干擾ICI如下表示:
其中表示基站
其中是從基站
步驟S1、針對每個基站部署DNN框架,所述DNN框架基于ADMM算法,并將信道信息CSI作為異構(gòu)網(wǎng)絡(luò)權(quán)重;根據(jù)基站所得用戶關(guān)聯(lián)信息、平均干擾功率,給出當(dāng)前狀態(tài)下最佳的資源分配策略;具體地,
頻譜效率目標(biāo)優(yōu)化函數(shù)如下:
能源效率目標(biāo)優(yōu)化函數(shù)如下:
基于ADMM算法解決所述頻譜效率目標(biāo)優(yōu)化函數(shù),增廣拉格朗日函數(shù)如下:
其中,代表拉格朗日乘數(shù),是懲罰參數(shù);此時,所述頻譜效率目標(biāo)優(yōu)化函數(shù)表示為:
通過分別對求偏導(dǎo)找到的最佳解;
步驟S2、將每個基站視為獨(dú)立代理,基站的狀態(tài)被作為建模環(huán)境;若干代理程序觀察同一異構(gòu)網(wǎng)絡(luò)環(huán)境,并采取行動,同時代理程序通過環(huán)境的獎勵相互溝通;代理商根據(jù)獎勵調(diào)節(jié)政策;具體地:
狀態(tài)集S:由個狀態(tài)組成,包括;所述代理程序觀察到的用于表征異構(gòu)網(wǎng)絡(luò)環(huán)境的狀態(tài)包括用戶關(guān)聯(lián)信息和干擾功率,則異構(gòu)網(wǎng)絡(luò)狀態(tài)表示為:;
動作集A:根據(jù)當(dāng)前狀態(tài),代理基于決策策略π在處采取動作;該動作包括選擇子載波和相應(yīng)的傳輸功率;則將動作表示為;
獎勵:采取行動后,代理程序計算環(huán)境的回報;將能源效率函數(shù)定義為系統(tǒng)模型中的獎勵:
設(shè)計一個基于DNN的優(yōu)化框架,結(jié)合Q學(xué)習(xí)以生成策略π;其中所述基于DNN的優(yōu)化框架的輸入是觀察到的狀態(tài)集S,基于DNN的優(yōu)化框架的輸出是動作集A中的所有可執(zhí)行動作;每個狀態(tài)動作對都有對應(yīng)的Q值;每個步驟都會選擇在每個狀態(tài)下獲得最大Q值的動作,具體如下表示
根據(jù)Q學(xué)習(xí)算法,通過以下公式更新Q值:
其中和分別是學(xué)習(xí)率和折扣因子;表示下一狀態(tài),表示在狀態(tài)下采取行動后獲得的報酬,表示狀態(tài)下的可執(zhí)行行動,為可執(zhí)行行動集;表示狀態(tài)下的Q值,表示更新后的Q值;表示狀態(tài)下的可執(zhí)行動作集合中的最大Q值;每一個代理中的損失函數(shù)可以表示為:
其中表示目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),表示在線網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);將信道增益的平方以及加性高斯噪聲作為第l層的網(wǎng)絡(luò)參數(shù),其中代表ADMM算法第
使用貪心策略從在線網(wǎng)絡(luò)中選擇動作,目標(biāo)網(wǎng)絡(luò)是在線網(wǎng)絡(luò)的副本,但網(wǎng)絡(luò)參數(shù)在迭代中固定不變;目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)每經(jīng)過一次迭代后,替換為在線網(wǎng)絡(luò)中的網(wǎng)絡(luò)參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110006111.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 用于確定網(wǎng)絡(luò)資源質(zhì)量信息的方法、裝置及設(shè)備
- 一種網(wǎng)絡(luò)資源建模方法和系統(tǒng)
- 網(wǎng)絡(luò)資源的分享及獲取方法、裝置、終端
- 一種網(wǎng)絡(luò)資源調(diào)度方法及網(wǎng)絡(luò)資源管理服務(wù)器
- 一種網(wǎng)絡(luò)資源轉(zhuǎn)移業(yè)務(wù)的處理方法及裝置
- 網(wǎng)絡(luò)資源的編排方法和設(shè)備
- 一種主配網(wǎng)一體化的動態(tài)資源分配方法及裝置
- AP網(wǎng)絡(luò)資源分配方法、裝置、設(shè)備、系統(tǒng)及存儲介質(zhì)
- 一種網(wǎng)絡(luò)資源參數(shù)配置方法、裝置和計算機(jī)可讀存儲介質(zhì)
- 一種網(wǎng)絡(luò)資源確定方法及裝置





