[發(fā)明專利]霧無線接入網(wǎng)中基于策略的聯(lián)邦強(qiáng)化學(xué)習(xí)的協(xié)作緩存方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111270116.3 | 申請(qǐng)日: | 2021-10-29 |
| 公開(公告)號(hào): | CN113992770A | 公開(公告)日: | 2022-01-28 |
| 發(fā)明(設(shè)計(jì))人: | 蔣雁翔;王宇 | 申請(qǐng)(專利權(quán))人: | 東南大學(xué) |
| 主分類號(hào): | H04L69/24 | 分類號(hào): | H04L69/24;H04L67/10;H04L67/568;G06N20/00 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 孫建朋 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 無線 接入 基于 策略 聯(lián)邦 強(qiáng)化 學(xué)習(xí) 協(xié)作 緩存 方法 | ||
本發(fā)明公開了一種霧無線接入網(wǎng)中基于策略的聯(lián)邦強(qiáng)化學(xué)習(xí)的協(xié)作緩存方法,包括:1、初始化緩存邊緣霧網(wǎng)絡(luò)中節(jié)點(diǎn)的本地緩存內(nèi)容,初始化全局模型訓(xùn)練周期和模型權(quán)重參數(shù)并分發(fā)給每個(gè)節(jié)點(diǎn)的本地模型;2、每一個(gè)緩存節(jié)點(diǎn)分享自身的緩存內(nèi)容狀態(tài)信息給鄰近的緩存節(jié)點(diǎn)和云端服務(wù)器;3、根據(jù)每個(gè)時(shí)隙內(nèi)接收到的用戶請(qǐng)求信息,緩存節(jié)點(diǎn)會(huì)在本地緩存,臨近節(jié)點(diǎn)緩存和云端服務(wù)器之間做出決策應(yīng)答用戶請(qǐng)求;4、計(jì)算緩存命中率和用戶的內(nèi)容請(qǐng)求延遲;5、緩存節(jié)點(diǎn)根據(jù)本地內(nèi)容緩存狀態(tài)和用戶的內(nèi)容請(qǐng)求信息,更新本地緩存內(nèi)容和訓(xùn)練模型參數(shù)。6、對(duì)各節(jié)點(diǎn)的訓(xùn)練模型權(quán)重參數(shù)進(jìn)行聯(lián)合更新。本發(fā)明降低用戶請(qǐng)求延遲,保護(hù)用戶隱私。
技術(shù)領(lǐng)域
本發(fā)明屬于移動(dòng)通信系統(tǒng)中邊緣網(wǎng)絡(luò)的協(xié)作緩存領(lǐng)域,尤其涉及一種霧無線接入網(wǎng)中基于策略的聯(lián)邦強(qiáng)化學(xué)習(xí)的協(xié)作緩存方法。
背景技術(shù)
隨著5G時(shí)代的到來,移動(dòng)設(shè)備和應(yīng)用數(shù)量迅速增加,產(chǎn)生的海量數(shù)據(jù)給無線蜂窩網(wǎng)絡(luò)帶來了巨大的流量壓力。霧無線接入網(wǎng)是解決蜂窩網(wǎng)絡(luò)通信鏈路擁塞問題的一種很有前景的方法。在霧無線接入網(wǎng)中,邊緣緩存將流行的內(nèi)容放在離用戶更近的霧無線接入點(diǎn)中,也稱為緩存節(jié)點(diǎn)。緩存節(jié)點(diǎn)的引入可以有效降低回程鏈路的負(fù)載壓力和內(nèi)容傳輸延遲。由于緩存節(jié)點(diǎn)的通信資源和本地存儲(chǔ)容量有限,如何緩存最流行的內(nèi)容是目前邊緣緩存研究的重要方向。
近年來,強(qiáng)化學(xué)習(xí)已成為優(yōu)化霧無線接入網(wǎng)中內(nèi)容協(xié)作緩存的重要工具。但是,大多數(shù)應(yīng)用于霧無線接入網(wǎng)中協(xié)邊緣緩存問題的強(qiáng)化學(xué)習(xí)算法都是基于Q值的,它們需要計(jì)算出所有可能的動(dòng)作狀態(tài)對(duì)Q值從而來獲取最優(yōu)的動(dòng)作選擇,當(dāng)動(dòng)作空間維度增高時(shí),需要計(jì)算的動(dòng)作狀態(tài)對(duì)Q值也更多,因此,這類算法在處理動(dòng)作空間維度較大的問題時(shí)性能不佳。此外,大多數(shù)強(qiáng)化學(xué)習(xí)算法需要用戶將自己的數(shù)據(jù)上傳至云端進(jìn)行訓(xùn)練,忽視了對(duì)用戶敏感數(shù)據(jù)的保護(hù)。最后,在霧無線接入網(wǎng)中訓(xùn)練強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的傳統(tǒng)方式是將學(xué)習(xí)體布置在云端進(jìn)行單獨(dú)訓(xùn)練,造成了各節(jié)點(diǎn)運(yùn)算資源的浪費(fèi)和較慢的收斂速度。
發(fā)明內(nèi)容
本發(fā)明目的在于提供一種霧無線接入網(wǎng)中基于策略的聯(lián)邦強(qiáng)化學(xué)習(xí)的協(xié)作緩存方法,以解決用戶內(nèi)容請(qǐng)求延遲高,資源加性浪費(fèi)高,網(wǎng)絡(luò)不適應(yīng)高維度動(dòng)作空間,網(wǎng)絡(luò)收斂慢和不能很好保護(hù)用戶隱私的技術(shù)問題。
為解決上述技術(shù)問題,本發(fā)明的具體技術(shù)方案如下:
一種霧無線接入網(wǎng)中基于聯(lián)邦深度確定性策略梯度學(xué)習(xí)協(xié)作緩存方法,包括以下步驟:
步驟1、根據(jù)全局內(nèi)容流行度初始化總緩存內(nèi)容狀態(tài)s(0),單個(gè)訓(xùn)練周期步長l,模型的總周期數(shù)T,模型的網(wǎng)絡(luò)參數(shù),包括在線Q值網(wǎng)絡(luò) Q(s,a|θQ)的參數(shù)θQ,在線策略網(wǎng)絡(luò)μ(s|θμ)的參數(shù)θμ以及目標(biāo)Q值網(wǎng)絡(luò) Q′(s,a|θQ′)的參數(shù)θQ′和目標(biāo)策略網(wǎng)絡(luò)μ′(s|θμ′)的參數(shù)θμ′,其中s代表輸入網(wǎng)絡(luò)的狀態(tài)參數(shù),a代表輸入網(wǎng)絡(luò)的動(dòng)作選擇參數(shù),此外初始化的目標(biāo)Q值網(wǎng)絡(luò)參數(shù)θQ′等于初始化的在線Q值網(wǎng)絡(luò)參數(shù)θQ,初始化的目標(biāo)策略網(wǎng)絡(luò)參數(shù)θμ′等于θμ;
步驟2、選取流行度估計(jì)算法計(jì)算時(shí)隙t的全局內(nèi)容流行度其中Pf(t)為內(nèi)容f的流行度;各個(gè)基站作為緩存節(jié)點(diǎn),收集用戶的內(nèi)容請(qǐng)求信息,并基于所有基站的本地內(nèi)容緩存狀態(tài)集合,做出動(dòng)作選擇,獲取下一狀態(tài);
步驟3、基于步驟2緩存節(jié)點(diǎn)做出的動(dòng)作選擇和周期內(nèi)的內(nèi)容流行度計(jì)算出用戶的內(nèi)容平均請(qǐng)求延遲DF-U(t),DF-F-U(t)和DC-F-U(t),其中DF-U(t)表示用戶直接從本地緩存節(jié)點(diǎn)獲取它的請(qǐng)求內(nèi)容所產(chǎn)生的請(qǐng)求延遲,DF-F-U(t)表示用戶需要從鄰近的緩存節(jié)點(diǎn)獲取它的請(qǐng)求內(nèi)容所產(chǎn)生的請(qǐng)求延遲,DC-F-U(t)表示用戶需要從云端服務(wù)器獲取它的請(qǐng)求內(nèi)容所產(chǎn)生的請(qǐng)求延遲;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111270116.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種計(jì)算機(jī)網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實(shí)體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評(píng)估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





