[發(fā)明專利]基于值分解網(wǎng)絡(luò)和多智能體的半分布式協(xié)作存儲(chǔ)方法有效
| 申請?zhí)枺?/td> | 202111058748.3 | 申請日: | 2021-09-09 |
| 公開(公告)號(hào): | CN113779302B | 公開(公告)日: | 2023-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 陳由甲;蔡粵楷;鄭海峰;胡錦松 | 申請(專利權(quán))人: | 福州大學(xué) |
| 主分類號(hào): | G06F16/71 | 分類號(hào): | G06F16/71;G06N3/08;H04L67/1097;H04W24/06;H04W28/16 |
| 代理公司: | 福州元?jiǎng)?chuàng)專利商標(biāo)代理有限公司 35100 | 代理人: | 丘鴻超;蔡學(xué)俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 分解 網(wǎng)絡(luò) 智能 分布式 協(xié)作 存儲(chǔ) 方法 | ||
本發(fā)明提出一種基于值分解網(wǎng)絡(luò)和多智能體強(qiáng)化學(xué)習(xí)的半分布式協(xié)作存儲(chǔ)方法,根據(jù)無線智能存儲(chǔ)網(wǎng)絡(luò)模型,設(shè)計(jì)半分布式多智能體強(qiáng)化學(xué)習(xí)框架,設(shè)計(jì)狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù),來實(shí)現(xiàn)無線網(wǎng)絡(luò)中對用戶和無線服務(wù)節(jié)點(diǎn)信息的特征標(biāo)識(shí);結(jié)合Dueling?DQN網(wǎng)絡(luò)具有的高效的決策能力進(jìn)而提出了動(dòng)態(tài)存儲(chǔ)算法,用于每個(gè)無線服務(wù)節(jié)點(diǎn)的存儲(chǔ)替換策略;提出利用無線網(wǎng)絡(luò)的匯聚節(jié)點(diǎn)嵌入值分解網(wǎng)絡(luò)計(jì)算的全局策略更新參數(shù),傳遞給各個(gè)無線服務(wù)節(jié)點(diǎn)進(jìn)行各智能體的局部策略更新;通過各個(gè)智能體中神經(jīng)網(wǎng)絡(luò)不斷迭代更新,來使得全局損失函數(shù)達(dá)到收斂狀態(tài),從而得到全局最佳的存儲(chǔ)策略。各個(gè)智能體的信息傳遞給匯聚節(jié)點(diǎn)促進(jìn)了各個(gè)智能體的相互協(xié)作,快速達(dá)到全局最優(yōu)。
技術(shù)領(lǐng)域
本發(fā)明屬于無線通信領(lǐng)域和計(jì)算機(jī)技術(shù)領(lǐng)域,涉及機(jī)器學(xué)習(xí)中的深度強(qiáng)化學(xué)習(xí)、分布式系統(tǒng)、算法復(fù)雜度優(yōu)化、無線傳輸?shù)龋绕渖婕耙环N基于值分解網(wǎng)絡(luò)和多智能體強(qiáng)化學(xué)習(xí)的半分布式協(xié)作存儲(chǔ)方法。
背景技術(shù)
隨著移動(dòng)無線通信、數(shù)據(jù)需求的指數(shù)級(jí)增長以及設(shè)備存儲(chǔ)和計(jì)算能力的不斷提高,實(shí)時(shí)多媒體服務(wù)在5G通信網(wǎng)絡(luò)中逐漸成為主要業(yè)務(wù),人類生活與工作逐漸向移動(dòng)互聯(lián)網(wǎng)全面的遷徙,將各種網(wǎng)絡(luò)功能推向網(wǎng)絡(luò)的邊緣,如邊緣計(jì)算和邊緣存儲(chǔ)。通過存儲(chǔ)用戶請求的流行內(nèi)容,邊緣存儲(chǔ)旨在減少回程網(wǎng)絡(luò)中的流量負(fù)載和重復(fù)傳輸,從而顯著降低傳輸延遲。此外,針對在線視頻業(yè)務(wù)的興起,如何提高無線網(wǎng)絡(luò)中視頻用戶的體驗(yàn)也成為新的挑戰(zhàn)。為了捕捉用戶請求內(nèi)容和無線環(huán)境的動(dòng)態(tài)特性,策略控制框架被引入無線存儲(chǔ)領(lǐng)域。深度強(qiáng)化學(xué)習(xí)結(jié)合了深度神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí),在解決復(fù)雜控制問題方面表現(xiàn)出了優(yōu)異的性能,此外,由于大規(guī)模無線服務(wù)節(jié)點(diǎn)的布局,如何通過多個(gè)無線服務(wù)節(jié)點(diǎn)間的協(xié)作提高無線網(wǎng)絡(luò)的整體服務(wù)性能得到了越來越多的關(guān)注。
發(fā)明內(nèi)容
為了彌補(bǔ)現(xiàn)有技術(shù)的空白和不足,本發(fā)明的目的在于提供一種基于值分解網(wǎng)絡(luò)和多智能體強(qiáng)化學(xué)習(xí)的半分布式協(xié)作存儲(chǔ)方法,該方法根據(jù)無線智能存儲(chǔ)網(wǎng)絡(luò)模型,設(shè)計(jì)半分布式多智能體強(qiáng)化學(xué)習(xí)框架,設(shè)計(jì)狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù),來實(shí)現(xiàn)無線網(wǎng)絡(luò)中對用戶和無線服務(wù)節(jié)點(diǎn)信息的特征標(biāo)識(shí);結(jié)合Dueling?DQN網(wǎng)絡(luò)具有的高效的決策能力進(jìn)而提出了動(dòng)態(tài)存儲(chǔ)算法,用于每個(gè)無線服務(wù)節(jié)點(diǎn)的存儲(chǔ)替換策略;提出利用無線網(wǎng)絡(luò)的匯聚節(jié)點(diǎn)嵌入值分解網(wǎng)絡(luò)計(jì)算的全局策略更新參數(shù),傳遞給各個(gè)無線服務(wù)節(jié)點(diǎn)進(jìn)行各智能體的局部策略更新;通過各個(gè)智能體中神經(jīng)網(wǎng)絡(luò)不斷迭代更新,來使得全局損失函數(shù)達(dá)到收斂狀態(tài),從而得到全局最佳的存儲(chǔ)策略。各個(gè)智能體的信息傳遞給匯聚節(jié)點(diǎn)促進(jìn)了各個(gè)智能體的相互協(xié)作,快速達(dá)到全局最優(yōu)。
本發(fā)明的關(guān)鍵問題在于對用戶需求的準(zhǔn)確預(yù)測,考慮到用戶在網(wǎng)絡(luò)中,特別是在無線網(wǎng)絡(luò)中的實(shí)際環(huán)境復(fù)雜程度,引入了維度分解機(jī)制,最后在每個(gè)智能體中提出了一種基于維度分解的用戶服務(wù)策略算法,通過不斷更新迭代,使得最終策略收斂。仿真結(jié)果表明,在各種的環(huán)境參數(shù)場景下,該算法在降低訪問時(shí)延和提高用戶服務(wù)體驗(yàn)的性能上均有顯著的提高。此外,該算法能夠處理極大的動(dòng)作空間,值分解構(gòu)建的半分式框架加速了整個(gè)系統(tǒng)的收斂,且計(jì)算復(fù)雜度低,比傳統(tǒng)的多智能體算法節(jié)省了大部分的運(yùn)行時(shí)間。
本發(fā)明具體采用以下技術(shù)方案:
一種基于值分解網(wǎng)絡(luò)和多智能體強(qiáng)化學(xué)習(xí)的半分布式協(xié)作存儲(chǔ)方法,其特征在于,實(shí)現(xiàn)過程包括以下步驟:
步驟S1:構(gòu)建基于無線網(wǎng)絡(luò)傳輸?shù)亩嘣O(shè)備協(xié)作的半分布式協(xié)作存儲(chǔ)的無線網(wǎng)絡(luò)模型,包括匯聚節(jié)點(diǎn)和各無線服務(wù)節(jié)點(diǎn),定義基于值分解網(wǎng)絡(luò)與多智能體深度強(qiáng)化學(xué)習(xí)的智能體狀態(tài)空間和動(dòng)作空間,聯(lián)合狀態(tài)空間和動(dòng)作空間,以及基于優(yōu)化目標(biāo)設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù),以最大限度地提高無線網(wǎng)絡(luò)服務(wù)質(zhì)量和減少存儲(chǔ)內(nèi)容的訪問時(shí)延;
步驟S2:在匯聚節(jié)點(diǎn)中收集和分析關(guān)于各個(gè)無線服務(wù)節(jié)點(diǎn)的信息,通過構(gòu)建值分解網(wǎng)絡(luò)模型協(xié)調(diào)各個(gè)無線服務(wù)節(jié)點(diǎn)的協(xié)作,即每個(gè)無線服務(wù)節(jié)點(diǎn)的動(dòng)作價(jià)值函數(shù)作為值分解網(wǎng)絡(luò)的輸入,輸出為整個(gè)系統(tǒng)的全局動(dòng)作價(jià)值函數(shù)以及全局策略更新參數(shù),并將結(jié)果反饋到整個(gè)半分布式系統(tǒng)中,包括回饋給各個(gè)無線服務(wù)節(jié)點(diǎn)以更新單個(gè)無線服務(wù)節(jié)點(diǎn)的策略,以提升無線邊緣存儲(chǔ)的協(xié)作性能和收斂速度。
進(jìn)一步地,步驟S1具體包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111058748.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





