[發(fā)明專利]基于多智能體的邊緣云可擴(kuò)展任務(wù)卸載方法在審
| 申請?zhí)枺?/td> | 202110462090.6 | 申請日: | 2021-04-27 |
| 公開(公告)號: | CN113064671A | 公開(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 孫立峰;姜麗麗;黃天馳;張睿霄 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F9/445 | 分類號: | G06F9/445;G06N3/08 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 徐章偉 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 智能 邊緣 擴(kuò)展 任務(wù) 卸載 方法 | ||
本申請公開了一種基于多智能體強(qiáng)化學(xué)習(xí)的邊緣云可擴(kuò)展任務(wù)卸載方法,包括以下步驟:初始化每個(gè)Agent的網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)Agent根據(jù)自己觀測的狀態(tài)與移動(dòng)邊緣網(wǎng)絡(luò)環(huán)境進(jìn)行交互,將輸入狀態(tài)與輸出行為保存至經(jīng)驗(yàn)回放池;每個(gè)智能體對經(jīng)驗(yàn)回放池中的數(shù)據(jù)進(jìn)行采樣,訓(xùn)練自己的actor和critic網(wǎng)絡(luò)并優(yōu)化參數(shù);在模型收斂至滿足迭代條件時(shí)生成卸載策略,并根據(jù)卸載策略進(jìn)行卸載決策。本申請實(shí)施例為基于多智能體強(qiáng)化學(xué)習(xí)的移動(dòng)邊緣計(jì)算卸載方法,不但更符合真實(shí)的應(yīng)用場景,更考慮了當(dāng)有新的用戶設(shè)備加入時(shí)系統(tǒng)的進(jìn)一步調(diào)整和訓(xùn)練,避免了新智能體從零開始訓(xùn)練,保證了任務(wù)卸載策略的可擴(kuò)展性。
技術(shù)領(lǐng)域
本申請涉及多智能體強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域,特別涉及一種基于多智能體的邊緣云可擴(kuò)展的任務(wù)卸載方法。
背景技術(shù)
隨著5G移動(dòng)網(wǎng)絡(luò)和物聯(lián)網(wǎng)的快速發(fā)展,大量延遲敏感的計(jì)算密集型應(yīng)用任務(wù)在用戶設(shè)備端產(chǎn)生,如增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)等新型視頻應(yīng)用,監(jiān)控設(shè)備和自動(dòng)駕駛等實(shí)時(shí)視頻流服務(wù)。由于本地設(shè)備的計(jì)算能力難以滿足這類任務(wù)的需求,而傳統(tǒng)的將任務(wù)上傳到遠(yuǎn)端云服務(wù)器去處理,會(huì)產(chǎn)生較大的傳輸延遲,還會(huì)造成回程網(wǎng)絡(luò)負(fù)載過大。為解決這些問題,移動(dòng)邊緣計(jì)算(Mobile Edge Computing,MEC)作為一種新的計(jì)算模式被提出,它將計(jì)算資源部署在核心網(wǎng)絡(luò)的邊緣,從而更靠近任務(wù)生成的移動(dòng)設(shè)備端,為用戶端提供服務(wù)環(huán)境和計(jì)算能力。用戶設(shè)備可以通過將一部分任務(wù)卸載到邊緣服務(wù)節(jié)點(diǎn)進(jìn)行處理,從而提供低任務(wù)延遲、減少網(wǎng)絡(luò)通信和降低整體能耗的解決方案。
其中,如何制定任務(wù)卸載策略是移動(dòng)邊緣計(jì)算的關(guān)鍵問題,不同的卸載決策導(dǎo)致不同的計(jì)算和通信成本。相關(guān)技術(shù)中,在移動(dòng)邊緣計(jì)算環(huán)境中進(jìn)行邊緣云任務(wù)卸載的算法還存在很多不足,例如:
1)坐標(biāo)下降法、線性放松近似法,博弈論以及凸優(yōu)化等傳統(tǒng)數(shù)學(xué)算法,能夠保證得到最優(yōu)解,但是大量的迭代計(jì)算在NP-hard問題上無法在有限時(shí)間內(nèi)得到最優(yōu)解,因此不適合“多任務(wù)-多用戶”的復(fù)雜的移動(dòng)邊緣計(jì)算場景;
2)基于DQN(Deep Q-Learning,深度強(qiáng)化學(xué)習(xí))或A3C的計(jì)算卸載算法可以在有限時(shí)間內(nèi)得到次優(yōu)解,但是隨著網(wǎng)絡(luò)狀態(tài)和卸載決策數(shù)量的增多,會(huì)導(dǎo)致強(qiáng)化學(xué)習(xí)的狀態(tài)和行為空間呈指數(shù)增長。同時(shí)此類算法需要根據(jù)全局的環(huán)境信息來做下一步的決策,集中式的決策策略也導(dǎo)致算法的靈活性較差;
申請內(nèi)容
本申請?zhí)峁┮环N邊緣云可擴(kuò)展的任務(wù)卸載方法,以解決多個(gè)移動(dòng)用戶設(shè)備決策本設(shè)備上的某個(gè)任務(wù),在本地執(zhí)行還是卸載到邊緣計(jì)算節(jié)點(diǎn)或者遠(yuǎn)端云上去執(zhí)行的問題。包括如何構(gòu)建基于“計(jì)算-通信-能耗”多維模型來優(yōu)化目標(biāo)函數(shù)、如何對已有的系統(tǒng)調(diào)度環(huán)境中新加入的用戶設(shè)備進(jìn)行參數(shù)設(shè)置,以及如何進(jìn)一步的更新環(huán)境設(shè)置,開始新一輪的調(diào)度策略訓(xùn)練和生成等內(nèi)容。
本申請第一方面實(shí)施例提供一種邊緣云可擴(kuò)展任務(wù)卸載方法,包括以下步驟:在創(chuàng)建環(huán)境并初始化多個(gè)智能體的模型參數(shù)后,初始化每個(gè)Agent的網(wǎng)絡(luò)結(jié)構(gòu),定義狀態(tài)S,行為A和獎(jiǎng)勵(lì)函數(shù)R,定義目標(biāo)值函數(shù)Q,每個(gè)Agent根據(jù)自己觀測的狀態(tài)與移動(dòng)邊緣網(wǎng)絡(luò)環(huán)境進(jìn)行交互,將輸入狀態(tài)與輸出行為保存至經(jīng)驗(yàn)回放池;每個(gè)智能體對所述經(jīng)驗(yàn)回放池中的數(shù)據(jù)進(jìn)行采樣,訓(xùn)練自己的actor和critic網(wǎng)絡(luò)并優(yōu)化參數(shù);在模型收斂至滿足迭代條件后生成卸載策略,并根據(jù)所述卸載策略進(jìn)行卸載決策。
可選地,在本申請的一個(gè)實(shí)施例中,還包括:檢測是否加入新設(shè)備,在檢測到加入所述新設(shè)備后,重置環(huán)境,設(shè)置新的智能體網(wǎng)絡(luò)參數(shù),以使得所述每個(gè)智能體進(jìn)行采樣和進(jìn)行卸載決策。
可選地,在本申請的一個(gè)實(shí)施例中,還包括:根據(jù)由智能體網(wǎng)絡(luò)結(jié)構(gòu)、交互環(huán)境和多用戶設(shè)備間的關(guān)系生成的多任務(wù)-多用戶-邊緣云模式構(gòu)建系統(tǒng)模型。
可選地,在本申請的一個(gè)實(shí)施例中,所述將輸入狀態(tài)與輸出行為保存至經(jīng)驗(yàn)回放池,包括:每個(gè)actor根據(jù)自己觀測的狀態(tài)與移動(dòng)邊緣網(wǎng)絡(luò)環(huán)境進(jìn)行交互,并基于critic的值函數(shù)指導(dǎo)下一步行為;根據(jù)預(yù)先設(shè)置的經(jīng)驗(yàn)回放池大小,收集所述輸入狀態(tài)與輸出行為,存放到所述經(jīng)驗(yàn)回放池。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110462090.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





