[發明專利]基于多智能體強化學習的無線充電設備協作任務卸載策略有效
| 申請號: | 202110499650.5 | 申請日: | 2021-05-08 |
| 公開(公告)號: | CN113518112B | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 黃彬彬;吳昆澄;殷昱煜 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | H04L67/10 | 分類號: | H04L67/10;H04L67/1008;G06N3/04;G06N3/08;H02J50/40;H02J7/00 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 智能 強化 學習 無線 充電 設備 協作 任務 卸載 策略 | ||
本發明公開了一種基于多智能體強化學習的無線充電設備協作任務卸載策略,使用Q?Learning算法以及神經網絡來學習多個移動設備如何在有限的計算資源和電量資源環境下進行協作任務卸載。本發明首次將多用戶協作任務卸載建模為部分可觀測馬爾可夫決策過程(POMDP)的問題表述,視每個智能體為相互獨立的學習者,提出了一種在無線充電D2D網絡環境下基于多智能體深度確定性策略梯度(MADDPG)的協作任務執行方案(CACTE),其目標是使多個移動設備彼此有效地協作,從而執行更多任務,獲得更高的長期回報。并且,將本發明提出的策略與其他策略在不同實驗參數下進行對比,證明了本發明所提出策略的有效性。
技術領域
本發明涉及移動邊緣計算領域,尤其涉及一種基于多智能體強化學習的無線充電設備協作任務卸載策略。
背景技術
D2D通信網絡中,資源不足移動設備上的計算任務可以被卸載到資源充足移動設備上協作執行,從而實現資源的充分利用。現有工作主要關注電池供電的D2D網絡中,計算資源有限的移動設備之間如何進行任務的協作卸載,但是忽略了移動設備電量是有限的,從而導致移動設備電量耗盡時,其上正在執行的任務會被中斷,這嚴重影響了移動應用的服務質量。為此,引入無線充電技術為移動設備持續供電,使得任務執行不被中斷,從而大大提高移動應用的服務質量。盡管無線充電帶來了上述優點,但是如何在無線充電D2D(EH-D2D)網絡中實現多用戶協作任務卸載策略仍然是一個值得關注的問題。
發明內容
為了解決上述問題,本發明提供了一種基于多智能體強化學習的無線充電設備協作任務卸載策略。
本發明具體采用的技術方案如下:
S1.建立系統模型:
EH-D2D網絡由一個無線充電樁和n個移動設備MD={MD1,...,NDi,...,MDn}組成。每個移動設備MDi可以用多元組來表示,其中和分別表示低性能CPU和高性能CPU內核的數量;和分別表示低性能CPU和高性能CPU的最大計算能力。分別表示移動設備MDi的執行功率,發送功率和接收功率;表示移動設備MDi的電池容量。n個移動設備均可以通過無線充電站充電,即構成本發明中的無線充電設備。
每個移動設備MDi會產生相互獨立的任務,每個任務可以用一個二元組t=(W,D)表示,其中W(GHz·s)表示任務工作負載,D表示單位工作負載的數據量(以MB為單位)。每個移動設備MDi包含一個等待執行隊列Qi,該隊列主要用于存儲從其他移動設備卸載而來的任務以及由移動設備MDi自身產生并留在本地執行的任務。
在EH-D2D網絡中,本發明采用離散時間模型,將一個時間段邏輯上劃分為若干等長的時間片。每個時間片的長度為Tslot=1s。本發明用來表示時間片索引的集合。在每個時間片τ中,無線充電站可以給每個移動設備充電。當移動設備的可用電量不足以執行其上到達的任務時,可以將部分或全部任務卸載到其他移動設備上協作執行。在每個時間片τ的開始,每個移動設備根據自身可用電量和任務負載情況做出協作決策,該決策包括卸載給每個移動設備的任務數、留在本地執行的任務數和最多能夠接收的任務數。
S2.建立任務排隊模型:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110499650.5/2.html,轉載請聲明來源鉆瓜專利網。





