[發明專利]基于多智能體強化學習的無線充電設備協作任務卸載策略有效
| 申請號: | 202110499650.5 | 申請日: | 2021-05-08 |
| 公開(公告)號: | CN113518112B | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 黃彬彬;吳昆澄;殷昱煜 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | H04L67/10 | 分類號: | H04L67/10;H04L67/1008;G06N3/04;G06N3/08;H02J50/40;H02J7/00 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 周希良 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 智能 強化 學習 無線 充電 設備 協作 任務 卸載 策略 | ||
1.基于多智能體強化學習的無線充電設備協作任務卸載方法,其特征在于該方法包括以下步驟:
S1.建立系統模型:
設EH-D2D網絡由一個無線充電樁和n個移動設備MD={MD1,…,MDi,…,MDn}組成;每個移動設備MDi用多元組來表示,其中和分別表示低性能CPU和高性能CPU內核的數量;和分別表示低性能CPU和高性能CPU的最大計算能力;分別表示移動設備MDi的執行功率,發送功率和接收功率;表示移動設備MDi的電池容量;n個移動設備均通過無線充電站充電;
每個移動設備MDi會產生相互獨立的任務,每個任務用一個二元組t=(W,D)表示,其中W表示任務工作負載,D表示單位工作負載的數據量;每個移動設備MDi包含一個等待執行隊列Qi,該隊列主要用于存儲從其它移動設備卸載而來的任務以及由移動設備MDi自身產生并留在本地執行的任務;
在EH-D2D網絡中,采用離散時間模型,將一個時間段邏輯上劃分為若干等長的時間片;每個時間片的長度為Tslot=1s;用來表示時間片索引的集合;
S2.建立任務排隊模型:
設n個移動設備上任務的到達過程服從參數為λ=(λ1,…,λi,…,λn)的泊松分布;在每個時間片τ的開始,計算任務A(τ)=(a1(τ),…,ai(τ),…,an(τ))到達n個移動設備;令μij(τ)表示在時間片τ從移動設備MDi卸載到移動設備MDj的任務數;ηij(τ)表示在時間片τ移動設備MDi從移動設備MDj接收的最大任務數;因此,執行隊列Qi的狀態演化可根據公式(1)計算;
Qi(τ+1)=max[Qi(τ)+ai(τ)W-bi(τ)W-∑i≠jμij(τ)W,0]+∑j≠iμji(τ)W (1)
μji(τ)≤ηij(τ) (2)
∑j∈nμij(τ)=ai(τ) (3)
∑j∈nμij(τ)≤ai(τ) (4)
∑j≠i,j∈nμij(τ)+bi(τ)≤Qi(τ)+ai(τ) (5)
其中bi(τ)表示MDi在時間片τ中執行的任務數,μji(τ)表示在時間片τ中從MDj卸載到MDi上的任務數目;公式(2)表示在時間片τ中MDj卸載給MDi的任務數不能超過MDi從MDj上接收的最大任務數;公式(3)表示在時間片τ中MDi上到達任務數是卸載到其他移動設備任務數與留在本地執行任務數之和;公式(4)表示在時間片τ中MDi卸載到其他移動設備的任務總數∑j≠i,j∈nμij(τ)小于等于其上到達的任務數ai(τ);公式(5)表示在時間片τ中MDi卸載到其他移動設備上的任務總數與本地執行的任務數之和小于等于Qi中的任務數與其上到達任務數之和;
S3.建立電量模型:
在時間片τ中,移動設備MDi的充電電量表示為其中μ∈[0,1]表示無線充電系數;P表示無線充電站的發射功率;hi(τ)表示在時間片τ中無線充電站與移動設備MDi之間的信道增益;在每個時間片τ的開始,移動設備MDi的可用電量用來表示,其演化方式根據公式(6)計算:
其中和分別表示在時間片τ中MDi執行任務,傳輸任務和接收任務所消耗的電池電量;公式(7)表示在時間片τ中,MDi接收任務,執行任務和卸載任務所消耗的電池電量總和不能超過移動設備當前的可用電量;公式(8)表示在時間片τ中,MDi當前的可用電量與充電電量之和不能超過MDi的電池容量;
S4.建立網絡模型:
令和分別表示在時間片τ中MDi與MDj之間的上行傳輸速率和下行傳輸速率,通過公式(10)和(11)計算:
其中,BWiUL和BWiDL分別是MDi上行鏈路和下行鏈路的信道帶寬;表示MDi的傳輸功率;σ2是高斯噪聲功率;和分別表示移動設備MDi到MDj之間的上行信道增益和下行信道增益;由于MDi與MDj之間上下行的通信距離相同,所以通道增益和可通過計算,其中α是路徑損耗參數;θ是路徑損耗指數;d0為參照距離;dij是MDi與MDj之間的距離;
S5.多智能體強化學習的協作任務卸載策略:
S51.定義狀態空間:每個移動設備MDi被看作一個智能體;在時間片τ的開始,每個智能體當前的狀態Oi(τ)可被觀測,并將其用公式(12)表示;
其中Qi(τ)表示在時間片τ中MDi執行隊列中剩余任務的數量,Gi(τ)=[Gi1(τ),…,Gi(i-1)(τ),Gi(i+1)(τ),…,Gin(τ)]表示在時間片τ中MDi與除了它本身之外的其他移動設備之間的信道增益;表示在時間片τ中MDi的可用電量;表示在時間片τ中MDi的充電電量;ai(τ)表示在時間片τ中到達MDi的任務數;
S52.定義動作空間:每個智能體根據它當前的狀態Oi(τ)選擇一個動作Ai(τ);動作Ai(τ)是由本地執行任務數,卸載任務數和最大接收任務數組成,并將其用公式(13)表示;
Ai(τ)=[bi(τ),μi(τ),ηi(τ)] (13)
μi(τ)=[μi1(τ),…,μi(i-1)(τ),μi(i+1)(τ),…,μin(τ)] (14)
ηi(τ)=[ηi1(τ),…,ηi(i-1)(τ),ηi(i+1)(τ),…,ηin(τ)] (15)
其中bi(τ)表示在時間片τ中MDi上執行的任務數,μi(τ)表示從MDi卸載到其它(n-1)個移動設備的任務數向量,ηi(τ)表示MDi從其他(n-1)個移動設備上可接收的最大任務數向量;在時間片τ中移動設備MDi執行任務,卸載任務和接收任務所消耗的總電量不能超過MDi的可用電量;
(1)執行任務所消耗的電量:移動設備采用動態調頻技術來動態調節CPU 頻率;在時間片τ中MDi的計算能力和計算功率分別根據公式(16)和公式(17)計算:
其中ai是與芯片架構有關的常數;和分別表示低性能CPU和高性能CPU內核的實際計算頻率;當移動設備MDi決定在時間片τ中本地執行bi(τ)任務時,使用公式(22)計算本地執行任務需要消耗的電量
(2)卸載任務所消耗的電量:在時間片τ中,移動設備MDi實際卸載到移動設備MDj的任務數μ′ij可以用公式(19)表示;實際卸載任務所消耗的電量可以用公式(20)來計算:
執行任務,卸載任務和接收任務所消耗的電量之和不能超過移動設備的可用電量約束條件用公式(21)表示:
S53.定義獎勵函數:在多智能體協作任務卸載中,每個智能體根據其當前的狀態值Oi(τ)和選擇的動作Ai(τ)計算獎勵Ri;獎勵函數Ri是任務的平均處理時間Qi(τ),任務丟棄Di(τ)以及電量懲罰Pi(τ)的加權和,用公式(22)表示:
其中ω1,ω2和ω3分別是Qi(τ),Di(τ)和Pi(τ)的加權系數;任務丟棄Di(τ)可以根據公式(23)計算;
其中|Qi|表示執行隊列Qi的長度;公式(|Qi|+bi(τ)-Qi(τ))表示執行隊列Qi的可用空間;為了避免由于移動設備的電量耗盡而導致移動應用程序中斷,將電量損失閾值設置為hi;當移動設備的可用電量與最大電池容量的比率小于hi時,電量懲罰Pi(τ)可以用公式(24)計算:
S54.問題形式化:多用戶協作任務卸載問題建模為部分可觀測馬爾可夫決策過程;它的主要目標是最大化整個系統的獎勵;
Maximize:-R (25)
S6.策略實現:
設計了一種基于多智能體深度確定性策略梯度算法來求解多用戶協作任務卸載問題,求解過程為:
(1)在學習階段,首先初始化每個智能體的環境參數和網絡參數;環境參數主要包括執行隊列長度,移動設備之間的信道增益,可用電量以及無線充電站和移動設備之間的信道增益;網絡參數主要包括學習動作網絡、學習評價網絡、目標動作網絡、目標評價網絡和中繼緩存容量;然后,觀測每個智能體的當前狀態Oi(τ),并根據當前狀態選擇每個智能體的動作Ai(τ);其次,根據每個智能體當前的狀態Oi(τ)和采取的動作Ai(τ),計算出即時獎勵Ri(τ)和下一個時間片(τ+1)時的狀態O-i(τ+1);最后,每個智能體將其狀態轉移四元組(Oi(τ),Ai(τ),Ri(τ),O-i(τ+1))存儲到其中繼緩存Ωi中;
(2)在訓練階段,每個智能體i首先會從其中繼緩存Ωi中隨機抽取mini_batch個狀態轉移四元組;然后,每個智能體i分別根據目標動作網絡和目標評價網絡計算狀態O-i(τ+1)的目標動作值和目標Q值;在目標評價網絡中更新狀態Oi(τ)的目標Q值,并根據該值更新估計Q網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110499650.5/1.html,轉載請聲明來源鉆瓜專利網。





