[發明專利]一種基于元強化學習算法的計算卸載方法有效
| 申請號: | 202210534342.6 | 申請日: | 2022-05-17 |
| 公開(公告)號: | CN114860337B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 楊釗;王廷;蔡海濱 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F9/445 | 分類號: | G06F9/445;G06F9/48;G06F9/50;G06N20/00 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 算法 計算 卸載 方法 | ||
1.一種基于元強化學習算法的計算卸載方法,其特征在于采用構建任務卸載決策和資源分配模型的方法,獲取當前卸載系統的狀態,將其通過元學習獲取學習模型,然后通過模型訓練獲取任務卸載決策,計算卸載具體包括以下四個步驟:
S1、在物聯網設備、邊緣服務器和云服務器協作式應用場景下,建立任務卸載決策和資源分配模型,該模型具體包括:移動邊緣的計算卸載環境模型、計算任務模型、計算任務決策模型、計算任務時延模型、計算任務能耗模型,以及具有馬爾可夫決策過程的計算任務卸載模型;
S2、獲取當前卸載系統中物聯網設備、邊緣服務器和云服務器的狀態,具體包括:物聯網設備的任務狀況,以及各設備的計算能力和各個設備之間的傳輸帶寬;
S3:獲取學習模型,具體包括以下步驟:
S301:獲取物聯網設備任務狀態;
S302:采樣k個學習任務,初始化元策略參數φ0;
S303:采樣獲得狀態和行為的集合,評估獲得的獎勵;
S304:判斷獎勵是否收斂,或是否達到迭代次數上限,當獎勵收斂或已達到迭代次數上限時,即可獲取參數,否則繼續執行訓練;
S305:更新元策略參數;
S306:判斷是否收斂或是否達到迭代次數上限,當獎勵收斂或已達到迭代次數上限時,即可獲取學習模型,否則繼續執行訓練;
S4、獲取卸載決策,具體包括以下步驟:
S401:采樣獲得狀態和行為的集合,評估獲得的獎勵;
S402:判斷獎勵是否收斂或是否達到迭代次數上限,當獎勵收斂或已達到迭代次數上限時,即可獲取卸載決策,否則繼續執行訓練。
2.根據權利要求1所述的一種基于元強化學習算法的計算卸載方法,其特征在于所述步驟S1中的計算卸載環境模型是在物聯網設備、邊緣服務器和云服務器協作式應用場景下構建的,該場景包括:一個云服務器,多個邊緣服務器和多個物聯網設備,所述邊緣服務器用M={1,2,...,m}來表示,并由物聯網設備、邊緣服務器建立任務計算協作集群、物聯網設備和云服務器建立任務決策集群。
3.根據權利要求1所述的一種基于元強化學習算法的計算卸載方法,其特征在于所述步驟S1中的計算任務模型將每個物聯網設備中的計算程序分為連續的工作流,并定義第x個工作流由下述(a)式表示為:
Tx={υ1,e1,2,υ2,…,υi,ei,j,υj,…,en-1,n,υn}????(a);
其中,Tx表示物聯網設備中第x個工作程序;υi表示工作程序中第i個工作流;ei,j表示工作流υi和工作流υj之間需要傳輸的數據量。
4.根據權利要求1所述的一種基于元強化學習算法的計算卸載方法,其特征在于所述步驟S1中的計算任務決策模型為工作程序中每個工作流分別制定不同的卸載策略,所述不同的卸載策略由下述(b)式的矩陣變量來表示:
dx,i∈(d0,d1,d2,...,dm)????(b);
其中,dx,i表示物聯網設備中第x個工作程序中第i個工作流的卸載決策;dk(k∈[1,m])表示第i個工作流卸載到邊緣服務器k上執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210534342.6/1.html,轉載請聲明來源鉆瓜專利網。





