[發明專利]一種基于聯邦強化學習的移動邊緣計算卸載方法和平臺有效
| 申請號: | 202211619600.7 | 申請日: | 2022-12-15 |
| 公開(公告)號: | CN115756873B | 公開(公告)日: | 2023-10-13 |
| 發明(設計)人: | 張鑫云;任爽 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06N3/08;G06N3/098;G06N3/084 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 劉源 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聯邦 強化 學習 移動 邊緣 計算 卸載 方法 平臺 | ||
1.一種基于聯邦強化學習的移動邊緣計算卸載方法,其特征在于,包括:
獲取用于認知計算所需的觀測數據;
基于所述觀測數據,利用基于聯邦學習的分布式DDQN算法進行認知計算,訓練DRL智能體,獲得移動邊緣計算卸載模型,并通過移動邊緣計算卸載模型計算獲得移動邊緣計算卸載策略;
通過所述移動邊緣計算卸載策略,處理移動設備的邊緣計算卸載請求,進行通信資源和計算資源的調度。
2.根據權利要求1所述的方法,其特征在于,所述觀測數據包括:網絡狀態迭代輪數T,狀態特征維度n,動作集合A,步長α,衰減因子γ,探索概率ε,當前的Q網絡Q,目標Q網絡Q′,批量梯度下降的樣本數m,Q′網絡參數的更新頻率C,學習率η;
所述的基于所述觀測數據,利用基于聯邦學習的分布式DDQN算法進行認知計算,訓練DRL智能體,獲得移動邊緣計算卸載模型包括:
初始化模型參數θ0;
通過如下過程對t從1到T進行迭代;
初始化網絡狀態S為當前狀態序列的第一個狀態,獲得與網絡狀態S對應的特征向量φ(S);
在網絡Q中使用φ(S)作為輸入,得到網絡Q的所有動作對應的Q值輸出,利用ε-greedy策略在當前Q值輸出中選擇對應的動作集合A;
在網絡狀態S執行當前動作集合A,獲得新的網絡狀態S′、與所述新的網絡狀態S′對應的特征向量φ(S′)以及獎勵R;所述獎勵R通過計算即時效用函數式獲得,式中,te表示計算任務的執行延遲,tp表示計算任務的排隊延遲,表示移動設備Ni的資源消耗量,C表示計算任務丟棄或失敗的次數;
基于當前動作集合A,獲得新的網絡狀態S′、與所述新的網絡狀態S′對應的特征向量φ(S′)、獎勵R,加入是否終止狀態is_end獲得五元組{φ(S),A,R,φ(S′),is_end},并存入經驗回放集合D中;
令S=S′;
從經驗回放集合D中采樣獲得{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m,從{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m中得到m個樣本,通過式
計算當前目標Q值yj;
使用均方差損失函數并通過神經網絡的梯度反向傳播來更新Q網絡的所有參數θ;
如果i%C=1,則更新Q′網絡參數θ′=θ;
如果S′是終止狀態,則當前輪迭代終止,進行聯邦參數更新,輸出移動邊緣計算卸載策略否則,返回執行上述第二個子步驟;式中,πc(S)用于決定移動設備的選擇其中,c=0表示移動設備選擇在本地執行計算卸載任務,c∈M表示移動設備選擇通過某個無線信道Mi來將計算卸載任務分配到邊緣節點,πe(S)表示通過πc(S)選擇分配的計算卸載任務c∈M或選擇本地計算卸載任務c=0所需的資源量。
3.根據權利要求2所述的方法,其特征在于,最后一個子步驟中所述的進行聯邦參數更新的過程包括:
在每一輪的迭代的步驟t中,邊緣節點發送當前全局模型參數θt給移動設備
對移動設備進行隨機抽樣,獲得抽樣子集
對于不屬于中的移動設備,根據θt,通過隨機梯度下降式更新模型參數;式中,η為學習率,l為優化目標;
對于屬于中的移動設備,根據θt,通過隨機梯度下降式更新模型參數,然后通過式將上傳至邊緣節點進行平均形成新的全局模型參數θt+1;式中,t表示迭代次數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211619600.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:風險評估方法、裝置、設備及存儲介質
- 下一篇:一種園路路面鋪裝工藝





