[發明專利]一種基于深度強化學習的移動邊緣計算分流決策方法有效
| 申請號: | 201810343312.0 | 申請日: | 2018-04-17 |
| 公開(公告)號: | CN108632861B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 黃亮;馮旭;錢麗萍;吳遠 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | H04W24/02 | 分類號: | H04W24/02;H04W28/10;H04W28/06 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 移動 邊緣 計算 分流 決策 方法 | ||
1.一種基于深度強化學習的移動邊緣計算分流決策方法,其特征在于,所述方法包括以下步驟:
1)在一個由多個用戶組成,并且每個用戶都有多個獨立的任務的移動通信系統中,xnm為用戶n的任務m的分流決策,如果xnm為1則表示用戶n的任務m將被分流至基站或云端處理,xnm為0則表示在本地處理;當用戶n的任務m被分流時,其上行傳輸速率和下行傳輸速率受傳輸總帶寬CU和CD的限制;當用戶n的任務m在本地處理時,本地移動設備所產生的能量損耗為如果在云端處理時,所產生的能量損耗為系統總損耗最小化表示為:
約束條件為:
式中:
其中,各參數定義如下:
N:用戶人數;
M:每個用戶的任務數;
xnm:用戶n的任務m的分流決策,為1時表示在云端處理,為0時在本地處理;
用戶n的任務m在本地處理時的能量損耗;
用戶n的任務m被分流時,傳輸過程中能量損耗;
用戶n的任務m在云端處理時的能量損耗;
p:在云端處理時,能量損耗的轉化權重;
山n:用戶n延時損耗的轉化權重;
用戶n的任務m在本地處理時的延時損耗;
用戶n的任務在云端處理時的總延時損耗;
2)為了保證服務質量,當任務在云端處理時,數據從本地上傳到云端所消耗的時間以及處理時間都將被考慮在內,每個用戶n的任務由發送數據DOnm和接收數據DInm組成,當任務分流至云端時,期間所消耗的時間與本地和基站間的傳輸速率RAC相關;在云端處理時,時間消耗由發送數據大小和云端處理速度fC決定,由于數據傳輸和處理時間會有重疊,而重疊部分難以估算,所以總的時間損耗考慮為所有時間消耗的總和
式中:
其中,各參數定義如下:
DInm:用戶n的任務m的接收數據大小;
DOnm:用戶n的任務m的發送數據大小;
用戶n的上傳速度;
用戶n的下行速度;
RAC:基站與云端的傳輸速率;
ATnm:每處理單位的數據需要的處理循環次數;
fC:云端處理器的處理速度;
3)通過強化學習算法來尋找一個最優的分流決策和資源調度方案,即所有用戶的分流決策xnm和上下行速率和分配;強化學習系統由智能體和環境所組成;所有用戶的分流決策xnm和上下行速率和都被編進了系統當前狀態xt,智能體在當前狀態下采取動作a進入下一個狀態xt+1,同時得到環境返回的獎勵r(xt,a),在智能體和環境不斷交互更新下,分流決策xnm和上下行速率和將不斷被優化直到找到最優的,智能體的更新方式為:
Qθ(xt,a)=r(xt,a)+γmaxQθ′(xt+1,a′) (3)
其中,各參數定義如下:
θ:評估網絡中的參數;
θ′:目標網絡中的參數;
xt:在時刻t,系統所處狀態;
Qθ(xt,a):在狀態xt下采取動作a所得到的Q值;
r(xt,a):在狀態xt下采取動作a所得到的獎勵;
γ:獎勵衰減比重;
4)所有用戶的分流決策xnm和上下行速率和作為深度強化學習的系統狀態xt,動作a則是對系統狀態xt的更改,如果改后的系統的總損耗比之前的要小,則使當前獎勵r(xt,a)設為正值,反之設為負值,同時系統進入下一狀態xt+1。
2.如權利要求1所述的一種基于深度強化學習的移動邊緣計算分流決策方法,其特征在于,所述步驟4)中強化學習的迭代過程為:
步驟4.1:初始化強化學習中的評估網絡,目標網絡和記憶庫,當前系統狀態為xt,t初始化為1,迭代次數k初始化為1;
步驟4.2:當k小于或等于給定迭代次數K時,隨機選擇一個概率p;
步驟4.3:如果p小于或等于ε;則選擇評估網絡所輸出的動作a(t),否則隨機選擇一個動作;
步驟4.4:采取動作a(t)后,得到獎勵r(t)和下一步狀態x(t+1),并將這些信息按照格式(x(t),a(t),r(t),x(t+1))保存在記憶庫中;
步驟4.5:結合目標網絡的輸出,計算評估網絡的目標y=r(xt,a)+γmaxQθ′(xt+1,a′);
步驟4.6:最小化誤差(y-Qθ(xt,a))2,同時更新評估網絡的參數θ,使得其下次能預測得更準;
步驟4.7:每隔S步,將評估網絡的參數賦值給目標網絡,同時令k=k+1,回到步驟4.2;
步驟4.8:當k大于給定迭代次數K時,學習過程結束,得到最佳分流決策xnm和上下行速率和
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810343312.0/1.html,轉載請聲明來源鉆瓜專利網。





