[發明專利]基于深度確定性策略梯度的移動邊緣計算分流決策方法有效
| 申請號: | 201810343313.5 | 申請日: | 2018-04-17 |
| 公開(公告)號: | CN108632862B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 黃亮;馮旭;錢麗萍;吳遠 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | H04W24/02 | 分類號: | H04W24/02;H04W28/10;H04W28/06 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 確定性 策略 梯度 移動 邊緣 計算 分流 決策 方法 | ||
1.一種基于深度確定性策略梯度的移動邊緣計算分流決策方法,其特征在于,所述方法包括以下步驟:
1)在一個由多個用戶組成,并且每個用戶都有多個獨立的任務的移動通信系統中,xnm為用戶n的任務m的分流決策,如果xnm為1則表示用戶n的任務m將被分流至基站或云端處理,xnm為0則表示在本地處理;當用戶n的任務m被分流時,其上行傳輸速率和下行傳輸速率受傳輸總帶寬CU和CD的限制;當用戶n的任務m在本地處理時,本地移動設備所產生的能量損耗為如果在云端處理時,所產生的能量損耗為系統總損耗最小化表示為:
約束條件為:
式中:
其中,各參數定義如下:
N:用戶人數;
M:每個用戶的任務數;
xnm:用戶n的任務m的分流決策,為1時表示在云端處理,為0時在本地處理;
用戶n的任務m在本地處理時的能量損耗;
用戶n的任務m被分流時,傳輸過程中能量損耗;
用戶n的任務m在云端處理時的能量損耗;
ρ:在云端處理時,能量損耗的轉化權重;
ωn:用戶n延時損耗的轉化權重;
用戶n的任務m在本地處理時的延時損耗;
用戶n的任務在云端處理時的總延時損耗;
2)為了保證服務質量,當任務在云端處理時,數據從本地上傳到云端所消耗的時間以及處理時間都將被考慮在內,每個用戶n的任務由發送數據DOnm和接收數據DInm組成,當任務分流至云端時,期間所消耗的時間與本地和基站間的傳輸速率RAC相關;在云端處理時,時間消耗由發送數據大小和云端處理速度fC決定;由于數據傳輸和處理時間會有重疊,而重疊部分難以估算,所以總的時間損耗考慮為所有時間消耗的總和
式中:
其中,各參數定義如下:
DInm:用戶n的任務m的接收數據大??;
DOnm:用戶n的任務m的發送數據大?。?/p>
用戶n的上傳速度;
用戶n的下行速度;
RAC:基站與云端的傳輸速率;
ATnm:每處理單位的數據需要的處理循環次數;
fC:云端處理器的處理速度;
3)通過深度確定性策略梯度方法來尋找一個最優的分流決策,即所有用戶的分流決策xnm,該深度確定性策略梯度方法由執行單元,評分單元和環境所組成,所有用戶的分流決策xnm都被編進了執行單元所需的狀態xt,執行單元在當前狀態下采取動作a對分流決策xnm進行更改并進入下一個狀態xt+1,同時得到環境返回的獎勵r(xt,a),評分單元結合狀態xt,動作a以及環境返回的獎勵r(xt,a)給執行單元打分,即表明執行單元在狀態xt下采取動作a是好是壞,執行單元的目標就是讓評分單元所打的分越高越好,而評分單元的目標是讓自己每次打出的分都接近真實,這可以通過獎勵r(xt,a)來調節;在執行單元,評分單元和環境不斷交互更新下,分流決策xnm將不斷被優化直到被更新到最優,評分單元的更新方式為:
S(xt,a)=r(xt,a)+γS′(xt+1,a′) (3)
其中,各參數定義如下:
xt:在時刻t,系統所處狀態;
xt+1:在時刻t+1,系統所處狀態;
a:在當前狀態執行單元所采取的動作;
a′:在下一狀態執行單元所采取的動作;
S(xt,a):執行單元中的評估網絡在狀態xt下采取動作a所得到的分值;
S′(xt+1,a′):執行單元中的目標網絡在狀態xt+1下采取動作a′所得到的分值;
r(xt,a):在狀態xt下采取動作a所得到的獎勵;
γ:獎勵衰減比重;
4)所有用戶的分流決策xnm作為深度確定性策略梯度方法的狀態xt,動作a則是對狀態xt的更改,更改后系統的總損耗會與一個設定的標準值進行比較,如果比這個標準值大則使當前獎勵r(xt,a)設為正值,反之設為負值,同時系統進入下一狀態xt+1。
2.如權利要求1所述的基于深度確定性策略梯度的移動邊緣計算分流決策方法,其特征在于,所述步驟4)中,深度確定性策略梯度方法的迭代過程為:
步驟4.1:初始化深度確定性策略梯度方法中的執行單元,評分單元和記憶庫,當前系統狀態為xt,t初始化為1,迭代次數k初始化為1;
步驟4.2:當k小于或等于給定迭代次數K時,在狀態xt下,執行單元預測出一個動作a;
步驟4.3:動作a對狀態xt進行更改,使其變成下一狀態xt+1并得到環境所反饋的獎勵r(xt,a);
步驟4.4:按照格式(xt,a,r(xt,a),xt+1)把歷史經驗保存在記憶庫中;
步驟4.5:評分單元接收動作a,狀態xt和獎勵r(xt,a),給執行單元打出分數S(xt,a);
步驟4.6:執行單元通過更新自身參數不斷去最大化分數S(xt,a),盡可能地讓自己在下次能做出高分動作;
步驟4.7:評分單元抽取記憶庫中的歷史經驗,不斷學習,更新參數使得自己所打的分盡可能準確,同時k=k+1,回到步驟5.2;
步驟4.8:當k大于給定迭代次數K時,學習過程結束,得到最佳分流決策xnm。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810343313.5/1.html,轉載請聲明來源鉆瓜專利網。





