[發明專利]基于深度確定性策略梯度的移動邊緣計算分流決策方法有效

申請號：	201810343313.5	申請日：	2018-04-17
公開（公告）號：	CN108632862B	公開（公告）日：	2021-06-18
發明（設計）人：	黃亮;馮旭;錢麗萍;吳遠	申請（專利權）人：	浙江工業大學
主分類號：	H04W24/02	分類號：	H04W24/02;H04W28/10;H04W28/06
代理公司：	杭州斯可睿專利事務所有限公司 33241	代理人：	王利強
地址：	310014 浙江省***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于深度確定性策略梯度移動邊緣計算分流決策方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于深度確定性策略梯度的移動邊緣計算分流決策方法，其特征在于，所述方法包括以下步驟：

1)在一個由多個用戶組成，并且每個用戶都有多個獨立的任務的移動通信系統中，x_nm為用戶n的任務m的分流決策，如果x_nm為1則表示用戶n的任務m將被分流至基站或云端處理，x_nm為0則表示在本地處理；當用戶n的任務m被分流時，其上行傳輸速率和下行傳輸速率受傳輸總帶寬C_U和C_D的限制；當用戶n的任務m在本地處理時，本地移動設備所產生的能量損耗為如果在云端處理時，所產生的能量損耗為系統總損耗最小化表示為：

約束條件為：

式中：

其中，各參數定義如下：

N：用戶人數；

M：每個用戶的任務數；

x_nm：用戶n的任務m的分流決策，為1時表示在云端處理，為0時在本地處理；

用戶n的任務m在本地處理時的能量損耗；

用戶n的任務m被分流時，傳輸過程中能量損耗；

用戶n的任務m在云端處理時的能量損耗；

ρ：在云端處理時，能量損耗的轉化權重；

ω_n：用戶n延時損耗的轉化權重；

用戶n的任務m在本地處理時的延時損耗；

用戶n的任務在云端處理時的總延時損耗；

2)為了保證服務質量，當任務在云端處理時，數據從本地上傳到云端所消耗的時間以及處理時間都將被考慮在內，每個用戶n的任務由發送數據DO_nm和接收數據DI_nm組成，當任務分流至云端時，期間所消耗的時間與本地和基站間的傳輸速率R_AC相關；在云端處理時，時間消耗由發送數據大小和云端處理速度f_C決定；由于數據傳輸和處理時間會有重疊，而重疊部分難以估算，所以總的時間損耗考慮為所有時間消耗的總和

式中：

其中，各參數定義如下：

DI_nm：用戶n的任務m的接收數據大??；

DO_nm：用戶n的任務m的發送數據大?。?/p>

用戶n的上傳速度；

用戶n的下行速度；

R_AC：基站與云端的傳輸速率；

AT_nm：每處理單位的數據需要的處理循環次數；

f_C：云端處理器的處理速度；

3)通過深度確定性策略梯度方法來尋找一個最優的分流決策，即所有用戶的分流決策x_nm，該深度確定性策略梯度方法由執行單元，評分單元和環境所組成，所有用戶的分流決策x_nm都被編進了執行單元所需的狀態x_t，執行單元在當前狀態下采取動作a對分流決策x_nm進行更改并進入下一個狀態x_t+1，同時得到環境返回的獎勵r(x_t，a)，評分單元結合狀態x_t，動作a以及環境返回的獎勵r(x_t，a)給執行單元打分，即表明執行單元在狀態x_t下采取動作a是好是壞，執行單元的目標就是讓評分單元所打的分越高越好，而評分單元的目標是讓自己每次打出的分都接近真實，這可以通過獎勵r(x_t，a)來調節；在執行單元，評分單元和環境不斷交互更新下，分流決策x_nm將不斷被優化直到被更新到最優，評分單元的更新方式為：

S(x_t，a)＝r(x_t，a)+γS′(x_t+1，a′) (3)

其中，各參數定義如下：

x_t：在時刻t，系統所處狀態；

x_t+1：在時刻t+1，系統所處狀態；

a：在當前狀態執行單元所采取的動作；

a′：在下一狀態執行單元所采取的動作；

S(x_t，a)：執行單元中的評估網絡在狀態x_t下采取動作a所得到的分值；

S′(x_t+1，a′)：執行單元中的目標網絡在狀態x_t+1下采取動作a′所得到的分值；

r(x_t，a)：在狀態x_t下采取動作a所得到的獎勵；

γ：獎勵衰減比重；

4)所有用戶的分流決策x_nm作為深度確定性策略梯度方法的狀態x_t，動作a則是對狀態x_t的更改，更改后系統的總損耗會與一個設定的標準值進行比較，如果比這個標準值大則使當前獎勵r(x_t，a)設為正值，反之設為負值，同時系統進入下一狀態x_t+1。

2.如權利要求1所述的基于深度確定性策略梯度的移動邊緣計算分流決策方法，其特征在于，所述步驟4)中，深度確定性策略梯度方法的迭代過程為：