[發明專利]一種使用深度強化學習進行移動邊緣計算的任務遷移方法有效
| 申請號: | 201910672308.3 | 申請日: | 2019-07-24 |
| 公開(公告)號: | CN110347495B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 張成;古博;馬良 | 申請(專利權)人: | 張成 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06N3/092;G06N3/084;G06N7/01 |
| 代理公司: | 佛山市海融科創知識產權代理事務所(普通合伙) 44377 | 代理人: | 陳志超;唐敏珊 |
| 地址: | 201612 上海市松江*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 使用 深度 強化 學習 進行 移動 邊緣 計算 任務 遷移 方法 | ||
1.一種使用深度強化學習進行移動邊緣計算的任務遷移方法,其特征在于,具體包括以下步驟:
步驟S1:設定系統模型各參數,包括以下步驟:
步驟S11:定義邊緣計算服務基站位置集合為;
步驟S12:定義服務時間片段集合為;
步驟S13:在t時刻,,定義用戶連接的服務基站位置為;
步驟S14:定義t時刻距離用戶最近的服務基站位置為;
步驟S15:定義式1為兩基站的距離;
步驟S2:采用馬爾可夫決策過程描述強化學習中的決策公式,決策的智能體為裝載于用戶終端的一種云計算控制裝置,該云計算控制裝置可決定是否進行任務遷移,包括以下步驟:
步驟S21:定義t時刻智能體的狀態為式2,為用戶當前使用基站與考慮任務遷移基站的距離之差;
步驟S22:定義智能體的動作集合為式3,代表不做任務遷移,代表進行任務遷移;
步驟S23:定義t時刻智能體的動作為式4;
步驟S24:定義t時刻服務質量函數為式5;其中意為用戶在t時刻獲得的服務質量;D代表了當前使用基站正好離用戶最近的情況下的服務質量,即;而λ為一常數,衡量了對服務質量的影響程度;
步驟S25:定義t時刻代價函數為式6,其中,代表了任務遷移時產生的時間能量等消耗,其與距離有關,代價函數代表了智能體不同動作所需付出的代價;
步驟S26:定義t時刻獎勵函數式7;
步驟S27:定義t時刻的決策動作為式8,意為狀態下智能體做出的動作函數;
步驟S28:定義t時刻決策動作后的狀態為;
步驟S29:定義所有時刻的集合為;
步驟S210:定義最佳決策下所有時刻獎勵函數的最大值為式9,其中代表折扣因子;
步驟S211:利用時間差分算法使系統探索最優決策,由貝爾曼方程可得迭代公式為式10;
步驟S212:利用Q學習方法可得到最優Q值式11;
步驟S3:基于公式給出任務遷移算法,包括以下步驟:
步驟S31:引入評估參數,使得最優Q值式12,其中代表貝爾曼方程中的可調參數;
步驟S32:更換得到迭代優化目標函數為式13,其中代表上一次迭代的值;
步驟S33:得到代價函數為式14,對式14微分處理后得到代價函數梯度為式15;
步驟S34:得到參數迭代方程為式16,其中,代表學習率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張成,未經張成許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910672308.3/1.html,轉載請聲明來源鉆瓜專利網。





