[發明專利]基于TD3算法的計算卸載分配方法和裝置有效
| 申請號: | 202011251177.0 | 申請日: | 2020-11-11 |
| 公開(公告)號: | CN112600869B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 趙莎莎;秦立丹;張登銀;孫晨輝;周曉宇;朱子潔;何培源 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | H04L67/10 | 分類號: | H04L67/10;H04L67/101;H04L67/1023;G06N20/00;G06N3/08;G16Y20/30 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 丁朋華 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 td3 算法 計算 卸載 分配 方法 裝置 | ||
本發明公開了一種基于TD3算法的計算卸載分配方法和裝置,包括步驟:獲取計算卸載系統狀態,將計算卸載系統狀態輸入預先訓練好的計算卸載TD3網絡的演員當前網絡,得到計算卸載比例和計算卸載發射功率;所述計算卸載系統狀態包括:物聯網設備到邊緣服務器的信道增益、物聯網設備的電池電量和可收集的可再生能源能量。本發明通過深度強化學習方法,確定設備最優卸載策略,并且利用能量收集降低智能設備能耗。
技術領域
本發明屬于移動通信與深度強化學習領域,具體涉及一種基于TD3算法的計算卸載分配方法和裝置。
背景技術
在過去的幾年里,計算機視覺、自然語言處理、增強現實等新興的技術的出現,都要求大量的計算任務和盡可能低的時延,這往往超過了現有IoT(物聯網)設備的計算能力。計算卸載被認為是解決這一問題的有效方法之一。計算卸載是指將計算任務卸載到邊緣網絡的高性能服務器上處理,再把處理結果從代理服務器上取回,從而達到降低計算時延的方法。
其次,對于IoT設備的電量供應問題,特別是在偏遠地區和危險地區提供可靠和穩定的電網電力供應成本極高,甚至不可行。但是隨著新能源收集技術的發展,從熱、風能、太陽能等可再生能源中獲取電能被視為該領域邊緣系統的主要甚至唯一的電能供應。
強化學習作為機器學習的一個重要分支,其中智能代理與環境進行交互,可通過環境控制到獲得最大獎勵值來優化動作。計算卸載模型通常可以描述為馬爾科夫過程(MDP,Markov Decision Processes),使用強化學習處理計算卸載具有廣泛的應用前景。相比深度學習對高維信息具有較強的感知能力,強化學習對高維信息感知能力較差。因此,深度強化學習將深度學習與強化學習結合起來為解決復雜的決策感知問題提供了有效方案。目前基于深度強化學習的計算卸載方法存在通信時延和能量消耗過大問題,這是因為文獻中的深度強化學習對狀態動作值的過高估計導致計算卸載決策不合理以及算法不穩定,例如卸載比例、執行卸載的發射功率不合理。
雙延遲深度確定性策略梯度算法(TD3,Twin Delayed Deep Deterministicpolicy gradient algorithm)是在深度確定性策略梯度算法(DDPG,Deep Deterministicpolicy gradient)基礎上提出的優化算法。TD3算法是一種面向連續動作空間基于演員—批評家架構的深度強化學習算法。演員網絡根據系統狀態做出動作決策,批評家網絡估計這一狀態動作對的價值,價值指導動作決策,不斷迭代優化這一過程。但在其他深度強化學習算法包括DDPG中,批評家網絡會過高地估計動作狀態值,導致動作決策次優等問題。TD3算法中采用兩套批評家網絡—批評家網絡1和批評家網絡2,最終的狀態動作價值采取兩者的較小值,從而抑制過估計,實現最優動作決策。在這一過程中,通過更新演員網絡和批評家網絡的參數,演員網絡不斷迭代,優化不同狀態下的動作決策,批評家網絡也不斷迭代,完善每個狀態下選擇每一個動作的價值。
發明內容
本發明目的:本發明提供了一種基于TD3算法的計算卸載分配方法和裝置,解決了現有計算卸載存在的卸載比例、執行卸載的發射功率不合理問題。
本發明提供的技術方案如下:一種基于TD3算法的計算卸載分配方法,包括步驟:
獲取計算卸載系統狀態,將計算卸載系統狀態輸入預先訓練好的計算卸載TD3網絡的演員當前網絡,得到計算卸載比例和計算卸載發射功率;
所述計算卸載系統狀態包括:物聯網設備到邊緣服務器的信道增益、物聯網設備的電池電量和可收集的可再生能源能量。
進一步的,在t+1時隙,物聯網設備的電池電量bt+1表達為:
為本地物聯網設備執行計算任務需要的能量消耗,為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011251177.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種污水過濾裝置
- 下一篇:一種用于區域光伏電站的運維檢修方法及系統





