[發明專利]一種基于深度強化學習的邊緣計算主動服務方法及系統在審
| 申請號: | 202111370645.0 | 申請日: | 2021-11-18 |
| 公開(公告)號: | CN114154566A | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 繆巍巍;張明軒;曾锃;黃進;張瑞;張震;李世豪;滕昌志 | 申請(專利權)人: | 國網江蘇省電力有限公司信息通信分公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08;G06F30/27 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 許婉靜 |
| 地址: | 210024 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 邊緣 計算 主動 服務 方法 系統 | ||
1.一種基于深度強化學習的邊緣計算主動服務方法,其特征在于,包括以下步驟:
1)提取用戶特征信息,特征信息包括用戶畫像、用戶在設定期間內的應用負載、用戶位置,同時提取用戶意圖分類;
2)通過深度神經網絡預訓練意圖預判模型,所述意圖預判模型為多分類神經網絡模型,意圖預判模型的輸入為用戶畫像、用戶在設定期間內的應用負載、用戶位置,意圖預判模型的輸出為經過歸一化指數函數softmax的多分類用戶意圖概率,然后利用交叉熵損失函數優化意圖預判模型,訓練后的意圖預判模型輸出為當前的意圖的類別,同時將訓練后的意圖預判模型的倒數第二層作為表示向量,建立DDPG模型;
3)通過線上探索對DDPG模型進行優化;
4)設定強化學習的獎賞函數,如果用戶使用其中一個意圖對應的服務,則獎賞值為1,否則獎賞值為0;主動服務系統在與用戶交互過程中,根據獎賞值對用戶資源請求進行預判,選擇使得critic估值函數最大的動作,即提供相應的服務。
2.根據權利要求1所述的基于深度強化學習的邊緣計算主動服務方法,其特征在于,還包括:
5)當有用戶新增需求時,保持步驟2)中的深度神經網絡不變,修改步驟3)中actor網絡輸出和critic網絡的輸入,對新的意圖進行動態的探索,提升用戶點擊率。
3.根據權利要求1或2所述的基于深度強化學習的邊緣計算主動服務方法,其特征在于,在步驟3)中,具體步驟為:
31)通過強化學習DDPG算法實現強化學習,其中actor網絡以步驟2)獲得的表示向量作為輸入,DDPG算法輸出向用戶提供的存儲或計算服務;
32)critic網絡通過表示向量和展示的問題預測進行服務后的長期收益并通過時序差分誤差進行優化,
其中,Q代表critic網絡,s為當前的環境狀態,a為選取的服務動作,w為critic網絡的參數;s',a'分別為下一時刻的狀態和動作,r為獎賞函數,γ為折扣因子;L(w)表示優化值,E[.]為期望值,a′是使critic網絡Q(s′,a′,w)最大的值;
33)DDPG算法通過噪聲函數OUNoise進行動態探索。
4.根據權利要求1或2所述的基于深度強化學習的邊緣計算主動服務方法,其特征在于,所述DDPG模型的具體工作步驟為:
1)根據策略函數向用戶推送計算或存儲服務,在訓練時刻,對策略輸出加ounoise噪聲之后,選擇使得critic估值函數最大的動作;在測試時刻,選擇使得critic估值函數最大的動作;所述策略函數是指策略網絡的輸出值,針對每種狀態輸出相對應的動作,所述動作為推送的服務;
2)在用戶端由用戶選擇是否使用推送的服務;
3)根據用戶的選擇獲取獎賞函數,同時更新估值函數和策略函數;
4)繼續返回至步驟1)循環工作。
5.一種基于深度強化學習的邊緣計算主動服務系統,其特征在于,包括以下程序模塊;
特征提取模塊:提取用戶特征信息,特征信息包括用戶畫像、用戶在設定期間內的應用負載、用戶位置,同時提取用戶意圖分類;
神經網絡訓練模塊:通過深度神經網絡預訓練意圖預判模型,所述意圖預判模型為多分類神經網絡模型,意圖預判模型輸出為經過歸一化指數函數softmax的多分類用戶意圖概率,然后利用交叉熵損失函數優化意圖預判模型,優化后的意圖預判模型輸出為當前的意圖的類別,同時將意圖預判模型的倒數第二層作為表示向量,建立DDPG模型;
模型優化模塊:過線上探索對DDPG模型進行優化;
預判模塊:設定強化學習的獎賞函數,如果用戶使用其中一個服務,則獎賞值為1,否則獎賞值為0;在與用戶交互過程中,根據獎賞值對用戶資源請求進行預判,選擇使得critic估值函數最大的動作。
6.根據權利要求5所述的一種基于深度強化學習的邊緣計算主動服務系統,其特征在于,還包括:
提升模塊:當有用戶新增需求時,保持神經網絡訓練模塊中的深度神經網絡不變,修改模型優化模塊中actor網絡輸出和critic網絡的輸入,對新的意圖進行動態的探索,提升用戶點擊率。
7.根據權利要求5所述的一種基于深度強化學習的邊緣計算主動服務系統,其特征在于,所述DDPG模型的具體工作步驟為:
1)根據策略函數向用戶推送計算或存儲服務,在訓練時刻,對策略輸出加ounoise噪聲之后,選擇使得critic估值函數最大的動作;在測試時刻,選擇使得critic估值函數最大的動作;所述策略函數是指策略網絡的輸出值,針對每種狀態輸出相對應的動作,所述動作為推送的服務;
2)在用戶端由用戶選擇是否使用推送的服務;
3)根據用戶的選擇獲取獎賞函數,同時更新估值函數和策略函數;
4)繼續返回至步驟1)循環工作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網江蘇省電力有限公司信息通信分公司,未經國網江蘇省電力有限公司信息通信分公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111370645.0/1.html,轉載請聲明來源鉆瓜專利網。





