[發明專利]一種基于注意力機制強化學習的邊緣網絡設備緩存方法有效
| 申請號: | 202110672219.6 | 申請日: | 2021-06-17 |
| 公開(公告)號: | CN113411826B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 王曉飛;賈博森;趙益尉;李銳斌;王晨陽 | 申請(專利權)人: | 天津大學 |
| 主分類號: | H04W24/06 | 分類號: | H04W24/06;H04W28/14 |
| 代理公司: | 濟南光啟專利代理事務所(普通合伙) 37292 | 代理人: | 鄒文婷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 強化 學習 邊緣 網絡設備 緩存 方法 | ||
1.一種基于注意力機制強化學習的邊緣網絡設備緩存方法,其特征在于,包括如下步驟:
S1,建立蜂窩網絡模型,所述蜂窩網絡模型包括用戶設備、邊緣網絡設備和核心網絡,每個邊緣網絡設備中均設有行動網絡模塊和評價網絡模塊,所述行動網絡模塊用于觀察邊緣網絡設備的觀測值,并根據觀測值和緩存替換策略選取動作,所述評價網絡模塊利用注意力機制評估動作價值函數;
S2,邊緣網絡設備接收所在區域內的用戶設備發出的請求;
S3,每個邊緣網絡設備獲取其它邊緣網絡設備的觀測值;
S4,每個邊緣網絡設備依據緩存替換策略和觀測值選取動作;
所述緩存替換策略為其中,ai表示第i個邊緣網絡設備的動作值,oi表示第i個邊緣網絡設備的觀測值,θi表示第i個邊緣網絡設備的行動網絡模塊的參數;
S5,邊緣網絡設備發送動作和更新后的狀態到鄰接邊緣網絡設備;
所述動作是指緩存替換內容的編號,所述更新后的狀態是指采取步驟S4的動作后邊緣網絡設備的緩存列表;
S6,根據動作更新后的觀測值和動作價值函數對行動網絡模塊和評價網絡模塊的參數進行更新,包括如下步驟:
S6.1,根據動作更新后的觀測值和動作價值函數計算所有邊緣網絡設備的已采取動作的價值其中,o1...e表示所有邊緣網絡設備的觀測值,a1...e表示所有邊緣網絡設備的動作值,Ψi表示第i個邊緣網絡設備的評價網絡模塊的參數;
所述動作價值函數的計算公式為:
式中,o表示當前邊緣網絡設備與其鄰接邊緣網絡設備的觀測值,a表示當前邊緣網絡設備與其鄰接邊緣網絡設備的動作值,σi為多層感知器,ei表示嵌入向量,Atti表示合作單元;
所述合作單元Atti的計算公式為:
式中,ζj表示具有嵌入向量ei和嵌入向量ej輸入的影響單元,υj是通過嵌入向量ej線性變換得到;
S6.2,基于每個邊緣網絡設備的當前緩存替換策略計算邊緣網絡設備的第一預采取動作值其中,o′i表示邊緣網絡設備若采取第一預采取動作所對應的觀測值;
S6.3,利用動作價值函數計算所有邊緣網絡設備的第一預采取動作的價值其中,o′1...e表示所有邊緣網絡設備若采取第一預動作對應的觀測值,a′1...e表示所有邊緣網絡設備的第一預動作值;
S6.4,根據第一損失函數利用梯度下降更新評價網絡模塊;
所述第一損失函數的計算公式為:
式中,yi表示第一預采取動作的價值,L(ψi)表示第一損失函數,表示當前邊緣網絡設備的已采取動作的價值;
所述預采取動作的價值yi的計算公式為:
式中,ri表示當前已獲得的行動獎勵,γ表示折扣率,ρ表示平衡系數;
S6.5,基于每個邊緣網絡設備的當前緩存替換策略重新計算每個邊緣網絡設備的第二預采取動作值其中,o″i表示所有邊緣網絡設備若采取第二預動作對應的觀測值;
S6.6,利用動作價值函數計算所有邊緣網絡設備的第二預采取動作的價值其中,o″1...e表示所有邊緣網絡設備若采取第二預動作對應的觀測值,a″1...e表示所有邊緣網絡設備的第二預動作值,表示更新后的評價網絡模塊的參數;
S6.7,對行動網絡模塊的梯度進行更新以更新行動網絡模塊;
所述對行動網絡模塊的梯度進行更新的公式為:
式中,表示緩存替換策略,表示優勢函數,為整體損失函數;
S7,根據目標函數對緩存替換策略進行優化,所述目標函數的公式為:
max G;
目標函數的約束條件:
h(Ei,Ej)≥0;
υ,δ≥0;
式中,G表示整個模型的獎勵,υ、δ均為參數,h(Ei,Ej)表示邊緣網絡設備Ei與邊緣網絡設備Ej之間的距離,且i,j∈{1,2,...,e},若xreq(u)i=1代表用戶u發出的請求已被緩存在邊緣網絡設備Ei中,若xreq(u)i=0代表用戶u發出的請求需要被鄰接邊緣網絡設備或核心網絡處理,ni表示邊緣網絡設備Ei總緩存容量的最大值,表示邊緣網絡設備Ei中單個緩存內容的大小;
所述整個模型的獎勵G的計算公式為:
式中,Ei表示第i個邊緣網絡設備,Ui表示第i個邊緣網絡設備服務范圍內的用戶列表,表示邊緣網絡設備與核心網絡之間的回程鏈路的傳輸消耗,E表示邊緣網絡設備的集合;
其中,Δ的計算公式為:
式中,表示邊緣網絡設備Ei與邊緣網絡設備Ej之間的設備傳輸消耗,xreq(u)j表示用戶u發出的請求已被緩存在其它邊緣網絡設備的概率,表示用戶u向邊緣網絡設備發送請求req(u)時,請求req(u)未被當前邊緣網絡設備緩存,并決定替換緩存內容f時的緩存替換消耗,|E|表示邊緣網絡設備的數量,代表除去邊緣網絡設備Ei,用戶u請求的內容在其他某個邊緣網絡設備中有緩存,代表在所有邊緣網絡設備中用戶u所請求的內容均未被緩存;
所述邊緣網絡設備與核心網絡之間的回程鏈路的傳輸消耗的計算公式為:
式中,表示回程鏈路的單元傳輸消耗,ωEh表示請求內容未被邊緣網絡設備緩存的概率;
所述邊緣網絡設備Ei與邊緣網絡設備Ej之間的設備傳輸消耗的計算公式為:
式中,υ表示參數,且υ為正常數;
所述替換緩存內容時的緩存替換消耗的計算公式為:
式中,δ表示參數,且δ為正常數,cr表示被替換緩存內容f的大小,cc表示新緩存內容的大小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110672219.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種顯示設備
- 下一篇:一種磁性鉻離子螯合劑的制備方法及所得產品和應用





