[發明專利]霧無線接入網中基于策略的聯邦強化學習的協作緩存方法在審
| 申請號: | 202111270116.3 | 申請日: | 2021-10-29 |
| 公開(公告)號: | CN113992770A | 公開(公告)日: | 2022-01-28 |
| 發明(設計)人: | 蔣雁翔;王宇 | 申請(專利權)人: | 東南大學 |
| 主分類號: | H04L69/24 | 分類號: | H04L69/24;H04L67/10;H04L67/568;G06N20/00 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 孫建朋 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 無線 接入 基于 策略 聯邦 強化 學習 協作 緩存 方法 | ||
1.一種霧無線接入網中基于聯邦深度確定性策略梯度學習協作緩存方法,其特征在于,包括以下步驟:
步驟1、根據全局內容流行度P(0),初始化總緩存內容狀態s(0),單個訓練周期步長l,模型的總周期數T,模型的網絡參數,包括在線Q值網絡Q(s,a|θQ)的參數θQ,在線策略網絡μ(s|θμ)的參數θμ以及目標Q值網絡Q′(s,a|θQ′)的參數θQ′和目標策略網絡μ′(s|θμ′)的參數θμ′,其中s代表輸入網絡的狀態參數,a代表輸入網絡的動作選擇參數,此外初始化的目標Q值網絡參數θQ′等于初始化的在線Q值網絡參數θQ,初始化的目標策略網絡參數θμ′等于θμ;
步驟2、選取流行度估計算法計算時隙t的全局內容流行度P(t),其中Pf(t)為內容f的流行度;各個基站作為緩存節點,收集用戶的內容請求信息,并基于所有基站的本地內容緩存狀態集合,做出動作選擇,獲取下一狀態;
步驟3、基于步驟2緩存節點做出的動作選擇和周期內的內容流行度計算出用戶的內容平均請求延遲DF-U(t),DF-F-U(t)和DC-F-U(t),其中DF-U(t)表示用戶直接從本地緩存節點獲取它的請求內容所產生的請求延遲,DF-F-U(t)表示用戶需要從鄰近的緩存節點獲取它的請求內容所產生的請求延遲,DC-F-U(t)表示用戶需要從云端服務器獲取它的請求內容所產生的請求延遲;
步驟4、計算步驟3中不同內容獲取方式下該狀態動作對的獎勵值;
步驟5、將轉換組存入經驗回放池中,并從經驗回放池中隨機采樣轉換組用于網絡參數更新,更新完畢后進入下個時隙;
步驟6、一個訓練周期結束后,上傳各個緩存節點的模型網絡參數至云端,并在云端生成全局網絡參數分發給各節點,進入下一個訓練周期。
2.根據權利要求1所述的霧無線接入網中基于策略的聯邦強化學習的協作緩存方法,其特征在于,所述步驟2具體包括以下步驟:
步驟2.1、在每個緩存節點中的本地在線策略網絡μ(s|θμ)根據當前的總緩存狀態s(t)生成動作選擇a(t),即a(t)=μ(s(t)|θμ)其中s(t)={s1(t),...,sn(t),...,sN(t)},N表示霧網絡中緩存節點的總個數,sn(t)=[n1,n2,...,nc,...,nC],為在第t個時隙,緩存節點n的狀態空間,nc表示內容c在緩存節點n中的緩存索引,F表示內容庫中內容的總個數;
步驟2.2、若緩存節點n在時隙t收到某內容請求,將該內容記為f,將在時隙t該節點未緩存的流行度最高的內容記為f′;該節點根據a(t)執行緩存替換動作,將C記為此節點的緩存容量;執行替換動作時有如下三類情況:若f已緩存在該節點,a(t)=c,c≠C+1表示節點n將其緩存的nc內容替換為f′;若f未緩存在該節點,a(t)=c,c≠C+1表示節點n將其緩存的nc內容替換為f;a(t)=C+1表示節點n在第t個時隙不做緩存內容的替換;
步驟2.3、緩存節點n完成步驟2.2的緩存替換后,更新其本地狀態空間,并且將其狀態空間中的緩存內容索引按流行度進行降序排序,獲得下一時隙t+1的狀態空間sn(t+1),綜合各節點的狀態空間獲取總的新狀態空間s(t+1)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111270116.3/1.html,轉載請聲明來源鉆瓜專利網。





