[發明專利]一種基于多智能體深度強化學習的車聯網邊緣緩存方法有效
| 申請號: | 202110332326.4 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113094982B | 公開(公告)日: | 2022-12-16 |
| 發明(設計)人: | 張德干;倪辰昊;張婷;杜金玉;張捷;陳露 | 申請(專利權)人: | 天津理工大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/04;G06N3/08;G06N7/00;H04L67/568;H04L67/1074;G06F111/04;G06F111/08 |
| 代理公司: | 天津佳盟知識產權代理有限公司 12002 | 代理人: | 林玉慧 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 深度 強化 學習 聯網 邊緣 緩存 方法 | ||
1.一種基于多智能體深度強化學習的車聯網邊緣緩存方法,其特征在于該方法包括如下步驟:
第1、系統模型與數學模型的構建:
第1.1、建立系統模型;
第1.2、建立內容緩存數學模型;
第1.3、建立內容獲取數學模型;
第2、建立基于多智能體的執行者-評價家結構的協同內容分發的邊緣緩存策略:
第2.1、策略設計;
第2.2、訓練分布式執行的多智能體執行者-評價家框架;
第2.3、基于多智能體強化學習的協同內容分發的邊緣緩存算法的描述,方法如下:
步驟1:初始化狀態空間,每個智能體的目標策略網絡,主價值網絡和主策略網絡的參數,智能體的個數,智能體的最大緩存容量,內容集合,采樣批次大小;
步驟2:初始化一個隨機過程以便進行探索,初始化接收的狀態空間;
步驟3:按照Zipf分布獲得內容的流行度并且按照流行度請求內容;
步驟4:每個智能體根據自己的策略網絡以及過程中的噪聲選擇動作并執行,
步驟5:執行動作后判斷緩存的內容是否超出了緩存容量,若超出了,刪除緩存區中流行度較低的內容,并獲得環境獎勵和新的觀測空間,將每個智能體的當前狀態、執行動作、獎勵、下一狀態存入到對應的經驗回放池中;
步驟6:將新的環境觀測空間賦值給原來的觀測結果,從經驗回放池P中隨機選擇p條數據,每個智能體根據公式更新策略網絡的參數和價值網絡的參數,并更新每個智能體的目標網絡的參數。
2.如權利要求1所述的基于多智能體深度強化學習的車聯網邊緣緩存方法,其特征在于,步驟第1.1中建立的系統模型由1個宏基站(MBS)、多個路邊單元(RSU)和多輛車輛組成;車輛間可以相互通信也可以緩存部分內容,考慮在不同的RSU覆蓋范圍下的內容具有不同的流行度,因此需要考慮不同的RSU覆蓋范圍下的車輛,各個RSU覆蓋范圍內的車輛到相應的RSU的位置服從泊松分布,每個內容f都由3個特征來進行描述,其中sf表示內容f的大小,df表示內容f的最大容忍交付時延,ρf表示內容f的流行度;另外,為每個內容分配一個唯一的索引,并在車輛請求內容時將該索引用作內容ID;MBS中緩存了所有車輛請求的內容,并在MBS上部署一個中央控制器,充當所有邊緣服務器的管理器,存儲著交互和同步信息;RSU和車輛都具有邊緣緩存能力,減少內容交付過程中的時延。
3.如權利要求2所述的基于多智能體深度強化學習的車聯網邊緣緩存方法,其特征在于,步驟第1.2中建立內容緩存數學模型的方法如下,所有內容的流行度遵循Zipf分布,內容用集合F={1,2,3,......,F}表示,所以車輛請求內容f的概率表示為:
其中,ρf表示內容f的流行度,ε是控制內容相對流行的內容請求系數,該系數越大表示內容重復使用率越高;在該模型中MBS緩存了用戶需要的所有內容,并且在MBS中部署有中央控制器,存儲著其管理范圍內的所有車輛和RSU的緩存內容,用矩陣表示為:
其中,
j≠0的情況,j表示車輛的編號,表示車輛的緩存情況:
j=0的情況,j為標簽,表示RSU的緩存情況:
當車輛發出內容請求時,如果本地沒有緩存則車輛或者接受請求的RSU根據自身緩存的內容自主決策是緩存內容還是保持原狀不變;其中RSU用集合R={r1,r2,r3,......,rI}表示,ri覆蓋下的車輛用集合表示,車輛的緩存決策用cafi,j表示:
另外,由于車輛和RSU具有有限的緩存容量,緩存的內容總量不能超過車輛和RSU的緩存能力,表示車輛緩存容量,表示RSU緩存容量,即滿足下述約束條件:
其中sf表示內容f的大小,當車輛或者RSU的緩存空間已滿時,為了提高內容命中率并減少內容分發過程中的時延,采取的策略是刪除已緩存的內容中流行度較低的內容,內容的流行度可以通過Zipf分布得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津理工大學,未經天津理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110332326.4/1.html,轉載請聲明來源鉆瓜專利網。





