[發明專利]車載內容中心網絡下基于聯邦學習的邊緣預緩存策略在審
| 申請號: | 202110149492.0 | 申請日: | 2021-02-03 |
| 公開(公告)號: | CN113158544A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 姚琳;李兆洋;吳國偉 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N20/00 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 車載 內容 中心 網絡 基于 聯邦 學習 邊緣 緩存 策略 | ||
1.一種車載內容中心網絡下基于聯邦學習的邊緣預緩存策略,其特征在于,步驟如下:
(1)首先在車載網的動態環境下采集內容請求的數據和對應車輛移動信息,對部署在RSU上的深度增強學習智能體進行訓練,在給定條件下做出最有利于降低請求時延的決策;DRL智能體的訓練過程首先需要對狀態空間、動作空間和回報函數進行定義:
(1.1)狀態空間主要由兩部分組成,一部分是車輛的移動狀態,一部分是內容的請求概率;其中車輛的移動狀態包含當前車輛當前的位置和一個時間片后可能到達的位置;當前的位置是容易獲得的,但可能到達的位置并不能準確預測,因此采用馬爾可夫鏈根據車輛的歷史路徑對車輛可能到達的位置進行預測,并將預測結果作為狀態空間的組成部分;內容的請求概率也分為兩類,一類是內容的流行度,另一類是基于車輛當前請求的內容預測的下一個可能請求的內容;
(1.2)為了避免動作空間過于膨脹,DRL智能體被限制一次只能選擇一個內容預存入緩存當中,再把這個選擇重復多次以達到將高優先級的內容都存入緩存;為了進一步提高效率,根據內容流行度進一步縮小可選內容的范圍,只有流行度高于閾值的內容才能作為預緩存的對象;
(1.3)用緩存命中率來表征DRL智能體的工作效率,為了兼顧短期收益與長期收益,回報函數通過指數加權平均命中率表示:
其中,ri表示從當前開始往后第i個時間片的命中率,w∈(0,1)為指數加權因子,w越大,則回報函數隨時間衰減的收益越少;
(2)在定義了狀態空間、動作空間和回報函數之后,就可構建智能體的深度學習框架并進行訓練;本方法采用的深度強化學習框架由以下幾部分組成:
(2.1)actor網絡定義為一個參數為θμ的函數,是一個由狀態空間到動作空間的映射;給定一個狀態空間的狀態,actor網絡根據自身的參數計算出對應的一個動作空間中的原始動作作為輸出;
(2.2)采用K-最近鄰的方法將生成的動作擴展為一組動作,即一個動作空間中有效動作的集合,其中的每一個元素都可能作為將要執行的動作;
(2.3)為了避免選取到低Q值的動作,還需要定義一個critic網絡對actor網絡的輸出進行限制,并更新actor網絡的參數;其確定性目標策略如下:
其中,st表示t時刻的狀態,at表示t時刻采取的動作,θQ和θμ分別表示critic網絡和actor網絡的參數,表示在環境E的條件下方括號內數值的期望,r(st,at)表示在狀態st下采取動作at帶來的回報,γ∈(0,1]為未來累積回報的權重衰減系數,μ(st+1|θμ)表示基于actor網絡和t+1時刻的狀態得到的動作;對于上一步生成的動作集合中的每一個可能的動作,critic網絡根據當前的狀態和下一個狀態計算對應的Q值,其中取得最大值的動作將被選為執行動作;
隨后通過最小化損失函數對critic網絡進行更新,損失函數的定義為:
其中yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′),i表示選取的第i條記錄,Q′及μ′代表這條記錄對應的狀態轉移發生之前的critic和actor網絡;
利用采樣策略梯度對actor網絡的參數進行更新:
即根據鏈式法則對actor網絡的參數θμ求梯度,其中為critic網絡對狀態si條件下采取的動作a=μ(si)求梯度,為actor網絡對參數θμ求梯度;
(3)本方法采用聯邦學習的架構,由各個RSU分別在本地采集數據并對給定的網絡進行訓練,而后定期上傳模型參數至遠程服務器;遠程服務器進行聯邦平均,得到更新后的模型參數并重新下發給各RSU;聯邦學習的流程如下:
(3.1)首先遠程服務器初始化一個深度增強學習智能體的模型,為當前actor網絡和critic網絡賦予隨機的參數初值;隨后遠程服務器將這個模型分發給區域內各個RSU;
(3.2)RSU在接收到模型后開始進行模型訓練,訓練過程同步驟(2),如果有可供采用的歷史數據,處理后用于模型訓練,同時接收到模型之后系統運行中獲得的新數據對模型進一步更新;
(3.3)經過一段時間的訓練之后,各個RSU將自己訓練過的模型回傳到遠程服務器,由遠程服務器進行聯邦平均,考慮到不同的RSU所處位置不同,因此車流量也其具體計算方式如下:
其中,θt+1表示迭代一輪之后的網絡參數,K為參與聯邦學習的RSU總數,n為本次迭代的單獨訓練期間各RSU接收到的總的請求數,nk則為第k個RSU接收到的請求數,表示第k個RSU訓練后的參數。整個過程循環進行,直至模型參數保持穩定;
(3.4)遠程服務器將訓練后的模型重新分發給各RSU,各RSU用統一的智能體指導緩存操作;
(4)步驟(1)中提到DRL智能體一次只選擇一個內容進行預緩存,然后通過多次重復將多個可能的內容進行預緩存;因此實際上一個預緩存內容即對應一個動作的Q值;在此基礎上,為了降低多個臨近RSU存儲相同內容造成的空間浪費,每個RSU在計算各個動作的Q值時,首先與臨近RSU交換自己的緩存列表,如果一個內容存在于多個臨近RSU,則額外降低該動作的優先級,具體計算方式為:其中nd為臨近RSU中該內容存在的個數;RSU根據調整后的Q值重新對各個內容進行排序,然后依次將符合條件的內容預緩存。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110149492.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動鉚合機
- 下一篇:系列木脂素類化合物、藥物組合物、制備方法及應用
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





