[發明專利]一種基于深度強化學習的移動預測無線邊緣緩存方法有效
| 申請號: | 202011620501.1 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112752308B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 吳長汶;辛基梁;鄭建武 | 申請(專利權)人: | 廈門越人健康技術研發有限公司 |
| 主分類號: | H04W28/14 | 分類號: | H04W28/14;H04L41/147;G06N3/04;G06N3/08 |
| 代理公司: | 福州科揚專利事務所(普通合伙) 35001 | 代理人: | 李曉芬 |
| 地址: | 350001 福建省廈*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 移動 預測 無線 邊緣 緩存 方法 | ||
1.一種基于深度強化學習的移動預測無線邊緣緩存方法,其特征在于,包括以下步驟:
構建無線智能緩存網絡模型,包括服務節點模型和服務節點控制模型,所述服務節點模型包括用戶集、服務節點集、用戶請求內容集、緩存內容集和源內容庫;所述服務節點控制模型包括用戶歷史軌跡向量和用戶分類組;
移動預測,構建長短期記憶網絡模型,將所述用戶歷史軌跡向量作為輸入,輸出用戶在下一時隙的預測位置;并根據用戶集中每個用戶在下一時隙的預測位置進行分類,獲取所述用戶分類組;
建立替換緩存策略,根據用戶分類組,獲取服務節點集中每一個服務節點在下一時隙的預測用戶集,并根據所述預測用戶集中用戶的歷史請求內容和當前服務節點的緩存內容從源內容庫中獲取替換內容對當前服務節點的緩存內容進行替換;
優化模型,構建結合Q學習和DQN強化學習的神經網絡,以預測用戶集、用戶請求內容集和緩存內容集組成的狀態空間中的樣本狀態作為輸入,以替換內容組成的動作空間中的某一各動作作為輸出,對神經網絡進行訓練,得到訓練好的動態緩存替換模型,將動態緩存替換模型利用于替換緩存策略中;所述無線智能緩存網絡模型以時間離散的方式運行,在每個時隙中,用戶請求內容和用戶歷史軌跡均進行更新。
2.根據權利要求1所述的一種基于深度強化學習的移動預測無線邊緣緩存方法,其特征在于:所述用戶歷史軌跡向量為一個位置序列,表示一段時間內用戶的移動軌跡,將每個用戶的歷史軌跡向量存入服務節點控制模型中;
將所述用戶的歷史軌跡向量輸入所述構建長短期記憶網絡模型中,并引入權重矩陣,輸出各用戶在下一時隙的預測位置。
3.根據權利要求1所述的一種基于深度強化學習的移動預測無線邊緣緩存方法,其特征在于,在對神經網絡進行訓練的過程中,基于緩存命中率構建獎勵函數對神經網絡進行訓練,具體步驟為:
構建獎勵函數,所述獎勵函數通過輸入的樣本狀態和輸出的動作計算一瞬時獎賞值,并將所述瞬時獎賞值提供給神經網絡;
構建緩存命中率計算公式,所述緩存命中率指的是一服務節點對應的用戶集中的每個用戶的請求內容能夠在對應服務節點的緩存內容中找到的概率;
預設一閾值,該閾值∈(0,1),根據輸入的樣本狀態和輸出的動作獲取樣本在下一時隙的狀態,根據所述緩存命中率計算公式計算該樣本在下一時隙的狀態時的緩存命中率,并與閾值比較,當該樣本在下一時隙的狀態時的緩存命中率大于閾值時,獲得正的瞬時獎賞值。
4.根據權利要求3所述的一種基于深度強化學習的移動預測無線邊緣緩存方法,其特征在于:所述神經網絡中設置有經驗回放機制,將輸入的樣本狀態、輸出的動作、瞬時獎賞值以及樣本在下一時隙的狀態合成一組合并存入一經驗回放庫中作為神經網絡的訓練樣本。
5.根據權利要求4所述的一種基于深度強化學習的移動預測無線邊緣緩存方法,其特征在于,所述構建結合Q學習和DQN強化學習的神經網絡的步驟具體為:
通過Q學習定義一通過經驗回放庫中的訓練樣本計算q值的動作價值函數;
DQN強化學習采用神經網絡來預估q值,對于經驗回放庫中的每個訓練樣本,先通過樣本狀態和動作預估當前采取動作的q值,再通過樣本在下一時隙的狀態和動作預估下一狀態采取動作的q值;構造以下一狀態采取動作的q值與當前采取動作的q值之間的差值為基準的損失函數,并利用梯度下降法迭代更新神經網絡的權重參數,使神經網絡達到收斂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門越人健康技術研發有限公司,未經廈門越人健康技術研發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011620501.1/1.html,轉載請聲明來源鉆瓜專利網。





