[發明專利]一種基于遷移學習的無人機內容緩存決策方法有效
| 申請號: | 202110874224.5 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113596160B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 張科;王璐;司鼎鑫;冷甦鵬 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | H04L67/568 | 分類號: | H04L67/568;H04L67/12 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遷移 學習 無人機 內容 緩存 決策 方法 | ||
1.一種基于遷移學習的無人機內容緩存決策方法,包括以下步驟:
S1、無人機A依其服務范圍sa產生內容緩存問題,與環境交互產生數據放入緩沖區,利用所述數據訓練強化學習模型,解決內容緩存問題;
以地面宏基站為原點建立三維直角坐標系,則無人機A的位置由LUAV(t):(xUAV(t),yUAV(t),h)來表示,其中,xUAV(t)、yUAV(t)分別表示t時刻無人機A的橫坐標、縱坐標,h表示無人機A離地面的高度,在t時刻,用戶n對內容m的請求可以描述為rnm(t)∈{0,1},當用戶n請求了內容m時rnm(t)=1,否則為0;A收到的其覆蓋范圍內的總N個用戶產生的對M項內容的需求為:R(t)={rnm(t)},其中,n∈{1,...,N},m∈{1,...,M};此時無人機A對內容m的緩存狀態為cm(t)∈{0,1},當A存儲了內容m時,cm(t)的值為1,否則為0;那么A對總M項內容的存儲狀態為:C(t)={cm(t)},其中,m∈{1,...,M};考慮到用戶需求及自身位置的動態性,無人機A決定使用深度Q網絡(DQN)解決動態的內容緩存決策問題;
對內容緩存問題的建立及求解,具體過程為:
S11、無人機A根據服務范圍內的用戶請求,計算用戶n獲取請求內容的時延:其中,Rn(t)是與無人機、用戶n之間的距離、路徑損耗相關的傳輸速率,R(t)是無人機與宏基站通信的傳輸速率;無人機A需要在自身存儲能力c的約束下,決策緩存動作I(t)={im(t)},m∈{1,...,M},其中,im(t)∈{0,1},當無人機決定存儲內容m時,im(t)值為1,否則為0,得以最小化總體用戶的內容獲取時延:同時,當前的緩存動作I(t)會影響下一時刻的緩存狀態C(t+1),即有C(t+1)=I(t);
用戶n的傳輸速率Rn(t)可計算為:其中,Bn為系統分給用戶n的帶寬,PUAV為無人機發送信號的功率,為根據概率傳輸模型及用戶與無人機之間距離計算而得的平均路損,σ2為噪聲功率;
S12、無人機A作為DRL實體,建立狀態空間s(t)={C(t)},以及動作空間a(t)={I(t)},即時獎勵;對每個時段t,無人機A依據ε-貪心策略,以概率ε隨機選擇滿足存儲能力c約束的動作a(t)執行,以1-ε的概率使用神經網絡做出動作,之后計算即時獎勵r(t),將s(t)轉換為下一時段狀態s(t+1),以<s(t),a(t),s(t 1),+(r)t>的形式作為交互數據放入緩沖區存儲;
S13、無人機A作為DRL實體,循環選擇緩沖區中的部分數據<s(t),a(t),s(t+1),r(t)>,將(a(t),s(t))作為輸入,r(t)作為輸出對神經網絡進行更新;循環多次進行上述步驟,直到算法收斂,完成強化學習模型訓練,得以求解內容緩存決策問題;
S2、當無人機B到達并服務附近區域sb時,產生與無人機A相似的緩存決策問題,此時通過宏基站向A求助;
S3、無人機A發送部分緩沖區的交互數據給無人機B;
S4、無人機B接受并處理交互數據,放入緩沖區后進行訓練步驟,解決對應的緩存決策問題。
2.根據權利要求1所述的基于遷移學習的無人機內容緩存決策方法,其特征在于,步驟S12中無人機A采用ε-貪心策略,在每個時段t,以概率ε隨機做出動作,以1-ε的概率使用神經網絡做出動作,并且將時延函數作為獎勵的計算方式,以狀態,動作,獎勵,后續狀態的形式作為交互數據存儲下來。
3.根據權利要求2所述的基于遷移學習的無人機內容緩存決策方法,其特征在于,步驟S4具體包含以下分步驟:
S41、無人機B將來自A的緩沖區交互數據進行處理,使其狀態空間、動作空間符合當前問題約束,并重新計算獎勵;
S42、無人機B作為DRL實體,首先在緩沖區存儲處理過的數據,之后同樣依據ε-貪心策略,對每個時段t,以ε概率隨機做出動作,以1-ε的概率使用神經網絡做出動作,補充緩沖區數據;
S43、無人機B作為DRL實體,循環選擇緩沖區中的部分數據更新神經網絡,完成強化學習模型訓練,進而求解內容緩存決策問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110874224.5/1.html,轉載請聲明來源鉆瓜專利網。





