[發明專利]基于深度強化學習的無人機輔助彈性視頻多播方法有效
| 申請號: | 202011384614.6 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112511197B | 公開(公告)日: | 2022-12-23 |
| 發明(設計)人: | 沈航;汪悅;成昭煒;白光偉;王敏;王天荊 | 申請(專利權)人: | 南京工業大學 |
| 主分類號: | H04B7/024 | 分類號: | H04B7/024;H04B7/185;H04N19/30;H04N21/6405;G06N3/08 |
| 代理公司: | 南京科闊知識產權代理事務所(普通合伙) 32400 | 代理人: | 蘇興建 |
| 地址: | 211899 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 無人機 輔助 彈性 視頻 方法 | ||
1.一種基于深度強化學習的無人機輔助彈性視頻多播方法,其特征是在宏基站及其從屬基站組成的異構無線網絡中,從屬基站是以可移動的無人機為載體的無人機基站;宏基站和無人機基站各自服務其覆蓋范圍內的多播組;
基于SVC編碼將流媒體視頻資源分割為基礎層和增強層,基礎層由宏基站向多播組提供,增強層由宏基站和無人機基站聯合提供,其中,無人機基站為偏遠位置的移動用戶提供增強層;用戶首先收到宏基站的基礎層,再根據自身所處的位置和視頻接收速率決定從屬,接收宏基站或無人機基站提供的增強層;
無人機基站和宏基站的增強層覆蓋效率與無人機部署位置和資源分配相關,在基站覆蓋范圍內,對無人機基站的動態部署和資源分配進行優化;
所述無人機基站的動態部署和資源分配聯合優化包括基礎層資源分配優化和增強層資源分配優化;首先對基礎層資源分配和增強層資源分配的優化問題建模;然后采用基于DDPG算法的DDPG-UAV算法根據移動用戶的位置分布來進行無人機基站動態部署和帶寬分配優化,最終獲得無人機基站的位置和帶寬資源分配;
在宏基站及其從屬基站組成的異構無線網絡中,宏基站覆蓋范圍內的用戶隨時間不斷運動;在某個時間點t時,設移動用戶i處于靜止狀態;隨時間不斷變化的用戶分布被分割為一個個連續時間點下的靜態分布;通過當前的靜態用戶分布,根據當前的用戶位置和上一個時間點的環境狀態決策當前無人機的位置和資源分配;
當進入下一個時間點t+1,用戶位置分布發生改變,則再次進行決策此時無人機的位置和資源分配;
當進入下一個時間點t+1,用戶位置分布發生改變,系統再次進行決策,從而為移動用戶提供自適應服務;
設用戶集合為總帶寬資源為B,首先分配帶寬Bb來向用戶多播組提供基礎層,將剩余帶寬資源B-Bb分為Bm和Bd,Bm分配給宏基站投遞增強層,Bd分配給無人機基站投遞增強層;
在本異構無線網絡中的通信模型為:
設無人機基站d和移動用戶i之間的無線傳播信道由Line of Sight直達波LoS概率信道來建模,則無人機基站d和用戶i之間LoS連接的概率為
θi為是用戶i到無人機基站的仰角,hd是無人機基站的高度,vi是用戶i與無人機基站之間的水平距離;
用戶i和無人機基站d之間的LoS連接路徑損失為
用戶i和無人機基站d之間的NLoS連接路徑損失為
ξ(los)和γ(los)分別為LoS連接下參考距離的路徑損耗補償和路徑損耗指數;
ξ(nlos)和γ(nlos)分別為None Line of Sight非直達波NLoS連接下參考距離的路徑損耗補償和路徑損耗指數;
表示無人機基站和用戶i之間的三維距離;
無人機基站和用戶i之間的平均路徑損耗ld,i為
ld,i=p(los)·η(los)+(1-p(los))·η(nlos) (4)
信道增益gd,i為
所述無人機基站的動態部署和資源分配聯合優化步驟為:
1)基礎層資源分配
在宏基站覆蓋范圍內請求視頻的用戶都要從宏基站處獲得基礎層,設被請求視頻資源基礎層接收速率為γ0,基于節省分配的帶寬并滿足基礎層接收速率要求,計算出投遞基礎層所要分配的最小帶寬;令ηm,i為宏基站m到用戶i之間的平均路徑損失
zm,i是用戶i與宏基站m的水平距離,hm為宏基站m的高度;
宏基站m與用戶i之間的信道增益表示為
因為基礎層多播組的信道增益由該組內信道增益最差的用戶決定,則有
根據香農公式,投遞基礎層所需要的帶寬為
pm為宏基站m的發射功率,σ2為高斯噪聲;
2)增強層資源分配
增強層由宏基站和無人機基站聯合提供,無人機基站為宏基站無法覆蓋的用戶提供服務;令增強層的接收速率為γ1,根據式(1)和(2)以及香農公式,用戶i到宏基站m的信道容量為
ld,i代表無人機基站d和用戶i之間的路徑損失,計算為
ld,i=p(los)·η(los)+(1-p(los))·η(nlos) (4)
gd,i代表信道增益,計算為
根據香農公式計算出用戶i到無人機基站d的信道容量為
3)問題建模
為獲得無人機基站的最優部署位置和帶寬分配比重,使覆蓋范圍內的用戶整體收到的SVC層數最多,對應如下優化問題
s.t.0<Bd<B-Bb (15)
x(min)≤xd≤x(max) (16)
y(min)≤yd≤y(max) (17)
z(min)≤zd≤z(max) (18)
βm,i+βd,i≤1 (19)
βm,i∈{0,1} (20)
βd,i∈{0,1} (21)
約束條件(16)-(18)中,xd、yd和zd為無人機基站的三維坐標;約束條件(19)中,βm,i和βd,i屬于0-1變量;βm,i=1表示用戶i可以收到來自宏基站m的增強層,反之表示未收到,即
βd,i表示用戶i能否收到無人機基站d的增強層
4)無人機基站部署及資源分配策略為:
4.1)采用基于DDPG算法的DDPG-UAV算法來進行無人機動態部署和帶寬分配:
DDPG-UAV算法包含四個網絡:Critic當前網絡、Critic目標網絡、Actor當前網絡和Actor目標網絡,目標網絡是當前網絡的復制;
Actor當前網絡負責策略參數θ的更新,根據當前狀態S選擇當前動作A,用于和環境交互生成下一個狀態S′和獎勵R;
Actor目標網絡負責根據重放緩存中采樣的下一狀態S′選擇最優下一動作A′,其網絡參數θμ′定期從Actor當前網絡參數θμ中復制;
Critic當前網絡負責價值網絡參數θQ的更新,計算當前的Q值Q(S,A,θQ);
Critic目標網絡負責計算目標Q值中的下一狀態S′動作A′的Q值Q′(S′,A′,θQ′),目標Q值為R+γQ′(S′,A′,θQ′);
每次迭代后使用當前網絡更新目標網絡;更新采用軟更新的方式
θQ′←τθQ+(1-τ)θQ′ (24)
和
θμ′←τθμ+(1-τ)θμ′ (25)
τ取值為0.001;構造一個探索策略μ‘,通過給動作策略添加噪聲的方式來實現強化學習中探索的過程;
在本異構無線網絡中,Actor網絡以所有用戶i的二維位置信息st作為輸入;Critic網絡將用戶i的位置信息和Actor網絡的輸出動作作為輸入,輸出得分;
獎勵的設計采用增強層的宏基站和無人機基站服務率的加權平均的形式,計算為
權重ρ大于0.5;
4.2)DDPG-UAV神經網絡結構
Actor網絡的輸入是歸一化的用戶二元位置信息st;
st組織為一個三維矩陣,三個維度分別表示批量數、用戶位置x坐標和y坐標;
無人機基站的三維位置和增強層帶寬分配比重作為輸出的動作at,組織為一個五維矩陣,五個維度分別表示批量數、無人機基站x坐標xt、y坐標yt、z坐標zt和帶寬分配比重εt;
Actor網絡由三個網絡單元結構Actor block堆疊而成;每個Actor block由全連接層連接批歸一化層和帶泄露修正線性單元Leaky ReLU函數構成網絡的基本塊結構;
批歸一化層的作用是在深度神經網絡訓練過程中使得每一層神經網絡的輸入保持相同分布,以保證訓練的穩定性并緩解收斂慢的問題;Leaky ReLU是激活函數線性整流函數ReLU的變體,激活函數采用雙曲正切函數tanh,將輸出動作值的范圍約束在(-1,1)之間;
Critic網絡的輸入是st和at;網絡單元結構Critic Block和Actor Block區別僅是激活函數采用了ReLU函數;st通過一個Critic Block提取特征信息后,將特征信息和at進行連接操作,再將組合成的特征送到下一層;最終網絡的輸出是對當前用戶的st和無人機基站的采取動作at的評分,評分是一個二維矩陣,兩個維度分別表示批量數和得分;
Critic網絡的損失函數采用均方損失函數,Actor網絡和Critic網絡均采用Adam優化器,Actor網絡的學習率為0.001,Critic網絡的學習率為0.0001。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京工業大學,未經南京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011384614.6/1.html,轉載請聲明來源鉆瓜專利網。





