[發明專利]基于深度強化學習的無人機軌跡及功率聯合優化方法有效
| 申請號: | 202011079226.7 | 申請日: | 2020-10-10 |
| 公開(公告)號: | CN112118556B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 趙楠;程一強;蕭灑;裴一揚;劉聰;劉澤華 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | H04W4/44 | 分類號: | H04W4/44;H04W24/02;H04W52/14;H04W52/24;H04W52/26;H04W52/28;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 無人機 軌跡 功率 聯合 優化 方法 | ||
1.一種基于深度強化學習的無人機軌跡及功率聯合優化方法,其特征在于:建立無人機系統模型,對無人機軌跡控制和功率分配問題進行描述;建立馬爾可夫模型,包括通過設置狀態、動作空間和獎勵函數,確定馬爾可夫決策過程;采用深度確定性策略梯度方法,實現軌跡控制和功率分配的聯合優化,實現方式如下,
所述深度確定性策略梯度方法結合actor網絡和critic網絡,并設置相應目標網絡;核心地面基站首先初始化經驗回放存儲器D、actor-critic網絡的權重以及相應的目標網絡;
設訓練過程有EP個訓練集,每個訓練集都有T時隙;在每個訓練集中,首先初始化網絡狀態,在每一訓練集的每一個時隙,動作由帶有隨機噪音的actor網絡發出;核心地面基站將選定的動作發送給所有無人機后,所有無人機都會相應地設置自己的軌跡和傳輸功率;當某些無人機飛出網絡區域時,它將選擇一個隨機方向角,如果某些無人機的高度hi(t)超過[Hmin,Hmax],無人機將停留在Hmin或Hmax高度,其中Hmin和Hmax分別表示無人機的最小高度和最大高度;一旦某些無人機學習到最好的軌跡和功率,并為覆蓋范圍內的用戶設備提供無線服務時,訓練過程全部結束;
此外,通過導頻信號,每個用戶設備測量來自所有無人機的接收功率;基于最大接收信號功率,用戶設備與無人機相關聯;在用戶關聯之后,用戶設備給關聯的無人機報告自己的當前狀態;
最后,在回程鏈路的幫助下,核心地面基站獲得全局網絡下一狀態和即時獎勵,相應信息保存在經驗回放存儲器D中,所述信息包括狀態S(t)、下一狀態S′(t)、動作A(t)和獎勵R(t);從經驗回放存儲器D中隨機抽取mini-batch轉移樣本,以更新actor網絡和critic網絡;目標網絡的權重相應被緩慢更新;
重復上述訓練過程,直到所有無人機覆蓋所有熱點而沒有重疊,并且所有用戶設備的服務質量要求都得到滿足。
2.根據權利要求1所述基于深度強化學習的無人機軌跡及功率聯合優化方法,其特征在于:所述建立無人機系統模型,實現如下,
在無人機輔助蜂窩網絡中,將N個無人機部署為空中基站,以在N個非重疊熱點中為M個用戶設備提供無線服務,用戶設備和無人機的集合分別表示為和在熱點i中的用戶設備數量表示為M(i);假設第i個無人機使用相同的頻帶向第i個熱點提供服務,每個用戶設備僅屬于一個熱點,得出
同時,所有的無人機都由一個核心地面基站控制,在t時刻,同一熱點中的用戶設備都將由相同的無人機同時提供服務;記第m個用戶設備的平面坐標其中,xm和ym是第m個用戶設備的坐標,表示域;
在t時刻,第i個無人機的水平坐標表示為其中,xi(t)和yi(t)分別表示第i個無人機的X坐標和Y坐標;水平方向上獲得第m個用戶設備和第i個無人機之間的距離為
將第i個無人機的高度定義為hi(t)∈[Hmin,Hmax],其中Hmin和Hmax分別表示無人機的最小高度和最大高度;第i個無人機與第m個無人機之間的距離為
基于無人機的飛行速度有限,無人機的軌跡以最大行駛距離為準:
||vi(t+1)-vi(t)||≤VLTs, (1)
||hi(t+1)-hi(t)||≤VATs, (2)
其中,VL和VA分別表示每個時隙Ts中無人機的水平飛行和垂直飛行速度;
此外,為了避免任何兩架無人機的碰撞,考慮無人機的碰撞約束,對于第i個無人機和第j個無人機有:
其中,Dmin表示任意兩架無人機之間的最短距離;
設定時隙Ts足夠小,將信道近似為恒定;考慮到任意兩架無人機之間的避碰,Ts應滿足的約束條件;獲得每個時隙無人機的最大水平距離和最大垂直距離其中,Tmax為Dmin相應的閾值;
設從無人機發出的無線電信號由視線傳輸和非視線傳輸組成,第m個用戶設備和第i個無人機之間的視線傳輸連接的概率表示為:
其中,a和b是與環境有關的參數,是第m個用戶設備和第i個無人機的夾角;此外,非視線傳輸的可能性為
在時間t,視線傳輸和非視線傳輸的路徑損耗可以表示為以下模型:
其中,fc為載頻,ηLoS和ηNLoS分別為視線傳輸和非視線傳輸的平均額外損失;
預期平均路徑損耗表示為總可用帶寬B均等地分配給每個用戶設備,第i個熱點中第m個用戶設備的帶寬表示為Bi,m=B/M(i),并且無人機的發射功率也被均勻地分配給每個用戶設備,為pi,m(t)=pi(t)/M(i),其中,pi(t)∈[0,Pmax]表示帶有最大發射功率Pmax的第i個無人機發射功率;
從無人機接收到的第m個用戶設備的信噪比表示為:
其中,gi,m(t)是第i個無人機和第m個用戶設備之間的信道增益,N0是噪聲功率譜密度;
設從第i個無人機獲得第m個用戶設備的可達到的速率ri,m(t)=Bi,m log2(1+Γi,m(t)),得到第i個無人機的總速率:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011079226.7/1.html,轉載請聲明來源鉆瓜專利網。





