[發明專利]一種基于貝葉斯Q學習的無人機集群網絡智能跳頻方法有效
| 申請號: | 202110596287.9 | 申請日: | 2021-05-30 |
| 公開(公告)號: | CN113382381B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 林艷;康雅潔;張一晉;李駿;彭諾蘅;陶奕宇 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | H04W4/40 | 分類號: | H04W4/40;H04W4/02;H04B1/715 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 薛云燕 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 貝葉斯 學習 無人機 集群 網絡 智能 方法 | ||
1.一種基于貝葉斯Q學習的無人機集群網絡智能跳頻方法,其特征在于,具體步驟為:
步驟1:初始化貝葉斯Q學習算法參數;
步驟2:無人機集群采用Myopic-VPI決策策略選擇通信信道;
步驟3:無人機觀測當前信道是否被干擾,同時獲取干擾機和其他無人機的位置信息,計算與基站通信的上行鏈路信息傳輸速率;
步驟4:無人機根據上一時隙與當前時隙所選擇的信道進行比對,計算切換信道所需開銷;
步驟5:結合信息傳輸速率和跳頻開銷的折中性能,采用矩更新方式更新Q表中相應狀態動作對所對應的Q值分布;
步驟6:重復步驟2至步驟5,直至完成一次通信任務;
步驟7:重復步驟6,直至系統平均獎勵值收斂,完成本地訓練;
步驟1中貝葉斯Q學習算法參數包括信息價值增益VPI系數χ、折扣因子γ;
步驟2中無人機集群采用Myopic-VPI決策策略選擇通信信道,具體方法為:
步驟2-1:無人機集群對信道環境進行監測,獲取敵方干擾機數量、干擾模式這些信息;
步驟2-2:根據監測所得信息,無人機集群共同維護一張Q表,Q表中儲存著每種信道狀態和信道選擇動作對所對應的Q值分布;根據MDP建模,將當前狀態s,所選動作a所對應的Rs,a值作為一個滿足高斯分布的隨機變量,均值μs,a為最佳策略下的Q值,即μs,a=Q*(s,a),方差為σs,a,精度τs,a用方差表示為其中給定精度τ值時μ的條件分布是均值為μ0,精度為λ0τ的高斯分布,λ0是高斯伽馬分布中的另一參數;τ的邊際分布是參數為α0和β0的伽馬分布;則對于參數未知的高斯分布的變量Rs,a,參數的先驗p(μs,a,τs,a)服從高斯伽馬分布,即p(μs,a,τs,a)~NG(μ0,λ0,α0,β0);因此Q表中實際儲存的是四元組超參數ρ=μ0,λ0,α0,β0所表示的高斯-伽馬分布;
步驟2-3:當每一次無人機集群需要選擇通信信道時,智能體按照Myopic-VPI決策策略進行通信信道的選擇;
步驟3中無人機觀測當前信道是否被干擾,同時獲取干擾機和其他無人機的位置信息,計算與基站通信的上行鏈路信息傳輸速率,具體如下:
記系統中通信信道總數C,無人機數量N,干擾機數量J,基站、無人機和干擾機的高度分別為HB,HU,HJ,無人機和干擾機的發送功率分別為PU,PJ,另外GU指無人機與基站之間的信道增益,GJ指干擾機和無人機之間的信道增益,上行鏈路信道考慮小尺度衰落和路徑損耗其中gi(j)表示地面基站和無人機,或地面基站和干擾機之間的瞬時功率增益,g是一個獨立相同的分布瑞利衰落隨機變量,g~exp(1);Ai(j)為單位距離無人機或干擾機路徑損耗,αi(j)為無人機或干擾機的路徑損耗因子,di(j)是地面基站和無人機或干擾機之間的歐幾里得距離;此外σ表示環境噪聲均方值;
設置第n個無人機信息傳輸速率獎勵值為
表示第n個無人機基站上行鏈路的實際信息傳輸速率與理想無干擾情況時最大信息傳輸速率之比;
其中,
(1)當第n個無人機所占用信道被第j個干擾機干擾時,ρn[j]=1,否則為ρn[j]=0;
(2)當第n個無人機所占用信道被第i個無人機干擾時,κn[i]=1,否則為κn[i]=0;
步驟4中無人機根據上一時隙與當前時隙所選擇的信道進行比對,計算切換信道所需開銷,具體如下:
設置第n個無人機的跳頻開銷為
rλ[n]=-λδ[n]
表示無人機更換信道進行通信時所對應的能量消耗;
當第n個無人機相較于上一時刻變更頻道時,δ[n]=1,否則δ[n]=0,λ為無人機單次跳頻所需開銷;
步驟5中結合信息傳輸速率和跳頻開銷的折中性能,采用矩更新方式更新Q表中相應狀態動作對所對應的Q值分布,具體如下:
記rC[n]為第n個無人機的信息傳輸速率獎勵,rλ[n]為第n個無人機的跳頻開銷,計算當前時隙獎勵為平均每個無人機與基站上行鏈路的實際信息傳輸速率與理想無干擾情況時最大信息傳輸速率之比和跳頻開銷的折中性能;
其中m1表示信息傳輸速率獎勵的權值,m2表示跳頻開銷的權值;
根據獎勵值對Q值的高斯-伽瑪分布進行矩更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110596287.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種瓦楞紙板的一體化制造輸送裝置
- 下一篇:構建認知障礙智能預測方法





