[發明專利]一種基于貝葉斯Q學習的無人機集群網絡智能跳頻方法有效

申請號：	202110596287.9	申請日：	2021-05-30
公開（公告）號：	CN113382381B	公開（公告）日：	2022-08-30
發明（設計）人：	林艷;康雅潔;張一晉;李駿;彭諾蘅;陶奕宇	申請（專利權）人：	南京理工大學
主分類號：	H04W4/40	分類號：	H04W4/40;H04W4/02;H04B1/715
代理公司：	南京理工大學專利中心 32203	代理人：	薛云燕
地址：	210094 江***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于貝葉斯學習無人機集群網絡智能方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于貝葉斯Q學習的無人機集群網絡智能跳頻方法，其特征在于，具體步驟為：

步驟1：初始化貝葉斯Q學習算法參數；

步驟2：無人機集群采用Myopic-VPI決策策略選擇通信信道；

步驟3：無人機觀測當前信道是否被干擾，同時獲取干擾機和其他無人機的位置信息，計算與基站通信的上行鏈路信息傳輸速率；

步驟4：無人機根據上一時隙與當前時隙所選擇的信道進行比對，計算切換信道所需開銷；

步驟5：結合信息傳輸速率和跳頻開銷的折中性能，采用矩更新方式更新Q表中相應狀態動作對所對應的Q值分布；

步驟6：重復步驟2至步驟5，直至完成一次通信任務；

步驟7：重復步驟6，直至系統平均獎勵值收斂，完成本地訓練；

步驟1中貝葉斯Q學習算法參數包括信息價值增益VPI系數χ、折扣因子γ；

步驟2中無人機集群采用Myopic-VPI決策策略選擇通信信道，具體方法為：

步驟2-1：無人機集群對信道環境進行監測，獲取敵方干擾機數量、干擾模式這些信息；

步驟2-2：根據監測所得信息，無人機集群共同維護一張Q表，Q表中儲存著每種信道狀態和信道選擇動作對所對應的Q值分布；根據MDP建模，將當前狀態s，所選動作a所對應的R_s,a值作為一個滿足高斯分布的隨機變量，均值μ_s,a為最佳策略下的Q值，即μ_s,a＝Q^*(s,a)，方差為σ_s,a，精度τ_s,a用方差表示為其中給定精度τ值時μ的條件分布是均值為μ₀，精度為λ₀τ的高斯分布，λ₀是高斯伽馬分布中的另一參數；τ的邊際分布是參數為α₀和β₀的伽馬分布；則對于參數未知的高斯分布的變量R_s,a，參數的先驗p(μ_s,a,τ_s,a)服從高斯伽馬分布，即p(μ_s,a,τ_s,a)～NG(μ₀,λ₀,α₀,β₀)；因此Q表中實際儲存的是四元組超參數ρ＝μ₀,λ₀,α₀,β₀所表示的高斯-伽馬分布；

步驟2-3：當每一次無人機集群需要選擇通信信道時，智能體按照Myopic-VPI決策策略進行通信信道的選擇；

步驟3中無人機觀測當前信道是否被干擾，同時獲取干擾機和其他無人機的位置信息，計算與基站通信的上行鏈路信息傳輸速率，具體如下：

記系統中通信信道總數C，無人機數量N，干擾機數量J，基站、無人機和干擾機的高度分別為H_B，H_U，H_J，無人機和干擾機的發送功率分別為P_U，P_J，另外G_U指無人機與基站之間的信道增益，G_J指干擾機和無人機之間的信道增益，上行鏈路信道考慮小尺度衰落和路徑損耗其中g_i(j)表示地面基站和無人機，或地面基站和干擾機之間的瞬時功率增益，g是一個獨立相同的分布瑞利衰落隨機變量，g～exp(1)；A_i(j)為單位距離無人機或干擾機路徑損耗，α_i(j)為無人機或干擾機的路徑損耗因子，d_i(j)是地面基站和無人機或干擾機之間的歐幾里得距離；此外σ表示環境噪聲均方值；

設置第n個無人機信息傳輸速率獎勵值為

表示第n個無人機基站上行鏈路的實際信息傳輸速率與理想無干擾情況時最大信息傳輸速率之比；

其中，

(1)當第n個無人機所占用信道被第j個干擾機干擾時，ρ_n[j]＝1，否則為ρ_n[j]＝0；

(2)當第n個無人機所占用信道被第i個無人機干擾時，κ_n[i]＝1，否則為κ_n[i]＝0；

步驟4中無人機根據上一時隙與當前時隙所選擇的信道進行比對，計算切換信道所需開銷，具體如下：

設置第n個無人機的跳頻開銷為

r_λ[n]＝-λδ[n]

表示無人機更換信道進行通信時所對應的能量消耗；

當第n個無人機相較于上一時刻變更頻道時，δ[n]＝1，否則δ[n]＝0，λ為無人機單次跳頻所需開銷；

步驟5中結合信息傳輸速率和跳頻開銷的折中性能，采用矩更新方式更新Q表中相應狀態動作對所對應的Q值分布，具體如下：

記r_C[n]為第n個無人機的信息傳輸速率獎勵，r_λ[n]為第n個無人機的跳頻開銷，計算當前時隙獎勵為平均每個無人機與基站上行鏈路的實際信息傳輸速率與理想無干擾情況時最大信息傳輸速率之比和跳頻開銷的折中性能；