[發明專利]一種基于多智能體強化學習的無人機集群高效通信方法在審
| 申請號: | 202110441049.0 | 申請日: | 2021-04-23 |
| 公開(公告)號: | CN113286275A | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 俞揚;詹德川;周志華;練婭莉;袁雷;秦熔均;龐竟成;管聰;羅凡明;張云天;陳雄輝 | 申請(專利權)人: | 南京大學 |
| 主分類號: | H04W4/46 | 分類號: | H04W4/46;H04W24/02;H04W24/06;G06N3/04 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 強化 學習 無人機 集群 高效 通信 方法 | ||
1.一種基于多智能體強化學習的無人機集群高效通信方法,其特征在于,包括:(1)構建無人機飛行環境模擬器;(2)在無人機集群中,隨機選取一架無人機作為隊長并標記,其余無人機為隊友;(3)隊長為觀測值中轉站,隊長收集隊員自身局部觀測值并維護成全局觀測值,發送給隊友進行信息交互;(4)基于中心化訓練去中心化執行的框架進行,訓練階段以全局觀測值作為訓練數據,直到策略網絡收斂;執行階段以分布式的方式進行,即每個無人機將自身的局部觀測值送到策略執行網絡中,得到相應的動作;(5)為了維護隊長不被針對攻擊,通過獎勵函數對隊長的存活給一個額外的獎勵。
2.根據權利要求1所述的基于多智能體強化學習的無人機集群高效通信方法,其特征在于,所述(1)中,基于仿真環境引擎構建基于空氣動力學的無人機飛行環境模擬器。
3.根據權利要求1所述的基于多智能體強化學習的無人機集群高效通信方法,其特征在于,所述(3)中,每架無人機獲取并維護本機的局部觀測值,將自身局部觀測值進行編碼并發送給隊長;隊長根據每架無人機的自身局部觀測值,分別對全局觀測值進行注意力機制處理,根據信息的重要程度來決定信息的權重,繼而將計算好的觀測值發送給每個隊友,作為隊友的全局觀測值。
4.根據權利要求1所述的基于多智能體強化學習的無人機集群高效通信方法,其特征在于,每架無人機對自身局部觀測值oω進行embedding編碼處理,其中每架無人機共享相同的編碼機制,隊友將編碼后包含位置、速度、姿態和狀態信息的自身觀測值發送給隊長,隊長收集隊友的本機觀測值維護成全局觀測值。
5.根據權利要求1所述的基于多智能體強化學習的無人機集群高效通信方法,其特征在于,初始階段,無人機根據自身的局部觀測值oω,利用策略πω生成相應的動作aω。
6.根據權利要求1所述的基于多智能體強化學習的無人機集群高效通信方法,其特征在于,整個無人機協作過程中隊長需要存活到最后,從而設計獎勵函數,所述獎勵函數包括:過程獎勵函數結果獎勵函數隊長獎勵函數
7.根據權利要求3所述的基于多智能體強化學習的無人機集群高效通信方法,其特征在于,注意力機制功能包含三個基本元素:query,key,value,首先通過相似度函數計算給定query與每個key之間的相似度,然后通過softmax函數得到歸一化的注意力權重,最后對歸一化的注意力權重進行加權求和Attention(Q,Ki)=∑iαiValuei。
8.根據權利要求1所述的基于多智能體強化學習的無人機集群高效通信方法,其特征在于,在無人機飛行環境模擬器中,無人機集群與環境交互,獲取訓練數據。每個無人機獲取局部觀測值,根據自身的動作策略采取動作,獲得獎勵值;將以上獲得的全局觀測值、動作、獎勵組成的元組存儲到經驗回放池中。
9.根據權利要求1所述的基于多智能體強化學習的無人機集群高效通信方法,其特征在于,以集中式的方式訓練Critic網絡,其聯合Q值函數定義為其中為動作策略函數的參數,其優化目標為其中為下一刻的目標動作;從訓練數據中采樣部分樣本進行函數優化,直到模型收斂。
10.根據權利要求1所述的基于多智能體強化學習的無人機集群高效通信方法,其特征在于,梯度下降法訓練建議策略,最大化累計獎勵優化目標為:其中代表不同角色下的策略,ω表示無人機的編號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110441049.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水壩用異物分類收集裝置
- 下一篇:一種便于運輸存儲的高效凈化水設備





