[發明專利]一種基于強化學習和注意力機制的無人機群調度方法有效
| 申請號: | 202110924902.4 | 申請日: | 2021-08-12 |
| 公開(公告)號: | CN113625757B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 江天舒;郭成昊;李秀成;汪亞斌 | 申請(專利權)人: | 中國電子科技集團公司第二十八研究所 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 于瀚文;胡建華 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 注意力 機制 無人 機群 調度 方法 | ||
1.一種基于強化學習和注意力機制的無人機群調度方法,其特征在于,包括如下步驟:
步驟1,根據所觀測到的狀態信息的維度,調整Transformer編碼器的輸入維度和輸出頭的個數,并給定其他超參數,其他超參數包括編碼層的個數、前饋層的維度和編碼維度;
步驟2,收集仿真器給出的關于飛機狀態信息,包括飛機編號id、空間橫坐標x和縱坐標y、是否打開雷達干擾is_radar_on、干擾頻點freq,將收集的信息經過預先編碼后組裝成為Transformer編碼器的狀態輸入S=(id,x,y,is_radar_on,freq);
步驟3,將當前Transformer編碼器的輸出送入指針網絡得到解碼結果,解碼結果為基于注意力機制得到的索引,也就是當前狀態下最應該給予關注的目標單位的索引,并將該索引作為第一個輸出頭的結果;
步驟4,將Transformer編碼器的輸出和指針網絡的輸出送入下一層全連接網絡得到第二個輸出頭,第二個輸出頭的輸出動作代表所選動作類型是飛行或者打擊;最后將Transformer編碼器的輸出加上第一個輸出頭的輸出、第二個輸出頭的輸出送入后續的全連接網絡得到第三個輸出頭,代表所選的目標地點;根據解碼得到的目標單位的索引,以及第二個輸出頭、第三個輸出頭的內容,給出無人機群的相應動作,轉換為仿真平臺能夠接收的指令并發送給仿真平臺;
步驟5,收集仿真平臺返回的新狀態和即時獎勵信息,在收集了X批次的數據之后,在PPO近端策略優化算法的框架下,得到梯度下降方向,并基于反向傳播算法修正網絡參數。
2.根據權利要求1所述的方法,其特征在于,步驟2中,對空間坐標作[-1,1]區間的歸一化編碼、對是否打開雷達干擾作獨熱編碼,同時保證每一架飛機的狀態信息在Transformer編碼器的狀態輸入中的位置固定。
3.根據權利要求2中所述的方法,其特征在于,步驟3中,將當前Transformer編碼器的輸出送入指針網絡,將輸出記為(e1,...,en)=Trans(S),其中(e1,...,en)為Transformer編碼器的編碼輸出矩陣的列向量,Trans代表Transformer對狀態輸入S所進行的操作;基于注意力機制進行解碼的時候,最終希望得到一個索引序列C1,C2,...,Ci,其中Ci代表無人機群中的第Ci架無人機,將任務建模為在已知序列C1,C2,...,Ci-1的情形下,最大化Ci出現的后驗概率在指針網絡的注意力機制中,所述任務形式化為如下公式:
其中,v,W1,W2為Transformer-PointerNet網絡的可訓練參數,vT為可訓練參數v的轉置,Transformer-PointerNet網絡是Transformer編碼器和指針網絡合成的編碼解碼結構,指針網絡是基于LSTM網絡實現的,tanh為雙曲正切激活函數,softmax是一類最大值函數,(d1,...,dm)是解碼的LSTM網絡每一步輸出的隱狀態,dm表示解碼的LSTM網絡第m步輸出的隱狀態;代表Transformer-PointerNet網絡的第i個輸出ei與解碼的LSTM網絡的第j個輸出dj之間的關聯分數,ui為所有組成的向量,即
4.根據權利要求3中所述的方法,其特征在于,步驟4中,將三個輸出頭的動作進行組裝,第一個輸出頭指定整體動作的主語,也就是由指針網絡選出的單位去執行動作;第二個輸出頭指定該執行的動作;第三個輸出頭指定動作的客體;每一個輸出頭的輸出都會作為輸入進入到下一個輸出頭中去。
5.根據權利要求4中所述的方法,其特征在于,步驟5中,收集固定長度間隔的時間步上的對應狀態st、動作at、即時價值函數rt,得到優勢函數為:
其中t表示當前時刻,γ為價值折現因子,λ為價值衰減因子,δt=rt+γV(st+1)-V(st),δt為時序差分誤差,T代表最長時間步,V(st)是價值網絡對于當前狀態的價值估計,V(st+1)為當前步的下一個時間步所處于狀態的價值估計,損失函數Lt(θ)通過下式計算:
其中為策略損失函數,為價值估計損失函數,代表求到當前時刻為止的期望,S[πθ](st)是策略πθ之下狀態st的熵損失,Vθ(st)為當前網絡參數θ之下對狀態st的價值函數的估計值,Vttarg為從采樣數據中得到的當前狀態所對應價值函數的真實值,rt(θ)為在舊參數網絡之下的價值函數和新參數網絡下的價值函數的比值,clip為截斷函數,將比值rt(θ)的值限制在1-ε和1+ε之間,ε為閾值因子;c1,c2為待定常數;
將損失函數Lt(θ)對神經網絡參數θ作梯度下降:得到更新后的參數θt+1,其中為梯度算子,α為每一次更新的步長,重復此過程,直到算法收斂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十八研究所,未經中國電子科技集團公司第二十八研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110924902.4/1.html,轉載請聲明來源鉆瓜專利網。





