[發明專利]一種基于強化學習的無人機空戰機動決策方法有效
| 申請號: | 201810197989.8 | 申請日: | 2018-03-12 |
| 公開(公告)號: | CN108319286B | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 楊啟明;張建東;吳勇;史國慶;朱巖;徐建城;莫文莉 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G05D1/08 | 分類號: | G05D1/08;G05D1/10 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 顧潮琪 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 無人機 空戰 機動 決策 方法 | ||
1.一種基于強化學習的無人機空戰機動決策方法,其特征在于包括下述步驟:
步驟一,構建與目標一對一空戰的無人機運動模型假設速度矢量與機體軸向一致,式中x、y、z表示飛機在慣性坐標系中的位置,v為飛機速度,表示v在三個坐標軸方向的分量,θ為航跡角,α為航向角,g為重力加速度,無人機的控制量為[ηx,ηz,φ],其中ηx為沿著速度方向的過載,ηz為沿著機頂方向過載,φ為繞速度矢量的滾轉角;
建立角度優勢函數其中和分別表示無人機和目標的方位角,即無人機與目標的速度向量分別與距離向量R的夾角;
建立距離優勢函數其中,R=||R||,即距離向量的模,Rw表示無人機的武器射程,σ為標準偏差;
建立速度優勢函數其中,武器相對目標的最佳攻擊速度vmax表示無人機的速度上限,vT表示目標速度;
建立高度優勢函數其中,hop表示無人機對目標的最佳攻擊高度差,Δz為無人機與目標的高度差,σh為最佳攻擊高度標準偏差;
得到綜合空戰優勢函數其中ωR、ωv、ωh分別是角度、距離、速度、高度優勢函數的權重,各權重之和為1;
步驟二,構建空戰機動決策的動態模糊Q學習模型;
1)確定空戰機動決策強化學習的狀態空間,包括無人機和目標的方位角和無人機與目標的距離R、無人機與目標的速度vU和vR以及無人機和目標之間的高度差△z;以上述R、vU、vR、△z六個量作為強化學習的輸入狀態,記為si,采用高斯函數作為各個輸入狀態的模糊隸屬函數,將每一個狀態的取值空間劃分為多個高斯函數的疊加組合,如果狀態si具有n個隸屬函數,則輸入狀態屬于其中第j個隸屬函數的隸屬度i=1,2,…,6,j=1,2,…,n,其中cij和σij是狀態si第j個高斯隸屬函數的中心和寬度;
2)選擇典型值構建空戰中無人機的基本動作,所述的基本動作包括勻速直線運動、最大加速度飛行、最大減速飛行、最大過載左轉、最大過載右轉、最大過載爬升和最大過載俯沖,對應的無人機控制量[ηx,ηz,φ]分別為[0,1,0]、和分別將七個基本動作的控制量輸入記為ak,k=1,2,…,7;
3)以各個狀態si分屬不同的隸屬函數的組合為條件,以執行的7個基本動作并配屬相應的動作權值為結果構建規則;通過Q學習算法,以空戰優勢函數的大小作為回報值進行強化學習,調整每一條規則中所執行各個動作的權值,使得所選擇的動作能在規則條件所表述的狀態下讓無人機取得空戰優勢;
在一條規則中,設定一個狀態隸屬于其中一個隸屬函數,則定義該條規則中各狀態隸屬于其設定隸屬函數的隸屬度乘積為該條規則的觸發強度,規則l的觸發強度將觸發值歸一化,設有m條規則,歸一化后規則l的觸發強度表示對所有規則的觸發強度求和,Φl表示規則l的觸發強度Φl;
定義規則l中基本動作的控制量輸入ak的權值為根據ε-greedy算法針對7個選取一個控制量作為規則l的行動值al,則在t時刻全局行動的輸出表征為各條規則的行動值al與其觸發強度ρl的乘積之和,即其中表征t時刻的狀態輸入;
定義Q值為當前狀態St下執行行動At后,所有后續獲得的回報值的累加的期望值;采用線性近似的方法對Q值進行估計,表示規則l中所選取行動所對應的權值;對于最優行動的Q值的估計定義為各規則中動作權值的最大值與規則觸發值的加權和,即其中maxa∈Aqt(Sl,a)表示規則l中各動作權值中的最大值,表示規則l的觸發強度;
以空戰優勢函數為基礎強化學習回報值;根據設定的門限值a和b,0ab1,當優勢函數值ftb時,無人機進入優勢地位,強化學習回報值rt=ft+β,其中β為設定的獎勵值;當優勢函數值aftb時,無人機處于均勢位置,強化學習的回報值rt=ft;當優勢函數值fta時,無人機處于劣勢,強化學習的回報值rt=ft+ζ,其中ζ為設定的懲罰值;
采用資格跡記錄過去的學習過程中各規則中各動作的選擇情況;定義規則l在時間t時動作ak的資格跡其中γ是強化學習中對未來回報的折扣率,0γ≤1,λ是資格跡隨時間衰減的遺忘率;在1條規則中,所有7個基本動作的資格跡都是先對上一時刻的資格跡進行衰減計算,然后對所選擇那個動作的資格跡加上本條規則的觸發強度;
定義TD誤差δt+1=rt+1+γVt(St+1)-Qt(St,At),即根據t+1時刻的回報值和最優動作值函數的估計之和,減去上一時刻的Q值,以此來反映動作At的優劣;更新各規則中各動作的權值qt+1(Sl,ak)=qt(Sl,ak)+ξδt+1et(Sl,ak),l=1,2,…,m,k=1,2,…,7,其中ξ表示強化學習的學習率;
當前狀態下所有規則中觸發強度最大的值Φl小于設定的門限值K時,認為此時所有現存的規則不能有效反映當前狀態,增加一條規則;
在新規則產生時,對每一個輸入狀態進行判斷,看當前輸入狀態si與其最鄰近的隸屬函數的中心值cij距離的大小,如果距離值小于設定門限,則在該狀態維度不產生新的隸屬函數;如果距離值大于門限,則產生一個隸屬函數,該隸屬函數的的中心值即為輸入狀態si,隸屬函數的寬度d為調節系數;
4)基于動態模糊Q學習的空戰機動決策強化學習的算法流程;設當前時刻為t+1且無人機已經執行了動作At并已獲得強化學習回報rt+1,則算法運行步驟如下:
①根據無人機和目標當前的運動狀態計算出態勢中的各個輸入量si組成狀態St+1,再計算當前狀態St+1的各規則觸發強度,進而計算Vt(St+1);
②計算TD誤差δt+1;
③調整各規則內動作的權值qt+1;
④進行規則完整性檢查,如果不滿足規則完整性,則生成一條新規則;
⑤根據ε-greedy算法,基于各規則中更新后的權值qt+1選擇各個規則的動作,再產生t+1時刻的動作輸出At+1(St+1);
⑥計算出當前時刻Q函數的估計值Qt+1(St+1,At+1),用于下一步TD誤差的計算;
⑦更新各規則中動作的資格跡,用于下一步的參數更新;
⑧無人機執行At+1(St+1),空戰狀態轉移至St+2,獲得回報rt+2,算法轉入步驟①再次循環;
步驟三,將構建的空戰機動決策動態模糊Q學習模型在不同的空戰場景下進行學習訓練,多次訓練后將模型生成的模糊規則庫作為無人機空戰機動的決策依據,依據規則判斷在不同的態勢下應該執行哪類機動,完成自主決策的過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810197989.8/1.html,轉載請聲明來源鉆瓜專利網。





