[發(fā)明專利]一種基于強化學習的無人機空戰(zhàn)機動決策方法有效
| 申請?zhí)枺?/td> | 201810197989.8 | 申請日: | 2018-03-12 |
| 公開(公告)號: | CN108319286B | 公開(公告)日: | 2020-09-22 |
| 發(fā)明(設計)人: | 楊啟明;張建東;吳勇;史國慶;朱巖;徐建城;莫文莉 | 申請(專利權)人: | 西北工業(yè)大學 |
| 主分類號: | G05D1/08 | 分類號: | G05D1/08;G05D1/10 |
| 代理公司: | 西北工業(yè)大學專利中心 61204 | 代理人: | 顧潮琪 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 無人機 空戰(zhàn) 機動 決策 方法 | ||
本發(fā)明提供了一種基于強化學習的無人機空戰(zhàn)機動決策方法,首先創(chuàng)建飛機平臺的運動模型;然后分析影響空戰(zhàn)態(tài)勢的各主要因素,在運動模型和空戰(zhàn)態(tài)勢因素分析的基礎上,設計空戰(zhàn)機動決策的動態(tài)模糊Q學習模型,確定強化學習的各要素和算法流程;對空戰(zhàn)機動決策的狀態(tài)空間進行模糊化作為強化學習的狀態(tài)輸入;選取典型空戰(zhàn)動作作為強化學習基本行動,通過各模糊規(guī)則的觸發(fā)強度加權求和實現連續(xù)行動空間的覆蓋;在構建的空戰(zhàn)優(yōu)勢函數為基礎通過設置權重和疊加獎懲值的方法設置了強化學習的回報值。本發(fā)明可有效提高無人機進行空戰(zhàn)機動自主決策的能力,具有較高的魯棒性和自主尋優(yōu)性,在不斷的仿真和學習中無人機所做的決策水平不斷提高。
技術領域
本發(fā)明屬于人工智能的技術領域,具體涉及一種用于無人駕駛飛機的空戰(zhàn)機動決策的實現方法。
背景技術
目前,無人機已經能夠完成偵察、監(jiān)視和對地攻擊等任務,在現代戰(zhàn)爭中發(fā)揮著越來越難以替代的作用。但是由于空戰(zhàn)對操控的實時性要求更高,目前對無人機采用的地面站遙控的操作辦法很難完成對無人機準確、及時的操控,以期在空戰(zhàn)中取得優(yōu)勢。因此,提升無人機的智能化水平,讓無人機能夠根據態(tài)勢環(huán)境而自動產生控制指令完成空戰(zhàn)中的機動動作是當前主要的研究方向。
讓無人機完成空戰(zhàn)機動自主決策,其實質是完成從空戰(zhàn)態(tài)勢到機動動作的映射,在不同態(tài)勢下執(zhí)行相應的機動動作。由于空戰(zhàn)的態(tài)勢較之于其他任務更加復雜,靠人工預編程的方法難以全面地覆蓋空戰(zhàn)任務的態(tài)勢空間,更難以計算產生最優(yōu)的機動動作決策。
強化學習是一種采用“試錯”的方法與環(huán)境交互的學習方法,可以通過馬爾科夫決策過程(MDP)對強化學習過程進行表征,通過計算當前狀態(tài)下執(zhí)行動作后的累計回報期望值的大小來判斷動作選擇的合理性。因此,通過強化學習產生的狀態(tài)-動作映射考慮了動作的遠期影響,能夠獲得很好的遠期收益,而且Agent與環(huán)境交互的學習過程不需要訓練樣本,僅僅需要環(huán)境的回報值對執(zhí)行的動作進行評價,因此通過建立無人機空戰(zhàn)機動的強化學習模型,讓代表無人機的Agent不斷在仿真環(huán)境中探索和學習,反復迭代,就能產生一系列最優(yōu)化的空戰(zhàn)態(tài)勢-機動動作的規(guī)則庫,為無人機在空戰(zhàn)中產生機動決策序列。
將具體實際問題完成在強化學習框架下的實例化需要完成兩方面的工作,首先,需要解決實際問題中大規(guī)模連續(xù)狀態(tài)空間的的劃分和描述問題,合理的狀態(tài)空間劃分和描述能降低問題的復雜度,提升強化學習的效率和穩(wěn)定性,其次,需要描述強化學習的外部環(huán)境,包括Agent在與外部環(huán)境交互過程中狀態(tài)轉移的模型構建和環(huán)境給予 Agent的回報函數的定義。
發(fā)明內容
為了克服現有技術的不足,本發(fā)明提供一種基于強化學習的無人機空戰(zhàn)機動自主決策的產生方法,設計出符合空戰(zhàn)控制問題約束的無人機空戰(zhàn)機動強化學習算法結構,通過在構建的模擬空戰(zhàn)環(huán)境中試錯學習獲得一系列合理的空戰(zhàn)機動規(guī)則,提高無人機自主完成空戰(zhàn)的能力。
本發(fā)明解決其技術問題所采用的技術方案包括以下步驟:
步驟一,構建與目標一對一空戰(zhàn)的無人機運動模型假設速度矢量與機體軸向一致,式中x、y、z表示飛機在慣性坐標系中的位置,v為飛機速度,表示v在三個坐標軸方向的分量,θ為航跡角,α為航向角,g為重力加速度,無人機的控制量為[ηx,ηz,φ],其中ηx為沿著速度方向的過載,ηz為沿著機頂方向過載,φ為繞速度矢量的滾轉角;
建立角度優(yōu)勢函數其中和分別表示無人機和目標的方位角,即無人機與目標的速度向量分別與距離向量R的夾角;
建立距離優(yōu)勢函數其中,R=||R||,即距離向量的模, Rw表示無人機的武器射程,σ為標準偏差;
建立速度優(yōu)勢函數其中,武器相對目標的最佳攻擊速度vmax表示無人機的速度上限,vT表示目標速度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業(yè)大學,未經西北工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810197989.8/2.html,轉載請聲明來源鉆瓜專利網。





