[發明專利]基于深度強化學習的飛行器時間協同制導方法有效
| 申請號: | 202110256808.6 | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN115046433B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 王江;劉子超;何紹溟;侯淼;王鵬 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | F42B15/01 | 分類號: | F42B15/01;G06F30/27;G06N3/0464;G06N3/08 |
| 代理公司: | 北京康思博達知識產權代理事務所(普通合伙) 11426 | 代理人: | 劉冬梅;范國鋒 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 飛行器 時間 協同 制導 方法 | ||
本發明公開了一種基于深度強化學習的飛行器時間協同制導方法,所述方法通過深度強化學習模型根據飛行器的飛行狀態輸出偏置項asubgt;t/subgt;,基于偏置比例導引的形式得到新的制導指令asubgt;m/subgt;,最后根據制導指令asubgt;m/subgt;對飛行器控制系統進行控制。本發明提供的基于深度強化學習的飛行器時間協同制導方法,選取的輸入狀態為當前速度、當前速度方向、當前位置以及剩余飛行時間誤差,映射關系合理,使用深度強化學習擬合這一映射關系的可行性高。
技術領域
本發明涉及飛行器技術領域,具體涉及飛行時間協同領域,尤其涉及一種基于深度強化學習的飛行器時間協同制導方法。
背景技術
飛行器(如:導彈)是打擊重要戰略目標的中堅力量,但是現代戰爭中,敵方的防御反制手段多種多樣,尤其是地面或艦載平臺擁有遠程攔截武器、近防武器,這些都對飛行器造成了很大的威脅。
多彈協同打擊是一種效率較高的突防手段,它能夠使敵方的防御系統達到飽和,提高突防成功的幾率。其中,飛行時間協同是實現多彈協同打擊的一種可行手段,目前對飛行時間的協同主要分為以下兩種途徑:1.通過彈間通信協調各彈的預測到達時間;2.發射前為導彈裝定相等的期望到達時間。但是,無論采取何種途徑,都要精確控制各彈的剩余飛行時間,針對該問題,現有的制導律大多基于常值速度假設,將問題轉化為對剩余飛行路徑的控制,然而剩余飛行時間與飛行器速度相關,基于常值速度假設提出的制導律實際應用效果不佳。若使用微分方程迭代計算,雖然能夠提高預測精度,但是計算量較大,難以實現在線預測。
上述的多彈協同對抗決策技術需要建立對抗環境的任務模型或環境模型,無法充分考慮模型的不確定性,而且,建立行為模型或行為準則的方法,會人為限制了行為策略的求解空間,難以獲得最優策略,從而無法適應動態多變的多彈協同對抗環境。而且,復雜環境下,環境變量和決策變量維度增加,問題復雜度隨之增加,進而導致上述多飛行器協同對抗決策技術無法適應復雜環境或算法難以求解。
因此,有必要提供一種克服依賴常值速度假設的缺陷,并具有良好控制效果的飛行器時間協同制導方法。
發明內容
為了克服上述問題,本發明人進行了銳意研究,設計出一種基于深度強化學習的飛行器時間協同制導方法,該方法根據飛行器自身的當前速度、當前速度方向、當前位置以及剩余飛行時間誤差,訓練深度強化學習模型,并由深度強化學習模型實現剩余飛行時間控制。該方法克服了依賴常值速度假設的缺陷,具有良好的控制效果,能夠應用于在線制導控制場景,從而完成了本發明。
具體來說,本發明的目的在于提供一種基于深度強化學習的飛行器時間協同制導方法,所述方法根據飛行器的飛行狀態通過深度強化學習模型輸出偏置項at,基于偏置比例導引的形式得到新的制導指令am,最后根據制導指令am對飛行器控制系統進行控制;
所述制導指令am通過下式(一)獲得:
其中,am表示制導指令,v表示飛行器的絕對速度,λ表示彈目視線角,表示彈目視線角的變化率,ab表示偏置項。
所述偏置項ab通過以下步驟獲得:
步驟1,設計仿真飛行試驗,訓練得到深度強化學習模型;
步驟2,對深度強化學習模型進行測試;
步驟3,飛行器飛行時,使用測試通過的深度強化學習模型獲得偏置項at,基于偏置比例導引的形式得到新的制導指令am,最后根據制導指令am對飛行器控制系統進行控制。
在步驟1中,所述深度強化學習模型優選通過近端策略優化方法(PPO)進行學習;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110256808.6/2.html,轉載請聲明來源鉆瓜專利網。





