[發明專利]基于深度強化學習的飛行器時間協同制導方法有效
| 申請號: | 202110256808.6 | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN115046433B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 王江;劉子超;何紹溟;侯淼;王鵬 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | F42B15/01 | 分類號: | F42B15/01;G06F30/27;G06N3/0464;G06N3/08 |
| 代理公司: | 北京康思博達知識產權代理事務所(普通合伙) 11426 | 代理人: | 劉冬梅;范國鋒 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 飛行器 時間 協同 制導 方法 | ||
1.一種基于深度強化學習的飛行器時間協同制導方法,所述方法通過深度強化學習模型輸出偏置項ab,基于偏置比例導引的形式得到新的制導指令am,最后根據制導指令am對飛行器控制系統進行控制;
所述制導指令am通過下式(一)獲得:
其中,am表示制導指令,v表示飛行器的絕對速度,λ表示彈目視線角,表示彈目視線角的變化率,ab表示偏置項;
所述偏置項ab通過以下步驟獲得:
步驟1,設計仿真飛行試驗,訓練得到深度強化學習模型;
步驟2,對深度強化學習模型進行測試;
步驟3,飛行器飛行時,使用測試通過的深度強化學習模型獲得偏置項ab,基于偏置比例導引的形式得到新的制導指令am,最后根據制導指令am對飛行器控制系統進行控制;
在步驟1中,所述深度強化學習模型通過近端策略優化方法(PPO)進行學習;
所述步驟1包括以下子步驟:
步驟1-1,根據飛行器模型設計仿真飛行試驗;
步驟1-2,設計深度強化學習模型的結構與參數,訓練得到深度強化學習模型;
所述步驟1-1包括以下子步驟:
1-1-1,通過飛行器的風洞試驗獲得飛行器的氣動參數與參考面積;
1-1-2,根據飛行器的運動微分方程組設計飛行器仿真模型,獲得飛行器的飛行狀態s;
1-1-3,以偏置比例導引律為制導律,部署深度強化學習模型與飛行器仿真模型的接口,所述接口包括飛行器狀態到深度強化學習模型的接口、深度強化學習模型到偏置比例導引的偏置項的接口、以及訓練深度強化學習模型時飛行器給出的獎勵值接口。
2.根據權利要求1所述的方法,其特征在于,
所述步驟1-2包括以下子步驟:
步驟1-2-1,深度強化學習模型根據飛行器的飛行狀態輸出偏置項ab至飛行器仿真模型;
步驟1-2-2,采集深度強化學習模型與飛行器仿真模型交互的數據,并存儲至經驗池中;
步驟1-2-3,使用經驗池中的數據改進深度強化學習模型輸出的偏置項ab。
3.根據權利要求2所述的方法,其特征在于,
步驟1-2-2中,所述深度強化學習模型與飛行器仿真模型交互的數據為元素組(st,at,rt);
其中,st表示飛行器在t時刻的飛行狀態;at表示深度強化學習模型在t時刻輸出的偏置項;rt表示飛行器在t時刻執行偏置項at后環境給出的獎勵。
4.根據權利要求3所述的方法,其特征在于,
所述rt根據下式獲得:
其中,td表示期望飛行時間,tf表示實際飛行時間;R表示彈目距離;
c1表示飛行時間獎勵的歸一化參數,設置為常數100;c2表示彈目距離獎勵的歸一化參數,設置為常數10000。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110256808.6/1.html,轉載請聲明來源鉆瓜專利網。





