[發明專利]一種基于強化學習的再入飛行器軌跡規劃方法有效
| 申請號: | 202110339389.2 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN112947592B | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 張冉;侯忻宜;李惠峰 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G05D1/12 | 分類號: | G05D1/12 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 王順榮;唐愛華 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 再入 飛行器 軌跡 規劃 方法 | ||
1.一種基于強化學習的再入飛行器軌跡規劃方法,其特征在于:其具體步驟如下:
步驟一、建立飛行器運動模型;
根據再入飛行器的動力學特性,在仿真軟件中建立質心運動方程,設置禁飛區和目標點位置,選取控制量;
步驟二、設置該方法的狀態量,設計獎勵函數;
根據飛行器當前位置和禁飛區以及目標點的位置,設計飛行器反饋給強化學習的狀態量,由狀態量的值設計獎勵函數;
步驟三、根據步驟二中的狀態量和獎勵函數,采用強化學習進行交互訓練;
建立神經網絡模型,將步驟二中的狀態量作為神經網絡模型的輸入變量,利用設置的獎勵函數,采用近端策略優化方法對控制量進行尋優,使得期望回報最大化;
步驟四、根據步驟三中訓練得到的神經網絡模型,計算控制策略;
將訓練得到的神經網絡模型保存,在仿真環境中給出初始狀態量作為神經網絡模型的輸入,實時計算所需控制量,輸出到仿真環境中控制飛行器運動一段時間,得到下一時刻的狀態量,重復以上過程,直到飛行器到達目標點;
其中,在步驟二中所述的設置該方法的狀態量,是指通過飛行器當前的飛行狀態量值,推導得到的當前位置與禁飛區和目標點的相對位置關系,其具體作法如下:
當前位置和禁飛區圓心之間的大圓弧為OA,OA與正北方向夾角為與飛行器當前航向角ψ即與正北方向夾角之差為沿著飛行器速度軸,當禁飛區在飛行器左邊時,為負,反之為正;飛行器當前位置和目標點之間的大圓弧為OT;環境反饋給強化學習的狀態量設定為ΔR、OT,其中,ΔR=OA-rzone,rzone為以弧度表示的禁飛區半徑;
其中,在步驟二中所述的設計獎勵函數,是指由環境反饋給該方法的狀態量表示的函數,能稱之為獎勵信號及強化信號,飛行器根據當前狀態做出動作之后,環境會反饋一個獎勵,用來更新神經網絡模型參數,其具體作法如下:
若當前飛行器未進入禁飛區,則不懲罰,若飛行器進入禁飛區,則將飛行器與禁飛區圓心的連線所對應的大圓弧度與禁飛區半徑之差乘以擴大因子作為懲罰值;針對目標點的懲罰策略為,將飛行器與目標點的連線對應的大圓弧度作為懲罰值,每一回合的后8%步懲罰系數擴大10倍;由于策略的優劣取決于長期執行這一策略后得到的累積獎賞,因此為了使飛行器最終能夠到達目標點,避免出現在飛行途中目標點到達和禁飛區規避任務之間難以決策的情況,獎勵的設置原則為在飛行過程中主要考慮禁飛區的規避,而每一回合快結束時主要考慮目標點的到達,獎勵函數寫為如下形式:
reward=ωmin(0,ΔR)-ω1OT (2)
其中reward表示獎勵值,ω為禁飛區懲罰系數,ω1為目標點懲罰系數。
2.根據權利要求1所述的一種基于強化學習的再入飛行器軌跡規劃方法,其特征在于:在步驟一中所述的建立飛行器運動模型,其具體作法如下:
將地球視為均質圓球,考慮地球曲率的影響,并且假設地球無自轉,建立飛行器的三自由度質心運動模型,飛行器的運動方程如下:
其中,r為地心距,是飛行器所在位置與地心的距離,θ和φ分別為飛行器的經度和緯度,V為飛行器相對地球的速度,γ為飛行路徑角,表示飛行器的速度方向與水平面的夾角,ψ為航向角,表示飛行器的速度方向在水平面的投影與正東方向的夾角;m為飛行器的質量,α和σ分別表示攻角和傾側角,攻角剖面由速度決定,橫側向由傾側角控制,傾側角大小和方向由算法策略給出,變化區間設置為[σmin,σmax],σmin和σmax分別為傾側角的最小值和最大值;飛行器的飛行狀態量為x=[r,θ,φ,V,γ,ψ],控制量為u=σ。
3.根據權利要求1所述的一種基于強化學習的再入飛行器軌跡規劃方法,其特征在于:在步驟四中所述的計算控制策略,其具體作法如下:
經過多次和環境的交互訓練,得到能用的神經網絡模型,對神經網絡模型進行評估;將訓練得到的神經網絡模型保存,在仿真環境中給出初始狀態量作為神經網絡模型的輸入,實時計算控制量的變化策略,輸出到仿真環境中控制飛行器運動一段時間,得到下一時刻的狀態量,重復以上過程,直到飛行器到達目標點;
對于初始條件改變和禁飛區位置變更的情況,在仿真環境中改變相應參數,然后將飛行器的狀態量輸入神經網絡模型中,計算控制量,進行飛行器的運動仿真。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110339389.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種節能型無負壓設備及控制方法
- 下一篇:一種可防水的生態農業種植棚





