[發明專利]一種基于強化學習的空間非合作目標參數自整定追蹤方法有效
| 申請號: | 201911172906.0 | 申請日: | 2019-11-26 |
| 公開(公告)號: | CN110850719B | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 師鵬;王逍;張冉;鄧忠民;趙育善;徐添 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 安麗;鄧治平 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 空間 合作 目標 參數 追蹤 方法 | ||
1.一種基于強化學習的空間非合作目標參數自整定追蹤方法,其特征在于,包括以下步驟:
第一步,針對(a)失效衛星,(b)帶機動非合作目標的兩種情形,分別建立追蹤星與目標星的相對動力學模型,設計控制律;
第二步,根據第一步的動力學模型及控制律,建立基于強化學習的參數自整定學習框架;
第三步,根據第二步的所述學習框架,通過由模糊系統組成的執行器Actor和評價器Critic部分,分別獲取當前控制參數和當前狀態對應的值函數,通過與智能體所處環境交互,獲取下一狀態值函數與回報,基于時間差分法與梯度下降法,通過迭代逐次優化控制參數進行學習;學習結束時,得到優化后的控制參數,最終實現對情形(a)的初始加速度降低和對情形(b)的終端跟蹤誤差降低。
2.根據權利要求1所述的基于強化學習的空間非合作目標參數自整定追蹤方法,其特征在于:所述第一步具體實現如下:
(1)建立追蹤星與目標星的相對動力學模型
對于情形(a):
設追蹤星質心C相對于追逐航天器P的相對位置、相對速度分別為rre和vre,相對姿態、相對角速度分別為qre和ωre,建立追蹤星相對于目標星的相對位置動力學模型;
其中,ωc為追蹤星質心C在追蹤星本體坐標系下相對于慣性系的角速度,ωt為目標星質心T在目標星本體坐標系下相對于慣性系角速度,pt為追蹤星質心C滿足對目標星質心T點在目標星本體坐標系下的相對距離,表示從目標本體坐標系到追蹤星本體坐標系的轉換矩陣,Jt為目標星的轉動慣量,f和df分別為目標本體坐標系下的追蹤星質心C所受到的控制力和擾動力,τ和dτ分別為目標本體坐標系下追蹤星質心C所受到的控制力矩和擾動力矩,m和Jc分別為追蹤星的質量和轉動慣量,Ω(qc)為姿態矩陣;
對于情形(b):
追逐航天器P需要對非合作逃逸航天器E進行跟蹤,建立參考軌道坐標系Oxoyozo,即O系,設偏心率e約等于0,ω*為參考軌道坐標系軌道角速度,得到追蹤星相對于目標星的相對位置動力學模型;
其中,{x,y,z}分別表示追逐航天器P,和逃逸航天器E在三個方向上的相對距離,和分別表示追逐航天器和逃逸航天器的機動控制量,TP表示追逐航天器單位質量下的最大推力,TE表示逃逸航天器單位質量下的最大推力;
(2)基于步驟1(1)中的動力學模型設計相應控制律
對于情形(a):
基于步驟1(1)中(a)情況中的動力學模型,引入包括追蹤星的質量m、轉動慣量Jc和追蹤星所受有界干擾力df及有界干擾力矩dτ和目標星的轉動慣量Jt在內的5種不確定性,根據李雅普諾夫穩定性原理,設計跟蹤失效衛星的自適應控制律;
式中,a=||Jt-1||||Jt||,b=||Jc-1||||Jc||,和分別為對追蹤星的質量m與轉動慣量Jc的估計值,和分別為對追蹤星所受的擾動df和擾動力矩dτ最大值的估計值(df≥||df||,dτ≥||dτ||),和分別表示對a和b的估計值,k1、k2、k3和k4表示待優化的控制參數;
自適應參數更新律如下:
其中,γ1、γ2、γ3、γ4、γ5、γ6表示自適應更新參數;
對于情形(b):
在跟蹤帶機動的非合作目標時,首先考慮當目標不存在機動能力時,即時,設計目標無機動時的PD控制,再考慮當目標存在機動時,則該PD控制律進行修正,用以保證閉環系統穩定性,對于X通道,設得到X通道的自適應控制律
其中,k1、k2為待優化的控制參數;
同理,得到Y和Z通道的控制律和如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911172906.0/1.html,轉載請聲明來源鉆瓜專利網。





