[發明專利]考慮彈跳的小天體表面定點附著軌跡規劃方法有效
| 申請號: | 202011099994.9 | 申請日: | 2020-10-15 |
| 公開(公告)號: | CN112269390B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 梁子璇;呂暢;崔平遠;朱圣英;徐瑞 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G05D1/08 | 分類號: | G05D1/08;G05B13/04 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 張利萍 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 考慮 彈跳 天體 表面 定點 附著 軌跡 規劃 方法 | ||
1.考慮彈跳的小天體表面定點附著軌跡規劃方法,其特征在于:包括如下步驟,
步驟一、將探測器彈跳至目標位置的過程分為接近段和制動段兩個階段,針對每一階段探測器碰撞前的姿態和角速度,采用深度確定性策略梯度算法,選取狀態空間與動作空間,搭建探測器彈跳運動神經網絡模型;
步驟二、針對探測器彈跳的接近段和制動段兩個階段的不同要求,分別設計獎賞函數,選取合適的訓練參數進行模型訓練和仿真測試,得到兩個階段的智能體A1和A2,用于給出兩階段姿態序列;
步驟三、智能體A1和A2基于探測器當前的狀態,給出探測器每次碰撞前的姿態信息,在此基礎上,設計滑模面,使用滑模控制方法求解控制力矩,使得探測器碰撞前的姿態調整到期望值,從而使探測器實現期望的彈跳軌跡,完成探測器到小天體表面目標點的精確附著;
步驟一的具體實現方法為,
探測器的動力學方程如下:
其中,m為探測器質量,g為小天體重力加速度,(x,y)為探測器位置,I為探測器轉動慣量,2l為探測器邊長,α為探測器的姿態角,ω為探測器的角速度,Ft為地面對探測器水平方向向作用力,Fn為地面對探測器豎直方向作用力,Tc為探測器控制力矩;
通過對探測器動力學方程的分析可知,探測器跳躍的高度和速度是由發生碰撞時地面給探測器的力決定的;由連續碰撞模型可知,探測器所受的水平方向力Ft和豎直方向力Fn是由碰撞時探測器的姿態角α和角速度ω決定的;因此,使用深度確定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法時,狀態空間s選取為探測器的位置r和速度v,動作空間a選取為探測器碰撞時的姿態角α和角速度ω;在一次跳躍過程中,探測器在空中的位置和速度信息總量是不發生變化的,因此狀態空間簡化為碰撞前探測器達到的最高點位置信息(xh,yh)和水平速度信息vxh;
s=(xh,yh,vxh) (2)
a=(α,ω) (3)
搭建兩組神經網絡用于兩階段智能體A1和A2的訓練;兩組神經網絡結構相同,包含Actor網絡和Critic網絡;
Actor網絡用于根據當前狀態選取執行的動作,包含兩個隱藏層和一個輸出層;Critic網絡用于根據狀態和動作來評估選取的動作,包含兩個隱藏層和一個輸出層,Actor網絡給出的動作在第二個隱藏層處加入Critic網絡;
步驟二的具體實現方法為,
步驟2.1針對接近段設計獎賞函數,訓練得到智能體A1,用于給出第一階段姿態序列;
探測器在接近段由初始位置向目標點運動,直到探測器跳躍最高點的水平位置x在目標點xf附近范圍[xf-Δx1,xf+Δx1]內,同時水平速度大小降低到[0,v1]內;
接近段探測器由初始位置向目標點運動,到達目標點附近同時將水平速度降低到一定范圍,因此結束條件為:在一定跳躍次數內探測器跳躍最高點水平位置達到目標范圍,即
|x-xf|≤Δx1 (4)
其中,x為探測器當前跳躍最高點水平位置;
接近段結束時,獎賞值設計方法為:完成任務時給予一個大值獎賞,同時對完成任務時的水平速度進行評估,速度越小,給予越大的獎賞,速度過大則給予負值獎賞,接近段結束獎賞值R為
其中,x和vx分別為完成任務時跳躍最高點的位置橫坐標和水平速度,R1和R2分別為評估位置和速度的大值獎賞;
此外,接近段過程中,考慮以下三個因素賦予獎賞值:
1)彈跳次數:設置每步的過程獎賞為負值,期望智能體通過最少的動作次數完成任務,同時該獎賞值與探測器與目標點當前的水平距離相關,距離越遠,懲罰越大;每步的獎賞值為
其中,xk為碰撞前探測器最高點位置橫坐標,R0為一個較小的正值,p為參數;
2)彈跳運動方向:若當前動作使得下次跳躍最高點的位置橫坐標和水平速度的符號相反,則碰撞結果是探測器朝向目標點運動;運動方向獎賞值為
R=-q·sgn(xk+1-xf)·sgn(vx,k+1) (7)
其中,xk+1和vx,k+1分別為碰撞后探測器跳躍最高點的位置橫坐標和水平速度,q為參數;
速度約束:如果在碰撞后速度過大,超過小天體表面的逃逸速度,則給出一個負值獎賞;
根據接近段獎賞函數,選取合適的訓練參數進行模型訓練和仿真測試,得到智能體A1;
步驟2.2針對制動段設計獎賞函數,訓練得到智能體A2,用于給出第二階段姿態序列;
探測器在制動段由目標點附近位置開始運動,直到探測器跳躍最高點的水平速度降低到vf,同時水平位置在[xf-Δx2,xf+Δx2]內;
制動段探測器在目標點附近以彈跳方式進行制動,在消除剩余水平速度的同時將探測器的位置控制在一定范圍內,因此結束條件為:在一定跳躍次數內探測器跳躍最高點水平速度減小到vf,即
|vx|≤vf (8)
其中,vx探測器當前跳躍最高點水平速度;
制動段結束時,獎賞值設計方法為:完成任務時給予一個大值獎賞,同時要對完成任務時的水平位置進行評估,探測器到目標點水平距離越小,給予越大的獎賞,距離過大則給予負值獎賞,制動段結束獎賞值為:
其中,x和vx分別為完成任務時跳躍最高點的位置橫坐標和水平速度,R3和R4分別為評估速度和位置的大值獎賞;
此外,制動段段過程中,考慮以下三個因素賦予獎賞值:
1)彈跳次數:設置每步的過程獎賞為負值,期望智能體通過最少的動作次數完成任務,同時該獎賞值與探測器當前的水平速度相關,速度越大,懲罰越大;每步的獎賞值為
R=-R0-p·|vx,k| (10)
其中,vx,k為探測器當前的水平速度;
2)彈跳運動方向:若當前動作使得下次跳躍最高點的位置橫坐標和水平速度的符號相反,則碰撞結果是探測器朝向目標點運動;運動方向獎賞值為
R=-q·sgn(xk+1-xf)·sgn(vx,k+1) (11)
3)高度約束:如果在碰撞后跳躍最高點過高,則給出一個負值獎賞;
根據制動段獎賞函數,選取合適的訓練參數進行模型訓練和仿真測試,得到智能體A2;
步驟三的具體實現方法為,
在一次跳躍中,智能體由碰撞前最高點的狀態可以給出本次碰撞點處探測器的姿態角αp和角速度ωp;從碰撞前最高點到碰撞點過程中,使用二階滑模控制調整探測器姿態,使其在碰撞點處達到智能體給出的姿態角和角速度;
根據公式(12)計算出碰撞點探測器的質心高度yp:
探測器在空中做自由落體運動,因此可以由最高點高度yh和碰撞點高度yp計算出最高點到碰撞點的時間tp:
定義一階滑模面s1:
s1=α-αp-ωp(t-tp) (14)
其中,α為當前時刻姿態角;
對s1求一階偏導得:
其中,ω為當前時刻角速度;
定義二階滑模面s2:
其中,Λ為參數;
對s2求一階偏導得:
定義s2的趨近律如下:
其中,k為參數,sat(s)為飽和函數:
由姿態動力學方程可得,碰撞前的控制力矩Tc1為
在碰撞結束后,使用一階滑模控制,將姿態角穩定在固定值0°,以便于下次碰撞前的姿態控制;定義滑模面s3及其趨近律如下:
s3=α+ω (21)
其中,k1和k2為參數;
由姿態動力學方程可得,碰撞后控制力矩Tc2為
Tc2=I·[k1·s3+k2·sat(s3)-ω] (23)
通過滑模控制使碰撞時探測器姿態調整為智能體給出的姿態值,從而使探測器能按照深度確定性策略梯度DDPG算法規劃的方式進行跳躍,實現探測器到小天體表面目標點的精確附著。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011099994.9/1.html,轉載請聲明來源鉆瓜專利網。





