[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011039508.4 | 申請(qǐng)日: | 2020-09-28 |
| 公開(kāi)(公告)號(hào): | CN112340063B | 公開(kāi)(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 高浩;李芳琳;胡海東 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | B64G1/10 | 分類號(hào): | B64G1/10;B64G1/24;G06N3/04;G06N3/08 |
| 代理公司: | 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 韓紅莉 |
| 地址: | 210023 江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 衛(wèi)星 方法 | ||
1.一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法,其特征在于,包括以下步驟:
S1、標(biāo)注已知衛(wèi)星的數(shù)據(jù)樣本建立已知衛(wèi)星的樣本數(shù)據(jù)集;
S2、利用全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本數(shù)據(jù)集,使得終端能夠了解和識(shí)別圖像或視頻中的已知衛(wèi)星,得到圖像或視頻中已知衛(wèi)星的關(guān)鍵點(diǎn)的置信度圖;
S3、跟蹤視頻中關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡,通過(guò)PNP算法估計(jì)已知衛(wèi)星的位姿;
S4、通過(guò)DDPG算法訓(xùn)練最優(yōu)消旋,使用空間機(jī)械臂配備的消旋刷刷航天器帆板側(cè)邊完成衛(wèi)星消旋;
S4中,DDPG分為Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),Actor網(wǎng)絡(luò)訓(xùn)練最優(yōu)消旋,Critic網(wǎng)絡(luò)評(píng)價(jià)Actor網(wǎng)絡(luò)選取最優(yōu)消旋的動(dòng)作所獲得的價(jià)值,Actor網(wǎng)絡(luò)利用Q-learning算法函數(shù)逼近的方法估計(jì)值函數(shù),值函數(shù)表明當(dāng)前狀態(tài)下策略的長(zhǎng)期影響能力;
27維信息包括DDPG的狀態(tài)集合,令空間機(jī)械臂中右側(cè)機(jī)械臂的每個(gè)關(guān)節(jié)的位置控制集合為DDPG的狀態(tài)集合,狀態(tài)集合由空間機(jī)械臂的6個(gè)關(guān)節(jié)當(dāng)前轉(zhuǎn)角、空間機(jī)械臂的消旋刷是否觸碰到衛(wèi)星帆板側(cè)邊、兩側(cè)衛(wèi)星帆板外角點(diǎn)位置、衛(wèi)星轉(zhuǎn)速、空間機(jī)械臂和衛(wèi)星是否發(fā)生非合理碰撞以及機(jī)械臂每個(gè)關(guān)節(jié)位置控制量;
在DDPG算法訓(xùn)練過(guò)程中,如果空間機(jī)械臂的消旋刷觸碰到衛(wèi)星帆板側(cè)邊時(shí)賦予獎(jiǎng)勵(lì)值10,當(dāng)衛(wèi)星速度發(fā)生變化時(shí)以二倍轉(zhuǎn)速差值作為獎(jiǎng)勵(lì)值,當(dāng)空間機(jī)械臂訓(xùn)練時(shí)發(fā)生非合理碰撞則給予懲罰-50并結(jié)束此輪訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法,其特征在于,S1中,在建立已知衛(wèi)星的樣本數(shù)據(jù)集時(shí),需要從多個(gè)視角對(duì)已知衛(wèi)星環(huán)形拍照以獲得不同角度下已知衛(wèi)星的圖片,反映在不同角度下的已知衛(wèi)星的外觀和已知衛(wèi)星的形狀;在已知衛(wèi)星上選擇特征點(diǎn),并給特征點(diǎn)打上對(duì)應(yīng)的標(biāo)簽。
3.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法,其特征在于,S2中,在全卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行處理后,設(shè)定閾值,在閾值以上的置信度圖中搜索局部峰值,然后使用貪婪分配算法選擇峰值最大的點(diǎn)作為特征點(diǎn)。
4.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法,其特征在于,S2中,全卷積神經(jīng)網(wǎng)絡(luò)采用多級(jí)架構(gòu)來(lái)檢測(cè)關(guān)鍵點(diǎn),采用FCN全卷積神經(jīng)網(wǎng)絡(luò),F(xiàn)CN全卷積神經(jīng)網(wǎng)絡(luò)的前饋網(wǎng)絡(luò)作為輸入,輸入一個(gè)大小為w×h×3的RGB圖像,其中w代表圖像的寬度,h代表圖像的高度,3代表RGB三個(gè)顏色通道,輸出結(jié)果為特征點(diǎn)的置信度圖,每個(gè)特征點(diǎn)都會(huì)輸出一個(gè)對(duì)應(yīng)的置信度圖。
5.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法,其特征在于,S3中,利用在全卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練下得到不同幀圖像對(duì)應(yīng)關(guān)鍵點(diǎn)的二維坐標(biāo),使用PNP算法求解已知衛(wèi)星的位姿。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011039508.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





