[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法有效
| 申請?zhí)枺?/td> | 202011039508.4 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112340063B | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計)人: | 高浩;李芳琳;胡海東 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | B64G1/10 | 分類號: | B64G1/10;B64G1/24;G06N3/04;G06N3/08 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 韓紅莉 |
| 地址: | 210023 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 衛(wèi)星 方法 | ||
本發(fā)明公開了一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法,其特征在于,包括以下步驟:標(biāo)注已知衛(wèi)星的數(shù)據(jù)樣本建立已知衛(wèi)星的樣本數(shù)據(jù)集;利用全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本數(shù)據(jù)集,使得終端能夠了解和識別圖像或視頻中的已知衛(wèi)星,得到圖像或視頻中已知衛(wèi)星的關(guān)鍵點的置信度圖;跟蹤視頻中關(guān)鍵點的運(yùn)動軌跡,通過PNP算法估計已知衛(wèi)星的位姿;通過DDPG算法訓(xùn)練最優(yōu)消旋,空間機(jī)械臂的消旋刷刷航天器帆板側(cè)邊完成衛(wèi)星消旋。本發(fā)明方法借助深度強(qiáng)化學(xué)習(xí),實現(xiàn)對高速自旋的失控衛(wèi)星的消旋,同時結(jié)合視覺信息讓計算機(jī)跟數(shù)據(jù)和模型環(huán)境接觸,訓(xùn)練最優(yōu)抓取位姿,提高了空間機(jī)械臂目標(biāo)捕獲的準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法,屬于衛(wèi)星消旋方法技術(shù)領(lǐng)域。
背景技術(shù)
隨著航天器在軌數(shù)目增加及廣泛應(yīng)用,現(xiàn)實生活越來越離不開在軌航天器提供的各種應(yīng)用功能。由于空間在軌工作機(jī)構(gòu)自身條件限制和空間環(huán)境的影響,在沒有任何補(bǔ)給和維修的條件下,常由于燃料有限、設(shè)備陳舊或模塊故障而被迫終止運(yùn)行,不得不重新制造和發(fā)射全新系統(tǒng)加以取代,造成了不必要的損失和浪費。GEO即地球同步軌道,開展GEO在軌維護(hù)與服務(wù)以及相關(guān)技術(shù)的研究能夠有效的延長在軌系統(tǒng)的使用壽命,同時為長期頻繁的空間活動提供強(qiáng)有力的后勤保障。
對于合作目標(biāo),服務(wù)維修一般選擇對接點為衛(wèi)星的遠(yuǎn)地點發(fā)動機(jī)和星箭對接環(huán)。對于非合作目標(biāo),一般選取對接點為平滑表面、表面明顯突出特征如分離螺栓等。由于失效很長時間或沒有利用價值,待對接目標(biāo)分為待維修等目標(biāo)以及需要清除的目標(biāo)。通常情況下,待對接目標(biāo)已經(jīng)失去姿控能力,機(jī)械臂無法直接抓取告訴翻轉(zhuǎn)的空間目標(biāo)。同時,對于待維修目標(biāo),抓取的服務(wù)機(jī)構(gòu)應(yīng)在保證抓捕效率的同時盡量減少對目標(biāo)的損傷。因此對于待維修或清除的帶有旋轉(zhuǎn)動能的目標(biāo),直接抓捕具有較高的危險性。為了保證安全,在抓捕之前需要對衛(wèi)星進(jìn)行“消旋”。
1989年,Chris Watkins開發(fā)了Q-learning,將時序差分和最優(yōu)控制線完全結(jié)合在一起。這項工作擴(kuò)展并整合了強(qiáng)化學(xué)習(xí)研究的所有三個主線的先前工作。Q-learning使得在缺乏立即回報函數(shù)和狀態(tài)轉(zhuǎn)換函數(shù)的知識下依然可以求出最優(yōu)動作策略,換句話說,Q-learning 使得強(qiáng)化學(xué)習(xí)不再依賴于問題模型,但仍然需要知道最終回報或者目標(biāo)狀態(tài)。此外Watkins 還證明了當(dāng)系統(tǒng)是確定性的馬爾可夫決策過程,并且回報是有限的情況下,強(qiáng)化學(xué)習(xí)是收斂的,也即一定可以求出最優(yōu)解。至今,Q-learning已經(jīng)成為最廣泛使用的強(qiáng)化學(xué)習(xí)方法。
本發(fā)明對基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂控制問題做了充分調(diào)查研究,建立衛(wèi)星樣本數(shù)據(jù)庫,作為多級架構(gòu)的全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集,使其輸出衛(wèi)星關(guān)鍵點的置信度圖;采用PNP算法估計衛(wèi)星位姿,通過深度強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)械臂完成對衛(wèi)星的消旋任務(wù),實際效果證實了實驗可行性。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的缺陷,提供一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法,借助深度強(qiáng)化學(xué)習(xí),實現(xiàn)對高速自旋的失控衛(wèi)星的消旋,同時結(jié)合視覺信息讓計算機(jī)跟數(shù)據(jù)和模型環(huán)境接觸,訓(xùn)練最優(yōu)抓取位姿,提高了空間機(jī)器人完成目標(biāo)捕獲的準(zhǔn)確度。
為達(dá)到上述目的,本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的衛(wèi)星消旋方法,包括以下步驟:
S1、標(biāo)注已知衛(wèi)星的數(shù)據(jù)樣本建立已知衛(wèi)星的樣本數(shù)據(jù)集;
S2、利用全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本數(shù)據(jù)集,使得終端能夠了解和識別圖像或視頻中的已知衛(wèi)星,得到圖像或視頻中已知衛(wèi)星的關(guān)鍵點的置信度圖;
S3、跟蹤視頻中關(guān)鍵點的運(yùn)動軌跡,通過PNP算法估計已知衛(wèi)星的位姿;
S4、通過DDPG算法訓(xùn)練最優(yōu)消旋,使用空間機(jī)械臂配備的消旋刷刷航天器帆板側(cè)邊完成衛(wèi)星消旋。
進(jìn)一步地,S1中,在建立已知衛(wèi)星的樣本數(shù)據(jù)集時,需要從多個視角對已知衛(wèi)星環(huán)形拍照以獲得不同角度下已知衛(wèi)星的圖片,反映在不同角度下的已知衛(wèi)星的外觀和已知衛(wèi)星的形狀;在已知衛(wèi)星上選擇特征點,并給特征點打上對應(yīng)的標(biāo)簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011039508.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





