[發(fā)明專利]基于維度裁剪的PPO算法的四旋翼姿態(tài)軌跡控制方法在審
| 申請?zhí)枺?/td> | 202111395210.1 | 申請日: | 2021-11-23 |
| 公開(公告)號: | CN113885549A | 公開(公告)日: | 2022-01-04 |
| 發(fā)明(設(shè)計(jì))人: | 薛文濤;吳行行;吳帥;葉輝;楊曉飛 | 申請(專利權(quán))人: | 江蘇科技大學(xué) |
| 主分類號: | G05D1/08 | 分類號: | G05D1/08 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 徐澍 |
| 地址: | 212100 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 維度 裁剪 ppo 算法 四旋翼 姿態(tài) 軌跡 控制 方法 | ||
1.一種基于維度裁剪的PPO算法的四旋翼姿態(tài)軌跡控制方法,其特征在于,包括以下步驟:
1)搭建四旋翼任務(wù)環(huán)境;根據(jù)無人機(jī)旋轉(zhuǎn)特性和平移特性建立四旋翼模型,設(shè)計(jì)任務(wù)要求為無人機(jī)從起始點(diǎn)起飛,懸停至目標(biāo)點(diǎn);根據(jù)任務(wù)要求和四旋翼模型搭建任務(wù)環(huán)境;
2)對四旋翼無人機(jī)任務(wù)環(huán)境進(jìn)行完善,加入風(fēng)切變和離散突風(fēng)兩種類型的風(fēng)場模型;
3)根據(jù)任務(wù)環(huán)境中不同的姿態(tài)、軌跡控制要求來設(shè)置相應(yīng)的動作空間和狀態(tài)空間,制定環(huán)境規(guī)則和狀態(tài)邊界值;
4)得到訓(xùn)練任務(wù)環(huán)境的控制策略,需要依據(jù)維度裁剪機(jī)制來優(yōu)化PPO算法;更改算法中的目標(biāo)函數(shù)并提出額外損失;
5)在優(yōu)化后的PPO算法中引入分布式獎勵值信號;根據(jù)狀態(tài)邊界值設(shè)定懲罰項(xiàng),通過對分層的獎懲函數(shù)給予相應(yīng)的權(quán)值;
6)設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)架構(gòu),強(qiáng)化學(xué)習(xí)算法的策略更新將作為神經(jīng)網(wǎng)絡(luò)的輸入端;使用多層感知器(MLP)結(jié)構(gòu);
7)使用基于維度裁剪的PPO算法在風(fēng)場環(huán)境下訓(xùn)練策略,通過神經(jīng)網(wǎng)絡(luò)輸出四旋翼的控制策略;訓(xùn)練完畢后觀察無人機(jī)的控制效果,驗(yàn)證強(qiáng)化學(xué)習(xí)算法訓(xùn)練的控制策略的抗干擾能力。
2.根據(jù)權(quán)利要求1所述的基于維度裁剪的PPO算法的四旋翼姿態(tài)軌跡控制方法,其特征在于,步驟1)中,構(gòu)建的四旋翼學(xué)模型為設(shè)定任務(wù)要求為控制四旋翼從[0,0,0]的起始點(diǎn)起飛至[5,5,5]的目標(biāo)點(diǎn)并穩(wěn)定的懸停在目標(biāo)點(diǎn)。
3.根據(jù)權(quán)利要求1所述的基于維度裁剪的PPO算法的四旋翼姿態(tài)軌跡控制方法,其特征在于,步驟2),在四旋翼任務(wù)環(huán)境中加入風(fēng)切變和離散突風(fēng)兩種風(fēng)場模型,其中風(fēng)切變的模型為Vpw為產(chǎn)生的風(fēng)切變風(fēng)速值,Vw0為摩擦速度,由空氣密度ρ和地面剪應(yīng)力τ0決定,表達(dá)式為:k為Karman常數(shù),H為四旋翼的飛行高度,一般取0.4,H0為粗糙度高度,一般取為0.05;離散突風(fēng)的模型為其中Vwm為突風(fēng)的峰值,dm為突風(fēng)尺度范圍,x為離突風(fēng)中心的距離。
4.根據(jù)權(quán)利要求1所述的基于維度裁剪的PPO算法的四旋翼姿態(tài)軌跡控制方法,其特征在于,步驟3)中,偏航角不作限制,根據(jù)任務(wù)環(huán)境設(shè)置一個三維的動作空間和八維的狀態(tài)空間;動作輸入為四旋翼轉(zhuǎn)子的轉(zhuǎn)速,設(shè)置動作空間的大小為[0,500],位置的狀態(tài)空間大小為[-10,10],姿態(tài)角速度的狀態(tài)空間大小設(shè)置為[-4.5,4.5],滾轉(zhuǎn)、俯仰角的狀態(tài)空間大小設(shè)置為[-45°,45°]。
5.根據(jù)權(quán)利要求1所述的基于維度裁剪的PPO算法的四旋翼姿態(tài)軌跡控制方法,其特征在于,步驟4)中,將現(xiàn)有PPO算法中各個維度的重要性維度權(quán)重分別裁剪,更改為一個新的目標(biāo)函數(shù):
其中πθ(·|st)=N(μ,σ2I)為目標(biāo)策略,μ=(μ0,μ1,…,μD-1)是均值向量,D是動作維度,σ是方差,I是單位矩陣;當(dāng)策略πθ被分解為策略維度時,πθ,d(·|st)~N(μd,σ2),設(shè)at,d是at的第d個元素,則
6.根據(jù)權(quán)利要求5所述的基于維度裁剪的PPO算法的四旋翼姿態(tài)軌跡控制方法,其特征在于,加入一個額外的損失最后的策略函數(shù)如下:
其中αIS是權(quán)重因子,它通過自適應(yīng)方式改變其價(jià)值:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇科技大學(xué),未經(jīng)江蘇科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111395210.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于維度組合的指標(biāo)計(jì)算方法和系統(tǒng)
- 多媒體數(shù)據(jù)定價(jià)處理方法及裝置
- 多媒體數(shù)據(jù)定價(jià)系統(tǒng)
- 聚合表維度的選擇方法和裝置
- 指標(biāo)異動分析方法及設(shè)備、計(jì)算機(jī)存儲介質(zhì)、計(jì)算機(jī)設(shè)備
- 多維度數(shù)據(jù)的數(shù)據(jù)分析方法、裝置及存儲介質(zhì)
- 廣告流量預(yù)估方法和裝置
- 數(shù)據(jù)融合方法、數(shù)據(jù)融合裝置及存儲介質(zhì)
- 報(bào)表生成方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 數(shù)據(jù)倉庫維度表的校驗(yàn)方法及裝置





