[發(fā)明專利]面向移動(dòng)平臺(tái)基于專家經(jīng)驗(yàn)的DDPG無(wú)人機(jī)降落方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210742166.5 | 申請(qǐng)日: | 2022-06-28 |
| 公開(kāi)(公告)號(hào): | CN115033022A | 公開(kāi)(公告)日: | 2022-09-09 |
| 發(fā)明(設(shè)計(jì))人: | 張平;羅黎明 | 申請(qǐng)(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號(hào): | G05D1/10 | 分類號(hào): | G05D1/10;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 黃月瑩 |
| 地址: | 510640 廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 移動(dòng) 平臺(tái) 基于 專家 經(jīng)驗(yàn) ddpg 無(wú)人機(jī) 降落 方法 | ||
本發(fā)明公開(kāi)的面向移動(dòng)平臺(tái)基于專家經(jīng)驗(yàn)的DDPG無(wú)人機(jī)降落方法,包括:對(duì)任務(wù)分解;在仿真環(huán)境中搭建降落場(chǎng)景;初始化環(huán)境狀態(tài);初始化算法神經(jīng)網(wǎng)絡(luò)等超參數(shù);設(shè)計(jì)用于訓(xùn)練所設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的無(wú)人機(jī)著陸的降落函數(shù);基于搭建有無(wú)人機(jī)著陸場(chǎng)景的仿真環(huán)境,對(duì)所設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程中采用專家經(jīng)驗(yàn)進(jìn)行指導(dǎo)無(wú)人機(jī)。本發(fā)明能夠加快算法的收斂速度,極大的解決深度強(qiáng)化學(xué)習(xí)前期采樣效率低下的問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明屬于無(wú)人機(jī)自主控制領(lǐng)域,涉及面向移動(dòng)平臺(tái)基于專家經(jīng)驗(yàn)的DDPG無(wú)人機(jī)降落方法。
背景技術(shù)
隨著科技的不斷更新發(fā)展,旋翼無(wú)人機(jī)的應(yīng)用的場(chǎng)景越來(lái)越廣,涵蓋的范圍也越來(lái)越廣,小至無(wú)人機(jī)送外賣(mài)、攝影等,大到無(wú)人機(jī)應(yīng)用在測(cè)繪工程、安防、救援、地圖勘測(cè)等。然而為了更進(jìn)一步提升無(wú)人機(jī)完成任務(wù)的自主性,需要從多方面去考慮,比如無(wú)人機(jī)的起飛、導(dǎo)航、降落和在環(huán)境相對(duì)復(fù)雜的情況下完成自主降落等。但是在無(wú)人機(jī)發(fā)生的事故中,因無(wú)人機(jī)的起降發(fā)生的事故占比達(dá)到60%,因此對(duì)無(wú)人機(jī)的起降進(jìn)行研究至關(guān)重要。此外,在多機(jī)器人協(xié)作中,如結(jié)合無(wú)人地面機(jī)器人(UGV),無(wú)人機(jī)進(jìn)行著陸補(bǔ)充燃油,這也為多旋翼無(wú)人機(jī)提供了長(zhǎng)期任務(wù)中所需的更高的自主水平。
2019年,史豪斌等針對(duì)經(jīng)典的PID控制與基于圖像的視覺(jué)伺服控制在旋翼無(wú)人機(jī)追蹤與控制過(guò)程中差、控制精度不高等問(wèn)題,設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)的旋翼無(wú)人機(jī)追蹤控制方法,通過(guò)基于圖像的視覺(jué)伺服進(jìn)行閉環(huán)控制并使用了Sarsa學(xué)習(xí)算法調(diào)節(jié)增益,通過(guò)無(wú)人機(jī)相機(jī)所傳輸?shù)囊曈X(jué)信息所提取的特征點(diǎn)與目標(biāo)圖像的特征點(diǎn)進(jìn)行驗(yàn)證,將無(wú)人機(jī)距離目標(biāo)的位置遠(yuǎn)近作為學(xué)習(xí)的獎(jiǎng)勵(lì),實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的可行性任務(wù)場(chǎng)景下。但是由于因Sarsa算法本身的局限性,其訓(xùn)練速度和訓(xùn)練效果都不夠好。一種基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)端到端的控制方法(CN111460650A),將處理過(guò)的無(wú)人機(jī)機(jī)載相機(jī)得到的圖像作為輸入,經(jīng)過(guò)深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理后可以直接得到無(wú)人機(jī)控制指令,以此實(shí)現(xiàn)無(wú)人機(jī)的自主著陸,但是由于強(qiáng)化學(xué)習(xí)的前期隨機(jī)探索導(dǎo)致其訓(xùn)練時(shí)間過(guò)長(zhǎng),效率較低。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題就在于:針對(duì)現(xiàn)有技術(shù)存在的技術(shù)問(wèn)題,基于上述的背景,本發(fā)明提出了面向移動(dòng)平臺(tái)基于專家經(jīng)驗(yàn)的DDPG無(wú)人機(jī)降落方法。深度確定性策略梯度(DDPC)算法不僅利用了深度Q網(wǎng)絡(luò)算法中經(jīng)驗(yàn)池和雙神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)良性能,改善了傳統(tǒng)強(qiáng)化學(xué)習(xí)數(shù)據(jù)爆炸等問(wèn)題:還擁有策略梯度算法的優(yōu)點(diǎn),可以在有效處理連續(xù)域數(shù)據(jù),并使神經(jīng)網(wǎng)絡(luò)快速收斂。此外,為了加速其訓(xùn)練過(guò)程,本發(fā)明改變其前期隨機(jī)探索的行為,采用專家算法對(duì)其進(jìn)行指導(dǎo),在前期專家經(jīng)驗(yàn)的指導(dǎo)下不斷訓(xùn)練Actor策略網(wǎng)絡(luò),使得其掌握專家動(dòng)作,這樣能夠大大節(jié)省訓(xùn)練時(shí)間和成本,提升網(wǎng)絡(luò)、模型的收斂時(shí)間。因此,提出了面向移動(dòng)平臺(tái)基于專家經(jīng)驗(yàn)的DDPG無(wú)人機(jī)降落方法,對(duì)于無(wú)人機(jī)在相關(guān)領(lǐng)域應(yīng)用的實(shí)現(xiàn)具有重要意義,加快強(qiáng)化學(xué)習(xí)訓(xùn)練速度,提升訓(xùn)練效率,具有較高應(yīng)用價(jià)值的面向移動(dòng)平臺(tái)基于專家經(jīng)驗(yàn)的DDPG無(wú)人機(jī)降落方法。
本發(fā)明至少通過(guò)如下技術(shù)方案之一實(shí)現(xiàn)。
面向移動(dòng)平臺(tái)基于專家經(jīng)驗(yàn)的DDPG無(wú)人機(jī)降落方法,包括以下步驟:
步驟1、構(gòu)建無(wú)人機(jī)移動(dòng)平臺(tái)降落的馬爾科夫模型;
步驟2、構(gòu)建DDPG算法中的神經(jīng)網(wǎng)絡(luò);
步驟3、無(wú)人機(jī)和目標(biāo)狀態(tài)更新;
步驟4、在仿真模擬器中構(gòu)建無(wú)人機(jī)著陸場(chǎng)景,使用基于專家經(jīng)驗(yàn)的確定性策略梯度方法訓(xùn)練無(wú)人機(jī)面向移動(dòng)平臺(tái)進(jìn)行降落。
進(jìn)一步地,馬爾科夫模型為(S,A,O,R,γ),其中S為神經(jīng)網(wǎng)絡(luò)的輸入狀態(tài),A為無(wú)人機(jī)的輸出動(dòng)作,O為無(wú)人機(jī)傳感器的觀測(cè)空間,R為獎(jiǎng)勵(lì)函數(shù),γ為折扣因子。
進(jìn)一步地,步驟1-1、定義馬爾科夫模型的狀態(tài)空間,輸入狀態(tài)S:
結(jié)合無(wú)人機(jī)狀態(tài)和移動(dòng)平臺(tái)狀態(tài),設(shè)定輸入狀態(tài)為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210742166.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 移動(dòng)臺(tái),基站,移動(dòng)通信系統(tǒng),移動(dòng)通信與移動(dòng)通信程序
- 移動(dòng)通信系統(tǒng)、移動(dòng)終端以及移動(dòng)通信方法
- 移動(dòng)支付裝置、移動(dòng)終端POS以及移動(dòng)終端
- 移動(dòng)控制裝置、移動(dòng)體、移動(dòng)體系統(tǒng)、移動(dòng)控制方法及程序
- 移動(dòng)終端后蓋、移動(dòng)終端殼體及移動(dòng)終端
- 移動(dòng)平臺(tái)的輔助移動(dòng)方法、移動(dòng)裝置及移動(dòng)平臺(tái)
- 自移動(dòng)設(shè)備移動(dòng)方法及自移動(dòng)設(shè)備
- 移動(dòng)輪(支撐移動(dòng))
- 移動(dòng)房屋(移動(dòng)酒店)
- 移動(dòng)控制方法、移動(dòng)裝置及移動(dòng)平臺(tái)





