[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的飛行器軌跡規(guī)劃方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202111144858.1 | 申請日: | 2021-09-28 |
| 公開(公告)號: | CN113848974B | 公開(公告)日: | 2023-08-15 |
| 發(fā)明(設(shè)計(jì))人: | 呼衛(wèi)軍;全家樂;馬先龍 | 申請(專利權(quán))人: | 西安因諾航空科技有限公司 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10;G05D1/08 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 61200 | 代理人: | 李鵬威 |
| 地址: | 710077 陜西省西安市高新區(qū)魚化街辦*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 飛行器 軌跡 規(guī)劃 方法 系統(tǒng) | ||
一種基于深度強(qiáng)化學(xué)習(xí)的飛行器軌跡規(guī)劃方法及系統(tǒng),包括以下步驟:無人機(jī)利用模擬激光點(diǎn)云在飛行環(huán)境中交互產(chǎn)生態(tài)勢信息;態(tài)勢信息傳入網(wǎng)絡(luò)模型生成無人機(jī)執(zhí)行機(jī)構(gòu)動作;無人機(jī)執(zhí)行動作得到下一時(shí)刻態(tài)勢信息以及獎(jiǎng)勵(lì)信息;神經(jīng)網(wǎng)絡(luò)模型根據(jù)由獎(jiǎng)勵(lì)信息的態(tài)勢?動作值函數(shù)更新網(wǎng)絡(luò)參數(shù);判斷飛行軌跡是否到達(dá)目標(biāo)點(diǎn),若是,規(guī)劃結(jié)束,否則神經(jīng)網(wǎng)絡(luò)產(chǎn)生新的動作,無人機(jī)進(jìn)行下一次態(tài)勢更新。本發(fā)明利用深度強(qiáng)化學(xué)習(xí)方法對飛行器在復(fù)雜障礙下的軌跡規(guī)劃問題進(jìn)行研究,實(shí)現(xiàn)在信息不完備情境下更加自主,更加可靠、更加智能的軌跡規(guī)劃。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器學(xué)習(xí)路徑規(guī)劃技術(shù)領(lǐng)域,特別涉及一種基于深度強(qiáng)化學(xué)習(xí)的飛行器軌跡規(guī)劃方法及系統(tǒng)。
背景技術(shù)
近年來,無人機(jī)技術(shù)已逐漸成熟,研究熱點(diǎn)已從無人機(jī)開發(fā)變?yōu)槿绾胃玫厥褂脽o人機(jī)執(zhí)行各種復(fù)雜任務(wù),如航空攝影,交通巡邏,檢查,危險(xiǎn)區(qū)域檢查和救災(zāi)。隨著飛行器任務(wù)場景的復(fù)雜化,飛行器需要在飛行過程中根據(jù)環(huán)境變化自主規(guī)劃飛行軌跡。傳統(tǒng)的預(yù)先設(shè)計(jì)的飛行器軌跡嚴(yán)重依賴于已知的環(huán)境的先驗(yàn)知識,例如專利CN111707269A中需要全局障礙信息參與軌跡規(guī)劃,無法適應(yīng)信息不完備的復(fù)雜任務(wù)。而專利CN106595671ACN112506216A將飛行空域離散為網(wǎng)格,利用強(qiáng)化學(xué)習(xí),粒子搜索等方法進(jìn)行規(guī)劃,這些方法存在規(guī)劃精度不高的問題,規(guī)劃的軌跡往往多為可行解而不是最優(yōu)解。如何能使飛行器更加智能化,實(shí)現(xiàn)復(fù)雜環(huán)境下飛行軌跡的自主決策成為了研究熱點(diǎn)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于深度強(qiáng)化學(xué)習(xí)的飛行器軌跡規(guī)劃方法及系統(tǒng),以解決上述問題。
為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
一種基于深度強(qiáng)化學(xué)習(xí)的飛行器軌跡規(guī)劃方法,包括以下步驟:
無人機(jī)利用模擬激光點(diǎn)云在飛行環(huán)境中交互產(chǎn)生態(tài)勢信息,包括自身信息和部分障礙信息;
態(tài)勢信息傳入網(wǎng)絡(luò)模型生成無人機(jī)執(zhí)行機(jī)構(gòu)動作;
無人機(jī)執(zhí)行動作得到下一時(shí)刻態(tài)勢信息以及獎(jiǎng)勵(lì)信息;
神經(jīng)網(wǎng)絡(luò)模型根據(jù)由獎(jiǎng)勵(lì)信息的態(tài)勢-動作值函數(shù)更新網(wǎng)絡(luò)參數(shù);
判斷飛行軌跡是否到達(dá)目標(biāo)點(diǎn),若是,規(guī)劃結(jié)束,否則神經(jīng)網(wǎng)絡(luò)產(chǎn)生新的動作,無人機(jī)進(jìn)行下一次態(tài)勢更新。
進(jìn)一步的,無人機(jī)利用模擬激光點(diǎn)云在飛行環(huán)境中交互產(chǎn)生態(tài)勢信息包括:建立無人機(jī)運(yùn)動學(xué)模型,建立模擬激光電云傳感器模型,初始化無人機(jī)飛行態(tài)勢和傳感器初值。
進(jìn)一步的,建立模擬激光電云傳感器模型具體包括:飛行器正前方為傳感器正方向,將傳感器初值歸一化為D,值為1,被探測到的障礙物與無人機(jī)之間的距離在0~1之間;在機(jī)體坐標(biāo)系下,利用海倫面積公式解算模擬雷達(dá)探測范圍中障礙的方位,通過坐標(biāo)變換將機(jī)體坐標(biāo)系下的雷達(dá)數(shù)據(jù)轉(zhuǎn)換為地面坐標(biāo)系,作為神經(jīng)網(wǎng)絡(luò)的另一部分輸入信息;傳感器數(shù)量為m,雷達(dá)數(shù)據(jù)表示為一維數(shù)組,數(shù)值在0~1之間;傳感器與障礙物距離為OA,傳感器頂端與障礙物距離為OB;障礙物半徑為R;利用傳感器與障礙物距離Dis判斷傳感器與障礙物是否相交,并由此確定障礙物相對于飛行器的位置。
進(jìn)一步的,生成無人機(jī)執(zhí)行機(jī)構(gòu)動作具體為:
飛行器方位信息與傳感器信息向量作為神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)訓(xùn)練規(guī)劃決策模型;
神經(jīng)網(wǎng)絡(luò)模型采用長短期記憶網(wǎng)絡(luò)LSTM結(jié)合深度神經(jīng)網(wǎng)絡(luò)DNN的神經(jīng)網(wǎng)絡(luò)模型作為非線性函數(shù)擬合器擬合規(guī)劃策略;神經(jīng)網(wǎng)絡(luò)模型使用一層LSTM網(wǎng)絡(luò)將歸一化的態(tài)勢信息轉(zhuǎn)化為數(shù)據(jù)特征并存儲,得到的數(shù)據(jù)特征輸入深度神經(jīng)網(wǎng)絡(luò)層DNN,輸出飛行器動作指令。
進(jìn)一步的,監(jiān)督網(wǎng)絡(luò)作為評估飛行器在某狀態(tài)下采取某動作的價(jià)值,監(jiān)督網(wǎng)絡(luò)的輸入為動作網(wǎng)絡(luò)輸入信息和輸出信息,即飛行器狀態(tài)信息與動作值;監(jiān)督網(wǎng)絡(luò)輸出當(dāng)前狀態(tài)采取當(dāng)前動作的動作值函數(shù)Q(s,a);其中,Q(s,a)為s態(tài)勢下采取動作a所得的狀態(tài)-動作值函數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安因諾航空科技有限公司,未經(jīng)西安因諾航空科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111144858.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





