[發(fā)明專利]一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法在審
| 申請?zhí)枺?/td> | 202210336281.2 | 申請日: | 2022-04-01 |
| 公開(公告)號: | CN114415737A | 公開(公告)日: | 2022-04-29 |
| 發(fā)明(設(shè)計)人: | 李光;李延波;張建軍;俞光日 | 申請(專利權(quán))人: | 天津七一二通信廣播股份有限公司 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 天津企興智財知識產(chǎn)權(quán)代理有限公司 12226 | 代理人: | 薛萌萌 |
| 地址: | 300462 天津市*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 無人機 強化 學(xué)習(xí) 訓(xùn)練 系統(tǒng) 實現(xiàn) 方法 | ||
1.一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),其特征在于:包括系統(tǒng)控制模塊、無人機仿真訓(xùn)練模塊、X-Plane Gym模塊、強化學(xué)習(xí)算法模塊和數(shù)據(jù)存儲模塊;
系統(tǒng)控制模塊從強化學(xué)習(xí)算法模塊獲得無人機的控制參數(shù),并將獲得的控制參數(shù)通過X-Plane Gym模塊提供的GYM標(biāo)準(zhǔn)接口發(fā)送給X-Plane Gym模塊;X-Plane Gym模塊將收到的控制參數(shù)轉(zhuǎn)化為X-Plane仿真環(huán)境可識別動作,所述可識別動作包括升級桿、副翼桿、方向舵、油門、起落架、襟翼的控制動作,然后通過XPC接口發(fā)送給X-Plane仿真環(huán)境;X-Plane仿真環(huán)境按照接收到的升級桿、副翼桿、方向舵、油門、起落架、襟翼的控制動作完成無人機飛行控制,并將執(zhí)行完上述動作后無人機的狀態(tài)通過XPC接口反饋給X-Plane Gym模塊;X-Plane Gym模塊根據(jù)收到的無人機狀態(tài)信息,計算出當(dāng)前動作的獎勵,并通過GYM標(biāo)準(zhǔn)接口將狀態(tài)與獎勵信息發(fā)送給系統(tǒng)控制模塊;系統(tǒng)控制模塊將收到的狀態(tài)與獎勵信息保存到數(shù)據(jù)存儲模塊;數(shù)據(jù)存儲模塊收到狀態(tài)與獎勵信息后完成數(shù)據(jù)的收集與存儲;
整個系統(tǒng)在系統(tǒng)控制模塊的控制下重復(fù)從強化學(xué)習(xí)算法模塊獲得無人機的控制參數(shù),并通過X-Plane Gym模塊將控制參數(shù)發(fā)送給X-Plane仿真環(huán)境,X-Plane仿真環(huán)境執(zhí)行完動作后將無人機的狀態(tài)反饋給X-Plane Gym模塊,X-Plane Gym模塊根據(jù)狀態(tài)信息計算出獎勵后,將狀態(tài)與獎勵信息發(fā)給系統(tǒng)控制模塊,系統(tǒng)控制模塊將狀態(tài)與獎勵信息保存到數(shù)據(jù)存儲模塊的過程,當(dāng)數(shù)據(jù)存儲模塊中的數(shù)據(jù)積累到可以訓(xùn)練強化學(xué)習(xí)算法模塊需要的批量數(shù)據(jù)后,系統(tǒng)控制模塊從數(shù)據(jù)存儲模塊批量抽取數(shù)據(jù),然后用抽取的數(shù)據(jù)訓(xùn)練強化學(xué)習(xí)算法模塊中的算法。
2.根據(jù)權(quán)利要求1所述的一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),其特征在于:無人機仿真訓(xùn)練模塊包括基于X-Plane軟件的無人機仿真訓(xùn)練模塊;
通過X-Plane軟件提供的二次開發(fā)接口,將強化學(xué)習(xí)算法輸出飛機的連續(xù)動作向量,轉(zhuǎn)化為飛機的狀態(tài)向量。
3.根據(jù)權(quán)利要求1所述的一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),其特征在于:通過X-PlaneGym模塊的通信接口完成系統(tǒng)控制模塊與X-Plane軟件的信息交互,通信接口在工作時包括以下操作:網(wǎng)絡(luò)端口配置、控制和獲取飛機動作、獲取和設(shè)置飛機狀態(tài)。
4.根據(jù)權(quán)利要求3所述的一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),其特征在于:X-Plane Gym模塊結(jié)合OpenAI Gym的二次開發(fā)接口,實現(xiàn)對無人機仿真環(huán)境的環(huán)境復(fù)位、獲取狀態(tài)、關(guān)閉環(huán)境操作。
5.根據(jù)權(quán)利要求3所述的一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),其特征在于:X-Plane Gym模塊根據(jù)不同的任務(wù)設(shè)計獎勵函數(shù),通過獎勵函數(shù)完成對無人機執(zhí)行動作的評價。
6.根據(jù)權(quán)利要求3所述的一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),其特征在于:X-Plane Gym模塊實現(xiàn)動作、狀態(tài)參數(shù)向量的歸一化;
強化學(xué)習(xí)算法模塊從X-Plane Gym模塊中獲取當(dāng)前動作下的狀態(tài)空間向量,X-PlaneGym模塊直接從X-Plane的仿真環(huán)境中獲取的飛機原始的狀態(tài)信息,包括飛機的經(jīng)度、緯度、高度、俯仰角、橫滾角、油門、海拔高度信息。
7. 根據(jù)權(quán)利要求6所述的一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),其特征在于:針對飛機的經(jīng)度、緯度、高度、俯仰角、橫滾角、油門、海拔高度信息,在X-Plane Gym模塊中對輸出給強化學(xué)習(xí)算法的狀態(tài)信息進行歸一化處理。
8.根據(jù)權(quán)利要求2所述的一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),其特征在于:飛機的連續(xù)動作向量為6維向量,包括升級桿、副翼桿、方向舵、油門、起落架、襟翼。
9.一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法,應(yīng)用權(quán)利要求1-8任一所述的一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),其特征在于,包括以下步驟:
步驟A:通過系統(tǒng)控制模塊調(diào)用強化學(xué)習(xí)算法模塊中的強化學(xué)習(xí)算法,生成控制飛機的動作;
步驟B:通過系統(tǒng)控制模塊通過調(diào)用X-Plane Gym模塊的step函數(shù)將動作發(fā)送給X-Plane軟件;
步驟C:通過X-Plane軟件執(zhí)行步驟A中生成的生成控制飛機的動作,并仿真出飛機下一時刻的狀態(tài);
步驟D:通過X-Plane Gym模塊從X-Plane軟件獲取飛機狀態(tài),通過獎勵函數(shù)計算出動作的獎勵值;
步驟E: X-Plane Gym模塊通過step函數(shù)將飛機狀態(tài)、獎勵值、是否結(jié)束信息反饋給系統(tǒng)控制模塊;
步驟F:系統(tǒng)控制模塊,將狀態(tài)、獎勵值、是否結(jié)束信息保存到訓(xùn)練數(shù)據(jù)存儲資源池中;
系統(tǒng)控制模塊判斷數(shù)據(jù)存儲模塊中的數(shù)據(jù)量是否到達可以訓(xùn)練強化學(xué)習(xí)算法模塊中算法所需要的數(shù)據(jù)數(shù)量;如果未到達則重復(fù)執(zhí)行步驟A到步驟F過程完成數(shù)據(jù)收集與存儲;如果到達則系統(tǒng)控制模塊從數(shù)據(jù)存儲模塊中批量抽取訓(xùn)練數(shù)據(jù),并用抽取的數(shù)據(jù)訓(xùn)練強化學(xué)習(xí)算法模塊中的算法,然后再啟動上述步驟A到步驟F過程完成數(shù)據(jù)收集與存儲,并且執(zhí)行數(shù)據(jù)抽取與強化學(xué)習(xí)算法模塊中的算法訓(xùn)練過程。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津七一二通信廣播股份有限公司,未經(jīng)天津七一二通信廣播股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210336281.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





