[發(fā)明專利]一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法在審
| 申請?zhí)枺?/td> | 202210336281.2 | 申請日: | 2022-04-01 |
| 公開(公告)號: | CN114415737A | 公開(公告)日: | 2022-04-29 |
| 發(fā)明(設(shè)計)人: | 李光;李延波;張建軍;俞光日 | 申請(專利權(quán))人: | 天津七一二通信廣播股份有限公司 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 天津企興智財知識產(chǎn)權(quán)代理有限公司 12226 | 代理人: | 薛萌萌 |
| 地址: | 300462 天津市*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 無人機 強化 學(xué)習(xí) 訓(xùn)練 系統(tǒng) 實現(xiàn) 方法 | ||
本發(fā)明提供了一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法,包括系統(tǒng)控制模塊、無人機仿真訓(xùn)練模塊、X?Plane Gym模塊、強化學(xué)習(xí)算法模塊強化學(xué)習(xí)算法模塊和數(shù)據(jù)存儲模塊;無人機仿真訓(xùn)練模塊用于為無人機提供仿真的訓(xùn)練環(huán)境;無人機仿真訓(xùn)練模塊與系統(tǒng)控制模塊之間通過X?Plane Gym模塊進行接口通信;強化學(xué)習(xí)算法模塊強化學(xué)習(xí)算法模塊用于提供無人機仿真訓(xùn)練模塊中需要的算法;數(shù)據(jù)存儲模塊用于收集、存儲無人機仿真訓(xùn)練模塊中訓(xùn)練數(shù)據(jù)。本發(fā)明有益效果:結(jié)合X?Plane軟件建立了強化學(xué)習(xí)訓(xùn)練、算法評估、空戰(zhàn)推演系統(tǒng),可以更真實的模擬無人機在不同環(huán)境中的飛行狀態(tài),完成無人機智能化模型訓(xùn)練、算法評估、空戰(zhàn)推演功能。
技術(shù)領(lǐng)域
本發(fā)明屬于無人機領(lǐng)域,尤其是涉及一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法。
背景技術(shù)
目前,無人作戰(zhàn)飛機(Unmanned Combat Aerial Vehicle,UCAV)的空戰(zhàn)過程智能化技術(shù)研究已經(jīng)是國內(nèi)外專家的熱門課題。由于無人機能承受的過載大以及未來空戰(zhàn)的復(fù)雜度高,利用人工智能等技術(shù)賦予無人機相當(dāng)程度的自主決策權(quán)限,實現(xiàn)UCAV空戰(zhàn)過程智能化。
在實際使用過程中,無人機在智能化訓(xùn)練的過程中需要與實際環(huán)境不斷交互,從而產(chǎn)生大量的訓(xùn)練數(shù)據(jù),顯然有些訓(xùn)練的過程無法使用無人機在真實的環(huán)境中進行,因此亟需一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法,提供一種虛擬的仿真方法,讓無人機在仿真環(huán)境中進行智能化訓(xùn)練、仿真推演。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明旨在提出一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法,采用X-Plane作為仿真訓(xùn)練環(huán)境,以數(shù)據(jù)存儲模塊、X-Plane Gym模塊、強化學(xué)習(xí)算法模塊、系統(tǒng)控制模塊為基礎(chǔ),對外提供標(biāo)準(zhǔn)化的接口,實現(xiàn)高效的訓(xùn)練數(shù)據(jù)收集存儲、模型訓(xùn)練、空戰(zhàn)仿真推演功能。
為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
第一方面本方案公開了一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng),包括系統(tǒng)控制模塊、無人機仿真訓(xùn)練模塊、X-Plane Gym模塊、強化學(xué)習(xí)算法模塊和數(shù)據(jù)存儲模塊;
系統(tǒng)控制模塊從強化學(xué)習(xí)算法模塊獲得無人機的控制參數(shù),并將獲得的控制參數(shù)通過X-Plane Gym模塊提供的GYM標(biāo)準(zhǔn)接口發(fā)送給X-Plane Gym模塊;X-Plane Gym模塊將收到的控制參數(shù)轉(zhuǎn)化為X-Plane仿真環(huán)境可識別動作,包括升級桿、副翼桿、方向舵、油門、起落架、襟翼的控制動作,然后通過XPC接口發(fā)送給X-Plane仿真環(huán)境;X-Plane仿真環(huán)境按照接收到的升級桿、副翼桿、方向舵、油門、起落架、襟翼的控制動作完成無人機飛行控制,并將執(zhí)行完上述動作后無人機的狀態(tài)通過XPC接口反饋給X-Plane Gym模塊;X-Plane Gym模塊根據(jù)收到的無人機狀態(tài)信息,計算出當(dāng)前動作的獎勵,并通過GYM標(biāo)準(zhǔn)接口將狀態(tài)與獎勵信息發(fā)送給系統(tǒng)控制模塊;系統(tǒng)控制模塊根據(jù)收到的狀態(tài)與獎勵保存到數(shù)據(jù)存儲模塊;數(shù)據(jù)存儲模塊收到數(shù)據(jù)后完成數(shù)據(jù)的收集與存儲;
整個系統(tǒng)在系統(tǒng)控制模塊的控制下重復(fù)上述過程,當(dāng)數(shù)據(jù)存儲模塊中的數(shù)據(jù)積累到可以訓(xùn)練強化學(xué)習(xí)算法模塊需要的批量數(shù)據(jù)后,系統(tǒng)控制模塊從數(shù)據(jù)存儲模塊批量抽取數(shù)據(jù),然后用抽取的數(shù)據(jù)訓(xùn)練強化學(xué)習(xí)算法模塊中的算法。
進一步的,無人機仿真訓(xùn)練模塊包括基于X-Plane軟件的無人機仿真訓(xùn)練模塊;
通過X-Plane軟件提供的二次開發(fā)接口,將強化學(xué)習(xí)算法輸出飛機的連續(xù)動作向量,轉(zhuǎn)化為飛機的狀態(tài)向量。
進一步的,通過X-Plane Gym模塊的通信接口完成系統(tǒng)控制模塊與X-Plane軟件的信息交互,通信接口在工作時包括以下操作:網(wǎng)絡(luò)端口配置、控制和獲取飛機動作、獲取和設(shè)置飛機狀態(tài)。
進一步的,X-Plane Gym模塊結(jié)合OpenAI Gym的二次開發(fā)接口,實現(xiàn)對無人機仿真環(huán)境的環(huán)境復(fù)位、獲取狀態(tài)、關(guān)閉環(huán)境操作。
進一步的,X-Plane Gym模塊根據(jù)不同的任務(wù)設(shè)計獎勵函數(shù),通過獎勵函數(shù)完成對無人機執(zhí)行動作的評價。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津七一二通信廣播股份有限公司,未經(jīng)天津七一二通信廣播股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210336281.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





