[發(fā)明專利]一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法在審

申請?zhí)枺?/td>	202210336281.2	申請日：	2022-04-01
公開（公告）號：	CN114415737A	公開（公告）日：	2022-04-29
發(fā)明（設(shè)計）人：	李光;李延波;張建軍;俞光日	申請（專利權(quán)）人：	天津七一二通信廣播股份有限公司
主分類號：	G05D1/10	分類號：	G05D1/10
代理公司：	天津企興智財知識產(chǎn)權(quán)代理有限公司 12226	代理人：	薛萌萌
地址：	300462 天津市***	國省代碼：	天津;12
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種無人機強化學(xué)習(xí) 訓(xùn)練系統(tǒng) 實現(xiàn) 方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法，包括系統(tǒng)控制模塊、無人機仿真訓(xùn)練模塊、X?Plane Gym模塊、強化學(xué)習(xí)算法模塊強化學(xué)習(xí)算法模塊和數(shù)據(jù)存儲模塊；無人機仿真訓(xùn)練模塊用于為無人機提供仿真的訓(xùn)練環(huán)境；無人機仿真訓(xùn)練模塊與系統(tǒng)控制模塊之間通過X?Plane Gym模塊進行接口通信；強化學(xué)習(xí)算法模塊強化學(xué)習(xí)算法模塊用于提供無人機仿真訓(xùn)練模塊中需要的算法；數(shù)據(jù)存儲模塊用于收集、存儲無人機仿真訓(xùn)練模塊中訓(xùn)練數(shù)據(jù)。本發(fā)明有益效果：結(jié)合X?Plane軟件建立了強化學(xué)習(xí)訓(xùn)練、算法評估、空戰(zhàn)推演系統(tǒng)，可以更真實的模擬無人機在不同環(huán)境中的飛行狀態(tài)，完成無人機智能化模型訓(xùn)練、算法評估、空戰(zhàn)推演功能。

技術(shù)領(lǐng)域

本發(fā)明屬于無人機領(lǐng)域，尤其是涉及一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法。

背景技術(shù)

目前，無人作戰(zhàn)飛機(Unmanned Combat Aerial Vehicle，UCAV)的空戰(zhàn)過程智能化技術(shù)研究已經(jīng)是國內(nèi)外專家的熱門課題。由于無人機能承受的過載大以及未來空戰(zhàn)的復(fù)雜度高，利用人工智能等技術(shù)賦予無人機相當(dāng)程度的自主決策權(quán)限，實現(xiàn)UCAV空戰(zhàn)過程智能化。

在實際使用過程中，無人機在智能化訓(xùn)練的過程中需要與實際環(huán)境不斷交互，從而產(chǎn)生大量的訓(xùn)練數(shù)據(jù)，顯然有些訓(xùn)練的過程無法使用無人機在真實的環(huán)境中進行，因此亟需一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法，提供一種虛擬的仿真方法，讓無人機在仿真環(huán)境中進行智能化訓(xùn)練、仿真推演。

發(fā)明內(nèi)容

有鑒于此，本發(fā)明旨在提出一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)的實現(xiàn)方法，采用X-Plane作為仿真訓(xùn)練環(huán)境，以數(shù)據(jù)存儲模塊、X-Plane Gym模塊、強化學(xué)習(xí)算法模塊、系統(tǒng)控制模塊為基礎(chǔ)，對外提供標(biāo)準(zhǔn)化的接口，實現(xiàn)高效的訓(xùn)練數(shù)據(jù)收集存儲、模型訓(xùn)練、空戰(zhàn)仿真推演功能。

為達到上述目的，本發(fā)明的技術(shù)方案是這樣實現(xiàn)的：

第一方面本方案公開了一種無人機強化學(xué)習(xí)訓(xùn)練系統(tǒng)，包括系統(tǒng)控制模塊、無人機仿真訓(xùn)練模塊、X-Plane Gym模塊、強化學(xué)習(xí)算法模塊和數(shù)據(jù)存儲模塊；

系統(tǒng)控制模塊從強化學(xué)習(xí)算法模塊獲得無人機的控制參數(shù)，并將獲得的控制參數(shù)通過X-Plane Gym模塊提供的GYM標(biāo)準(zhǔn)接口發(fā)送給X-Plane Gym模塊；X-Plane Gym模塊將收到的控制參數(shù)轉(zhuǎn)化為X-Plane仿真環(huán)境可識別動作，包括升級桿、副翼桿、方向舵、油門、起落架、襟翼的控制動作，然后通過XPC接口發(fā)送給X-Plane仿真環(huán)境；X-Plane仿真環(huán)境按照接收到的升級桿、副翼桿、方向舵、油門、起落架、襟翼的控制動作完成無人機飛行控制，并將執(zhí)行完上述動作后無人機的狀態(tài)通過XPC接口反饋給X-Plane Gym模塊；X-Plane Gym模塊根據(jù)收到的無人機狀態(tài)信息，計算出當(dāng)前動作的獎勵，并通過GYM標(biāo)準(zhǔn)接口將狀態(tài)與獎勵信息發(fā)送給系統(tǒng)控制模塊；系統(tǒng)控制模塊根據(jù)收到的狀態(tài)與獎勵保存到數(shù)據(jù)存儲模塊；數(shù)據(jù)存儲模塊收到數(shù)據(jù)后完成數(shù)據(jù)的收集與存儲；

整個系統(tǒng)在系統(tǒng)控制模塊的控制下重復(fù)上述過程，當(dāng)數(shù)據(jù)存儲模塊中的數(shù)據(jù)積累到可以訓(xùn)練強化學(xué)習(xí)算法模塊需要的批量數(shù)據(jù)后，系統(tǒng)控制模塊從數(shù)據(jù)存儲模塊批量抽取數(shù)據(jù)，然后用抽取的數(shù)據(jù)訓(xùn)練強化學(xué)習(xí)算法模塊中的算法。

進一步的，無人機仿真訓(xùn)練模塊包括基于X-Plane軟件的無人機仿真訓(xùn)練模塊；

通過X-Plane軟件提供的二次開發(fā)接口，將強化學(xué)習(xí)算法輸出飛機的連續(xù)動作向量，轉(zhuǎn)化為飛機的狀態(tài)向量。

進一步的，通過X-Plane Gym模塊的通信接口完成系統(tǒng)控制模塊與X-Plane軟件的信息交互，通信接口在工作時包括以下操作：網(wǎng)絡(luò)端口配置、控制和獲取飛機動作、獲取和設(shè)置飛機狀態(tài)。

進一步的，X-Plane Gym模塊結(jié)合OpenAI Gym的二次開發(fā)接口，實現(xiàn)對無人機仿真環(huán)境的環(huán)境復(fù)位、獲取狀態(tài)、關(guān)閉環(huán)境操作。

進一步的，X-Plane Gym模塊根據(jù)不同的任務(wù)設(shè)計獎勵函數(shù)，通過獎勵函數(shù)完成對無人機執(zhí)行動作的評價。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津七一二通信廣播股份有限公司，未經(jīng)天津七一二通信廣播股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210336281.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于聚類分析的工業(yè)機器人運行趨勢診斷方法
下一篇：一種LED外延片、外延生長方法及LED芯片

同類專利

專利分類

G 物理

G05 控制；調(diào)節(jié)
G05D 非電變量的控制或調(diào)節(jié)系統(tǒng)
G05D1-00 陸地、水上、空中或太空中的運載工具的位置、航道、高度或姿態(tài)的控制，例如自動駕駛儀
G05D1-02 .二維的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿態(tài)的控制，即搖擺、俯仰角或偏航角的控制
G05D1-10 .三維的位置或航道的同時控制
G05D1-12 .尋找目標(biāo)的控制

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】