[發明專利]一種無人機強化學習訓練系統的實現方法在審
| 申請號: | 202210336281.2 | 申請日: | 2022-04-01 |
| 公開(公告)號: | CN114415737A | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 李光;李延波;張建軍;俞光日 | 申請(專利權)人: | 天津七一二通信廣播股份有限公司 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 天津企興智財知識產權代理有限公司 12226 | 代理人: | 薛萌萌 |
| 地址: | 300462 天津市*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 無人機 強化 學習 訓練 系統 實現 方法 | ||
1.一種無人機強化學習訓練系統,其特征在于:包括系統控制模塊、無人機仿真訓練模塊、X-Plane Gym模塊、強化學習算法模塊和數據存儲模塊;
系統控制模塊從強化學習算法模塊獲得無人機的控制參數,并將獲得的控制參數通過X-Plane Gym模塊提供的GYM標準接口發送給X-Plane Gym模塊;X-Plane Gym模塊將收到的控制參數轉化為X-Plane仿真環境可識別動作,所述可識別動作包括升級桿、副翼桿、方向舵、油門、起落架、襟翼的控制動作,然后通過XPC接口發送給X-Plane仿真環境;X-Plane仿真環境按照接收到的升級桿、副翼桿、方向舵、油門、起落架、襟翼的控制動作完成無人機飛行控制,并將執行完上述動作后無人機的狀態通過XPC接口反饋給X-Plane Gym模塊;X-Plane Gym模塊根據收到的無人機狀態信息,計算出當前動作的獎勵,并通過GYM標準接口將狀態與獎勵信息發送給系統控制模塊;系統控制模塊將收到的狀態與獎勵信息保存到數據存儲模塊;數據存儲模塊收到狀態與獎勵信息后完成數據的收集與存儲;
整個系統在系統控制模塊的控制下重復從強化學習算法模塊獲得無人機的控制參數,并通過X-Plane Gym模塊將控制參數發送給X-Plane仿真環境,X-Plane仿真環境執行完動作后將無人機的狀態反饋給X-Plane Gym模塊,X-Plane Gym模塊根據狀態信息計算出獎勵后,將狀態與獎勵信息發給系統控制模塊,系統控制模塊將狀態與獎勵信息保存到數據存儲模塊的過程,當數據存儲模塊中的數據積累到可以訓練強化學習算法模塊需要的批量數據后,系統控制模塊從數據存儲模塊批量抽取數據,然后用抽取的數據訓練強化學習算法模塊中的算法。
2.根據權利要求1所述的一種無人機強化學習訓練系統,其特征在于:無人機仿真訓練模塊包括基于X-Plane軟件的無人機仿真訓練模塊;
通過X-Plane軟件提供的二次開發接口,將強化學習算法輸出飛機的連續動作向量,轉化為飛機的狀態向量。
3.根據權利要求1所述的一種無人機強化學習訓練系統,其特征在于:通過X-PlaneGym模塊的通信接口完成系統控制模塊與X-Plane軟件的信息交互,通信接口在工作時包括以下操作:網絡端口配置、控制和獲取飛機動作、獲取和設置飛機狀態。
4.根據權利要求3所述的一種無人機強化學習訓練系統,其特征在于:X-Plane Gym模塊結合OpenAI Gym的二次開發接口,實現對無人機仿真環境的環境復位、獲取狀態、關閉環境操作。
5.根據權利要求3所述的一種無人機強化學習訓練系統,其特征在于:X-Plane Gym模塊根據不同的任務設計獎勵函數,通過獎勵函數完成對無人機執行動作的評價。
6.根據權利要求3所述的一種無人機強化學習訓練系統,其特征在于:X-Plane Gym模塊實現動作、狀態參數向量的歸一化;
強化學習算法模塊從X-Plane Gym模塊中獲取當前動作下的狀態空間向量,X-PlaneGym模塊直接從X-Plane的仿真環境中獲取的飛機原始的狀態信息,包括飛機的經度、緯度、高度、俯仰角、橫滾角、油門、海拔高度信息。
7. 根據權利要求6所述的一種無人機強化學習訓練系統,其特征在于:針對飛機的經度、緯度、高度、俯仰角、橫滾角、油門、海拔高度信息,在X-Plane Gym模塊中對輸出給強化學習算法的狀態信息進行歸一化處理。
8.根據權利要求2所述的一種無人機強化學習訓練系統,其特征在于:飛機的連續動作向量為6維向量,包括升級桿、副翼桿、方向舵、油門、起落架、襟翼。
9.一種無人機強化學習訓練系統的實現方法,應用權利要求1-8任一所述的一種無人機強化學習訓練系統,其特征在于,包括以下步驟:
步驟A:通過系統控制模塊調用強化學習算法模塊中的強化學習算法,生成控制飛機的動作;
步驟B:通過系統控制模塊通過調用X-Plane Gym模塊的step函數將動作發送給X-Plane軟件;
步驟C:通過X-Plane軟件執行步驟A中生成的生成控制飛機的動作,并仿真出飛機下一時刻的狀態;
步驟D:通過X-Plane Gym模塊從X-Plane軟件獲取飛機狀態,通過獎勵函數計算出動作的獎勵值;
步驟E: X-Plane Gym模塊通過step函數將飛機狀態、獎勵值、是否結束信息反饋給系統控制模塊;
步驟F:系統控制模塊,將狀態、獎勵值、是否結束信息保存到訓練數據存儲資源池中;
系統控制模塊判斷數據存儲模塊中的數據量是否到達可以訓練強化學習算法模塊中算法所需要的數據數量;如果未到達則重復執行步驟A到步驟F過程完成數據收集與存儲;如果到達則系統控制模塊從數據存儲模塊中批量抽取訓練數據,并用抽取的數據訓練強化學習算法模塊中的算法,然后再啟動上述步驟A到步驟F過程完成數據收集與存儲,并且執行數據抽取與強化學習算法模塊中的算法訓練過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津七一二通信廣播股份有限公司,未經天津七一二通信廣播股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210336281.2/1.html,轉載請聲明來源鉆瓜專利網。





