[發明專利]基于深度強化學習的無人機軌跡優化方法、裝置和無人機有效
| 申請號: | 201910697007.6 | 申請日: | 2019-07-30 |
| 公開(公告)號: | CN110488861B | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 許文俊;徐越;吳思雷;張治;張平;林家儒 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 李翔 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 無人機 軌跡 優化 方法 裝置 | ||
本發明公開了基于深度強化學習的無人機軌跡優化方法、裝置和無人機,該方法預先構建強化學習網絡,在無人機飛行過程中實時產生狀態數據、動作決策數據;以狀態數據為輸入、以所述動作決策數據為輸出,以瞬時能量效率為獎勵回報,利用PPO算法優化策略參數,輸出最優策略。該裝置包括構建模塊、訓練數據收集模塊和訓練模塊。該無人機包括處理器,該處理器用于執行本發明的基于深度強化學習的無人機軌跡優化方法。本發明具備從累積的飛行數據中進行自主學習的能力,可在未知通信場景下,智能決定其最佳飛行速度、加速度、飛行方向與返航時間,歸納出能量效率最優飛行策略,具有較強的環境適應能力與泛化能力。
技術領域
本發明涉及無線通信技術領域,特別涉及基于深度強化學習的無人機軌跡優化方法、裝置和無人機。
背景技術
無人機通信技術被認為是第五代(5G)以及后續演進(5G+)移動通信網絡中不可或缺的一個組成部分。但是無人機通信系統具有獨特的空對地信道模型,高動態的三維飛行能力以及有限的飛行能源,使得無人機通信系統相較于傳統通信系統更加復雜。
目前用于無人機軌跡優化的方法主要有傳統凸優化算法和強化學習算法。如有一篇申請號為“201811144956.3”的中國專利申請,公開了一種基于蜂窩網聯的無人機移動邊緣計算系統能耗優化方法。該方法根據無人機數據處理、通信、飛行帶來的約束條件,用凸優化算法優化所有時刻無人機的位置、速度和加速度。如一篇申請號為“201811564184.9”的中國專利,公開了一種基于改進Q學習算法的無人機群路徑規劃方法。該方法將強化學習方法Q學習算法與無人機軌跡優化結合,首先采用柵格法建立離散化的環境模型,其次輸入有限的環境狀態值,經過強化學習網絡部分,查詢狀態-行為值矩陣輸出動作,并從環境中獲取回報更新矩陣,最終實現無人機在未知環境下的軌跡規劃。
其中,利用凸優化算法在進行無人機軌跡優化時,由于實際場景下的目標方程的形式非常復雜,所以需要簡化場景,建立場景假設,并且對無人機的飛行控制優化在離散域進行,才能得到簡化的可解的目標問題,得到的結果通常偏離實際最優情況;另一方面,基于凸優化算法的無人機軌跡優化方法,也難以應對動態變化的環境信息。例如,當通信需求動態變化時,原目標方程便無法適用。而現有技術中采用強化學習算法優化無人機軌跡的方案,如Q學習,需要首先建立一個環境狀態與行動映射的表格,再通過當前狀態值查表選擇最大的狀態-行動值(Q值)對應的動作。因為狀態-行動表格的限制,定義的狀態與可采取的行動都是有限的。然而在實際中狀態和行動通常是無限或連續的,在轉化為有限個數時會有信息損失,而且會有維度爆炸的潛在危機。
可見,現有技術中關于優化無人機飛行軌跡的部分技術方案,適應的飛行場景和提供的飛行動作方案都比較有限,難以應對無人機飛行過程中動態變化的環境信息,偏離無人機的實際飛行需求。
發明內容
本發明的目的是提出一種基于深度強化學習的無人機軌跡優化方法、裝置和無人機,以解決上述技術問題。
為實現上述目的,本發明提供了如下方案:
本發明實施例的第一個方面,提供了一種基于深度強化學習的無人機軌跡優化方法,包括如下步驟:
預先構建基于PPO算法的深度強化學習網絡;
在無人機飛行過程中實時與環境交互,產生狀態數據、動作決策數據,并計算瞬時能量效率;
以所述狀態數據為輸入、以所述動作決策數據為輸出,以所述瞬時能量效率為獎勵回報,利用PPO算法對所述深度強化學習網絡進行訓練,優化策略參數,經過多次迭代更新,輸出最優策略。
可選的,預先構建基于PPO算法的深度強化學習網絡,包括:
構建包括行動網絡和評價網絡的深度學習網絡結構;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910697007.6/2.html,轉載請聲明來源鉆瓜專利網。





