[發明專利]一種基于DQN的無人機路徑規劃方法在審
| 申請號: | 202110591320.9 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113359820A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 鄭可心;劉小波;周志浪;代浩然;王端初;肖肖;龔鑫;喬禹霖;劉鵬;楊健峰;張超超 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dqn 無人機 路徑 規劃 方法 | ||
本發明提供一種基于DQN的無人機路徑規劃方法,首先用柵格法生成訓練集;設置障礙的獎勵函數,并初始化強化學習的Q值;構建DQN中的卷積神經網絡,并訓練模型;在DQN中構建圖像分割網絡Mask R?NN,并使用遙感圖像對訓練好的Mask R?NN進行測試;將Mask R?CNN網絡輸出的柵格圖輸入到已經訓練好的模型,最終輸出成功通過障礙到達終點的遙感圖像。本發明實現DQN算法在真實環境圖像中進行路徑規劃,為DQN在真實環境中路徑規劃研究做鋪墊。
技術領域
本發明涉及路徑規劃技術領域,尤其涉及一種基于DQN的無人機路徑規劃方法。
背景技術
全局路徑規劃是在全局環境已知的前提下,提前做好全局性的路徑規劃方案。全局路徑規劃對算法的實時性要求不高,使用起來方便快捷。是當下無人機路徑規劃的主要研究方向之一。
傳統的算法如A*、Voronoi圖等算法計算效率高、規劃簡單。李得偉等人通過改進搜索順序和優化估價函數,將A*算法中的無向搜索改成有向搜索,將全局估價變為局部估價,提高了算法效率。但傳統算法在解決路徑規劃問題中存在很多局限性,如精確法只適用于小規模路徑規劃問題,當目標函數和約束條件較為復雜時,精確方法很難給出有效解。并且啟發式算法無法解決環境變化這一問題。
鑒于傳統算法解決無人機全局路徑規劃的局限性,越來越多的學者利用機器學習算法求解無人機全局路徑規劃,機器學習算法是通過無人機與環境的交互來學習策略和更新模型,其本質是通過最大化累積獎勵的概念來訓練智能體在環境中采取最優行動。其中Q學習算法、深度Q網絡算法是使用最為廣泛的兩種方法。
Zhao用一種自適應隨機探索方法結合Q學習算法完成了無人機導航和避障任務,其動作選擇模塊中包含了兩個子模塊:學習模塊和避障模塊。學習模塊可以通過無人機的歷史狀態和位置信息訓練其動作選擇策略,而避障模塊通過使用隨機搜索樹算法來進行緊急避障。Siyu Zhou提出了一種新的基于DQN的全局路徑規劃方法,使移動機器人能夠在密集環境中高效地獲得最優路徑。這個方法可以分為三個步驟。首先,我們需要設計和訓練一個DQN來逼近移動機器人的狀態——動作值函數。然后,我們確定每個可能的動作對應的Q值,如右轉和前進。DQN的輸入是代表環境結構的原始RGB圖像。最后,通過動作選擇策略選擇當前最優動作,使移動機器人在避開障礙物的同時到達目標點。不同環境下的多次仿真表明,該方法比傳統的路徑規劃方法更有效。
王俊等人2019年發明了一種快速搜索機制下改進DQN的機器人路徑規劃算法,該發明首先設置算法中所需的參數;其次根據三維地形環境的坡度特征和機器人運動幾何學特性,建立一個二維的柵格地圖用來模擬環境;設計快速搜索機制;從次建立機器人的動作集;設計一個連續的報酬函數;機器人通過訓練輸出一條最佳路徑;該發明提供了--種快速搜索機制下改進DQN的機器人路徑規劃算法,改善了Deep Q_Learning算法存在的環境利用率低、搜索效率低等問題,能夠使機器人在未知環境下快速搜索出最佳路徑。
鄧三鵬等人2019年針對強化學習中Q-learning算法在復雜環境下難以進行路徑規劃的問題,將深度卷積神經網絡的特征提取能力與強化學習的決策能力相結合,提出了一種基于深度強化學習的改進算法。該方法用值函數近似法代替Q-learning中的動作值函數,設計了包含4層結構的深度卷積神經網絡,以網絡的輸出代替傳統的Q值表,解決了Q-learning在狀態空間較大時產生的維數災難問題。在柵格環境下進行仿真實驗,結果表明該方法相較于Q-learning算法能夠在復雜的環境下進行路徑規劃,并在新的測試集上取得了87%的識別率,具有較強的泛化能力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110591320.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種戰斗部破片密度計算方法
- 下一篇:一種多聯盟鏈共識算法的網絡時延優化方法





