[發明專利]一種基于DQN的無人機路徑規劃方法在審
| 申請號: | 202110591320.9 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113359820A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 鄭可心;劉小波;周志浪;代浩然;王端初;肖肖;龔鑫;喬禹霖;劉鵬;楊健峰;張超超 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dqn 無人機 路徑 規劃 方法 | ||
1.一種基于DQN的無人機路徑規劃方法,其特征在于,包括以下步驟:
S1、用柵格法生成訓練集;
S2、設置障礙的獎勵函數,并初始化強化學習的Q值;
S3、構建DQN中的卷積神經網絡,并訓練模型;
S4、在DQN中構建圖像分割網絡Mask R-NN,并使用遙感圖像對訓練好的Mask R-NN進行測試;
S5、將Mask R-CNN網絡輸出的柵格圖輸入到S3中已經訓練好的模型,最終輸出成功躲避障礙到達終點的遙感圖像。
2.根據權利要求1所述的一種基于DQN的無人機路徑規劃方法,其特征在于,所述S1具體為:用二值化方法,設置灰度值為255表示白色,灰度值為0表示黑色,將85個1*1大小的黑色像素塊隨機分布在25*25大小的白色像素圖中構成的柵格圖,通過不斷改變柵格圖中起始點、障礙點的位置,生成數量大約有125000張路徑豐富多樣且復雜的柵格圖組成訓練集,保存至訓練集文件夾中。
3.根據權利要求1所述的一種基于DQN的無人機路徑規劃方法,其特征在于,所述S2具體為:設置無人機到達終點的獎勵值為200和碰撞到障礙點的獎勵值為-200的獎勵函數,并對訓練集中每張圖片中的起始點、終點和障礙點的分布情況進行獎勵值設置;當初始點與終點重合時,該狀態圖像獎勵值為200,其余正常狀態的圖像獎勵值設置為0,并將以上獎勵值作為每張訓練圖片的初始Q值保存至Q值文件夾中。
4.根據權利要求1所述的一種基于DQN的無人機路徑規劃方法,其特征在于,所述S3中模型訓練具體步驟如下:
S31、將一張大小長*寬*張量=25*25*3的柵格圖輸入進DQN算法的當前值卷積神經網絡中;
S32、由10個步長為1,大小為2*2的卷積核構成的卷積層1對輸入的圖像張量進行卷積操作,卷積后得到的特征圖尺寸為24,產生10個大小為24*24的特征圖,即輸出24*24*10的特征向量;
S33、由20個步長為1,大小為2*2的卷積核構成的卷積層2對輸入的特征張量,即卷積層1的輸出進行卷積操作,卷積后得到的特征圖尺寸為23,最后產生20個大小為23*23的特征圖,即輸出23*23*20大小的特征向量圖;
S34、由全連接層1對卷積層2產生的特征向量進行拉伸,每一個像素代表一個神經元,共有23*23*20=10580個神經元作為輸入,最后使用全連接層操作輸出512個神經元;
S35、輸出層與全連接層1進行全連接操作,輸出8個神經元,具體的輸出值大小Q(s,a,θi)即為對應的動作Q值Qπ(s,a),公式為:Q(s,a,θi)≈Qπ(s,a);其中,s為動作,a為狀態,θi為權重參數;
S36、將輸出層的輸出值Q(s,a,θi)與當前值網絡結構相同的目標值網絡的輸出值r+γmaxQ(s′,a′,θi)傳輸給誤差損失函數使用公式計算參數θ的梯度;其中,r為獎勵,γ為折扣系數,s′為下一步動作,a′為下一步狀態,θi為權重參數;
S37、使用小批量隨機梯度下降算法實現卷積神經網絡模型對目標函數的優化,從而得到最優動作值argmaxaQ(s,a;θ);
S38、不斷重復以上步驟進行模型訓練,當誤差損失函數達到收斂時停止訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110591320.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種戰斗部破片密度計算方法
- 下一篇:一種多聯盟鏈共識算法的網絡時延優化方法





