[發明專利]一種基于深度強化學習的無人機偽路徑規劃的方法有效
| 申請號: | 201910948346.7 | 申請日: | 2019-10-08 |
| 公開(公告)號: | CN110673637B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 陳鯉文;周瑤;鄭日晶;張文吉 | 申請(專利權)人: | 福建工程學院 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 350000 福建省福州*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 無人機 路徑 規劃 方法 | ||
1.一種基于深度強化學習的無人機偽路徑規劃的方法,其特征在于,包括以下步驟:
步驟1:在飛行地圖上劃分禁飛區域的邊界坐標,并標記出無人機飛行的起點和終點位置坐標;
步驟2:執行飛行任務前感知無人機當前環境狀態,包括低、高空氣候數據,無人機飛行高度,無人機飛行位置坐標;基于當前環境狀態信息,利用深度強化學習算法,根據得到的Q函數值選擇當前環境下的飛行偏轉角度和動作;無人機根據在飛行過程中不斷地接收來自地面基站發射設備給出飛行的位置數據并與環境進行交互得到的獎勵回報更新Q函數;
其中,所述深度強化學習算法是利用深度學習中的卷積神經網絡和強化學習的Q-learning算法相結合的改進型深度卷積神經網絡算法;
所述深度強化學習算法包括無人機飛行時的狀態集{S1,S2,S3......St,t≥1},動作集{a1,a2,a3......at,t≥1},獎勵函數R(s),以及深度強化學習目標網絡權重θ;
所述深度強化學習根據狀態集、動作集、獎勵函數代入到狀態行為值函數Qt(st,at)中;
所述Qt(st,at)的函數為:
其中Qt+1(st,at)為t+1時刻對應的Q值,Qt(st,at)為t時刻的Q值,α為學習速率,γ為折扣因子,Rt為執行t時刻動作時的回報值;
所述目標網絡權值θ加入后動作行為值函數更新為:
其中,Vt+1為t+1時刻根據當前的狀態行為值函數Qt(st,at;θ)所得到的行為值函數用來更新t+1時刻的狀態行為值;深度強化學習Double DQN中將動作的選擇和動作的評估分別用不同的值函數實現;
動作選擇時的值函數公式為公式:
動作選擇時的值函數做出選擇時首先選擇一個動作a*,該動作a*應該滿足在狀態St+1處Q(St+1,a)最大;其中Rt+1表示t+1時刻的獎勵值;
動作評估時的值函數為在選出最大的動作a*之后選擇不同的網絡權重θ′動作評估的公式;
其中,為利用深度強化學習網絡Double DQN計算之后的狀態動作值函數的值;
步驟3:飛行過程中將禁飛區域作為虛擬障礙物,判斷無人機是否按照正常的航線飛行;
若遠離禁飛區,無人機繼續與環境交互規劃路徑,執行步驟2;
若接近禁飛區域邊緣,則通過深度強化學習算法的獎勵函數引導無人機規劃偽航行路線,避開禁飛區域;
步驟4:若無人機到達終點,則結束飛行;否則繼續執行步驟2。
2.根據權利要求1所述的基于深度強化學習的無人機偽路徑規劃的方法,其特征在于:步驟1中,首先將飛行地圖模擬為柵格環境模型,柵格環境模型將無人機的飛行環境劃分為一系列具有二值信息的大小相同或不同的單元格,其中一些單元格劃分為禁飛區域;禁飛區域的邊界坐標在柵格環境模型上明確標出為{(xi,yi),(xi+1,yi+1),(xi+2,yi+2)......(xi+m,yi+n)|m,n>0,i≥1};在飛行地圖上同時標出無人機飛行的起點(Xstart,Ystart)和終點(Xend,Yend)的位置坐標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建工程學院,未經福建工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910948346.7/1.html,轉載請聲明來源鉆瓜專利網。





