[發明專利]一種基于改進的深度強化學習的路徑規劃方法有效
| 申請號: | 202011311727.3 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112362066B | 公開(公告)日: | 2023-02-10 |
| 發明(設計)人: | 楊寧;趙可賀;郭雷 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20 |
| 代理公司: | 西安凱多思知識產權代理事務所(普通合伙) 61290 | 代理人: | 王鮮凱 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 深度 強化 學習 路徑 規劃 方法 | ||
1.一種基于改進的深度強化學習的路徑規劃方法,其特征在于步驟如下:
步驟1、對傳統深度Q網絡在策略和網絡結構上進行優化:
策略的改進:對下述ε-greedy策略進行改進,
μ是每輪隨機生成的,大小在0和1之間,ε表示探索率,表示隨機動作;
(1)經驗深度的策略:以當前點為中心的八個鄰域的矩形,并評估選擇一個特定動作時所獲得的經驗珍貴程度;價值估計網絡E的t時刻損失函數為:
Lt(θt)=Es,a{((1+|rt|)-e(st,at;θtE))2} (2)
根據獎勵功能的稀疏形式,將e(st,at;θtE)轉換為:
價值估計網絡E在Q網絡訓練之前的預訓練階段完成訓練,然后選擇動作;
所述獎勵功能的稀疏形式為:
給rreach正值來鼓勵模型找到目標,給rcrash負值來懲罰碰撞行為;隨著當前點和目標點距離的增加,正常動作所對應的獎勵值會減小,并且γ需要小于1來促使智能體到達目標點;
(2)經驗廣度的策略:模型創建并行結構處理訓練過程中的路徑游蕩現象,模型選擇動作最大化
提取在游蕩點ext-1=(st-1,at-1,rt-1,st)和ext=(st,at,rt,st+1)前兩步和當前步的經驗,模型通過貪婪隨機策略與環境互動,并判斷在更新策略后網絡權重是否能夠跳出游蕩點;如果模型能夠識別該點,或者步數達到了一張地圖預設的最大探索步驟,那么結構結束;如果沒有,它將繼續增加游蕩點經驗;
(3)避免不正確估計的策略:在每個迭代過程中設置智能體所能移動的最大步數:
termial指的是到達目標點或障礙物時;
(4)網絡結構的改進:價值評估網絡由卷積層和全連接層組成,用relu激活函數減少梯度消失并加快訓練速度,Q網絡包括預處理層、密集塊和全連接層,為了訓練模型,計算損失和均方誤差,然后更新網絡參數;
步驟2:將步驟1的策略和網絡結構生成Improve-DQN算法,用于路徑規劃,規劃時輸入需要規劃的地形圖,起始點坐標值,終點坐標值以及障礙點坐標值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011311727.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種點陣測距機構
- 下一篇:一種具有智能監測功能的鋰電池





