[發明專利]基于啟發式深度強化學習的路徑規劃方法有效
| 申請號: | 202011304737.4 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112325897B | 公開(公告)日: | 2022-08-16 |
| 發明(設計)人: | 李婕;劉憲杰;于瑞云;唐佳奇;王興偉 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 啟發式 深度 強化 學習 路徑 規劃 方法 | ||
1.一種基于啟發式深度強化學習的路徑規劃方法,其特征在于,包括如下步驟:
步驟1:使用柵格化方法對地圖環境進行建模;
步驟2:對步驟1建完模的地圖環境基于價值迭代網絡和ConvLSTM構建特征提取模塊,生成價值地圖;
步驟3:采用啟發式算法A*作為強化學習的啟發式函數指導動作選擇,建立啟發式信息;
步驟4:將價值地圖和啟發式算法A*的啟發式距離信息一同作為獎勵構建強化學習環境,引入注意力機制平衡二者作為獎勵的權重;過程如下:
引入注意力機制平衡A*啟發式距離信息和價值地圖一同作為獎勵的權重,使用地圖大小和價值地圖的價值區間來決定權重w1和w2的比重關系,同時設定超參對獎勵值進行微調,如公式(7)所示:
reward=w1*θ1*V(A*)+w2*θ2*V(ValueMap)+PV (7)
其中,PV為消極懲罰,為了鼓勵智能體在環境中做出各種移動動作,而不是在停留在原地,所設置的值為負值,θ1、θ2分別為基于A*算法和價值地圖兩種獎勵方式的超參數,用于對獎勵值進行微調,reward為獎勵函數,V(A*)和V(ValueMap)分別表示當前次的啟發式距離和價值地圖與分別與上一次迭代產生的差值;
步驟5:在Actor Critic強化學習算法的Actor網絡中使用分層強化學習的方法,將路徑規劃任務作為高維任務,其下分為趨向目標點和障礙躲避兩個子任務,來減小強化學習的狀態空間;
步驟6:利用Actor Critic強化學習算法進行訓練,得到規劃的路徑;
步驟7:將提出的算法框架封裝成獨立的強化學習系統,方便對不同數據集的使用,同時對特征提取出的價值地圖作為環境價值可視化,方便在訓練過程中對實時狀況進行觀察。
2.根據權利要求1所述的基于啟發式深度強化學習的路徑規劃方法,其特征在于:所述步驟1的柵格化方法為將復雜地圖環境抽象在二維柵格地圖上并初始化,賦予目標點正的獎賞,障礙物負的獎賞。
3.根據權利要求1所述的基于啟發式深度強化學習的路徑規劃方法,其特征在于:所述步驟2的具體過程如下:
步驟2.1:將獎勵函數R,轉移概率P和上一次迭代的價值函數PreV作為價值迭代網絡的輸入,輸入到具有A個通道和線性激活函數的卷積層中,如公式(1)所示;
其中,卷積層中的卷積核參數代表轉移概率P,a為每個通道對應的動作,Q為價值函數;i、j為當前次迭代通道上的位置坐標,i'、j'為上一次的位置坐標,r為獎勵函數,其表現形式是二維數組,目標點的獎勵設置為正值,障礙物的懲罰設置為負值;
步驟2.1.1:將價值迭代網絡中的迭代的卷積層更換為ConvLSTM層,對迭代過程進行信息存儲,有效地使用記憶信息近似價值迭代,產生更精確的地圖價值,同時提取到空間特征;
步驟2.2:進行通道上的最大池化,來生成此次迭代的價值函數V輸出,如公式(2)所示:
Vi,j=maxQ(a,i,j) (2)
其中,Vi,j為此次迭代輸出的價值函數,a為每個通道對應的動作,i,j為當前次迭代通道上的位置坐標;
步驟2.3:將此次迭代輸出的價值函數v和獎勵函數r作為下一次迭代的輸入,輸出的是動作概率,計算預測概率和標簽的誤差來更新網絡,重復步驟2.1至步驟2.3;
步驟2.4:經過k次價值迭代后,位于通道m上i,j位置的Q值被輸入到完全連接的softmax輸出層y中,如公式(3)所示,訓練完成后,使用輸出的價值地圖作為強化學習的環境獎勵信息;
其中,為輸出層參數,m'為通道m對應的動作,is,js為通道m對應的位置坐標,y(m)為通道m輸出的價值函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011304737.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電子產品銷售用搬運裝置
- 下一篇:基于數據追蹤的流量分析系統及方法





