[發(fā)明專利]基于啟發(fā)式深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法有效
| 申請?zhí)枺?/td> | 202011304737.4 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112325897B | 公開(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計)人: | 李婕;劉憲杰;于瑞云;唐佳奇;王興偉 | 申請(專利權(quán))人: | 東北大學(xué) |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34 |
| 代理公司: | 沈陽東大知識產(chǎn)權(quán)代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 啟發(fā)式 深度 強(qiáng)化 學(xué)習(xí) 路徑 規(guī)劃 方法 | ||
本發(fā)明公開一種基于啟發(fā)式深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法,屬于路徑規(guī)劃技術(shù)領(lǐng)域。該方法包括:使用柵格化方法對地圖環(huán)境進(jìn)行建模;對環(huán)境進(jìn)行特征提取,建立價值地圖;利用Actor Critic強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練;采用經(jīng)典啟發(fā)式算法A*作為強(qiáng)化學(xué)習(xí)的啟發(fā)式函數(shù),建立啟發(fā)式信息;設(shè)計注意力機(jī)制平衡特征提取模塊和啟發(fā)式模塊的權(quán)重;使用分層強(qiáng)化學(xué)習(xí)進(jìn)行任務(wù)劃分。本發(fā)明的優(yōu)點為:收斂速度快、穩(wěn)定性強(qiáng);路徑規(guī)劃效果更為準(zhǔn)確;適應(yīng)復(fù)雜的未知環(huán)境;將模塊封裝成強(qiáng)化學(xué)習(xí)系統(tǒng)便于算法調(diào)用與改進(jìn)。
技術(shù)領(lǐng)域
本發(fā)明涉及路徑規(guī)劃技術(shù)領(lǐng)域,尤其涉及一種基于啟發(fā)式深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法。
背景技術(shù)
當(dāng)前對路徑規(guī)劃任務(wù)主要采用傳統(tǒng)方法,這些方法主要以算法的細(xì)節(jié)優(yōu)化和針對環(huán)境的優(yōu)化為主,雖然在特定環(huán)境下取得了比較優(yōu)秀的效果,但并不能作為復(fù)雜環(huán)境的通用解決方法。近年來,深度學(xué)習(xí)方法發(fā)展迅速,并廣泛的應(yīng)用在科研和工業(yè)的各個領(lǐng)域中。但是目前基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法只是簡單的設(shè)定智能體在環(huán)境中的獎勵值,這種方式使訓(xùn)練完成后的策略網(wǎng)絡(luò)具有一定的局限性,難以適應(yīng)未知復(fù)雜的環(huán)境。
發(fā)明內(nèi)容
針對上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于啟發(fā)式深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法。
為解決上述技術(shù)問題,本發(fā)明所采取的技術(shù)方案是:基于啟發(fā)式深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法,包括如下步驟:
步驟1:使用柵格化方法對地圖環(huán)境進(jìn)行建模;
所述柵格化方法為將復(fù)雜地圖環(huán)境抽象在二維柵格地圖上并初始化,賦予目標(biāo)點正的獎賞,障礙物負(fù)的獎賞。
步驟2:對步驟1建完模的地圖環(huán)境基于價值迭代網(wǎng)絡(luò)和ConvLSTM構(gòu)建特征提取模塊,生成價值地圖,過程如下:
步驟2.1:將獎勵函數(shù)R,轉(zhuǎn)移概率P和上一次迭代的價值函數(shù)PreV作為價值迭代網(wǎng)絡(luò)的輸入,輸入到具有A個通道和線性激活函數(shù)的卷積層中,如公式(1)所示;
其中,卷積層中的卷積核參數(shù)代表轉(zhuǎn)移概率P,a為每個通道對應(yīng)的動作,Q為價值函數(shù);i、j為當(dāng)前次迭代通道上的位置坐標(biāo),i'、j'為上一次的位置坐標(biāo),r為獎勵函數(shù),其表現(xiàn)形式是二維數(shù)組,目標(biāo)點的獎勵設(shè)置為正值,障礙物的懲罰設(shè)置為負(fù)值;
步驟2.1.1:將價值迭代網(wǎng)絡(luò)中的迭代的卷積層更換為ConvLSTM層,對迭代過程進(jìn)行信息存儲,有效地使用記憶信息近似價值迭代,產(chǎn)生更精確的地圖價值,同時提取到空間特征;
步驟2.2:進(jìn)行通道上的最大池化,來生成此次迭代的價值函數(shù)V輸出,如公式(2)所示:
Vi,j=maxQ(a,i,j) (2)
其中,Vi,j為此次迭代輸出的價值函數(shù),a為每個通道對應(yīng)的動作,i,j為當(dāng)前次迭代通道上的位置坐標(biāo);
步驟2.3:將此次迭代輸出的價值函數(shù)v和獎勵函數(shù)r作為下一次迭代的輸入,輸出的是動作概率,計算預(yù)測概率和標(biāo)簽的誤差來更新網(wǎng)絡(luò),重復(fù)步驟2.1至步驟2.3;
步驟2.4:經(jīng)過k次價值迭代后,位于通道m(xù)上i,j位置的Q值被輸入到完全連接的softmax輸出層y中,如公式(3)所示。訓(xùn)練完成后,使用輸出的價值地圖作為強(qiáng)化學(xué)習(xí)的環(huán)境獎勵信息。
其中,為輸出層參數(shù),m'為通道m(xù)對應(yīng)的動作,is,js為通道m(xù)對應(yīng)的位置坐標(biāo),y(m)為通道m(xù)輸出的價值函數(shù)。
步驟3:采用啟發(fā)式算法A*作為強(qiáng)化學(xué)習(xí)的啟發(fā)式函數(shù)指導(dǎo)動作選擇,建立啟發(fā)式信息,過程如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東北大學(xué),未經(jīng)東北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011304737.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- MPEG-4視頻并行編碼中的形狀自適應(yīng)的啟發(fā)式數(shù)據(jù)劃分方法
- 自動化的客戶端設(shè)備管理
- 一種用于船舶航線設(shè)計的啟發(fā)式航段尋徑方法
- 基于圖的超啟發(fā)式的蜂窩網(wǎng)絡(luò)頻譜分配方法
- 一種基于超啟發(fā)式算法的零空閑流水車間作業(yè)調(diào)度方法
- 一種CiscoIOS啟發(fā)式模糊測試技術(shù)
- 一種基于超啟發(fā)式算法的衛(wèi)星任務(wù)規(guī)劃方法
- 基于MAB的超啟發(fā)式算法求解多目標(biāo)優(yōu)化問題的方法
- 基于物場分析與規(guī)則推理的產(chǎn)品創(chuàng)新設(shè)計方法及系統(tǒng)
- 基于啟發(fā)式深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法





