[發(fā)明專利]一種基于改進(jìn)A*算法和深度強(qiáng)化學(xué)習(xí)的無(wú)人車路徑規(guī)劃方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010670465.3 | 申請(qǐng)日: | 2020-07-13 |
| 公開(公告)號(hào): | CN111780777B | 公開(公告)日: | 2022-10-21 |
| 發(fā)明(設(shè)計(jì))人: | 丘騰海;蒲志強(qiáng);劉振;易建強(qiáng);常紅星 | 申請(qǐng)(專利權(quán))人: | 江蘇中科智能制造研究院有限公司;中國(guó)科學(xué)院自動(dòng)化研究所 |
| 主分類號(hào): | G01C21/34 | 分類號(hào): | G01C21/34 |
| 代理公司: | 合肥左心專利代理事務(wù)所(普通合伙) 34152 | 代理人: | 游玉香 |
| 地址: | 225300 江蘇省泰州市*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 改進(jìn) 算法 深度 強(qiáng)化 學(xué)習(xí) 無(wú)人 路徑 規(guī)劃 方法 | ||
1.一種基于改進(jìn)A*算法和深度強(qiáng)化學(xué)習(xí)的無(wú)人車路徑規(guī)劃方法,其特征在于,包括以下步驟:
(1)根據(jù)環(huán)境信息,建立初始化柵格代價(jià)地圖,利用SALM技術(shù)對(duì)環(huán)境進(jìn)行地圖建模,提取障礙物信息,標(biāo)定障礙物類型,通過(guò)代價(jià)模型對(duì)障礙物周圍柵格的威脅進(jìn)行評(píng)估;
(2)利用改進(jìn)的A*算法規(guī)劃全局路徑,考慮障礙物代價(jià)和路徑轉(zhuǎn)折點(diǎn)過(guò)多的問(wèn)題,引入啟發(fā)式信息,改進(jìn)A*算法模型,優(yōu)化全局規(guī)劃結(jié)果;
(3)基于全局路徑和激光雷達(dá)傳感器性能,設(shè)計(jì)滑動(dòng)窗口,將窗口探測(cè)的信息作為網(wǎng)絡(luò)的狀態(tài)輸入,進(jìn)行局部規(guī)劃,具體步驟為:
1)根據(jù)激光雷達(dá)探測(cè)距離初始化滑動(dòng)窗口大小為W,W是奇數(shù);
2)以無(wú)人車起始位置作為滑動(dòng)窗口的中心原點(diǎn)Ow;
3)將全局規(guī)劃得到的路徑序列與滑動(dòng)窗口相交的第一個(gè)節(jié)點(diǎn)作為局部路徑規(guī)劃網(wǎng)絡(luò)的臨時(shí)目標(biāo)點(diǎn)Tw和狀態(tài)輸入量;
4)當(dāng)無(wú)人車到達(dá)臨時(shí)目標(biāo)點(diǎn)后,將該時(shí)刻的臨時(shí)目標(biāo)點(diǎn)作為起始點(diǎn),切換滑動(dòng)窗口;
(4)基于深度強(qiáng)化學(xué)習(xí)方法,采用Actor-Critic架構(gòu),設(shè)計(jì)局部規(guī)劃網(wǎng)絡(luò),具體步驟如下:
1)設(shè)計(jì)局部規(guī)劃網(wǎng)絡(luò)的狀態(tài)輸入空間,將柵格全局坐標(biāo)系下的障礙物、目標(biāo)、無(wú)人車位置信息轉(zhuǎn)換到以滑動(dòng)窗口中心為原點(diǎn)的局部坐標(biāo)系下,并將其作為局部規(guī)劃網(wǎng)絡(luò)的狀態(tài)輸入s,表達(dá)式如下所示,組成狀態(tài)空間S:
其中,sl表示激光雷達(dá)傳感器所有探針測(cè)得的障礙物距離向量,sl={l1,…lN},l1…lN表示探針測(cè)得的距離,N表示激光雷達(dá)傳感器的探針數(shù)量,分別表示滑動(dòng)窗口局部坐標(biāo)系下臨時(shí)目標(biāo)點(diǎn)的坐標(biāo),px、py分別表示無(wú)人車在局部坐標(biāo)系下的x、y軸坐標(biāo),vx、vy分別表示無(wú)人車在局部坐標(biāo)系下的x、y軸的速度分量;
2)設(shè)計(jì)無(wú)人車在局部規(guī)劃網(wǎng)絡(luò)的決策動(dòng)作空間,在滑動(dòng)窗口局部坐標(biāo)系下,將無(wú)人車機(jī)動(dòng)方向動(dòng)作分為前、后、左、右、左前、左后、右前、右后八個(gè)候選動(dòng)作無(wú)人車機(jī)動(dòng)速率動(dòng)作分為五個(gè)離散候選速率動(dòng)作,于是無(wú)人車決策動(dòng)作表達(dá)式如下,組成動(dòng)作空間A:
a={ad,av}
3)結(jié)合柵格代價(jià)地圖,設(shè)計(jì)局部規(guī)劃網(wǎng)絡(luò)的回報(bào)函數(shù)r,具體表達(dá)式如下所示:
其中,dt、dt-1分別表示當(dāng)前時(shí)刻與前一時(shí)刻無(wú)人車與臨時(shí)目標(biāo)點(diǎn)的距離,v表示無(wú)人車在滑動(dòng)窗口的機(jī)動(dòng)速度,dt表示時(shí)間間隔,λ1、λ2表示獎(jiǎng)懲系數(shù),表示當(dāng)無(wú)人車與滑動(dòng)窗口臨時(shí)目標(biāo)點(diǎn)的距離隨時(shí)間變大時(shí),給予無(wú)人車負(fù)的懲罰;表示當(dāng)無(wú)人車與滑動(dòng)窗口臨時(shí)目標(biāo)點(diǎn)的距離隨時(shí)間變小時(shí),給予無(wú)人車正的獎(jiǎng)勵(lì);rs表示無(wú)人車每走一步,根據(jù)柵格代價(jià)地圖得到的懲罰;rc表示碰到障礙物時(shí)的懲罰;ra表示到達(dá)臨時(shí)目標(biāo)點(diǎn)時(shí)的懲罰;
4)采用Actor-Critic架構(gòu),設(shè)計(jì)局部規(guī)劃網(wǎng)絡(luò),并訓(xùn)練網(wǎng)絡(luò)模型,將網(wǎng)絡(luò)結(jié)構(gòu)分為策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò),所述策略網(wǎng)絡(luò)用于預(yù)測(cè)無(wú)人車的下一步動(dòng)作,包括障礙物第一特征提取模塊、目標(biāo)引導(dǎo)模塊和第一全連接層模塊;所述價(jià)值網(wǎng)絡(luò)用于對(duì)策略網(wǎng)絡(luò)選擇的動(dòng)作評(píng)分,通過(guò)第二特征提取模塊提取無(wú)人車狀態(tài)和動(dòng)作,再由第二全連接層模塊計(jì)算綜合價(jià)值,評(píng)估動(dòng)作的好壞程度,反饋給策略網(wǎng)絡(luò),采用課程訓(xùn)練的方式,逐步增加訓(xùn)練環(huán)境的復(fù)雜程度,直至訓(xùn)練誤差小于ε,結(jié)束網(wǎng)絡(luò)模型的訓(xùn)練;
(5)結(jié)合全局規(guī)劃路徑,將訓(xùn)練好的局部規(guī)劃網(wǎng)絡(luò)模型應(yīng)用于無(wú)人車導(dǎo)航。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇中科智能制造研究院有限公司;中國(guó)科學(xué)院自動(dòng)化研究所,未經(jīng)江蘇中科智能制造研究院有限公司;中國(guó)科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010670465.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





