[發(fā)明專利]一種融合全局訓(xùn)練的深度強(qiáng)化學(xué)習(xí)避障導(dǎo)航方法有效
| 申請?zhí)枺?/td> | 202110049370.4 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112882469B | 公開(公告)日: | 2022-04-08 |
| 發(fā)明(設(shè)計)人: | 項志宇;應(yīng)充圣;葉育文 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 全局 訓(xùn)練 深度 強(qiáng)化 學(xué)習(xí) 導(dǎo)航 方法 | ||
本發(fā)明公開了一種融合全局訓(xùn)練的深度強(qiáng)化學(xué)習(xí)避障導(dǎo)航方法。根據(jù)已知信息規(guī)劃初始路徑;機(jī)器人從初始點沿著初始路徑向目標(biāo)點運(yùn)動;選擇臨時目標(biāo)向著臨時目標(biāo)運(yùn)動;設(shè)置累計期望獎勵懲罰值,不斷多次導(dǎo)航,機(jī)器人導(dǎo)航過程中每一幀給予獎勵懲罰值;從傳感器獲得交互元組;輸入深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練;將待導(dǎo)航的交互元組輸入訓(xùn)練后的深度學(xué)習(xí)網(wǎng)絡(luò),輸出最優(yōu)的路徑及累計期望獎勵懲罰值,按照最優(yōu)路徑運(yùn)動。本發(fā)明能夠有效地提高深度強(qiáng)化學(xué)習(xí)的收斂速度,在導(dǎo)航過程中提高機(jī)器人的導(dǎo)航效率,同時使得機(jī)器人的運(yùn)動具有環(huán)境友好性,將對周邊環(huán)境的影響降至最低。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器人的動態(tài)環(huán)境避障導(dǎo)航方法,特別是涉及了一種融合全局訓(xùn)練的深度強(qiáng)化學(xué)習(xí)避障導(dǎo)航方法。
背景技術(shù)
對諸如送貨機(jī)器人,室內(nèi)服務(wù)機(jī)器人等動態(tài)環(huán)境下工作的自動導(dǎo)航機(jī)器人來說,避障導(dǎo)航是其中十分重要的功能。機(jī)器人必須在避開各種障礙物的同時安全快速地到達(dá)目標(biāo)點。對于靜態(tài)障礙物的避障研究相對成熟,對動態(tài)障礙物的避障導(dǎo)航問題則更加復(fù)雜,因為它需要對未知的周圍動態(tài)(如行人,車輛或其他機(jī)器人)進(jìn)行預(yù)測。隨著周圍環(huán)境復(fù)雜性的增加,傳統(tǒng)導(dǎo)航方法的可通行區(qū)域會越來越小,直到出現(xiàn)機(jī)器人無法規(guī)劃可行的路徑,即出現(xiàn)凍結(jié)機(jī)器人問題。此外,當(dāng)移動障礙物是行人時,不僅要考慮避免碰撞,還要考慮機(jī)器人的運(yùn)動對行人的影響。
傳統(tǒng)方法更多的是基于幾何模型進(jìn)行避障規(guī)劃,這些模型可以被看作是沒有任何認(rèn)知過程的低級智能。因此,傳統(tǒng)方法對傳感器數(shù)據(jù)的精確度要求較高,數(shù)據(jù)的誤差對避障導(dǎo)航算法的性能有較大的影響,在實際環(huán)境中無法處理較為復(fù)雜的情況。而深度強(qiáng)化學(xué)習(xí)既可以解決傳統(tǒng)方法的缺點,同時也不需要事先準(zhǔn)備大量數(shù)據(jù)集,被認(rèn)為是動態(tài)避障問題中一種十分有潛力和應(yīng)用價值的技術(shù)。但深度強(qiáng)化學(xué)習(xí)收斂性差,環(huán)境適應(yīng)能力弱等問題也制約了該方法的推廣應(yīng)用。本發(fā)明結(jié)合傳統(tǒng)方法和深度強(qiáng)化學(xué)習(xí),利用部分已知的環(huán)境信息規(guī)劃初始路徑作為全局,加快深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)速度,同時設(shè)計深度強(qiáng)化學(xué)習(xí)的區(qū)別化獎勵函數(shù),使得機(jī)器人的避障導(dǎo)航具有環(huán)境友好性,降低對周圍環(huán)境的影響。
發(fā)明內(nèi)容
為了解決背景技術(shù)中存在的問題,本發(fā)明的目的在于提供一種融合全局訓(xùn)練的深度強(qiáng)化學(xué)習(xí)避障導(dǎo)航方法,適用于部分環(huán)境信息已知,如室內(nèi)、小區(qū)等情況下的機(jī)器人導(dǎo)航。
本發(fā)明在輪速里程計以及SLAM系統(tǒng)的支持下,可以獲得車輛當(dāng)前的位置信息、運(yùn)動信息以及與目標(biāo)的相對位置關(guān)系。利用傳統(tǒng)算法規(guī)劃出由一系列路點組成的初始路徑,作為深度強(qiáng)化學(xué)習(xí)訓(xùn)練,使得機(jī)器人能夠更好地學(xué)習(xí)到如何在躲避障礙物的同時有效導(dǎo)航。當(dāng)訓(xùn)練完成后,深度強(qiáng)化學(xué)習(xí)的避障導(dǎo)航器則能獨(dú)立工作,不再需要全局輔助。
本發(fā)明采用的技術(shù)方案的步驟如下:
深度強(qiáng)化學(xué)習(xí)訓(xùn)練階段包括如下步驟:
(1)根據(jù)環(huán)境中部分已知的靜態(tài)障礙物信息以及機(jī)器人的初始點與目標(biāo)點,利用傳統(tǒng)算法規(guī)劃出由一系列路點組成的初始路徑;
(2)機(jī)器人從初始點沿著初始路徑向目標(biāo)點運(yùn)動;
(3)在機(jī)器人實時運(yùn)動過程中,根據(jù)機(jī)器人當(dāng)前所處的位置,選擇初始路徑中的路點作為機(jī)器人的臨時目標(biāo),機(jī)器人向著臨時目標(biāo)運(yùn)動;
在機(jī)器人向著臨時目標(biāo)運(yùn)動過程中,設(shè)置累計期望獎勵懲罰值,不斷進(jìn)行機(jī)器人的多次導(dǎo)航,機(jī)器人導(dǎo)航過程中每一幀具有環(huán)境給予的獎勵懲罰值,從初始點到目標(biāo)點的獎勵懲罰值累計處理為累計期望獎勵懲罰值,將當(dāng)前幀的獎勵懲罰值加入機(jī)器人的交互元組;
將連續(xù)多幀的交互元組輸入深度學(xué)習(xí)網(wǎng)絡(luò)作為訓(xùn)練數(shù)據(jù),深度學(xué)習(xí)網(wǎng)絡(luò)預(yù)測輸出機(jī)器人從初始點到目標(biāo)點的多種路徑及其對應(yīng)的累計期望獎勵懲罰值,以累計期望獎勵懲罰值最大化進(jìn)行訓(xùn)練優(yōu)化,直到深度學(xué)習(xí)網(wǎng)絡(luò)滿足精度要求;
然后針對待導(dǎo)航的機(jī)器人,將機(jī)器人當(dāng)前幀的交互元組輸入到訓(xùn)練后的深度學(xué)習(xí)網(wǎng)絡(luò)中,輸出最優(yōu)的路徑及其對應(yīng)的累計期望獎勵懲罰值,控制待導(dǎo)航的機(jī)器人按照最優(yōu)的路徑運(yùn)動以實現(xiàn)避障導(dǎo)航。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110049370.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于靈活柵格光網(wǎng)絡(luò)全局優(yōu)化的系統(tǒng)架構(gòu)及其全局優(yōu)化方法
- 一種基于多數(shù)據(jù)庫類型的SQL執(zhí)行方法和裝置
- 用于移動AdHoc網(wǎng)絡(luò)的路由入侵檢測系統(tǒng)
- 一種分布式事務(wù)管理方法及系統(tǒng)
- 全局資源分配方法和裝置
- 一種通信方法及裝置
- 一種高效分布式全局鎖協(xié)調(diào)方法
- 一種帶上下文信息編碼的語義分割卷積神經(jīng)網(wǎng)絡(luò)
- 一種批量腳本的全局參數(shù)替換方法及裝置
- 一種基于全局變量的家居參數(shù)化模型建模系統(tǒng)及方法





