[發(fā)明專利]一種融合全局訓(xùn)練的深度強(qiáng)化學(xué)習(xí)避障導(dǎo)航方法有效

申請?zhí)枺?/td>	202110049370.4	申請日：	2021-01-14
公開（公告）號：	CN112882469B	公開（公告）日：	2022-04-08
發(fā)明（設(shè)計）人：	項志宇;應(yīng)充圣;葉育文	申請（專利權(quán)）人：	浙江大學(xué)
主分類號：	G05D1/02	分類號：	G05D1/02
代理公司：	杭州求是專利事務(wù)所有限公司 33200	代理人：	林超
地址：	310058 浙江***	國省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種融合全局訓(xùn)練深度強(qiáng)化學(xué)習(xí) 導(dǎo)航方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種融合全局訓(xùn)練的深度強(qiáng)化學(xué)習(xí)避障導(dǎo)航方法。根據(jù)已知信息規(guī)劃初始路徑；機(jī)器人從初始點沿著初始路徑向目標(biāo)點運(yùn)動；選擇臨時目標(biāo)向著臨時目標(biāo)運(yùn)動；設(shè)置累計期望獎勵懲罰值，不斷多次導(dǎo)航，機(jī)器人導(dǎo)航過程中每一幀給予獎勵懲罰值；從傳感器獲得交互元組；輸入深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練；將待導(dǎo)航的交互元組輸入訓(xùn)練后的深度學(xué)習(xí)網(wǎng)絡(luò)，輸出最優(yōu)的路徑及累計期望獎勵懲罰值，按照最優(yōu)路徑運(yùn)動。本發(fā)明能夠有效地提高深度強(qiáng)化學(xué)習(xí)的收斂速度，在導(dǎo)航過程中提高機(jī)器人的導(dǎo)航效率，同時使得機(jī)器人的運(yùn)動具有環(huán)境友好性，將對周邊環(huán)境的影響降至最低。

技術(shù)領(lǐng)域

本發(fā)明涉及機(jī)器人的動態(tài)環(huán)境避障導(dǎo)航方法，特別是涉及了一種融合全局訓(xùn)練的深度強(qiáng)化學(xué)習(xí)避障導(dǎo)航方法。

背景技術(shù)

對諸如送貨機(jī)器人，室內(nèi)服務(wù)機(jī)器人等動態(tài)環(huán)境下工作的自動導(dǎo)航機(jī)器人來說，避障導(dǎo)航是其中十分重要的功能。機(jī)器人必須在避開各種障礙物的同時安全快速地到達(dá)目標(biāo)點。對于靜態(tài)障礙物的避障研究相對成熟，對動態(tài)障礙物的避障導(dǎo)航問題則更加復(fù)雜，因為它需要對未知的周圍動態(tài)(如行人，車輛或其他機(jī)器人)進(jìn)行預(yù)測。隨著周圍環(huán)境復(fù)雜性的增加，傳統(tǒng)導(dǎo)航方法的可通行區(qū)域會越來越小，直到出現(xiàn)機(jī)器人無法規(guī)劃可行的路徑，即出現(xiàn)凍結(jié)機(jī)器人問題。此外，當(dāng)移動障礙物是行人時，不僅要考慮避免碰撞，還要考慮機(jī)器人的運(yùn)動對行人的影響。

傳統(tǒng)方法更多的是基于幾何模型進(jìn)行避障規(guī)劃，這些模型可以被看作是沒有任何認(rèn)知過程的低級智能。因此，傳統(tǒng)方法對傳感器數(shù)據(jù)的精確度要求較高，數(shù)據(jù)的誤差對避障導(dǎo)航算法的性能有較大的影響，在實際環(huán)境中無法處理較為復(fù)雜的情況。而深度強(qiáng)化學(xué)習(xí)既可以解決傳統(tǒng)方法的缺點，同時也不需要事先準(zhǔn)備大量數(shù)據(jù)集，被認(rèn)為是動態(tài)避障問題中一種十分有潛力和應(yīng)用價值的技術(shù)。但深度強(qiáng)化學(xué)習(xí)收斂性差，環(huán)境適應(yīng)能力弱等問題也制約了該方法的推廣應(yīng)用。本發(fā)明結(jié)合傳統(tǒng)方法和深度強(qiáng)化學(xué)習(xí)，利用部分已知的環(huán)境信息規(guī)劃初始路徑作為全局，加快深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)速度，同時設(shè)計深度強(qiáng)化學(xué)習(xí)的區(qū)別化獎勵函數(shù)，使得機(jī)器人的避障導(dǎo)航具有環(huán)境友好性，降低對周圍環(huán)境的影響。

發(fā)明內(nèi)容

為了解決背景技術(shù)中存在的問題，本發(fā)明的目的在于提供一種融合全局訓(xùn)練的深度強(qiáng)化學(xué)習(xí)避障導(dǎo)航方法，適用于部分環(huán)境信息已知，如室內(nèi)、小區(qū)等情況下的機(jī)器人導(dǎo)航。

本發(fā)明在輪速里程計以及SLAM系統(tǒng)的支持下，可以獲得車輛當(dāng)前的位置信息、運(yùn)動信息以及與目標(biāo)的相對位置關(guān)系。利用傳統(tǒng)算法規(guī)劃出由一系列路點組成的初始路徑，作為深度強(qiáng)化學(xué)習(xí)訓(xùn)練，使得機(jī)器人能夠更好地學(xué)習(xí)到如何在躲避障礙物的同時有效導(dǎo)航。當(dāng)訓(xùn)練完成后，深度強(qiáng)化學(xué)習(xí)的避障導(dǎo)航器則能獨(dú)立工作，不再需要全局輔助。

本發(fā)明采用的技術(shù)方案的步驟如下：

深度強(qiáng)化學(xué)習(xí)訓(xùn)練階段包括如下步驟：

(1)根據(jù)環(huán)境中部分已知的靜態(tài)障礙物信息以及機(jī)器人的初始點與目標(biāo)點，利用傳統(tǒng)算法規(guī)劃出由一系列路點組成的初始路徑；

(2)機(jī)器人從初始點沿著初始路徑向目標(biāo)點運(yùn)動；

(3)在機(jī)器人實時運(yùn)動過程中，根據(jù)機(jī)器人當(dāng)前所處的位置，選擇初始路徑中的路點作為機(jī)器人的臨時目標(biāo)，機(jī)器人向著臨時目標(biāo)運(yùn)動；

在機(jī)器人向著臨時目標(biāo)運(yùn)動過程中，設(shè)置累計期望獎勵懲罰值，不斷進(jìn)行機(jī)器人的多次導(dǎo)航，機(jī)器人導(dǎo)航過程中每一幀具有環(huán)境給予的獎勵懲罰值，從初始點到目標(biāo)點的獎勵懲罰值累計處理為累計期望獎勵懲罰值，將當(dāng)前幀的獎勵懲罰值加入機(jī)器人的交互元組；

將連續(xù)多幀的交互元組輸入深度學(xué)習(xí)網(wǎng)絡(luò)作為訓(xùn)練數(shù)據(jù)，深度學(xué)習(xí)網(wǎng)絡(luò)預(yù)測輸出機(jī)器人從初始點到目標(biāo)點的多種路徑及其對應(yīng)的累計期望獎勵懲罰值，以累計期望獎勵懲罰值最大化進(jìn)行訓(xùn)練優(yōu)化，直到深度學(xué)習(xí)網(wǎng)絡(luò)滿足精度要求；

然后針對待導(dǎo)航的機(jī)器人，將機(jī)器人當(dāng)前幀的交互元組輸入到訓(xùn)練后的深度學(xué)習(xí)網(wǎng)絡(luò)中，輸出最優(yōu)的路徑及其對應(yīng)的累計期望獎勵懲罰值，控制待導(dǎo)航的機(jī)器人按照最優(yōu)的路徑運(yùn)動以實現(xiàn)避障導(dǎo)航。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué)，未經(jīng)浙江大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110049370.4/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種風(fēng)電場中長期控制建模方法以及等效模型
下一篇：一種卷取機(jī)助卷輥的控制方法、裝置及存儲介質(zhì)

同類專利

專利分類

G 物理

G05 控制；調(diào)節(jié)
G05D 非電變量的控制或調(diào)節(jié)系統(tǒng)
G05D1-00 陸地、水上、空中或太空中的運(yùn)載工具的位置、航道、高度或姿態(tài)的控制，例如自動駕駛儀
G05D1-02 .二維的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿態(tài)的控制，即搖擺、俯仰角或偏航角的控制
G05D1-10 .三維的位置或航道的同時控制
G05D1-12 .尋找目標(biāo)的控制

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】