[發(fā)明專利]一種密集行人環(huán)境下強(qiáng)化學(xué)習(xí)移動機(jī)器人的導(dǎo)航方法及裝置在審
| 申請?zhí)枺?/td> | 202110353618.6 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113096161A | 公開(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計(jì))人: | 劉奇;李衍杰;牟涌金;許運(yùn)鴻;劉悅丞;高建琦 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué)(深圳) |
| 主分類號: | G06T7/277 | 分類號: | G06T7/277;G06K9/00;G06N3/04;G06N20/20;G01C21/20;G01C21/00 |
| 代理公司: | 深圳市添源知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44451 | 代理人: | 于標(biāo) |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 密集 行人 環(huán)境 強(qiáng)化 學(xué)習(xí) 移動 機(jī)器人 導(dǎo)航 方法 裝置 | ||
本發(fā)明公開了一種基于空間?時間圖注意力神經(jīng)網(wǎng)絡(luò)的密集行人環(huán)境下強(qiáng)化學(xué)習(xí)移動機(jī)器人的導(dǎo)航方法,首先使用了三維多物體跟蹤JRMOT技術(shù)進(jìn)行2D和3D的行人軌跡追蹤技術(shù),對行人的位置進(jìn)行實(shí)時追蹤,在讓機(jī)器人使用空間?時間圖注意力STGAT模型,根據(jù)行人歷史軌跡預(yù)測未來軌跡,當(dāng)機(jī)器人在行人環(huán)境中有了各個行人的軌跡后,再使用蒙特卡洛樹搜索和價(jià)值估計(jì)網(wǎng)絡(luò),做出最優(yōu)決策,進(jìn)行導(dǎo)航任務(wù)。本發(fā)明能夠在密集行人環(huán)境下快速做出避障決策,拓展了移動機(jī)器人的應(yīng)用場景。
技術(shù)領(lǐng)域
本發(fā)明屬于移動機(jī)器人導(dǎo)航領(lǐng)域,涉及一種密集行人環(huán)境下強(qiáng)化學(xué)習(xí)移動機(jī)器人的導(dǎo)航方法及裝置,尤其涉及一種基于空間-時間圖注意力神經(jīng)網(wǎng)絡(luò)的密集行人環(huán)境下強(qiáng)化學(xué)習(xí)移動機(jī)器人的導(dǎo)航方法及裝置。
背景技術(shù)
近些年,移動機(jī)器人越來越多的應(yīng)用于各個領(lǐng)域,作為機(jī)器人的核心功能,移動機(jī)器人的導(dǎo)航是人們重點(diǎn)研究的方向。面對機(jī)器人在復(fù)雜的動態(tài)環(huán)境中,如何快速有效的導(dǎo)航并且能與環(huán)境無碰撞是一個急需解決的問題。當(dāng)前移動機(jī)器人可以在靜態(tài)環(huán)境中高效的解決導(dǎo)航避障問題,然而面對現(xiàn)實(shí)的人類生活環(huán)境,需要機(jī)器人在執(zhí)行導(dǎo)航任務(wù)時,根據(jù)瞬息變化的環(huán)境,做出有效的決策,傳統(tǒng)的導(dǎo)航算法并不能解決此問題,隨著人工智能技術(shù)的飛速發(fā)展,將其應(yīng)用到機(jī)器人導(dǎo)航的過程中,已經(jīng)是不約而同的做法,對移動機(jī)器人導(dǎo)航發(fā)展具有重大意義。
發(fā)明內(nèi)容
本發(fā)明為了解決現(xiàn)有技術(shù)中的問題,提出了一種密集行人環(huán)境下強(qiáng)化學(xué)習(xí)移動機(jī)器人的導(dǎo)航方法,該方法基于空間-時間圖注意力神經(jīng)網(wǎng)絡(luò),該方法能夠在密集行人環(huán)境下快速做出避障決策,拓展了移動機(jī)器人的應(yīng)用場景。
為了達(dá)到上述目的,本發(fā)明的實(shí)施例提供了一種密集行人環(huán)境下強(qiáng)化學(xué)習(xí)移動機(jī)器人的導(dǎo)航方法,包括以下步驟:
S101:采用JRMOT技術(shù)對行人軌跡進(jìn)行實(shí)時追蹤,所述JRMOT技術(shù)在多目標(biāo)跟蹤MOT的基礎(chǔ)上,引入3D檢測;
S102:基于獲取到的行人軌跡信息,采用空間-時間圖注意力模型對行人軌跡進(jìn)行預(yù)測;
S103:基于行人的歷史軌跡和預(yù)測軌跡,采用蒙特卡洛樹搜索方法和價(jià)值估計(jì)網(wǎng)絡(luò)進(jìn)行決策,獲得機(jī)器人的導(dǎo)航方案。
進(jìn)一步地,所述JRMOT技術(shù)包括輸入、檢測、追蹤三個部分;
在輸入部分,包括2DRGB圖像和3D點(diǎn)云信息;對于2D檢測器,其輸入周圍環(huán)境2DRGB圖像,采用圖像分割Mask R-CNN或目標(biāo)檢測器YOLO架構(gòu)作為2D檢測器輸出一個參數(shù)集合對于3D檢測器,其采集周圍環(huán)境的3D點(diǎn)云信息,然后采用F-PointNet算法對其進(jìn)行檢測和特征提取得到對于提取到的和進(jìn)行特征耦合,使二者經(jīng)過一個三層的全連接神經(jīng)網(wǎng)絡(luò),輸出一個新的融合特征;在追蹤軌跡時,對t-1時刻和t時刻的軌跡關(guān)聯(lián)起來。
進(jìn)一步地,采用卡爾曼濾波器對追蹤軌跡的輸出進(jìn)行濾波,以此來估計(jì)一條平滑的3D軌跡,以此來輸出每一個追蹤對象的軌跡。
進(jìn)一步地,采用空間-時間圖注意力STGAT模型進(jìn)行行人軌跡預(yù)測,具體包括:
采用LSTM捕捉每個行人的歷史運(yùn)動狀態(tài),并且用M-LSTM和G-LSTM來表示對行人的運(yùn)動狀態(tài)進(jìn)行編碼過程;在采用M-LSTM和G-LSTM方法對兩個步道的軌跡編碼后,將這二者進(jìn)行結(jié)合,以此實(shí)現(xiàn)空間-時間信息融合;采用GNNs和GAT方法對每個時刻即每一層的行人軌跡進(jìn)行處理;使用D-LSTM作為解碼器;對模型訓(xùn)練后,機(jī)器人可以預(yù)測出行人的未來軌跡。
進(jìn)一步地,采用蒙特卡洛樹搜索方法和價(jià)值估計(jì)網(wǎng)絡(luò)決策,具體為:使用狀態(tài)價(jià)值預(yù)測網(wǎng)絡(luò)對推演的狀態(tài)進(jìn)行價(jià)值估計(jì),根據(jù)每個狀態(tài)的價(jià)值,不斷地優(yōu)化出最優(yōu)策略,機(jī)器人根據(jù)以此策略選擇執(zhí)行的動作。
本發(fā)明實(shí)施例還提供了一種密集行人環(huán)境下強(qiáng)化學(xué)習(xí)移動機(jī)器人的導(dǎo)航裝置,包括以下模塊:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué)(深圳),未經(jīng)哈爾濱工業(yè)大學(xué)(深圳)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110353618.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)





