[發(fā)明專(zhuān)利]動(dòng)態(tài)環(huán)境下基于層級(jí)關(guān)系圖學(xué)習(xí)的多機(jī)器人協(xié)同導(dǎo)航方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110500608.0 | 申請(qǐng)日: | 2021-05-08 |
| 公開(kāi)(公告)號(hào): | CN113296502B | 公開(kāi)(公告)日: | 2022-11-01 |
| 發(fā)明(設(shè)計(jì))人: | 王廷;杜梟 | 申請(qǐng)(專(zhuān)利權(quán))人: | 華東師范大學(xué) |
| 主分類(lèi)號(hào): | G05D1/02 | 分類(lèi)號(hào): | G05D1/02 |
| 代理公司: | 上海藍(lán)迪專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 動(dòng)態(tài) 環(huán)境 基于 層級(jí) 關(guān)系 學(xué)習(xí) 機(jī)器人 協(xié)同 導(dǎo)航 方法 | ||
1.一種動(dòng)態(tài)環(huán)境下基于層級(jí)關(guān)系圖學(xué)習(xí)的多機(jī)器人協(xié)同導(dǎo)航方法,其特征在于,該方法包括以下具體步驟:
步驟1:建模機(jī)器人和障礙物環(huán)境為有向圖模型,利用先驗(yàn)知識(shí)對(duì)觀察到的智能體進(jìn)行聚類(lèi),將智能體聚類(lèi)成機(jī)器人組、動(dòng)態(tài)障礙物組和靜態(tài)障礙物組;
步驟2:依據(jù)有向圖模型和智能體組別,對(duì)于每個(gè)機(jī)器人,根據(jù)其觀察到的局部環(huán)境中智能體的狀態(tài),把屬于三個(gè)不同智能體組的智能體分別聚合為一個(gè)子組,對(duì)每個(gè)子組利用相似函數(shù)和圖卷積神經(jīng)網(wǎng)絡(luò)推斷機(jī)器人與這個(gè)子組中的智能體之間的關(guān)系;從而,每個(gè)機(jī)器人得到三個(gè)蘊(yùn)含其與觀察到的智能體關(guān)系的節(jié)點(diǎn)狀態(tài)嵌入向量;
步驟3:對(duì)于每個(gè)機(jī)器人,依據(jù)獲得的三個(gè)節(jié)點(diǎn)狀態(tài)嵌入向量,利用圖注意神經(jīng)網(wǎng)絡(luò)GAT提取出其與其觀測(cè)到的三個(gè)智能體子組間的權(quán)重關(guān)系,然后,依據(jù)權(quán)重關(guān)系,把三個(gè)節(jié)點(diǎn)狀態(tài)嵌入向量聚合成對(duì)局部環(huán)境理解的狀態(tài)編碼向量;
步驟4:對(duì)于每個(gè)機(jī)器人,依據(jù)獲得的對(duì)局部環(huán)境理解的狀態(tài)向量,通過(guò)圖注意力神經(jīng)網(wǎng)絡(luò)獲得其與鄰近的機(jī)器人之間的交流權(quán)重,然后,經(jīng)過(guò)多輪交流使其獲得一個(gè)全局狀態(tài)編碼向量;
步驟5:依據(jù)得到的機(jī)器人的全局狀態(tài)編碼向量,結(jié)合設(shè)計(jì)的回報(bào)函數(shù)和提出的基于最大熵強(qiáng)化學(xué)習(xí)的近似策略優(yōu)化算法MEPPO進(jìn)行訓(xùn)練,從而獲得機(jī)器人依據(jù)所處狀態(tài)選擇最優(yōu)行為的策略;其中:
所述結(jié)合設(shè)計(jì)的回報(bào)函數(shù)和提出的基于最大熵強(qiáng)化學(xué)習(xí)的近似策略優(yōu)化算法MEPPO進(jìn)行訓(xùn)練,具體為:對(duì)于機(jī)器人i(i∈(1...N)),設(shè)計(jì)的回報(bào)函數(shù)Ri=Re,i+Rc,i,其中Re,i是機(jī)器人i動(dòng)作的回報(bào),Rc,i是機(jī)器人i與環(huán)境中其他智能體之間碰撞的懲罰;Re,i表示為:
其中,tlimit是到達(dá)目的地的最短時(shí)間,α∈(0,1)和β∈(0,1)是溫度系數(shù),pi表示機(jī)器人i當(dāng)前所處的位置,pg表示機(jī)器人i的目的地;公式(1)表示的回報(bào)將隨著時(shí)間單調(diào)衰減,以保證機(jī)器人將被鼓勵(lì)盡快達(dá)到目標(biāo);是所有機(jī)器人在時(shí)間t離目標(biāo)的總距離的平均值;公式(2)根據(jù)相鄰兩個(gè)時(shí)間步機(jī)器人到目的地的距離,分別給予機(jī)器人一個(gè)正向或負(fù)向的回報(bào)獎(jiǎng)勵(lì);另外,Rc,i定義為:
其中,drr和dro分別表示機(jī)器人與其他機(jī)器人和障礙物之間的距離,rr和ro分別是機(jī)器人的半徑和障礙物的半徑,dmin表示機(jī)器人當(dāng)前與其他機(jī)器人和障礙物之間的最小距離,η∈(0,1)是溫度系數(shù),ddisc是智能體之間的最小不適距離,當(dāng)智能體之間小于這個(gè)距離,就給與一定的懲罰,以防止碰撞;
近似策略優(yōu)化算法MEPPO具體描述如下:首先,在最大熵強(qiáng)化學(xué)習(xí)框架中,回報(bào)是由公式r=rex+rin得到,其中,rex是環(huán)境給予的獎(jiǎng)勵(lì),rin是根據(jù)策略熵所得獎(jiǎng)勵(lì);t時(shí)間步最小化的價(jià)值損失如下:
其中,Vψ(st)是通過(guò)神經(jīng)網(wǎng)絡(luò)估計(jì)的得到的價(jià)值,ψ是可學(xué)習(xí)參數(shù),St表示t時(shí)間的狀態(tài),Rt是通過(guò)在環(huán)境中采樣而求得的折扣回報(bào),Vttarg是目標(biāo)價(jià)值,其值等于Rt;
優(yōu)勢(shì)函數(shù)值如下:
其中,δt=rt+γVψ(st+1)-Vψ(st),r=rex+rin=rex+αH(π(.|st)),rt是t時(shí)間步獲得的真實(shí)回報(bào),γ是折扣因子,α是穩(wěn)定系數(shù),H(π(.|st))是狀態(tài)st時(shí)選擇動(dòng)作空間所有動(dòng)作的熵;
然后,MEPPO算法的策略梯度損失如下:
其中,πθ(at|st)表示當(dāng)策略參數(shù)是θ時(shí),狀態(tài)為st時(shí)下一個(gè)動(dòng)作選擇at的概率;同理,πθ'(at|st)表示當(dāng)策略參數(shù)是θ',狀態(tài)為st時(shí)下一個(gè)動(dòng)作選擇at的概率;表示當(dāng)策略為πθ',狀態(tài)為st,選擇動(dòng)作at時(shí)的優(yōu)勢(shì)函數(shù)值;其中,f(ρ,A)=(1+ρ)A if A>0else(1-ρ)A,ρ∈(0,1)是超參數(shù),α∈(0,1)是溫度系數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華東師范大學(xué),未經(jīng)華東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110500608.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 動(dòng)態(tài)矢量譯碼方法和動(dòng)態(tài)矢量譯碼裝置
- 動(dòng)態(tài)口令的顯示方法及動(dòng)態(tài)令牌
- 動(dòng)態(tài)庫(kù)管理方法和裝置
- 動(dòng)態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動(dòng)態(tài)口令生成方法、動(dòng)態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動(dòng)態(tài)模糊控制系統(tǒng)
- 一種基于動(dòng)態(tài)信號(hào)的POS機(jī)和安全保護(hù)方法
- 圖像動(dòng)態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動(dòng)態(tài)聚合碼的系統(tǒng)
- 基于動(dòng)態(tài)口令的身份認(rèn)證方法、裝置和動(dòng)態(tài)令牌
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)終端和環(huán)境檢測(cè)系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車(chē)輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動(dòng)力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)儀(環(huán)境貓)
- 內(nèi)容檢索裝置及內(nèi)容檢索方法
- 訪問(wèn)控制裝置和訪問(wèn)控制方法
- 一種基于安卓平臺(tái)的多級(jí)樹(shù)形菜單的實(shí)現(xiàn)方法
- 一種視圖層級(jí)優(yōu)化的方法及裝置
- 一種數(shù)據(jù)處理方法及系統(tǒng)
- 車(chē)用微控制器及其信號(hào)控制方法
- 車(chē)用微控制器
- 應(yīng)用程序的用戶界面UI信息處理方法、裝置及電子設(shè)備
- 評(píng)估指標(biāo)處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)存儲(chǔ)管理方法和裝置以及卷積計(jì)算硬件加速器





