[發(fā)明專(zhuān)利]動(dòng)態(tài)環(huán)境下基于層級(jí)關(guān)系圖學(xué)習(xí)的多機(jī)器人協(xié)同導(dǎo)航方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110500608.0 | 申請(qǐng)日: | 2021-05-08 |
| 公開(kāi)(公告)號(hào): | CN113296502B | 公開(kāi)(公告)日: | 2022-11-01 |
| 發(fā)明(設(shè)計(jì))人: | 王廷;杜梟 | 申請(qǐng)(專(zhuān)利權(quán))人: | 華東師范大學(xué) |
| 主分類(lèi)號(hào): | G05D1/02 | 分類(lèi)號(hào): | G05D1/02 |
| 代理公司: | 上海藍(lán)迪專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 動(dòng)態(tài) 環(huán)境 基于 層級(jí) 關(guān)系 學(xué)習(xí) 機(jī)器人 協(xié)同 導(dǎo)航 方法 | ||
本發(fā)明公開(kāi)了一種動(dòng)態(tài)環(huán)境下基于層級(jí)關(guān)系圖學(xué)習(xí)的多機(jī)器人協(xié)同導(dǎo)航方法,該方法包括:首先,建模機(jī)器人和障礙物環(huán)境為有向圖模型,通過(guò)用層級(jí)圖網(wǎng)絡(luò)獲得包含機(jī)器人對(duì)自己狀態(tài)和其觀察到的環(huán)境的狀態(tài)編碼向量;在此基礎(chǔ)上利用圖注意力網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器人選擇性的與鄰居機(jī)器人進(jìn)行交流,經(jīng)過(guò)多輪的交流,使機(jī)器人獲得對(duì)環(huán)境全局認(rèn)知的狀態(tài)編碼向量;最后,利用提出的一種基于最大熵強(qiáng)化學(xué)習(xí)的近似策略優(yōu)化算法MEPPO進(jìn)行訓(xùn)練,從而獲得共享的機(jī)器人依據(jù)所處狀態(tài)選擇行為的策略。用本發(fā)明的導(dǎo)航方法使機(jī)器人合作導(dǎo)航更高效且安全,同時(shí)具有遷移性,隨著智能體數(shù)目增大,相比其他方法有更好的表現(xiàn),為機(jī)器人協(xié)同導(dǎo)航領(lǐng)域提供了一定的技術(shù)支持。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器人導(dǎo)航領(lǐng)域,用于具有動(dòng)態(tài)障礙物的環(huán)境中的多個(gè)機(jī)器人的合作導(dǎo)航。
背景技術(shù)
多機(jī)器人協(xié)同導(dǎo)航在處理復(fù)雜任務(wù)方面有著廣闊的應(yīng)用前景,越來(lái)越受到工業(yè)界和學(xué)術(shù)界的關(guān)注,如自主倉(cāng)儲(chǔ)物流、救援、探險(xiǎn)、協(xié)同操縱等[1]。多機(jī)器人協(xié)同導(dǎo)航問(wèn)題的目標(biāo)是在具有一定動(dòng)態(tài)障礙物復(fù)雜度的環(huán)境下,找尋能夠保證多機(jī)器人在盡可能少的時(shí)間內(nèi)共同到達(dá)所有目標(biāo)的最優(yōu)路徑。
之前已經(jīng)有許多方法被提出來(lái)解決多機(jī)器人導(dǎo)航,例如基于規(guī)劃的同步定位和建圖方法(SLAM)[2]、基于速度選擇的速度障礙方法(VO)[3]。然而,所有這些工作都是基于一些難以實(shí)現(xiàn)的假設(shè),如路徑規(guī)劃的環(huán)境先驗(yàn)全局可知。此外,隨著機(jī)器人數(shù)量的增加,環(huán)境的非平穩(wěn)性、機(jī)器人行為和狀態(tài)空間急劇增長(zhǎng)以及多智能體的信用分配等問(wèn)題都對(duì)機(jī)器人導(dǎo)航提出了嚴(yán)峻的挑戰(zhàn)。
近年來(lái),強(qiáng)化學(xué)習(xí)(RL)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過(guò)與環(huán)境的相互作用,在學(xué)習(xí)一種使期望的長(zhǎng)期回報(bào)最大化的策略方面取得了優(yōu)異的效果。在問(wèn)題模型方面,一些研究需要從單個(gè)機(jī)器人的原始傳感器測(cè)量值中學(xué)習(xí)一個(gè)對(duì)預(yù)先分配的不變目標(biāo)的導(dǎo)航策略,或者只對(duì)單個(gè)機(jī)器人學(xué)習(xí)一個(gè)導(dǎo)航策略[4]。但是,它們無(wú)法優(yōu)化分配目標(biāo)位置。而且,機(jī)器人在導(dǎo)航過(guò)程中只把其他機(jī)器人視為環(huán)境的一部分。一些研究使機(jī)器人能夠在導(dǎo)航過(guò)程中合作動(dòng)態(tài)選擇目標(biāo)[5],但只能在無(wú)障礙環(huán)境中進(jìn)行。
雖然當(dāng)前業(yè)界已經(jīng)提出了許多優(yōu)秀的算法來(lái)解決多機(jī)器人合作導(dǎo)航,但是這些方法仍然存在一些未解決的問(wèn)題。首先,在建立具有異構(gòu)智能體(移動(dòng)障礙物和機(jī)器人)之間的關(guān)系模型時(shí),障礙物對(duì)機(jī)器人導(dǎo)航的影響通常是通過(guò)簡(jiǎn)單的機(jī)器人和障礙物的成對(duì)關(guān)系來(lái)建模的,這不能完全表征障礙物與障礙物和機(jī)器人與障礙物之間的潛在交互作用。其次,由于任務(wù)的高度復(fù)雜性和潛在的不穩(wěn)定性(可伸縮性問(wèn)題),隨著機(jī)器人和障礙物數(shù)量的增加,這些方法的性能急劇下降,導(dǎo)致模型的可遷移性比較差。
[1]Rachael N Darmanin and Marvin K Bugeja.A review on multi-robotsystems categorised by application domain.In 2017 25th mediterraneanconference on control and automation(MED),pages 701–706.IEEE,2017.
[2]Hugh Durrant-Whyte and Tim Bailey.Simultaneous localization andmapping:part i.IEEE roboticsautomation magazine,13(2):99–110,2006.
[3]Jur Van Den Berg,Stephen J Guy,Ming Lin,and DineshManocha.Reciprocal n-body collision avoidance.In Robotics research,pages 3–19.Springer,2011.
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華東師范大學(xué),未經(jīng)華東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110500608.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 動(dòng)態(tài)矢量譯碼方法和動(dòng)態(tài)矢量譯碼裝置
- 動(dòng)態(tài)口令的顯示方法及動(dòng)態(tài)令牌
- 動(dòng)態(tài)庫(kù)管理方法和裝置
- 動(dòng)態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動(dòng)態(tài)口令生成方法、動(dòng)態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動(dòng)態(tài)模糊控制系統(tǒng)
- 一種基于動(dòng)態(tài)信號(hào)的POS機(jī)和安全保護(hù)方法
- 圖像動(dòng)態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動(dòng)態(tài)聚合碼的系統(tǒng)
- 基于動(dòng)態(tài)口令的身份認(rèn)證方法、裝置和動(dòng)態(tài)令牌
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)終端和環(huán)境檢測(cè)系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車(chē)輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動(dòng)力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測(cè)儀(環(huán)境貓)
- 內(nèi)容檢索裝置及內(nèi)容檢索方法
- 訪問(wèn)控制裝置和訪問(wèn)控制方法
- 一種基于安卓平臺(tái)的多級(jí)樹(shù)形菜單的實(shí)現(xiàn)方法
- 一種視圖層級(jí)優(yōu)化的方法及裝置
- 一種數(shù)據(jù)處理方法及系統(tǒng)
- 車(chē)用微控制器及其信號(hào)控制方法
- 車(chē)用微控制器
- 應(yīng)用程序的用戶界面UI信息處理方法、裝置及電子設(shè)備
- 評(píng)估指標(biāo)處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)存儲(chǔ)管理方法和裝置以及卷積計(jì)算硬件加速器





