[發(fā)明專利]一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法有效
| 申請?zhí)枺?/td> | 202010544064.3 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111830971B | 公開(公告)日: | 2021-09-07 |
| 發(fā)明(設(shè)計(jì))人: | 林俊潼;成慧 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 王曉玲 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 稀疏 獎勵 信號 學(xué)習(xí) 機(jī)器人 編隊(duì) 導(dǎo)航 策略 課程 學(xué)習(xí)方法 | ||
本發(fā)明屬于機(jī)器人中的多移動機(jī)器人技術(shù)領(lǐng)域,更具體地,涉及一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法。當(dāng)獎勵信號稀疏時,基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法難以通過試錯的方式學(xué)習(xí)出有效的導(dǎo)航策略。為了讓多機(jī)器人編隊(duì)在獎勵信號稀疏的情況下依然能夠?qū)W習(xí)出導(dǎo)航策略,本發(fā)明提出了一種基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí)方法;該方法首先依據(jù)起始點(diǎn)到目標(biāo)點(diǎn)的距離對場景進(jìn)行分類,然后基于多機(jī)器人編隊(duì)在不同類型場景中的相對表現(xiàn)和絕對表現(xiàn)來安排接下來要進(jìn)行交互的場景類型。通過本發(fā)明所提出的課程學(xué)習(xí)方法,多機(jī)器人編隊(duì)能夠在獎勵信號稀疏的情況下學(xué)習(xí)出有效的導(dǎo)航策略。
技術(shù)領(lǐng)域
本發(fā)明屬于機(jī)器人中的多移動機(jī)器人技術(shù)領(lǐng)域,更具體地,涉及一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法。
背景技術(shù)
多機(jī)器人編隊(duì)具有廣泛的應(yīng)用前景,比如說大規(guī)模搜救、測繪、農(nóng)業(yè)植保等。當(dāng)多機(jī)器人編隊(duì)進(jìn)行作業(yè)時,需要依賴多機(jī)器人編隊(duì)導(dǎo)航來完成多機(jī)器人編隊(duì)的運(yùn)動。
專利CN2019103948935,公開了一種基于深度強(qiáng)化學(xué)習(xí)的端到端分布式多機(jī)器人編隊(duì)導(dǎo)航方法,基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法能夠通過試錯的方式求解出優(yōu)秀的導(dǎo)航策略,具有所需人工干預(yù)較少的特性。除此以外,所求解出的導(dǎo)航策略是端到端的導(dǎo)航策略,能夠直接將原始感知信息映射到機(jī)器人的控制指令,而無須構(gòu)建障礙物地圖,因此具有較低的計(jì)算復(fù)雜度。然而,基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法依賴于稠密的獎勵信號,也就是說要求環(huán)境對于機(jī)器人編隊(duì)的每一個行為都有即時的反饋。但稠密的獎勵信號往往需要利用專家知識進(jìn)行獎勵信號工程才能得到,是一個費(fèi)時費(fèi)力的工作。相比于稠密的獎勵信號,稀疏的獎勵信號具有所需專家知識較少的優(yōu)勢,可以比較容易地得到。然而,在稀疏獎勵信號下,多機(jī)器人編隊(duì)難以通過一般的基于深度強(qiáng)化學(xué)習(xí)的方法學(xué)習(xí)出有效的導(dǎo)航策略。
發(fā)明內(nèi)容
本發(fā)明為克服上述現(xiàn)有技術(shù)中的缺陷,提供一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法,提出了一種基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí)方法;通過使用該方法,多機(jī)器人編隊(duì)能夠在稀疏獎勵信號下學(xué)習(xí)出有效的導(dǎo)航策略。
為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是:一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法,其中,使用基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí)來讓多機(jī)器人編隊(duì)在稀疏獎勵信號的情況下仍然能夠?qū)W習(xí)出有效的導(dǎo)航策略;所述的基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí),即隨著訓(xùn)練的進(jìn)行,逐漸從基于相對表現(xiàn)的課程學(xué)習(xí)轉(zhuǎn)換為基于絕對表現(xiàn)的課程學(xué)習(xí),通過這種方式,在訓(xùn)練的前期通過基于相對表現(xiàn)的課程學(xué)習(xí)快速掌握基本的導(dǎo)航策略,在訓(xùn)練的后期通過基于絕對表現(xiàn)的課程學(xué)習(xí)來攻克復(fù)雜的導(dǎo)航策略。
當(dāng)獎勵信號稀疏時,基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法難以通過試錯的方式學(xué)習(xí)出有效的導(dǎo)航策略。為了讓多機(jī)器人編隊(duì)在獎勵信號稀疏的情況下依然能夠?qū)W習(xí)出導(dǎo)航策略,本發(fā)明提出了一種基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí)方法;該方法首先依據(jù)起始點(diǎn)到目標(biāo)點(diǎn)的距離對場景進(jìn)行分類,然后基于多機(jī)器人編隊(duì)在不同類型場景中的相對表現(xiàn)和絕對表現(xiàn)來安排接下來要進(jìn)行交互的場景類型。通過本發(fā)明所提出的課程學(xué)習(xí)方法,多機(jī)器人編隊(duì)能夠在獎勵信號稀疏的情況下學(xué)習(xí)出有效的導(dǎo)航策略。本發(fā)明相比于一般的基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法,本發(fā)明在訓(xùn)練的過程中不僅會對多機(jī)器人編隊(duì)的導(dǎo)航策略進(jìn)行更新,而且會對環(huán)境端進(jìn)行調(diào)整,通過課程更新來讓環(huán)境端選擇適合多機(jī)器人編隊(duì)進(jìn)行交互的場景。
進(jìn)一步的,所述的課程學(xué)習(xí)包括課程設(shè)計(jì)和課程安排,所述的課程設(shè)計(jì)是對不同場景進(jìn)行劃分以此得到不同的課程,所述的課程安排是根據(jù)機(jī)器人編隊(duì)的表現(xiàn)來安排接下來機(jī)器人編隊(duì)進(jìn)行交互的場景。
進(jìn)一步的,所述的課程設(shè)計(jì),根據(jù)機(jī)器人編隊(duì)起始點(diǎn)到目標(biāo)點(diǎn)的距離對不同場景進(jìn)行分類,并且通過離散化和均勻采樣相結(jié)合的方法來處理距離這一連續(xù)變量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010544064.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 亮度信號/色信號分離裝置和亮度信號/色信號分離方法
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 雙耳信號的信號生成
- 雙耳信號的信號生成
- 信號處理裝置、信號處理方法、信號處理程序
- USBTYPEC信號轉(zhuǎn)HDMI信號的信號轉(zhuǎn)換線
- 信號盒(信號轉(zhuǎn)換)
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置





