[發(fā)明專利]一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法有效

申請?zhí)枺?/td>	202010544064.3	申請日：	2020-06-15
公開（公告）號：	CN111830971B	公開（公告）日：	2021-09-07
發(fā)明（設(shè)計(jì)）人：	林俊潼;成慧	申請（專利權(quán)）人：	中山大學(xué)
主分類號：	G05D1/02	分類號：	G05D1/02
代理公司：	廣州粵高專利商標(biāo)代理有限公司 44102	代理人：	王曉玲
地址：	510275 廣東***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種用于稀疏獎勵信號學(xué)習(xí) 機(jī)器人編隊(duì) 導(dǎo)航策略課程學(xué)習(xí)方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明屬于機(jī)器人中的多移動機(jī)器人技術(shù)領(lǐng)域，更具體地，涉及一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法。當(dāng)獎勵信號稀疏時，基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法難以通過試錯的方式學(xué)習(xí)出有效的導(dǎo)航策略。為了讓多機(jī)器人編隊(duì)在獎勵信號稀疏的情況下依然能夠?qū)W習(xí)出導(dǎo)航策略，本發(fā)明提出了一種基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí)方法；該方法首先依據(jù)起始點(diǎn)到目標(biāo)點(diǎn)的距離對場景進(jìn)行分類，然后基于多機(jī)器人編隊(duì)在不同類型場景中的相對表現(xiàn)和絕對表現(xiàn)來安排接下來要進(jìn)行交互的場景類型。通過本發(fā)明所提出的課程學(xué)習(xí)方法，多機(jī)器人編隊(duì)能夠在獎勵信號稀疏的情況下學(xué)習(xí)出有效的導(dǎo)航策略。

技術(shù)領(lǐng)域

本發(fā)明屬于機(jī)器人中的多移動機(jī)器人技術(shù)領(lǐng)域，更具體地，涉及一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法。

背景技術(shù)

多機(jī)器人編隊(duì)具有廣泛的應(yīng)用前景，比如說大規(guī)模搜救、測繪、農(nóng)業(yè)植保等。當(dāng)多機(jī)器人編隊(duì)進(jìn)行作業(yè)時，需要依賴多機(jī)器人編隊(duì)導(dǎo)航來完成多機(jī)器人編隊(duì)的運(yùn)動。

專利CN2019103948935，公開了一種基于深度強(qiáng)化學(xué)習(xí)的端到端分布式多機(jī)器人編隊(duì)導(dǎo)航方法，基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法能夠通過試錯的方式求解出優(yōu)秀的導(dǎo)航策略，具有所需人工干預(yù)較少的特性。除此以外，所求解出的導(dǎo)航策略是端到端的導(dǎo)航策略，能夠直接將原始感知信息映射到機(jī)器人的控制指令，而無須構(gòu)建障礙物地圖，因此具有較低的計(jì)算復(fù)雜度。然而，基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法依賴于稠密的獎勵信號，也就是說要求環(huán)境對于機(jī)器人編隊(duì)的每一個行為都有即時的反饋。但稠密的獎勵信號往往需要利用專家知識進(jìn)行獎勵信號工程才能得到，是一個費(fèi)時費(fèi)力的工作。相比于稠密的獎勵信號，稀疏的獎勵信號具有所需專家知識較少的優(yōu)勢，可以比較容易地得到。然而，在稀疏獎勵信號下，多機(jī)器人編隊(duì)難以通過一般的基于深度強(qiáng)化學(xué)習(xí)的方法學(xué)習(xí)出有效的導(dǎo)航策略。

發(fā)明內(nèi)容

本發(fā)明為克服上述現(xiàn)有技術(shù)中的缺陷，提供一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法，提出了一種基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí)方法；通過使用該方法，多機(jī)器人編隊(duì)能夠在稀疏獎勵信號下學(xué)習(xí)出有效的導(dǎo)航策略。

為解決上述技術(shù)問題，本發(fā)明采用的技術(shù)方案是：一種用于在稀疏獎勵信號下學(xué)習(xí)多機(jī)器人編隊(duì)導(dǎo)航策略的課程學(xué)習(xí)方法，其中，使用基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí)來讓多機(jī)器人編隊(duì)在稀疏獎勵信號的情況下仍然能夠?qū)W習(xí)出有效的導(dǎo)航策略；所述的基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí)，即隨著訓(xùn)練的進(jìn)行，逐漸從基于相對表現(xiàn)的課程學(xué)習(xí)轉(zhuǎn)換為基于絕對表現(xiàn)的課程學(xué)習(xí)，通過這種方式，在訓(xùn)練的前期通過基于相對表現(xiàn)的課程學(xué)習(xí)快速掌握基本的導(dǎo)航策略，在訓(xùn)練的后期通過基于絕對表現(xiàn)的課程學(xué)習(xí)來攻克復(fù)雜的導(dǎo)航策略。

當(dāng)獎勵信號稀疏時，基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法難以通過試錯的方式學(xué)習(xí)出有效的導(dǎo)航策略。為了讓多機(jī)器人編隊(duì)在獎勵信號稀疏的情況下依然能夠?qū)W習(xí)出導(dǎo)航策略，本發(fā)明提出了一種基于融合相對表現(xiàn)和絕對表現(xiàn)的課程學(xué)習(xí)方法；該方法首先依據(jù)起始點(diǎn)到目標(biāo)點(diǎn)的距離對場景進(jìn)行分類，然后基于多機(jī)器人編隊(duì)在不同類型場景中的相對表現(xiàn)和絕對表現(xiàn)來安排接下來要進(jìn)行交互的場景類型。通過本發(fā)明所提出的課程學(xué)習(xí)方法，多機(jī)器人編隊(duì)能夠在獎勵信號稀疏的情況下學(xué)習(xí)出有效的導(dǎo)航策略。本發(fā)明相比于一般的基于深度強(qiáng)化學(xué)習(xí)的多機(jī)器人編隊(duì)導(dǎo)航方法，本發(fā)明在訓(xùn)練的過程中不僅會對多機(jī)器人編隊(duì)的導(dǎo)航策略進(jìn)行更新，而且會對環(huán)境端進(jìn)行調(diào)整，通過課程更新來讓環(huán)境端選擇適合多機(jī)器人編隊(duì)進(jìn)行交互的場景。

進(jìn)一步的，所述的課程學(xué)習(xí)包括課程設(shè)計(jì)和課程安排，所述的課程設(shè)計(jì)是對不同場景進(jìn)行劃分以此得到不同的課程，所述的課程安排是根據(jù)機(jī)器人編隊(duì)的表現(xiàn)來安排接下來機(jī)器人編隊(duì)進(jìn)行交互的場景。

進(jìn)一步的，所述的課程設(shè)計(jì)，根據(jù)機(jī)器人編隊(duì)起始點(diǎn)到目標(biāo)點(diǎn)的距離對不同場景進(jìn)行分類，并且通過離散化和均勻采樣相結(jié)合的方法來處理距離這一連續(xù)變量。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué)，未經(jīng)中山大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010544064.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種管理線索信息的方法、存儲介質(zhì)和電子裝置
下一篇：用于無人機(jī)的防暴彈投彈機(jī)構(gòu)及投彈裝置

同類專利

專利分類

G 物理

G05 控制；調(diào)節(jié)
G05D 非電變量的控制或調(diào)節(jié)系統(tǒng)
G05D1-00 陸地、水上、空中或太空中的運(yùn)載工具的位置、航道、高度或姿態(tài)的控制，例如自動駕駛儀
G05D1-02 .二維的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿態(tài)的控制，即搖擺、俯仰角或偏航角的控制
G05D1-10 .三維的位置或航道的同時控制
G05D1-12 .尋找目標(biāo)的控制

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】