[發明專利]一種用于在稀疏獎勵信號下學習多機器人編隊導航策略的課程學習方法有效
| 申請號: | 202010544064.3 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111830971B | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 林俊潼;成慧 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 王曉玲 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 稀疏 獎勵 信號 學習 機器人 編隊 導航 策略 課程 學習方法 | ||
1.一種用于在稀疏獎勵信號下學習多機器人編隊導航策略的課程學習方法,其特征在于,使用基于融合相對表現和絕對表現的課程學習來讓多機器人編隊在稀疏獎勵信號的情況下仍然能夠學習出有效的導航策略;所述的基于融合相對表現和絕對表現的課程學習,即隨著訓練的進行,逐漸從基于相對表現的課程學習轉換為基于絕對表現的課程學習,通過這種方式,在訓練的前期通過基于相對表現的課程學習快速掌握基本的導航策略,在訓練的后期通過基于絕對表現的課程學習來攻克復雜的導航策略;其中,所述的相對表現指的是智能體在si場景中表現變化,即新舊策略在該場景中表現之差的絕對值,其數學表達形式為:
usi(θ,θ')=|Bsi(θ)-Bsi(θ')|
式中,θ表示新策略的參數,θ'表示舊策略的參數,Bsi(θ)表示參數為θ的策略在si場景中的表現;si表示第i類場景;
依據機器人編隊在不同類型場景中的相對表現,按以下方式求出基于相對表現下各個場景的采樣概率:
式中,j表示第j類場景;
所述的絕對表現基于智能體在場景中表現的負數,其數學表達式為:
其中,ρ是用于調節比例的參數;
基于絕對表現下各個場景的采樣概率為:
式中,j表示第j類場景;
所述的基于融合相對表現和絕對表現的課程學習,其數學表達形式為:
Pf(i)=(1-ω)Pu(i)+ωPv(i)
式中,ω表示當前訓練進度,即已經完成的學習長度和總學習長度之間的比值。
2.根據權利要求1所述的用于在稀疏獎勵信號下學習多機器人編隊導航策略的課程學習方法,其特征在于,所述的課程學習包括課程設計和課程安排,所述的課程設計是對不同場景進行劃分以此得到不同的課程,所述的課程安排是根據機器人編隊的表現來安排接下來機器人編隊進行交互的場景。
3.根據權利要求2所述的用于在稀疏獎勵信號下學習多機器人編隊導航策略的課程學習方法,其特征在于,所述的課程設計,根據機器人編隊起始點到目標點的距離對不同場景進行分類,并且通過離散化和均勻采樣相結合的方法來處理距離這一連續變量,具體包括:首先根據實際想要的場景種類數量Ns對多機器人編隊初始位置與目標點的距離這一連續變量進行離散化,將其劃分為Ns個等長的區間,每一類場景對應的就是距離落在一個區間中的場景。
4.根據權利要求3所述的用于在稀疏獎勵信號下學習多機器人編隊導航策略的課程學習方法,其特征在于,所述的課程安排依據機器人編隊在不同類型場景中的相對表現和絕對表現進行課程調度。
5.根據權利要求4所述的用于在稀疏獎勵信號下學習多機器人編隊導航策略的課程學習方法,其特征在于,選取累積獎勵作為智能體表現的指標。
6.根據權利要求4所述的用于在稀疏獎勵信號下學習多機器人編隊導航策略的課程學習方法,其特征在于,在訓練過程中,根據機器人編隊在各類場景si中的表現BSi(θ)計算出該類場景的采樣概率Pf(i),并在下一次選擇交互場景時,根據該采樣概率進行采樣確定要進行交互的場景類型,然后使用該類場景進行交互。
7.根據權利要求6所述的用于在稀疏獎勵信號下學習多機器人編隊導航策略的課程學習方法,其特征在于,在使用課程學習的情況下,通過深度強化學習求解出多機器人編隊的導航策略包括以下步驟:
S1.收集數據,具體包括:
S11.環境端計算出各類型場景的采樣概率Pf(i),并根據該采樣概率采樣出當前輪次所用到的場景s;
S12.機器人編隊從場景s中獲取觀察值ot,其中,觀察值ot由各個機器人的局部觀察值拼接而成,各個機器人的局部觀察值包含該機器人對環境的感知信息即二維激光雷達的點云數據,自身的當前速度其余機器人的位置以及目標點的位置
S13.機器人編隊根據當前的導航策略πθ計算出控制指令at,即各個機器人的速度,并執行該控制指令;
S14.根據機器人編隊當前的狀態及其執行的控制指令,環境端反饋給機器人編隊一個獎勵信號rt;
S15.重復步驟S11到步驟S14,直至收集到足夠數據;
S2.基于收集到的交互數據,機器人編隊使用深度強化學習算法,來優化導航策略;
S3.重復步驟S1和步驟S2,直至得到理想的導航策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010544064.3/1.html,轉載請聲明來源鉆瓜專利網。





