[發明專利]多移動機器人控制/分派模型獲取方法、裝置、電子設備在審
| 申請號: | 202010675357.5 | 申請日: | 2020-07-14 |
| 公開(公告)號: | CN111897327A | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 戚驍亞;張校志 | 申請(專利權)人: | 季華實驗室 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 佛山市海融科創知識產權代理事務所(普通合伙) 44377 | 代理人: | 陳志超;黃家豪 |
| 地址: | 528200 廣東省佛山市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 移動 機器人 控制 分派 模型 獲取 方法 裝置 電子設備 | ||
本發明提供了一種多移動機器人控制/分派模型獲取方法、裝置、電子設備,通過獲取各移動機器人的初始位置信息和身份識別信息;獲取目標位置信息;獲取多移動機器人分派模型;把初始位置信息、身份識別信息和目標位置信息輸入多移動機器人分派模型中,以獲取指派給各移動機器人的目的地信息和運動路徑信息;把目的地信息和運動路徑信息發送至對應的移動機器人;其中多移動機器人分派模型是基于多智能體強化學習算法的用于為多移動機器人指派目的地和規劃運動路徑的模型;從而能夠快速地完成位置指派以及實時的運動規劃,使多個移動機器人可以同時行動,無碰撞地完成位置指派任務。
技術領域
本發明涉及機器人技術領域,尤其涉及一種多移動機器人控制/分派模型獲取方法、裝置、電子設備。
背景技術
隨著科技的發展和機器人技術相關應用的深入,多移動機器人被應用到越來越多的場景中,場景的復雜多樣性對多移動機器人的控制提出了更高的要求。其中,對多移動機器人的控制,重點在于對多移動機器人的位置指派和運動規劃。
傳統的多移動機器控制方法中,在位置指派時通常是先確定好前后兩個編隊的狀態,然后再采取優化算法分配機器人與終點位置的對應關系,在運動規劃時則采取例如順序指派或者優先指派等方法,讓移動機器人達到分配好的目標位置,以達到避免沖突和碰撞的目的。這種方法的效率較低,無法應對復雜場景。
為此,需要尋求一種多移動機器人控制方法,能夠快速地完成位置指派以及實時的運動規劃,使多個移動機器人可以同時行動,無碰撞地完成位置指派任務。
發明內容
鑒于上述現有技術的不足之處,本申請實施例的目的在于提供一種多移動機器人控制/分派模型獲取方法、裝置、電子設備,能夠快速地完成位置指派以及實時的運動規劃,使多個移動機器人可以同時行動,無碰撞地完成位置指派任務。
第一方面,本申請實施例提供一種多移動機器人分派模型獲取方法,包括步驟:
A1.根據多個移動機器人的初始位置信息、碰撞半徑和優先等級信息、應用場景的障礙物中心位置信息和碰撞半徑信息、以及目標位置信息,建立多智能體強化學習算法模擬場景;在所述模擬場景中以每一個移動機器人作為一個智能體,并設定了每個智能體的可移動方向;
A2.基于多智能體深度確定性策略梯度算法對每個智能體設置一個Actor網絡和Critic網絡;
A3.根據預設的獎懲機制對所述Actor網絡和Critic網絡進行重復訓練,以所有智能體的總獎勵最大作為目標 ,直至各個智能體都已到達目標位置,且所有智能體獲得的平均獎勵不再提升;
所述預設的獎懲機制為:以智能體與最接近的目標位置之間的距離為基礎獎勵,所述智能體發生碰撞時增加一個第一負值,在到達目標位置之前每多執行一次探索則增加一個第二負值。
所述的多移動機器人分派模型獲取方法中,步驟A3中,以移動機器人的優先等級信息作為對應智能體的權重值;以所有智能體獲取的獎勵值的加權重和作為所述總獎勵;且所述平均獎勵用以下公式計算:
其中,為平均獎勵,為第i個智能體的獎勵值,為第i個智能體的權重值。
第二方面,本申請實施例提供一種多移動機器人控制方法,包括步驟:
S1.獲取各移動機器人的初始位置信息和身份識別信息;
S2.獲取目標位置信息;
S3.獲取多移動機器人分派模型;所述多移動機器人分派模型通過所述的多移動機器人分派模型獲取方法得到;
S4.把所述初始位置信息、身份識別信息和目標位置信息輸入所述多移動機器人分派模型中,以獲取指派給各移動機器人的目的地信息和運動路徑信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于季華實驗室,未經季華實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010675357.5/2.html,轉載請聲明來源鉆瓜專利網。





