[發明專利]多智能體局部交互路徑規劃方法、裝置、設備及存儲介質有效
| 申請號: | 202110946674.0 | 申請日: | 2021-08-17 |
| 公開(公告)號: | CN113759902B | 公開(公告)日: | 2023-10-27 |
| 發明(設計)人: | 田莎莎;汪紅;帖軍;王江晴;鄭祿;張瀟;徐科;謝勇 | 申請(專利權)人: | 中南民族大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 郝懷慶 |
| 地址: | 430074 湖北省武漢*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 智能 局部 交互 路徑 規劃 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種多智能體局部交互路徑規劃方法、裝置、設備及存儲介質,該方法包括獲取目標區域內各智能體的當前位置和目標位置;根據各智能體的當前位置和目標位置通過各智能體對應的基于局部交互式多智能體四階梯經驗池的DDPG模型確定各智能體的規劃路線;根據各智能體的路徑規劃路線控制對應的智能體移動至目標位置。由于本發明是通過各智能體的當前位置和目標位置通過各智能體對應的基于局部交互式多智能體四階梯經驗池的DDPG模型確定各智能體的規劃路線,根據規劃路線控制對應的智能體移動到目標位置,解決了現有技術中單個智能體輸入數據維度過大而無法完成多智能體實時路徑規劃的技術問題,提高了多智能體實時路徑規劃的效率。
技術領域
本發明涉及機器控制技術領域,尤其涉及一種多智能體局部交互路徑規劃方法、裝置、設備及存儲介質。
背景技術
目前,智能體的實時路徑規劃越來越趨向于自動控制,在現有的多智能體實時路徑規劃技術中,為了保證每個智能體在移動過程中不發生碰撞,環境中任意一個智能體都需要接收其他所有智能體的數據作為輸入數據,造成每個智能體輸入數據的維度過大,從而造成無法完成多智能體實時路徑規劃。
上述內容僅用于輔助理解本發明的技術方案,并不代表承認上述內容是現有技術。
發明內容
本發明的主要目的在于提供了一種多智能體局部交互路徑規劃方法、裝置、設備及存儲介質,旨在解決現有技術單個智能體輸入數據維度過大而無法完成多智能體實時路徑規劃的技術問題。
為實現上述目的,本發明提供了一種多智能體局部交互路徑規劃方法,所述方法包括以下步驟:
獲取目標區域內各智能體的當前位置和目標位置;
根據各智能體的當前位置和目標位置通過各智能體對應的基于局部交互式多智能體四階梯經驗池的DDPG模型確定各智能體的規劃路線;
根據各智能體的路徑規劃路線控制對應的智能體移動至所述目標位置。
可選地,所述獲取目標區域內各智能體的當前位置和目標位置的步驟之前,所述方法還包括:
根據當前動作策略和預設探索噪聲通過各智能體對應的初始基于局部交互式多智能體四階梯經驗池的DDPG模型控制設定區域內的各智能體移動;
實時獲取各智能體移動過程中的經驗信息,并將所述經驗信息添加至對應的經驗緩沖池;
根據四階梯采樣機制實時控制各智能體從對應的經驗緩沖池中采集訓練經驗信息;
根據所述訓練經驗信息訓練對應的初始基于局部交互式多智能體四階梯經驗池的DDPG模型,并在滿足預設條件時,獲得各智能體對應的基于局部交互式多智能體四階梯經驗池的DDPG模型。
可選地,所述經驗緩沖池包括靜態優秀軌跡經驗緩沖池、碰撞軌跡經驗緩沖池、動態優秀軌跡經驗緩沖池和實時軌跡經驗緩沖池;
所述根據四階梯采樣機制實時控制各智能體從對應的經驗緩沖池中采集訓練經驗信息,包括:
獲取各智能體移動過程中預設次數的平均獎勵,并根據所述平均獎勵確定各智能體的訓練階段判斷指標;
根據前后步進關系獎勵機制確定各智能體在移動過程中獲得的當前獎勵;
根據所述各智能體的訓練階段判斷指標、所述當前獎勵和預設指標閾值判斷各智能體處于的訓練階段,并根據所述訓練階段確定對應智能體在各經驗緩沖池的采樣比例;
根據所述各智能體在各經驗緩沖池的采樣比例從各智能體對應的靜態優秀軌跡經驗緩沖池、碰撞軌跡經驗緩沖池、動態優秀軌跡經驗緩沖池和實時軌跡經驗緩沖池中采集訓練經驗信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南民族大學,未經中南民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110946674.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:業務數據查詢方法、裝置和電子設備
- 下一篇:一種電子產品用線束定長截斷去皮機





