[發明專利]一種面向多智能體任務規劃的復雜優化方法在審
| 申請號: | 202210401273.1 | 申請日: | 2022-04-18 |
| 公開(公告)號: | CN114819316A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 江光德;陳豪;李冬雪;何浩東;魏國強;宮樹香;馬靖;杜林峰;劉慶國;伍樊成;魏慶棟;周穎;粱燕 | 申請(專利權)人: | 中國人民解放軍96901部隊 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04 |
| 代理公司: | 中國人民解放軍火箭軍專利服務中心 11040 | 代理人: | 李麗梅 |
| 地址: | 100094 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 智能 任務 規劃 復雜 優化 方法 | ||
1.一種面向多智能體任務規劃的復雜優化方法,其特征在于,所述多智能體任務規劃基于馬爾可夫決策和博弈論理論實現,包括多目標任務分配和多智能體路徑規劃;
所述多目標任務分配采用雙向競標,即由智能體競標目標任務和由目標任務競標智能體的循環競標策略;
記所有智能體的狀態量為全局狀態量,所述多智能體路徑規劃是采用多智能體交互模塊對所述全局狀態量進行降維,降維后的狀態量經動作決策,得到最優動作集合,即最優路徑規劃結果;其中,為第
所述多智能體交互模塊包括依次連接的相關性排序單元和循環交互單元;所述相關性排序單元用于進行相關性排序,所述循環交互單元采用循環遞推結構對所述相關性排序單元輸出的狀態量進行降維,所述循環交互單元的輸出記為,與的拼接記為緊湊全局狀態量;
任意給定輸入和,輸出,所述智能體
(1)
(2)
(3)
其中,為逐元素的乘積,是sigmoid函數,分別為權值方陣,記為循環交互單元參數,
所述多目標任務分配具體步驟包括:
S11:環境建模
以數字化地圖構建所述多智能體任務規劃的環境,描述環境中要素的坐標位置,所述要素至少包括智能體、目標點、障礙物,將智能體和目標點抽象為質點,環境中的障礙物抽象為幾何區域;設智能體個數為
S12:智能體競標目標任務
選擇總價值最大的方案
(4)
其中,
(5)
S13:目標任務競標智能體
選擇總價值最大化的方案
(6)
其中,
(7)
S14:將方案
所述多智能體路徑規劃具體步驟包括:
S21:初始化設置
在
對于智能體
S22:設置從第
S23:計算多智能體交互信息
將多智能體的全局狀態量輸入相關性排序單元進行相關性排序,相關性排序單元的輸出是除智能體
智能體
(8)
式中,的取值范圍為[0.05,0.5];
S24:生成最優動作
基于動作策略生成最優動作為:
(9)
其中,為隨機噪聲,表示參數為時的動作策略;
S25:評估路徑規劃結果
依據最優動作,智能體
S26:獲取多智能體路徑規劃參數優化的數據包
存儲
S27:根據
(10)
其中,表示以當前最優動作策略參數計算的最優動作,表示當前獎勵的期望以最優的評價策略參數計算,,為相鄰兩次多智能體路徑規劃獎勵的權重系數;
S28:智能體
(11)
其中,;
則評判策略參數更新為,動作策略的參數更新為,更新為,;
S29:更新智能體
(12)
其中,為更新權重,;
所有智能體完成步驟S23-S29后,在
2.根據權利要求1所述的方法,其特征在于,所述相關性排序具體方法是:
智能體
(13)
其中,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍96901部隊,未經中國人民解放軍96901部隊許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210401273.1/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





