[發明專利]無人機集群智能系統控制方法有效
| 申請號: | 202110438880.0 | 申請日: | 2021-04-22 |
| 公開(公告)號: | CN113110582B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 王一皓;江玲 | 申請(專利權)人: | 中國科學院重慶綠色智能技術研究院 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 北京元本知識產權代理事務所(普通合伙) 11308 | 代理人: | 金海榮 |
| 地址: | 400714 重慶市北*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 無人機 集群 智能 系統 控制 方法 | ||
1.一種無人機集群智能系統控制方法,其特征在于,包括以下步驟:
獲取多智能體體系結構,所述多智能體體系結構中每個智能體均設有對應的目標、感知方法、動作集;
所述多智能體體系結構中每個智能體與環境交互,進行集群智能體學習;
所述多智能體體系結構中每個智能體通過動作協調完成系統目標;
S21:初始化多智能體體系結構中的網絡參數,并求得目標任務最優解網絡參數;
S22:利用價值分解,智能體將行動價值分解為子任務;
S23:所有子任務通過納什均衡,獲得子任務團隊目標;
S24:子任務通過以下模型學習,獲取最大化的子任務團隊目標:
其中,Q為目標函數,ai為第i個智能體的動作信號,aj為第j個智能體的動作信號,為除i之外的其他智能體的動作信號,EP為環境影響函數,St、St+1為馬爾科夫決策過程,r為反饋給智能體一個回報信號,t為狀態時刻,θ為初始化的網絡參數;
S25:更新網絡參數,最大化的子任務獲取所有子任務最大團隊獎勵,其他子任務重復步驟S22-S25;
S26:重復步驟S21-S25進行網絡迭代,直到多智能體體系結構收斂到最優狀態。
2.根據權利要求1所述的方法,其特征在于,所述多智能體體系結構中每個智能體與環境交互具體包括:
S11:各智能體對環境進行觀測,獲取觀測數據;
S12:根據觀測數據做動作;
S13:改變環境狀態,獲取獎勵;
S14:重復步驟S11-S13。
3.根據權利要求1所述的方法,其特征在于,所述步驟S22中通過以下方式分解為子任務:
其中,k為分解的第k個子任務,為參數為θ的目標函數,K為總共分解的K個子任務,ValueDecompose為整體價值分解函數。
4.根據權利要求1所述的方法,其特征在于,所步驟S23通過以下方式得到子任務團隊目標:
Fork=1,...K?do
其中,為第n個智能體的對應的第k個動作,gnk為第n個智能體的第k個子任務,Nash為納什均衡函數。
5.根據權利要求1所述的方法,其特征在于,所步驟S25通過以下方式更新網絡參數:
其中,θ*為最優解網絡參數,k為分解的第k個子任務,為參數為θ的目標函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院重慶綠色智能技術研究院,未經中國科學院重慶綠色智能技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110438880.0/1.html,轉載請聲明來源鉆瓜專利網。





