[發明專利]一種編隊包圍的多智能體強化學習方法在審
| 申請號: | 202110346490.0 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN112966816A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 陳楊楊;徐磊鑫;俞睿;周珂 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/063;G06N3/08 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 張天哲 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 編隊 包圍 智能 強化 學習方法 | ||
1.一種編隊包圍的多智能體強化學習方法,其特征在于,該方法包括如下步驟:
a)確定強化學習環境中每個智能體的動作空間、狀態空間和獎勵函數;
b)設計每個智能體的演員網絡和評判家網絡結構;
c)由每個智能體的當前狀態通過演員網絡確定其動作,進而與環境交互得到該動作的獎勵值和智能體下一步的狀態;
d)由所有智能體的動作、當前和下一步的狀態通過評判家網絡確定動作-狀態價值函數,進而設計損失函數;
e)根據反向傳播算法重復步驟c)和d)更新演員和評判家網絡中的權值直至期望要求。
2.按權利要求1所述的一種編隊包圍的多智能體強化學習方法,其特征在于:
其中所述步驟a)包括如下情況:
a1)由智能體的動態確定其在強化學習環境中的狀態和動作;
a2)設定目標的動態和障礙物的位置,分別計算智能體到目標的距離和極角,智能體到鄰居間的相對距離和相對極角以及智能體到外界障礙物的相對距離;
a3)由任務確定強化學習環境中的獎勵函數。
3.按權利要求1所述的一種編隊包圍的多智能體強化學習方法,其特征在于:
其中所述步驟b)包括如下情況:
b1)設計每個智能體的演員網絡全連接層的層數,每層網絡神經元的個數和激勵函數;
b2)設計每個智能體的評判家網絡全連接層的層數,每層網絡神經元的個數和激勵函數。
4.按權利要求1所述的一種編隊包圍的多智能體強化學習方法,其特征在于:
其中所述步驟c)包括如下情況:
c1)將智能體當前的狀態輸入演員神經網絡確定每個智能體的動作;
c2)將動作輸入強化學習環境得到該動作的獎勵值和智能體下一步的狀態。
5.按權利要求1所述的一種編隊包圍的多智能體強化學習方法,其特征在于:
其中所述步驟d)包括如下情況:
d1)將所有智能體的動作、當前和下一步的狀態輸入評判家網絡確定動作-狀態價值函數;
d2)由動作-狀態價值函數和獎勵函數設計評論家網絡的損失函數;
d3)由動作-狀態價值函數和獎勵函數設計演員網絡的損失函數。
6.按權利要求1所述的一種編隊包圍的多智能體強化學習方法,其特征在于:
其中所述步驟e)包括如下情況:
e1)根據反向傳播算法更新演員網絡中的權值直至期望要求;
e2)根據反向傳播算法更新評判家網絡中的權值直至期望要求。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110346490.0/1.html,轉載請聲明來源鉆瓜專利網。





