[發明專利]一種編隊包圍的多智能體強化學習方法在審

申請號：	202110346490.0	申請日：	2021-03-31
公開（公告）號：	CN112966816A	公開（公告）日：	2021-06-15
發明（設計）人：	陳楊楊;徐磊鑫;俞睿;周珂	申請（專利權）人：	東南大學
主分類號：	G06N3/04	分類號：	G06N3/04;G06N3/063;G06N3/08
代理公司：	南京眾聯專利代理有限公司 32206	代理人：	張天哲
地址：	210096 ***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種編隊包圍智能強化學習方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明是一種編隊包圍的多智能體強化學習方法，特別適用避碰要求和簡單閉的包圍軌線，包括如下步驟：a)確定強化學習環境中每個智能體的狀態空間、動作空間和獎勵函數；b)設計每個智能體的演員網絡和評判家網絡結構；c)由每個智能體的當前狀態通過演員網絡確定其動作，進而與環境交互得到該動作的獎勵值和智能體下一步的狀態；d)由所有智能體的動作、當前和下一步的狀態通過評判家網絡分別確定狀態和動作價值函數，進而設計損失函數；e)根據反向傳播算法重復步驟c)和d)更新演員和評判家網絡中的權值直至期望要求。此種方法簡單可靠、不依賴系統模型，能夠快速地實現復雜環境中的編隊包圍任務。

技術領域

本發明涉及一種編隊包圍的多智能體強化學習方法。

背景技術

編隊包圍，又為協作包圍，即多無人系統以一定的隊形環繞著目標的控制技術，當前被廣泛應用于協同巡邏，目標導航，資源定位和自主救援。目前，絕大多數編隊包圍設計方法都是基于傳統的系統模型，例如(陳楊楊；衛平；基于相對位置的分布式編隊球形包圍追蹤未知目標的方法,中國專利,授權,2017-05-03,ZL201710303014.4.)。與此同時，編隊包圍一旦加入避碰/避障，傳統的控制器設計就變得非常困難，究其原因是控制律容易使得無人系統陷入局部平衡點，無法繼續完成對目標的編隊包圍。

強化學習旨在讓智能體探索并學習某特定的未知環境，通過獎勵函數設置及值函數更新等方法來引導智能體針對特定狀態學會決策并做出相應的最優動作，從而獲得最大的獎勵。這種方法對比以往的控制方法來說，不需要具體且精確地模型，即只要將環境與智能體設定好，便可以通過訓練得到理想的結果。強化學習方法在編隊包圍方面取得一定的進步，但是包圍的還只限于靜態的圓包圍，例如(V.R.Konda and J.N.Tsitsiklis,“Actor-critic algorithms,”in Advances in neural information processing systems,pp.1008–1014,2000.)。實際中無論是水下無人機器人跟蹤協作采集海底生物群體，還是無人機協作包圍目標，可能是非圓包圍(如橢圓)，而且要求無人系統環繞目標運動非靜止。當前尚缺少同時能實現避碰和參數化簡單的包圍軌線的編隊包圍算法。

發明內容

技術問題：本發明的目的是提供一種編隊包圍的多智能體強化學習方法，該方法簡單可靠，適應于障礙環境中的編隊包圍任務。

技術方案：本發明是一種編隊包圍多智能體強化學習方法，特別適用避碰要求和簡單閉的包圍軌線。為了訓練出期望的強化學習編隊包圍算法，先要設定多智能體強化學習環境中的動作空間、狀態空間和獎勵值函數。接下來就可以通過多智能體強化學習環境提供的智能體的狀態、動作和獎勵值訓練出強化學習編隊包圍算法。核心思想如下：首先，對智能體在強化學習環境的狀態值進行初始化。然后設計一個輸入為智能體狀態值，輸出為動作值的演員神經網絡，將初始化的狀態值輸入該神經網絡得出動作值，此時加入些許噪聲得到最終的動作值，再將該動作以及狀態值輸入到強化學習環境中得出下一時刻的狀態值及該狀態動作下的獎勵值。再設計一個以動作值，狀態值以及獎勵值為輸入，動作價值函數為輸出的評論家神經網絡，將動作值，狀態值以及獎勵值輸入該網絡得出動作價值函數。得到的動作價值函數結合獎勵值再分別構造演員神經網絡與評論家神經網絡的損失函數，利用反向傳播的計算更新神經網絡的權重，再更新的神經網絡不斷進行以上步驟的重復及訓練過程，最終可以得到一個近似收斂到最優值的結果。由此，便完成了這種編隊包圍多智能體強化學習方法的訓練學習過程。

具體的講：

本發明是一種編隊包圍的多智能體強化學習方法，不要系統的模型，包圍軌線可以是一般的簡單閉曲線并且可以實現避碰，特別適用避碰要求和簡單閉的包圍軌線，該方法包括如下步驟：

a)確定強化學習環境中每個智能體的動作空間、狀態空間和獎勵函數。

b)設計每個智能體的演員網絡和評判家網絡結構；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于東南大學，未經東南大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110346490.0/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：依靠磁力觸發實現保壓的取心設備
下一篇：一種數字新治理業務的帶權限高效模糊檢索的方法及應用

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06N 基于特定計算模型的計算機系統
G06N3-00 基于生物學模型的計算機系統
G06N3-02 .采用神經網絡模型
G06N3-12 .采用遺傳模型
G06N3-04 ..體系結構，例如，互連拓撲
G06N3-06 ..物理實現，即神經網絡、神經元或神經元部分的硬件實現
G06N3-08 ..學習方法

免登錄下載普通用戶下載升級VIP會員，免費下載

[發明專利]一種編隊包圍的多智能體強化學習方法在審

專利文獻下載