[發(fā)明專利]一種基于強化學習的跨域異構集群路徑規(guī)劃方法有效

申請?zhí)枺?/td>	202110391296.4	申請日：	2021-04-13
公開（公告）號：	CN113065709B	公開（公告）日：	2023-06-30
發(fā)明（設計）人：	彭星光;劉碩;王童豪;宋保維;潘光;張福斌;高劍;李樂;張立川	申請（專利權）人：	西北工業(yè)大學
主分類號：	G06Q10/047	分類號：	G06Q10/047;G05D1/00;G06N3/045;G06N3/047;G06N3/092;G06N3/084;G06N3/0985;G06N7/01
代理公司：	西安凱多思知識產權代理事務所(普通合伙) 61290	代理人：	高凌君
地址：	710072 ***	國省代碼：	陜西;61
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于強化學習跨域異構集群路徑規(guī)劃方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提出一種基于強化學習的跨域異構集群路徑規(guī)劃方法，通過添加集群的特征作為個體觀測輸入，并通過面向集群路徑規(guī)劃而設定的獎勵函數，使得跨域的集群個體能夠在保持安全距離的前提下，進行路徑規(guī)劃。本發(fā)明構建了跨域異構集群機動的馬爾科夫決策過程和獎勵函數，利用MADDPG算法求解集群個體機動策略，從而實現跨域異構集群的路徑規(guī)劃。只要集群個體具備相關的傳感器，即能通過本發(fā)明的方法實現路徑規(guī)劃。該方法下，來自空域、海域、陸域等域的不同航行器可以共同地進行路徑規(guī)劃，從而實現“跨域異構路徑規(guī)劃”。

技術領域

本發(fā)明涉及路徑規(guī)劃技術領域，具體是一種基于強化學習的路徑規(guī)劃方法，適用于跨域異構機器組成的集群系統。

背景技術

隨著人工智能技術的迅猛發(fā)展，無人機逐步朝著小型化、智能化、集群化等方向發(fā)展。因其成本低、靈活性高、隱蔽性強，被廣泛應用于戰(zhàn)場偵察、聯合攻擊、應急救援等行動，已成為未來智能化、無人化作戰(zhàn)的重要組成部分。鑒于單架無人機在續(xù)航能力、廣域偵察搜索等方面的局限性，多架無人機協同組成無人機集群執(zhí)行任務成為當前無人機作戰(zhàn)應用的重要模式。如今，若將無人機聯合無人車、無人船等機動單元組成跨域異構機器集群，則該集群具有明顯的規(guī)模優(yōu)勢、協同優(yōu)勢等，可有效提高任務完成的可靠性。然而，實現跨域異構集群高效協同的首要問題是如何科學合理地為跨域異構集群進行路徑規(guī)劃。

常用的路徑規(guī)劃算法有動態(tài)規(guī)劃法、人工勢場法、A*算法、遺傳算法等。然而，上述路徑規(guī)劃僅適用于單智能體的路徑規(guī)劃，不一定適用于同構、異構、甚至跨域異構組成的多智能體機器集群。因此，發(fā)明一種能夠適用于跨域異構集群的路徑規(guī)劃方法是很有必要的。

發(fā)明內容

針對現有路徑規(guī)劃方法的局限性，本發(fā)明基于強化學習，提出了一種能夠適用于跨域異構集群的路徑規(guī)劃方法。只要集群個體具備相關的傳感器，即能通過本發(fā)明的方法實現路徑規(guī)劃。該方法下，來自空域、海域、陸域等域的不同航行器可以共同地進行路徑規(guī)劃，從而實現“跨域異構路徑規(guī)劃”。

本發(fā)明通過添加集群的特征作為個體觀測輸入，并通過面向集群路徑規(guī)劃而設定的獎勵函數，使得跨域的集群個體能夠在保持安全距離的前提下，進行路徑規(guī)劃。本發(fā)明構建了跨域異構集群機動的馬爾科夫決策過程和獎勵函數，利用多智能體確定性策略算法(Multi-agent?Deep?Deterministic?Policy?Gradient，MADDPG)求解集群個體機動策略，從而實現跨域異構集群的路徑規(guī)劃。

具體包括以下步驟：

步驟1：確定跨域集群個體策略網絡的狀態(tài)變量、動作變量；狀態(tài)變量作為個體的策略網絡的輸入，其輸出的動作變量是個體在當前時刻采取的機動動作；所述狀態(tài)變量包括跨域集群的特征；

步驟2：利用MADDPG框架建立跨域異構集群個體的“策略網絡-Q網絡”組合，并設置神經網絡點數、學習率，初始化神經網絡的參數；

步驟3：構建用于訓練的經驗緩存池：

根據狀態(tài)變量、動作變量確定馬爾科夫決策過程為O,A,R,γ；

其中O是個體狀態(tài)變量觀測，A是個體狀態(tài)變量輸入策略網絡后輸出的動作變量，R是個體獎勵值，γ是折扣因子；

構建的經驗回放元組為經驗回放元組為

其中，是跨域異構集群所有個體在t時刻的聯合狀態(tài)變量觀測，由跨域異構集群內所有個體狀態(tài)變量觀測聯結而成；是跨域異構集群所有個體在t時刻的聯合機動動作變量，由跨域異構集群內所有個體機動動作變量聯結而成；是跨域異構集群在t時刻的獎勵值，由各個個體的獎勵值求和得到；是跨域異構集群在t時刻根據聯合觀測采取聯合動作后，在t+1時刻更新的群體觀測狀態(tài)變量；

個體在機動時，通過與環(huán)境交互生成對應經驗回放元組，并儲存在經驗回放緩存池中；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于西北工業(yè)大學，未經西北工業(yè)大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110391296.4/2.html，轉載請聲明來源鉆瓜專利網。