[發(fā)明專利]一種基于數(shù)字孿生式訓練的集群航跡規(guī)劃強化學習方法有效
| 申請?zhí)枺?/td> | 202111041443.1 | 申請日: | 2021-09-07 |
| 公開(公告)號: | CN113495578B | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設計)人: | 雷磊;沈高青;蔡圣所;宋曉勤;張莉涓;朱曉浪 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 張婧 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數(shù)字 孿生 訓練 集群 航跡 規(guī)劃 強化 學習方法 | ||
1.一種基于數(shù)字孿生式訓練的集群航跡規(guī)劃強化學習方法,其特征在于,所采用的步驟是:
步驟1:構建無人機集群航跡規(guī)劃問題的狀態(tài)空間和動作空間,狀態(tài)空間由三部分組成,包括目標位置狀態(tài)信息,障礙物位置狀態(tài)信息和鄰居節(jié)點狀態(tài)信息;動作空間為無人機的速度大小和方向;
構建無人機集群航跡規(guī)劃問題的狀態(tài)空間和動作空間的具體方法為:
無人機
為了使無人機的飛行軌跡更加平滑,采用了連續(xù)動作空間,無人機
步驟2:設計無人機集群航跡規(guī)劃問題深度強化學習方法的獎勵函數(shù),獎勵函數(shù)包括五部分,分別為無人機接近目標獎勵,無人機與障礙物之間的防碰撞獎勵,無人機與鄰居節(jié)點之間的協(xié)同獎勵,無人機的運動獎勵以及邊界獎勵,最終的獎勵函數(shù)為上述五者的線性耦合;
設計無人機集群航跡規(guī)劃問題深度強化學習方法的獎勵函數(shù)的具體方法為:
(1)接近目標獎勵:該獎勵用于引導無人機朝向目標方向,其基本思想是,在一個時間步長內,朝向目標方向的移動距離盡可能大,因此,無人機
(1)
其中,
(2)防碰撞獎勵:此獎勵用于引導無人機與障礙物和鄰居保持安全距離,無人機
(2)
這里,
(3)
(4)
其中,
(3)協(xié)同獎勵:該獎勵用于引導無人機與鄰居保持連通性,以便在集群運動過程中建立更好的協(xié)同效果,無人機
(5)
其中,
(4)運動獎勵:該獎勵用于引導無人機用更少的時間完成集群航跡規(guī)劃任務,無人機
(6)
其中
(5)邊界獎勵:該獎勵用于引導無人機避免距離邊界太近,無人機
(7)
其中
綜上,無人機
(8)
步驟3:設計基于行為耦合的無人機集群航跡規(guī)劃問題深度強化學習方法的網絡架構,深度強化學習網絡采用Actor-Critic網絡架構,其中Actor網絡分為4個子網絡,分別是前進子網絡,協(xié)同子網絡,避障子網絡和耦合子網絡;
設計基于行為耦合的無人機集群航跡規(guī)劃問題深度強化學習方法的網絡架構的具體方法為:
BCDDPG使用Actor-Critic網絡架構,其中,Actor網絡直接輸出預期動作, Critic網絡近似動作值函數(shù),用于評估Actor網絡輸出動作的質量;
BCDDPG的Actor網絡由多個子網絡組成,對于集群航跡規(guī)劃問題而言,無人機的狀態(tài)信息
(1)當前時間步長內目標的相對位置,表示為
(2)當前時間步長內其鄰居節(jié)點的相對位置,表示為
(3)當前時間步長內的障礙物的相對位置,表示為
BCDDPG使用三個不同的子Actor網絡來處理三類狀態(tài)信息,子Actor網絡1、2和3分別采用
步驟4:搭建基于無人機集群數(shù)字孿生系統(tǒng)的集群航跡規(guī)劃深度強化學習方法的仿真訓練體系架構,無人機集群數(shù)字孿生系統(tǒng)包括孿生物理實體、孿生仿真模型、孿生決策模型和孿生連接通道,無人機集群航跡規(guī)劃深度強化學習方法運行于孿生決策模型中,并利用孿生物理實體、孿生仿真模型和孿生連接通道,進行深度強化學習模型的訓練和部署;
搭建基于無人機集群數(shù)字孿生系統(tǒng)的集群航跡規(guī)劃深度強化學習方法的仿真訓練體系架構的具體方法為:
(1)、搭建孿生物理實體:由低成本、小型無人機和任務環(huán)境組成的無人機集群系統(tǒng)稱為孿生物理實體,無人機在計算和存儲方面受到資源限制,無法高效率的完成DRL模型的訓練,每架無人機配備多個傳感器,能實時感知環(huán)境狀態(tài);
搭建孿生仿真模型:中央服務器利用從真實世界接收的數(shù)據(jù),通過仿真和建模,建立無人機集群系統(tǒng)的高保真孿生仿真模型,中央服務器在每個時間步長用來自真實世界無人機傳感器的感知數(shù)據(jù)實時更新孿生仿真模型,孿生仿真模型可獲得全局狀態(tài)信息,用于提高DRL算法的訓練速度和有效性;
搭建孿生決策模型:DRL算法部署在孿生決策模型中,用于為集群航跡規(guī)劃問題提供決策服務,孿生決策模型從孿生仿真模型中提取訓練過程所需的狀態(tài)信息,并利用中央服務器強大的計算性能,實時輸出無人機集群航跡規(guī)劃問題的控制策略,DRL算法在執(zhí)行階段可借助孿生仿真模型不斷更新和改進,實現(xiàn)DRL算法的持續(xù)進化;
搭建孿生連接通道:孿生連接通道是連接物理域和信息域的橋梁,二者之間可以通過4G/5G、移動AP或衛(wèi)星方式建立通信鏈路,孿生連接通道是雙向的,一方面,孿生物理實體將傳感器數(shù)據(jù)傳輸?shù)街醒敕掌?,用于孿生仿真模型構建,另一方面,中央服務器將DRL算法生成的控制策略輸出到孿生物理實體,用于指導無人機集群運動,一旦DRL算法完成訓練階段,可借助孿生連接通道快速部署到現(xiàn)實世界的多無人機系統(tǒng)中,并以分布式方式執(zhí)行;
(2)、借助于無人機集群數(shù)字孿生系統(tǒng),無人機集群航跡規(guī)劃深度強化學習方法采用“集中式訓練,分布式執(zhí)行,持續(xù)進化”的方式實現(xiàn)模型的快速訓練和部署;
在訓練階段,孿生物理實體上的高精度傳感器采集環(huán)境狀態(tài)信息,通過孿生連接通道將數(shù)據(jù)傳輸至孿生仿真模型;孿生仿真模型根據(jù)采集到的環(huán)境狀態(tài)信息更新自身狀態(tài),并提取集群航跡規(guī)劃問題的狀態(tài)數(shù)據(jù)發(fā)送至孿生決策模型進行模型訓練;孿生決策模型借助中央服務器的計算資源完成深度強化學習網絡模型的訓練;
在執(zhí)行階段,孿生決策模型將訓練完成的深度強化學習網絡模型通過孿生連接通道發(fā)送至孿生物理實體上;孿生物理實體根據(jù)深度強化學習網絡模型的決策結果分布式完成航跡規(guī)劃任務;同時孿生決策模型繼續(xù)根據(jù)孿生仿真模型中的狀態(tài)數(shù)據(jù)進行深度強化學習網絡模型的持續(xù)訓練,并定期將更優(yōu)的訓練結果通過孿生連接通道更新至孿生物理實體上,實現(xiàn)深度強化學習方法的持續(xù)進化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111041443.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋼結構桁架
- 下一篇:圖像處理方法、裝置、計算機設備及存儲介質
- 一種數(shù)控機床數(shù)字孿生建模方法
- 一種基于數(shù)字孿生模型的時序類潛在問題識別方法及系統(tǒng)
- 一種礦井數(shù)字孿生模型及其構建方法
- 一種以統(tǒng)一形式樣機模型定義數(shù)字孿生體的方法及裝置
- 基于數(shù)字孿生體的醫(yī)療設備定位方法、系統(tǒng)和存儲介質
- 一種基于機器視覺的數(shù)字孿生模型修正方法與系統(tǒng)
- 一種基于數(shù)字孿生的泵機組優(yōu)化運行調節(jié)系統(tǒng)及方法
- 數(shù)字孿生模型的運行方法、裝置和電子設備
- 一種組件式孿生計算方法及系統(tǒng)
- 一種基于數(shù)字孿生的空間在軌激光加工過程實時監(jiān)測方法





