[發(fā)明專利]一種基于數(shù)字孿生式訓(xùn)練的集群航跡規(guī)劃強(qiáng)化學(xué)習(xí)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202111041443.1 | 申請(qǐng)日: | 2021-09-07 |
| 公開(公告)號(hào): | CN113495578B | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 雷磊;沈高青;蔡圣所;宋曉勤;張莉涓;朱曉浪 | 申請(qǐng)(專利權(quán))人: | 南京航空航天大學(xué) |
| 主分類號(hào): | G05D1/10 | 分類號(hào): | G05D1/10 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 張婧 |
| 地址: | 210016 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)字 孿生 訓(xùn)練 集群 航跡 規(guī)劃 強(qiáng)化 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種基于數(shù)字孿生式訓(xùn)練的集群航跡規(guī)劃強(qiáng)化學(xué)習(xí)方法,該方法將無(wú)人機(jī)集群航跡規(guī)劃問(wèn)題的狀態(tài)空間進(jìn)行分類,并設(shè)計(jì)相應(yīng)的子Actor網(wǎng)絡(luò)用于處理不同類別的狀態(tài)信息。為了驅(qū)動(dòng)集群更好的完成航跡規(guī)劃任務(wù),該方法設(shè)計(jì)了五種不同的獎(jiǎng)勵(lì)信號(hào),最終的獎(jiǎng)勵(lì)函數(shù)是五種獎(jiǎng)勵(lì)信號(hào)的線性耦合。同時(shí),該方法設(shè)計(jì)了一種基于數(shù)字孿生的無(wú)人機(jī)集群航跡規(guī)劃深度強(qiáng)化學(xué)習(xí)方法的仿真訓(xùn)練體系架構(gòu),構(gòu)建無(wú)人機(jī)集群數(shù)字孿生系統(tǒng);深度強(qiáng)化學(xué)習(xí)方法運(yùn)行于孿生決策模型中,并利用集群孿生仿真模型和孿生連接通道,進(jìn)行深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型的訓(xùn)練和部署。本發(fā)明的仿真結(jié)果證明了該方法的有效性。
技術(shù)領(lǐng)域
本發(fā)明屬于無(wú)人機(jī)集群航跡規(guī)劃領(lǐng)域,特別涉及基于數(shù)字孿生式訓(xùn)練的集群航跡規(guī)劃強(qiáng)化學(xué)習(xí)方法。
背景技術(shù)
過(guò)去的十年里,無(wú)人機(jī)在航空攝影、搜索和救援、目標(biāo)跟蹤、森林防火、人群監(jiān)控和農(nóng)業(yè)噴灑等諸多軍事和民用領(lǐng)域得到了廣泛應(yīng)用。如果有多架無(wú)人機(jī)以集群的方式協(xié)同工作,可以更加高效的執(zhí)行這些任務(wù)。對(duì)于無(wú)人機(jī)集群系統(tǒng)而言,而無(wú)人機(jī)集群航跡規(guī)劃是實(shí)現(xiàn)多無(wú)人機(jī)協(xié)同的重要前提,一組無(wú)人機(jī)以集群的方式自主的從起點(diǎn)運(yùn)動(dòng)到終點(diǎn)。
傳統(tǒng)的集群航跡規(guī)劃方法大多是基于控制理論的。這些算法通常是針對(duì)特定場(chǎng)景設(shè)計(jì)的,當(dāng)場(chǎng)景發(fā)生變化時(shí),它們的性能會(huì)迅速下降。并且,這些算法通常假設(shè)環(huán)境信息對(duì)所有無(wú)人機(jī)都可用,這在現(xiàn)實(shí)世界中是不實(shí)際的。
近年來(lái),機(jī)器學(xué)習(xí)(Machine Learning,ML),特別是深度學(xué)習(xí)(Deep Learning,DL)隨著計(jì)算能力的增長(zhǎng),越來(lái)越多地被用于解決一些復(fù)雜問(wèn)題,為無(wú)人機(jī)集群航跡規(guī)劃問(wèn)題提供了另一種解決方案。強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)作為一種機(jī)器學(xué)習(xí)方法,適用于處理序列決策問(wèn)題。最近,結(jié)合DL和RL的深度強(qiáng)化學(xué)習(xí)(Deep ReinforcementLearning, DRL)的出現(xiàn),極大地提高了RL解決大規(guī)模復(fù)雜問(wèn)題的能力,并在圍棋等游戲領(lǐng)域取得了巨大成功。
集群航跡規(guī)劃問(wèn)題和游戲問(wèn)題一樣,也是一個(gè)順序決策問(wèn)題。然而,由于航跡規(guī)劃問(wèn)題的部分可觀測(cè)性,如何利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)無(wú)人機(jī)集群航跡規(guī)劃仍然存在諸多困難。本發(fā)明即在上述背景下展開。同時(shí),由于非線性和不確定因素的影響,很難為集群航跡規(guī)劃問(wèn)題建立高保真的仿真環(huán)境。在仿真環(huán)境中,從DRL方法中學(xué)習(xí)到的策略不能直接部署在現(xiàn)實(shí)世界的無(wú)人機(jī)上。其次,如果使用真實(shí)世界的無(wú)人機(jī)來(lái)訓(xùn)練DRL模型,由于數(shù)據(jù)采集效率低下,訓(xùn)練速度緩慢,仿真與現(xiàn)實(shí)之間的差異問(wèn)題限制了DRL在集群航跡規(guī)劃問(wèn)題中的應(yīng)用。
為了解決上述問(wèn)題,我們將注意力轉(zhuǎn)向數(shù)字孿生(Digital Twin, DT)技術(shù)。DT是真實(shí)世界中的物理模型在信息域中的高保真鏡像,根據(jù)歷史數(shù)據(jù)、傳感器數(shù)據(jù)及時(shí)反映真實(shí)世界的狀態(tài)變化。DT已廣泛應(yīng)用于智能城市、智能制造和健康管理。借助DT,機(jī)器學(xué)習(xí)方法可以很容易地獲得真實(shí)世界的高保真狀態(tài)信息,用于模型訓(xùn)練。然而,如何將DT應(yīng)用于無(wú)人機(jī)集群航跡規(guī)劃的DRL訓(xùn)練體系架構(gòu)尚未有人研究。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)無(wú)人機(jī)集群航跡規(guī)劃問(wèn)題,提出一種基于數(shù)字孿生式訓(xùn)練的集群航跡規(guī)劃強(qiáng)化學(xué)習(xí)方法,從而有效提高無(wú)人機(jī)集群自主航跡規(guī)劃的能力。為了實(shí)現(xiàn)該目的,本發(fā)明公開了一種基于數(shù)字孿生式訓(xùn)練的集群航跡規(guī)劃強(qiáng)化學(xué)習(xí)方法,所采用的步驟是:
步驟1:構(gòu)建無(wú)人機(jī)集群航跡規(guī)劃問(wèn)題的狀態(tài)空間和動(dòng)作空間,狀態(tài)空間由三部分組成,包括目標(biāo)位置狀態(tài)信息,障礙物位置狀態(tài)信息和鄰居節(jié)點(diǎn)狀態(tài)信息;動(dòng)作空間為無(wú)人機(jī)的速度大小和方向;
步驟2:設(shè)計(jì)無(wú)人機(jī)集群航跡規(guī)劃問(wèn)題深度強(qiáng)化學(xué)習(xí)方法的獎(jiǎng)勵(lì)函數(shù),獎(jiǎng)勵(lì)函數(shù)包括五部分,分別為無(wú)人機(jī)接近目標(biāo)獎(jiǎng)勵(lì),無(wú)人機(jī)與障礙物之間的防碰撞獎(jiǎng)勵(lì),無(wú)人機(jī)與鄰居節(jié)點(diǎn)之間的協(xié)同獎(jiǎng)勵(lì),無(wú)人機(jī)的運(yùn)動(dòng)獎(jiǎng)勵(lì)以及邊界獎(jiǎng)勵(lì),最終的獎(jiǎng)勵(lì)函數(shù)為上述五者的線性耦合;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學(xué),未經(jīng)南京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111041443.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 使用逆空間濾波的數(shù)字圖像重建
- 數(shù)字版權(quán)管理交易系統(tǒng)
- 一種數(shù)字證書自動(dòng)申請(qǐng)方法和裝置及系統(tǒng)
- 用于數(shù)字記憶練習(xí)的數(shù)學(xué)教具
- 一種數(shù)字種類的確定方法及裝置
- 數(shù)字資產(chǎn)編碼方法
- 數(shù)字證書管理方法及設(shè)備
- 數(shù)字媒體水印處理方法、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)字亞克力標(biāo)牌
- 一種基于區(qū)塊鏈的數(shù)字資產(chǎn)交易方法、裝置及存儲(chǔ)介質(zhì)
- 一種數(shù)控機(jī)床數(shù)字孿生建模方法
- 一種基于數(shù)字孿生模型的時(shí)序類潛在問(wèn)題識(shí)別方法及系統(tǒng)
- 一種礦井?dāng)?shù)字孿生模型及其構(gòu)建方法
- 一種以統(tǒng)一形式樣機(jī)模型定義數(shù)字孿生體的方法及裝置
- 基于數(shù)字孿生體的醫(yī)療設(shè)備定位方法、系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種基于機(jī)器視覺的數(shù)字孿生模型修正方法與系統(tǒng)
- 一種基于數(shù)字孿生的泵機(jī)組優(yōu)化運(yùn)行調(diào)節(jié)系統(tǒng)及方法
- 數(shù)字孿生模型的運(yùn)行方法、裝置和電子設(shè)備
- 一種組件式孿生計(jì)算方法及系統(tǒng)
- 一種基于數(shù)字孿生的空間在軌激光加工過(guò)程實(shí)時(shí)監(jiān)測(cè)方法





