[發(fā)明專利]基于DDPG的發(fā)射資源智能認(rèn)知管理方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110111918.3 | 申請(qǐng)日: | 2021-01-27 |
| 公開(公告)號(hào): | CN112991384B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 糾博;劉宏偉;袁格升;時(shí)玉春 | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號(hào): | G06T7/246 | 分類號(hào): | G06T7/246;G06N3/0442;G06N3/092 |
| 代理公司: | 西安嘉思特知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61230 | 代理人: | 劉長(zhǎng)春 |
| 地址: | 710000 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 ddpg 發(fā)射 資源 智能 認(rèn)知 管理 方法 | ||
本發(fā)明公開了一種基于DDPG的發(fā)射資源智能認(rèn)知管理方法,包括:構(gòu)建并訓(xùn)練LSTM預(yù)測(cè)網(wǎng)絡(luò);利用深度強(qiáng)化學(xué)習(xí)智能體感知環(huán)境,以獲取目標(biāo)狀態(tài)的觀測(cè)值;將目標(biāo)狀態(tài)的觀測(cè)值輸入已訓(xùn)練的LSTM預(yù)測(cè)網(wǎng)絡(luò),得到目標(biāo)的先驗(yàn)信息表示;將目標(biāo)的先驗(yàn)信息表示輸入Actor?Critic網(wǎng)絡(luò),得到動(dòng)作向量;根據(jù)動(dòng)作向量生成發(fā)射波束并分配功率,以實(shí)現(xiàn)發(fā)射資源的智能管理。本發(fā)明提供的基于DDPG的發(fā)射資源智能認(rèn)知管理方法,簡(jiǎn)化了優(yōu)化過程,提高了跟蹤精度;且未限制發(fā)射波束與目標(biāo)個(gè)數(shù)的數(shù)量關(guān)系,使得資源分配更合理,資源的利用效率更高,應(yīng)用范圍更廣泛。
技術(shù)領(lǐng)域
本發(fā)明屬于目標(biāo)跟蹤技術(shù)領(lǐng)域,具體涉及一種基于DDPG的發(fā)射資源智能認(rèn)知管理方法。
背景技術(shù)
目標(biāo)跟蹤技術(shù)一直以來(lái)是雷達(dá)探測(cè)研究領(lǐng)域中的熱點(diǎn)之一,其在軍事偵察、精確制導(dǎo)、火力打擊、戰(zhàn)場(chǎng)評(píng)估以及安防監(jiān)控等諸多方面均有廣泛的應(yīng)用前景。其中,多機(jī)動(dòng)目標(biāo)跟蹤的主要任務(wù)是在有限的雷達(dá)資源條件下,對(duì)每一個(gè)機(jī)動(dòng)目標(biāo)分配足夠的能量達(dá)到預(yù)期的跟蹤精度。在實(shí)際應(yīng)用中,雷達(dá)的發(fā)射資源,包括所能生成的最大波束個(gè)數(shù)、以及發(fā)射的總功率是有限的。隨著應(yīng)用雷達(dá)應(yīng)用場(chǎng)景的復(fù)雜化,對(duì)于多機(jī)動(dòng)目標(biāo)跟蹤場(chǎng)景下的資源的合理分配,對(duì)跟蹤精度有著重大的影響。
目前,常用的多機(jī)動(dòng)目標(biāo)跟蹤場(chǎng)景下的資源分配方法主要有兩類,一類是基于模型驅(qū)動(dòng)的方法,其主要是應(yīng)用優(yōu)化技術(shù),在滿足跟蹤誤差的要求下,最小化發(fā)射總功率;或等效地,在滿足發(fā)射總功率的要求下,最小化跟蹤誤差。例如M.L.Hernandez等人在文獻(xiàn)“PCRLB?for?tracking?in?cluttered?environments:measurement?sequenceconditioning?approach[J],IEEE?Trans.Aerosp.Electron.Syst.,vol.42,no.2,pp.680–704,Apr.2006.”中提出了通過在滿足發(fā)射總功率的要求下,最小化目標(biāo)狀態(tài)估計(jì)誤差的貝葉斯克拉美羅界(Bayesian?Cramér-Rao?Lower?Bound,BCRLB),以最優(yōu)分配發(fā)射功率資源。
另一類是基于數(shù)據(jù)驅(qū)動(dòng)的方法,其主要應(yīng)用深度學(xué)習(xí)技術(shù),利用神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)目標(biāo)的狀態(tài)并分配資源。例如專利文獻(xiàn)“基于深度確定性策略梯度DDPG的多機(jī)動(dòng)目標(biāo)跟蹤方法”(專利申請(qǐng)?zhí)?01911215137.8,申請(qǐng)公開號(hào)111027677A)中使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Longshort-term?memory,LSTM)從海量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)得到預(yù)測(cè)模型,用于求得目標(biāo)狀態(tài)先驗(yàn)信息的費(fèi)歇爾信息矩陣(Fisher?information?matrix,FIM)。在每一個(gè)跟蹤區(qū)間中,LSTM網(wǎng)絡(luò)的輸出被輸入至一個(gè)深度強(qiáng)化學(xué)習(xí)的框架中,該框架基于學(xué)習(xí)到的最優(yōu)策略來(lái)分配發(fā)射功率資源。
然而,上述基于模型驅(qū)動(dòng)的方法需要假定目標(biāo)的運(yùn)動(dòng)模型,以計(jì)算得到BCRLB。并且,在同時(shí)分配波束與發(fā)射功率資源的應(yīng)用下,優(yōu)化問題往往為復(fù)雜的非線性混合整數(shù)優(yōu)化問題,難以求解,這在一定程度上影響了跟蹤精度。此外,由于實(shí)際應(yīng)用中,發(fā)射波束個(gè)數(shù)和目標(biāo)個(gè)數(shù)的數(shù)量關(guān)系不確定,而上述基于數(shù)據(jù)驅(qū)動(dòng)的方法由于設(shè)定了發(fā)射波束個(gè)數(shù)與目標(biāo)數(shù)相等,使得資源分配存在不合理的情況,降低了資源利用率,從而限制了其應(yīng)用范圍。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提供了一種基于DDPG的發(fā)射資源智能認(rèn)知管理方法。本發(fā)明要解決的技術(shù)問題通過以下技術(shù)方案實(shí)現(xiàn):
一種基于DDPG的發(fā)射資源智能認(rèn)知管理方法,包括:
構(gòu)建并訓(xùn)練LSTM預(yù)測(cè)網(wǎng)絡(luò);
利用深度強(qiáng)化學(xué)習(xí)智能體感知環(huán)境,以獲取目標(biāo)狀態(tài)的觀測(cè)值;
將所述目標(biāo)狀態(tài)的觀測(cè)值輸入已訓(xùn)練的LSTM預(yù)測(cè)網(wǎng)絡(luò),得到目標(biāo)的先驗(yàn)信息表示;
將所述目標(biāo)的先驗(yàn)信息表示輸入Actor-Critic網(wǎng)絡(luò),得到動(dòng)作向量;
根據(jù)所述動(dòng)作向量生成發(fā)射波束并分配功率,以實(shí)現(xiàn)發(fā)射資源的智能管理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110111918.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 無(wú)人機(jī)通信網(wǎng)絡(luò)移動(dòng)控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于深度確信策略梯度算法的感應(yīng)電機(jī)關(guān)鍵參數(shù)獲取方法
- 基于DDPG-RAM算法的復(fù)雜光照條件下織物缺陷檢測(cè)方法
- 基于DDPG模型的MIMO雷達(dá)正交波形的生成方法
- 一種復(fù)雜山區(qū)鐵路線路智能化生成方法
- 基于DDPG和LSTM的無(wú)地圖機(jī)器人路徑導(dǎo)航方法及系統(tǒng)
- 一種車輛列隊(duì)跟蹤控制方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于DDPG算法和SOC恢復(fù)的儲(chǔ)能系統(tǒng)參與電網(wǎng)一次調(diào)頻的控制方法
- 基于監(jiān)督信號(hào)引導(dǎo)的深度強(qiáng)化學(xué)習(xí)自動(dòng)駕駛汽車控制方法
- 一種面向深度強(qiáng)化學(xué)習(xí)的策略異常檢測(cè)方法和裝置





