[發(fā)明專利]一種基于深度確定性策略的跳頻智能抗干擾決策方法在審
| 申請(qǐng)?zhí)枺?/td> | 202211512206.3 | 申請(qǐng)日: | 2022-11-29 |
| 公開(kāi)(公告)號(hào): | CN116073856A | 公開(kāi)(公告)日: | 2023-05-05 |
| 發(fā)明(設(shè)計(jì))人: | 張煜培;趙知?jiǎng)?/a> | 申請(qǐng)(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號(hào): | H04B1/715 | 分類號(hào): | H04B1/715;H04B17/382;H04B17/391 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 確定性 策略 智能 抗干擾 決策 方法 | ||
本發(fā)明公開(kāi)了一種基于深度確定性策略的跳頻智能抗干擾決策方法。本發(fā)明包括:步驟1、建立雙變跳頻通信系統(tǒng)模型;步驟2、建立雙變跳頻通信系統(tǒng)抗干擾決策模型;步驟3、基于強(qiáng)化學(xué)習(xí)的優(yōu)化問(wèn)題轉(zhuǎn)換;步驟4、基于HDP?DDPG的雙變跳頻通信系統(tǒng)抗干擾決策;步驟5、訓(xùn)練HDP?DDPG網(wǎng)絡(luò),輸出抗干擾決策模型。本發(fā)明一方面通過(guò)回放更多立即回報(bào)高和時(shí)間差分誤差大的經(jīng)驗(yàn)來(lái)訓(xùn)練模型,使模型預(yù)測(cè)更精準(zhǔn);另一方面通過(guò)周期性衰減學(xué)習(xí)率使得網(wǎng)絡(luò)參數(shù)的更新速度呈周期性變化,探索速度豐富多樣,易于跳出局部最優(yōu)。從而有效提高了經(jīng)驗(yàn)樣本的利用效率,避免了陷入局部最優(yōu),加快了網(wǎng)絡(luò)的收斂速度。
技術(shù)領(lǐng)域
本發(fā)明屬于無(wú)線通信中跳頻抗干擾領(lǐng)域,特別涉及一種基于深度確定性策略的跳頻智能抗干擾決策方法。
背景技術(shù)
隨著科技的進(jìn)步,無(wú)線通信技術(shù)的發(fā)展突飛猛進(jìn),應(yīng)用范圍涉及各行各業(yè)。但由于傳輸介質(zhì)的開(kāi)放性,使得無(wú)線網(wǎng)絡(luò)容易受到干擾的攻擊。隨著科技的發(fā)展,干擾樣式越來(lái)越多,電磁環(huán)境復(fù)雜多變,面對(duì)這些未知的動(dòng)態(tài)干擾時(shí),傳統(tǒng)抗干擾技術(shù)可能完全失效。因此研究智能通用的跳頻抗干擾決策算法對(duì)于提高通信系統(tǒng)的質(zhì)量和安全性具有重要意義。
抗干擾決策是抗干擾通信系統(tǒng)的核心,決策過(guò)程的本質(zhì)是根據(jù)環(huán)境信息和信道質(zhì)量,在一定的約束條件下,依據(jù)決策準(zhǔn)則,自適應(yīng)地在解空間中尋找到抗干擾策略的最優(yōu)解的過(guò)程。由于抗干擾決策是在一個(gè)動(dòng)態(tài)隨機(jī)的電磁環(huán)境中進(jìn)行的,因此,從本質(zhì)上來(lái)說(shuō)屬于序貫決策問(wèn)題,即發(fā)射機(jī)需要根據(jù)環(huán)境變化不斷調(diào)整抗干擾策略并生成最優(yōu)通信參數(shù),同時(shí)根據(jù)抗干擾效果進(jìn)一步優(yōu)化抗干擾策略。近年來(lái)發(fā)展勢(shì)頭迅猛的強(qiáng)化學(xué)習(xí)算法正是適合且擅長(zhǎng)解決序貫決策問(wèn)題,它通過(guò)不斷與環(huán)境交互試錯(cuò)并根據(jù)環(huán)境反饋指導(dǎo)策略優(yōu)化并最終找到最優(yōu)策略的機(jī)制進(jìn)行自主學(xué)習(xí),同時(shí)無(wú)需過(guò)多的先驗(yàn)信息和預(yù)先提供的大量訓(xùn)練數(shù)據(jù)。因此眾多學(xué)者將強(qiáng)化學(xué)習(xí)算法應(yīng)用于通信抗干擾領(lǐng)域
但是現(xiàn)有基于深度強(qiáng)化學(xué)習(xí)方法的抗干擾方法往往是通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)策略來(lái)躲避干擾,雖然當(dāng)前時(shí)刻可以取得較好的抗干擾效果,然而通信用戶以往信號(hào)波形以及頻率決策信息可能已經(jīng)暴露。若智能干擾機(jī)提前獲取發(fā)射機(jī)的通信頻率并施加干擾則會(huì)導(dǎo)致通信失敗。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有跳頻通信系統(tǒng)的抗干擾決策的局限性,提出一種基于深度確定性策略的跳頻智能抗干擾決策方法,稱為HDP-DDPG。具體的,一方面通過(guò)回放更多立即回報(bào)高和時(shí)間差分誤差大的經(jīng)驗(yàn)來(lái)訓(xùn)練模型,使模型預(yù)測(cè)更精準(zhǔn);另一方面通過(guò)周期性衰減學(xué)習(xí)率使得網(wǎng)絡(luò)參數(shù)的更新速度呈周期性變化,探索速度豐富多樣,易于跳出局部最優(yōu),最后訓(xùn)練HDP-DDPG網(wǎng)絡(luò),得到最終決策模型。
本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案包括如下步驟:
步驟1、建立雙變跳頻通信系統(tǒng)模型;
步驟2、建立雙變跳頻通信系統(tǒng)抗干擾決策模型;
步驟3、基于強(qiáng)化學(xué)習(xí)的優(yōu)化問(wèn)題轉(zhuǎn)換;
步驟4、基于HDP-DDPG的雙變跳頻通信系統(tǒng)抗干擾決策;
步驟5、訓(xùn)練HDP-DDPG網(wǎng)絡(luò),輸出抗干擾決策模型。
本發(fā)明的有益效果是:
本發(fā)明將復(fù)雜電磁干擾中智能參數(shù)決策問(wèn)題表述為一個(gè)馬爾科夫決策過(guò)程,以獲得最高的信干噪比(signal?to?inference?plus?noise?ratio,SINR)。為了利用深度強(qiáng)化學(xué)習(xí)求解,根據(jù)優(yōu)化問(wèn)題設(shè)計(jì)了連續(xù)狀態(tài)和動(dòng)作及獎(jiǎng)勵(lì)形式,提出了一種深度確定性策略來(lái)處理連續(xù)空間問(wèn)題。
為了改善深度確定性策略的收斂速度慢和收斂不穩(wěn)定等問(wèn)題,本發(fā)明提出一種混合雙經(jīng)驗(yàn)池與周期更新學(xué)習(xí)率的深度確定性策略(HDP-DDPG)。該算法通過(guò)周期衰減的學(xué)習(xí)率增強(qiáng)算法的探索多樣性。同時(shí),設(shè)計(jì)一種復(fù)合的經(jīng)驗(yàn)優(yōu)先級(jí)計(jì)算方式,使得Agent在選擇經(jīng)驗(yàn)樣本時(shí)綜合考慮立即回報(bào)和時(shí)間差分誤差(TD-error),從而有效提高了經(jīng)驗(yàn)樣本的利用效率,避免了陷入局部最優(yōu),加快了網(wǎng)絡(luò)的收斂速度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211512206.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:緊急控制預(yù)案的隨機(jī)調(diào)度模型構(gòu)建方法、調(diào)度方法及系統(tǒng)
- 下一篇:一種巖質(zhì)邊坡破碎程度探測(cè)及評(píng)價(jià)方法
- 同類專利
- 專利分類
H04B 傳輸
H04B1-00 不包含在H04B 3/00至H04B 13/00單個(gè)組中的傳輸系統(tǒng)的部件;不以所使用的傳輸媒介為特征區(qū)分的傳輸系統(tǒng)的部件
H04B1-02 .發(fā)射機(jī)
H04B1-06 .接收機(jī)
H04B1-38 .收發(fā)兩用機(jī),即發(fā)射機(jī)和接收機(jī)形成一個(gè)結(jié)構(gòu)整體,并且其中至少有一部分用作發(fā)射和接收功能的裝置
H04B1-59 .應(yīng)答器;發(fā)射機(jī)應(yīng)答機(jī)
H04B1-60 .無(wú)人中繼器的監(jiān)視
- 一種計(jì)算機(jī)網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽(tīng)系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實(shí)體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評(píng)估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





