本發(fā)明提供一種分布式信道匯聚策略生成方法及裝置,方法包括:構(gòu)建優(yōu)化模型并初始化參數(shù);基于確定的順序?qū)Ω鱾€(gè)智能體進(jìn)行迭代學(xué)習(xí);基于退火溫度和當(dāng)前狀態(tài)選取作用于環(huán)境的動(dòng)作并更新各智能體的Q值;根據(jù)動(dòng)作相應(yīng)的信道選取策略進(jìn)行信道盲匯聚之后,對(duì)所述狀態(tài)空間、所述回報(bào)值和所述退火溫度進(jìn)行更新;當(dāng)重復(fù)迭代學(xué)習(xí)的過(guò)程直至滿足結(jié)束條件時(shí),根據(jù)所有智能體的Q值之和生成最優(yōu)盲匯聚策略。本發(fā)明通過(guò)將信道盲匯聚過(guò)程建模為模仿生物界共生種群關(guān)系,個(gè)體在具有不同功能的搜索算子共同作用下搜索最有效的生物體,使種群不斷進(jìn)化,逐步向最優(yōu)解逼近,從而能夠快速生成信道分配系統(tǒng)的匯聚策略,進(jìn)而有效提升無(wú)人集群系統(tǒng)的魯棒性和實(shí)時(shí)性。
技術(shù)領(lǐng)域
本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種分布式信道匯聚策略生成方法及裝置。
背景技術(shù)
目前,隨著集群控制算法與通信技術(shù)耦合等集群核心技術(shù)的發(fā)展,在軍事需求和高新科技進(jìn)步的雙重驅(qū)動(dòng)下,一些軍事強(qiáng)國(guó)紛紛加入無(wú)人集群技術(shù)裝備研發(fā)行列,并不同程度地取得一定成果。無(wú)人集群通常采用動(dòng)態(tài)無(wú)中心自組網(wǎng)技術(shù),能通過(guò)協(xié)同實(shí)現(xiàn)整體能力放大,借助自主技術(shù),無(wú)人集群作戰(zhàn)裝備能夠根據(jù)戰(zhàn)場(chǎng)形勢(shì)及時(shí)改變?nèi)后w位置和結(jié)構(gòu),鏈接為一個(gè)有機(jī)整體,實(shí)現(xiàn)作戰(zhàn)效能的最大化,特別是在部分甚至大部分個(gè)體嚴(yán)重受損的情況下,仍然能保持其他個(gè)體繼續(xù)協(xié)同作戰(zhàn)并完成任務(wù),是具有極強(qiáng)韌性的重要戰(zhàn)場(chǎng)制勝手段。
但是,當(dāng)前無(wú)人集群作戰(zhàn)系統(tǒng)智能化程度仍較低,自動(dòng)化、自主性和遠(yuǎn)程遙控水平尚無(wú)法滿足日益復(fù)雜和激烈的戰(zhàn)場(chǎng)對(duì)抗環(huán)境,特別是缺乏足夠的感知、分析、計(jì)劃、決策和執(zhí)行能力,在對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的自主感知和作戰(zhàn)行動(dòng)的自主實(shí)施等方面離實(shí)用化還有較大距離。
分布式信道盲匯聚是無(wú)人集群作戰(zhàn)亟需解決的關(guān)鍵技術(shù)之一,其本質(zhì)在于,節(jié)點(diǎn)之間不進(jìn)行信息交互和協(xié)商,不依賴于中心節(jié)點(diǎn)對(duì)其進(jìn)行指導(dǎo)接入,每一個(gè)節(jié)點(diǎn)自主決策競(jìng)爭(zhēng)接入,并且確保最終傳輸?shù)男诺琅c干擾范圍內(nèi)的其他節(jié)點(diǎn)傳輸?shù)男诺乐g互不干擾。但是,現(xiàn)有的分布式信道盲匯聚技術(shù)存在易于陷入維度災(zāi)難并對(duì)初始值設(shè)置較敏感的問(wèn)題,導(dǎo)致無(wú)人集群系統(tǒng)的魯棒性和實(shí)時(shí)性較低。
發(fā)明內(nèi)容
本發(fā)明提供一種分布式信道匯聚策略生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),能夠避免分布式信道盲匯聚易于陷入維度災(zāi)難并對(duì)初始值設(shè)置較敏感的問(wèn)題,從而提升無(wú)人集群系統(tǒng)的魯棒性和實(shí)時(shí)性。
第一方面,本發(fā)明提供一種分布式信道匯聚策略生成方法,包括:
構(gòu)建基于深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的信道匯聚優(yōu)化模型,并對(duì)所述信道匯聚優(yōu)化模型的參數(shù)進(jìn)行初始化;其中,所述信道匯聚優(yōu)化模型的智能體與無(wú)人集群系統(tǒng)的用戶端一一對(duì)應(yīng),所述用戶端的信道占用狀態(tài)對(duì)應(yīng)于所述信道匯聚優(yōu)化模型的狀態(tài)空間,所述用戶端的信道選取策略對(duì)應(yīng)于所述信道匯聚優(yōu)化模型的動(dòng)作空間;
根據(jù)預(yù)設(shè)的用戶端序列確定多智能體優(yōu)化順序,并基于所述多智能體優(yōu)化順序?qū)Ω鱾€(gè)智能體進(jìn)行迭代學(xué)習(xí);
針對(duì)每一所述智能體根據(jù)當(dāng)前的退火溫度以及當(dāng)前狀態(tài)從所述動(dòng)作空間中選擇出作用于環(huán)境的執(zhí)行動(dòng)作,并根據(jù)當(dāng)前的回報(bào)值基于預(yù)設(shè)的貝爾曼方程對(duì)每一智能體對(duì)應(yīng)的Q值進(jìn)行更新;其中,所述回報(bào)值由所述環(huán)境根據(jù)當(dāng)前的信道情況生成;
在根據(jù)與所述執(zhí)行動(dòng)作相對(duì)應(yīng)的信道選取策略進(jìn)行信道盲匯聚之后,對(duì)所述狀態(tài)空間、所述回報(bào)值和所述退火溫度進(jìn)行更新;
當(dāng)重復(fù)迭代學(xué)習(xí)的過(guò)程直至所述退火溫度達(dá)到預(yù)設(shè)的結(jié)束溫度且累計(jì)回報(bào)值滿足預(yù)設(shè)的穩(wěn)態(tài)條件時(shí),根據(jù)所有智能體的Q值之和生成最優(yōu)盲匯聚策略;其中,所述累計(jì)回報(bào)為迭代學(xué)習(xí)過(guò)程中所有回報(bào)值之和。
在一個(gè)實(shí)施例中,所述用戶端序列的確定方式包括:對(duì)所述無(wú)人集群系統(tǒng)的所有用戶端進(jìn)行排列組合,并將所有排列組合情況對(duì)應(yīng)的序列作為所述用戶端序列。