[發(fā)明專(zhuān)利]一種用于非對(duì)稱(chēng)對(duì)抗場(chǎng)景自博弈訓(xùn)練的對(duì)稱(chēng)場(chǎng)景嫁接方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011364611.6 | 申請(qǐng)日: | 2020-11-27 |
| 公開(kāi)(公告)號(hào): | CN112380780A | 公開(kāi)(公告)日: | 2021-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 張佳;路鷹;任金磊;黃虎;李君;鄭本昌;王振亞;吳志壕;閻巖;韓特;古月;劉岱 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)運(yùn)載火箭技術(shù)研究院 |
| 主分類(lèi)號(hào): | G06F30/27 | 分類(lèi)號(hào): | G06F30/27;G06N3/04;G06N3/08 |
| 代理公司: | 中國(guó)航天科技專(zhuān)利中心 11009 | 代理人: | 張曉飛 |
| 地址: | 100076 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 對(duì)稱(chēng) 對(duì)抗 場(chǎng)景 博弈 訓(xùn)練 嫁接 方法 | ||
本發(fā)明一種用于非對(duì)稱(chēng)對(duì)抗場(chǎng)景自博弈訓(xùn)練的對(duì)稱(chēng)場(chǎng)景嫁接方法,為針對(duì)對(duì)待解決問(wèn)題的非對(duì)稱(chēng)對(duì)抗場(chǎng)景的特點(diǎn)進(jìn)行嫁接,完成對(duì)稱(chēng)場(chǎng)景設(shè)計(jì)。開(kāi)展了EN網(wǎng)絡(luò)模型的設(shè)計(jì)、基于誤差反向傳播算法的參數(shù)訓(xùn)練、用模擬退火算法代替MCTS進(jìn)行網(wǎng)絡(luò)模型變異;并完成對(duì)抗場(chǎng)景的新型網(wǎng)絡(luò)模型訓(xùn)練及試驗(yàn),完成嫁接后對(duì)稱(chēng)場(chǎng)景的評(píng)價(jià)與評(píng)估。
技術(shù)領(lǐng)域
本發(fā)明涉及一種對(duì)抗場(chǎng)景的對(duì)稱(chēng)場(chǎng)景嫁接方法,尤其涉及一種用于非對(duì)稱(chēng)對(duì)抗場(chǎng)景自博弈訓(xùn)練的方法。
背景技術(shù)
針對(duì)航天領(lǐng)域?qū)寡b備在各型戰(zhàn)役中的對(duì)抗效能需求,以AlphaGo自博弈訓(xùn)練方法為基礎(chǔ),創(chuàng)新性構(gòu)建對(duì)稱(chēng)嫁接場(chǎng)景,在不缺失任何對(duì)抗特征的條件下,使不同裝備武裝的場(chǎng)景轉(zhuǎn)換為對(duì)稱(chēng)場(chǎng)景。同時(shí)采用模擬退火算法代替AlphaGo Zero自博弈訓(xùn)練方法中蒙特卡洛搜索策略,實(shí)現(xiàn)了態(tài)勢(shì)價(jià)值網(wǎng)絡(luò)的變異,該算法能夠在變異和對(duì)抗迭代的過(guò)程中自適應(yīng)調(diào)整,直到得到最優(yōu)參數(shù)。在航天領(lǐng)域裝備對(duì)抗場(chǎng)景中,創(chuàng)新實(shí)現(xiàn)了對(duì)抗場(chǎng)景下自博弈訓(xùn)練樣本的生成,解決了對(duì)抗場(chǎng)景效果評(píng)估缺乏數(shù)據(jù)的難題。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)解決問(wèn)題:克服現(xiàn)有技術(shù)的不足,提供一種用于非對(duì)稱(chēng)對(duì)抗場(chǎng)景自博弈訓(xùn)練的對(duì)稱(chēng)場(chǎng)景嫁接方法,解決了對(duì)抗場(chǎng)景效果評(píng)估缺乏數(shù)據(jù)的難題。
本發(fā)明的技術(shù)方案是:一種用于非對(duì)稱(chēng)對(duì)抗場(chǎng)景自博弈訓(xùn)練的對(duì)稱(chēng)場(chǎng)景嫁接方法,步驟如下:
1)完成對(duì)稱(chēng)場(chǎng)景設(shè)計(jì);
2)開(kāi)展EN網(wǎng)絡(luò)模型的設(shè)計(jì);
3)在步驟2)的基礎(chǔ)上,開(kāi)展基于誤差反向傳播算法的參數(shù)訓(xùn)練;
4)在步驟3)的基礎(chǔ)上,進(jìn)行場(chǎng)景構(gòu)建;
5)在完成1)~4)的基礎(chǔ)上,開(kāi)展對(duì)抗場(chǎng)景的新型EN網(wǎng)絡(luò)模型訓(xùn)練及試驗(yàn),完成嫁接后對(duì)稱(chēng)場(chǎng)景的評(píng)價(jià)與評(píng)估。
所述步驟1)的具體過(guò)程為:構(gòu)建對(duì)稱(chēng)嫁接場(chǎng)景,在不缺失任何對(duì)抗特征的條件下,使不同裝備武裝的場(chǎng)景轉(zhuǎn)換為對(duì)稱(chēng)場(chǎng)景;根據(jù)對(duì)航天領(lǐng)域裝備對(duì)抗的理解和場(chǎng)景中各功能級(jí)模型開(kāi)發(fā)過(guò)程中的經(jīng)驗(yàn)以及不同裝備武裝的條件下人機(jī)對(duì)抗過(guò)程中的大量總結(jié),從影響EN網(wǎng)絡(luò)的眾多因素中,包括艦船當(dāng)前所處位置、艦船位置預(yù)判、發(fā)射陣地位置、血值、裝彈量、雙方距離,提取敵方艦船所處的位置以及血值兩個(gè)主要因素作為EN網(wǎng)絡(luò)輸入,實(shí)現(xiàn)自博弈訓(xùn)練方法在航天裝備對(duì)抗效能評(píng)估中的適應(yīng)性改造和成功應(yīng)用。
所述步驟2)的具體過(guò)程為:整個(gè)EN網(wǎng)由若干個(gè)子網(wǎng)構(gòu)成{EN1,EN2,……,ENn},每個(gè)EN子網(wǎng)擁有同類(lèi)型的特征輸入、相同的網(wǎng)絡(luò)結(jié)構(gòu),各個(gè)子網(wǎng)的輸出作為輸入同樣通過(guò)全連接結(jié)構(gòu)相連,最終得到整個(gè)EN的輸出。
所述步驟2)的具體過(guò)程為:EN網(wǎng)絡(luò)采用兩個(gè)子EN{EN1,EN2}構(gòu)成,EN1的網(wǎng)絡(luò)輸入特征為五艘艦船的血值hp,網(wǎng)絡(luò)為四層網(wǎng)絡(luò),其中隱藏層數(shù)為兩層,輸入hp特征參數(shù)為離散化空間{0,1,2,3,4,5,6}中的取值,輸出為一維實(shí)數(shù)空間,代表由艦船血值決定的我方或敵方的力量強(qiáng)弱,當(dāng)hp較高時(shí)EN1輸出較大,隨著hp的減小EN1逐漸減??;EN1網(wǎng)絡(luò)第一個(gè)輸入為旗艦的血值;
EN2的網(wǎng)絡(luò)輸入特征為五艘艦船的位置,即被探測(cè)狀態(tài)Ship_Detect,其網(wǎng)絡(luò)結(jié)構(gòu)與EN1網(wǎng)絡(luò)結(jié)構(gòu)相同,EN2代表由艦船是否被探測(cè)到?jīng)Q定的我方或敵方的力量強(qiáng)弱,被探測(cè)狀態(tài)于EN2的取值成反比關(guān)系,即當(dāng)艦船未被探測(cè)到時(shí)EN2較大,隨著艦船逐一被探測(cè),EN2將逐漸減小。
整個(gè)EN由EN1和EN2構(gòu)成,通過(guò)一個(gè)三層全連接網(wǎng)絡(luò)構(gòu)成,通過(guò)網(wǎng)絡(luò)形成的EN自動(dòng)調(diào)節(jié)EN1和EN2非線(xiàn)性關(guān)系,經(jīng)過(guò)訓(xùn)練在對(duì)抗中達(dá)到更好的效果;對(duì)于勝利方拿到樣本后需要訓(xùn)練兩個(gè)EN網(wǎng)絡(luò):我方EN和地方EN,兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)相同,但具體參數(shù)不同。
所述步驟4)中,場(chǎng)景構(gòu)建采用模擬退火算法實(shí)現(xiàn)態(tài)勢(shì)價(jià)值網(wǎng)絡(luò)的變異。
所述步驟5)中EN訓(xùn)練循環(huán)步驟如下:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)運(yùn)載火箭技術(shù)研究院,未經(jīng)中國(guó)運(yùn)載火箭技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011364611.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 農(nóng)業(yè)信息對(duì)抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源線(xiàn)性規(guī)劃最優(yōu)分配方法
- 基于聚類(lèi)數(shù)據(jù)挖掘的對(duì)抗行為搜索算法
- 面向多種對(duì)抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對(duì)抗強(qiáng)度的對(duì)抗訓(xùn)練方法
- 對(duì)抗攻擊模型的訓(xùn)練方法及裝置
- 對(duì)抗樣本的生成方法和裝置
- 多樣本對(duì)抗擾動(dòng)生成方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算設(shè)備
- 一種無(wú)人集群協(xié)同博弈對(duì)抗的控制方法及系統(tǒng)
- 電視場(chǎng)景切換的方法及電視
- 視頻場(chǎng)景控制系統(tǒng)及方法
- 場(chǎng)景開(kāi)關(guān)及其場(chǎng)景開(kāi)關(guān)構(gòu)件和場(chǎng)景圖標(biāo)卡組件
- 場(chǎng)景聯(lián)動(dòng)方法及場(chǎng)景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場(chǎng)景分類(lèi)方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場(chǎng)景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場(chǎng)景分類(lèi)識(shí)別系統(tǒng)及方法
- 一種虛擬場(chǎng)景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車(chē)圖像場(chǎng)景庫(kù)數(shù)據(jù)復(fù)雜度度量方法
- 場(chǎng)景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





