[發(fā)明專利]多智能體強對抗仿真方法、裝置及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202011270335.7 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112434791A | 公開(公告)日: | 2021-03-02 |
| 發(fā)明(設(shè)計)人: | 白樺;王群勇;孫旭朋 | 申請(專利權(quán))人: | 北京圣濤平試驗工程技術(shù)研究院有限責(zé)任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 楊云云 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 智能 對抗 仿真 方法 裝置 電子設(shè)備 | ||
1.一種多智能體強對抗仿真方法,其特征在于,包括:
從對抗仿真引擎獲取多輪演示對抗回放數(shù)據(jù),并基于所述對抗回放數(shù)據(jù),采用生成對抗網(wǎng)絡(luò)技術(shù),訓(xùn)練獲取神經(jīng)網(wǎng)絡(luò)策略模型;
利用所述神經(jīng)網(wǎng)絡(luò)策略模型,模擬所述多智能體在強對抗過程中的決策過程,完成多智能體強對抗仿真。
2.根據(jù)權(quán)利要求1所述的多智能體強對抗仿真方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)策略模型包括判別網(wǎng)絡(luò)和策略網(wǎng)絡(luò);
其中,所述判別網(wǎng)絡(luò)用于對輸入對抗數(shù)據(jù)進(jìn)行分類,所述判別網(wǎng)絡(luò)的輸出用于指示所述輸入對抗數(shù)據(jù)是否符合演示對抗策略;
所述策略網(wǎng)絡(luò)用于讀取所述強對抗過程的狀態(tài)數(shù)據(jù),并基于所述狀態(tài)數(shù)據(jù),產(chǎn)生在所述狀態(tài)數(shù)據(jù)下應(yīng)采取的對抗策略。
3.根據(jù)權(quán)利要求2所述的多智能體強對抗仿真方法,其特征在于,在所述訓(xùn)練獲取神經(jīng)網(wǎng)絡(luò)策略模型之前,還包括:
確定演示樣本與模仿樣本的判別損失總和,作為所述判別網(wǎng)絡(luò)的損失,所述判別網(wǎng)絡(luò)的損失函數(shù)表示如下:
Dloss=Dloss-expert+Dloss-learner;
式中,Dloss表示所述判別網(wǎng)絡(luò)的損失,Dloss-expert表示所述判別網(wǎng)絡(luò)對所述演示樣本的實際輸出與預(yù)期輸出的交叉熵,Dloss-learner表示所述判別網(wǎng)絡(luò)對所述模仿樣本的實際輸出與預(yù)期輸出的交叉熵;
確定所述判別網(wǎng)絡(luò)的目標(biāo)為最小化所述判別損失總和。
4.根據(jù)權(quán)利要求3所述的多智能體強對抗仿真方法,其特征在于,在所述確定演示樣本與模仿樣本的判別損失總和,作為所述判別網(wǎng)絡(luò)的損失之前,還包括:
按如下公式計算所述交叉熵,所述如下公式為:
l(x,y)=L={l1,...,ln,...,lN}T;
ln=-wn[yn·logxn+(1-vn)·log(1-xn)];
式中,l(x,y)表示向量x與y的交叉熵,定義為向量x與y各個分量的交叉熵組成的向量{l1,...,ln,...,lN}T,ln為向量x、y的對應(yīng)分量xn與yn的交叉熵,wn為分量n的權(quán)重,N為向量x、y的維數(shù)。
5.根據(jù)權(quán)利要求3或4所述的多智能體強對抗仿真方法,其特征在于,在所述訓(xùn)練獲取神經(jīng)網(wǎng)絡(luò)策略模型之前,還包括:
確定所述策略網(wǎng)絡(luò)的回報函數(shù)如下:
Reward=-log(D(ΠL));
式中,Reward表示所述策略網(wǎng)絡(luò)的回報,ПL表示所述模仿樣本,D(ПL)表示所述判別網(wǎng)絡(luò)對所述模仿樣本的實際輸出與預(yù)期輸出的交叉熵;
確定所述策略網(wǎng)絡(luò)的目標(biāo)為最大化所述策略網(wǎng)絡(luò)的回報;
和/或,確定所述策略網(wǎng)絡(luò)的損失函數(shù)如下:
式中,pd表示由所述策略網(wǎng)絡(luò)輸出的參數(shù)構(gòu)造的對抗命令參數(shù)概率分布,action表示從構(gòu)造的概率分布取樣獲得的命令參數(shù)取值,log_prob表示概率分布在action取值的樣本點的log概率密度,entropy表示概率分布的熵,β表示超參數(shù)。
6.根據(jù)權(quán)利要求5所述的多智能體強對抗仿真方法,其特征在于,所述利用所述神經(jīng)網(wǎng)絡(luò)策略模型,模擬所述多智能體在強對抗過程中的決策過程,包括:
基于所述策略網(wǎng)絡(luò)的輸出,構(gòu)造所述對抗命令參數(shù)概率分布,并從所述對抗命令參數(shù)概率分布取樣獲取對抗命令參數(shù);
按照所述對抗仿真引擎所需的接口格式,將所述對抗命令參數(shù)轉(zhuǎn)換為對抗命令列表,并將所述對抗命令列表輸入到所述對抗仿真引擎。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京圣濤平試驗工程技術(shù)研究院有限責(zé)任公司,未經(jīng)北京圣濤平試驗工程技術(shù)研究院有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011270335.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 農(nóng)業(yè)信息對抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對抗行為搜索算法
- 面向多種對抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對抗強度的對抗訓(xùn)練方法
- 對抗攻擊模型的訓(xùn)練方法及裝置
- 對抗樣本的生成方法和裝置
- 多樣本對抗擾動生成方法、裝置、存儲介質(zhì)和計算設(shè)備
- 一種無人集群協(xié)同博弈對抗的控制方法及系統(tǒng)





