[發明專利]多智能體強對抗仿真方法、裝置及電子設備在審
| 申請號: | 202011270335.7 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112434791A | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 白樺;王群勇;孫旭朋 | 申請(專利權)人: | 北京圣濤平試驗工程技術研究院有限責任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 楊云云 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 智能 對抗 仿真 方法 裝置 電子設備 | ||
本發明提供一種多智能體強對抗仿真方法、裝置及電子設備,其中所述方法包括:從對抗仿真引擎獲取多輪演示對抗回放數據,并基于所述對抗回放數據,采用生成對抗網絡技術,訓練獲取神經網絡策略模型;利用所述神經網絡策略模型,模擬所述多智能體在強對抗過程中的決策過程,完成多智能體強對抗仿真。本發明通過借助對歷史數據的學習,能夠加快多智能體強對抗模型的訓練速度,從而有效提高運算效率,并有效節約計算資源。
技術領域
本發明涉及系統仿真技術領域,尤其涉及一種多智能體強對抗仿真方法、裝置及電子設備。
背景技術
多智能體建模方法,是基于人工智能和組織行為學的一種模型理論,多智能體系統(Multi Agent System,MAS)與具體領域數學模型研究相結合,已經覆蓋仿生優化算法、計算經濟學、人工社會以及知識傳播工程及戰爭政治復雜系統等多個傳統和前沿科學領域。
現有的深度強化學習(Deep Reinforcement Learning,DQN)技術框架是建立多智能體強對抗模型的主要方法之一。但是,在多智能體強對抗應用中,連續的時序輸出動作空間維數龐大,導致DQN模型的參數數量也極為龐大。如果從初始值開始訓練模型參數,需要耗費大量的訓練時間,才能取得較為滿意的結果,效率較低。
發明內容
本發明提供一種多智能體強對抗仿真方法、裝置及電子設備,用以解決現有技術運算效率低的缺陷,實現有效提高運算效率的目標。
本發明提供一種多智能體強對抗仿真方法,包括:
從對抗仿真引擎獲取多輪演示對抗回放數據,并基于所述對抗回放數據,采用生成對抗網絡技術,訓練獲取神經網絡策略模型;
利用所述神經網絡策略模型,模擬所述多智能體在強對抗過程中的決策過程,完成多智能體強對抗仿真。
根據本發明一個實施例的多智能體強對抗仿真方法,所述神經網絡策略模型包括判別網絡和策略網絡;
其中,所述判別網絡用于對輸入對抗數據進行分類,所述判別網絡的輸出用于指示所述輸入對抗數據是否符合演示對抗策略;
所述策略網絡用于讀取所述強對抗過程的狀態數據,并基于所述狀態數據,產生在所述狀態數據下應采取的對抗策略。
根據本發明一個實施例的多智能體強對抗仿真方法,在所述訓練獲取神經網絡策略模型之前,還包括:
確定演示樣本與模仿樣本的判別損失總和,作為所述判別網絡的損失,所述判別網絡的損失函數表示如下:
Dloss=Dloss-expert+Dloss-learner;
式中,Dloss表示所述判別網絡的損失,Dloss-expert表示所述判別網絡對所述演示樣本的實際輸出與預期輸出的交叉熵,Dloss-learner表示所述判別網絡對所述模仿樣本的實際輸出與預期輸出的交叉熵;
確定所述判別網絡的目標為最小化所述判別損失總和。
根據本發明一個實施例的多智能體強對抗仿真方法,在所述確定演示樣本與模仿樣本的判別損失總和,作為所述判別網絡的損失之前,還包括:
按如下公式計算所述交叉熵,所述如下公式為:
l(x,y)=L={l1,...,ln,...,lN}T;
ln=-wn[yn·logxn+(1-yn)·log(1-xn)];
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京圣濤平試驗工程技術研究院有限責任公司,未經北京圣濤平試驗工程技術研究院有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011270335.7/2.html,轉載請聲明來源鉆瓜專利網。





