[發明專利]一種決策網絡模型自博弈訓練方法及系統有效
| 申請號: | 201811410380.0 | 申請日: | 2018-11-23 |
| 公開(公告)號: | CN109598342B | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 任金磊;路鷹;張耀磊;李君;黃虎;鄭本昌;張佳;晁魯靜;倪越;呂靜 | 申請(專利權)人: | 中國運載火箭技術研究院 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 中國航天科技專利中心 11009 | 代理人: | 范曉毅 |
| 地址: | 100076 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 決策 網絡 模型 博弈 訓練 方法 系統 | ||
一種決策網絡模型自博弈訓練方法,包括如下步驟:步驟一、采用模擬退火算法對EN網絡的初始網絡參數進行變異,變異后得到紅方EN網絡和藍方EN網絡;步驟二、將步驟一中所述的紅方EN網絡和藍方EN網絡放入對抗環境進行博弈對抗,記錄對抗關鍵節點的決策數據和EN值;步驟三、對步驟二中博弈對抗的勝利方的決策數據和EN值作為有效樣本進行保存,將失敗方的數據淘汰;步驟四、根據步驟三中的有效樣本對EN網絡進行訓練,獲得優化后的網絡參數,將優化后的網絡參數作為新的初始網絡參數;步驟五、循環重復步驟一到步驟四,實現自博弈訓練。本發明通過使用自博弈訓練方法,可以形成層次化的AI決策智能體,為博弈指揮員提供高水平輔助決策支持。
技術領域
本發明涉及一種決策網絡模型自博弈訓練方法及系統,屬于人工智能技術領域。
背景技術
近年來,人工智能技術發展迅速,在自主博弈方面取得了很大的進展,在棋牌類對抗、圖像/語音識別、簡單游戲對抗等領域已經達到或超過人類最高水平。而以美國為代表的軍事強國在基于AI的裝備作戰指揮與對抗控制上投入了大量的研究經費??梢灶A見,人工智能將會在決策領域發揮越來越重要的作用,其中,智能化仿真推演可以有效提高指揮員的訓練水平,采用智能輔助決策是未來發展的必然趨勢。目前具有代表意義的訓練方法有,AlphaGo Zero自博弈訓練方法、誤差反向傳播學習算法、蒙特卡洛樹搜索(MCTS)策略。
自博弈訓練技術在圍棋領域取得舉了世矚目的成果。DeepMind公司研發的AlphaGo Zero的主要技術就包括自我博弈,你中有我,我中有你,互相對抗,不斷自我進化。
另外,誤差反向傳播學習算法(簡稱BP算法)為代表的監督學習訓練方法已經成為了訓練深度神經網絡模型的標準流程。就網絡的結構而言,深度神經網絡與傳統的人工神經網絡相比具有了更多的隱藏層以及每層具有了更多的神經元個數。
蒙特卡洛樹搜索(MCTS)策略,該策略只適用于類似圍棋這樣樹形結構能夠從多路徑中隨機選擇一條路徑的自博弈訓練。
發明內容
本發明要解決的技術問題是:克服現有技術的不足,提供了一種決策網絡模型自博弈訓練方法及系統,采用自博弈訓練方法,通過對單輸出決策網絡參數變異,在博弈迭代中有效提高參數的搜索效率,解決了智能決策中樣本不足和博弈對抗中單輸出類的問題。
本發明目的通過以下技術方案予以實現:
一種決策網絡模型自博弈訓練方法,包括如下步驟:
步驟一、采用模擬退火算法對EN網絡的初始網絡參數進行變異,變異后得到紅方EN網絡和藍方EN網絡;
步驟二、將步驟一中所述的紅方EN網絡和藍方EN網絡放入對抗環境進行博弈對抗,記錄對抗關鍵節點的決策數據和EN值;
步驟三、對步驟二中博弈對抗的勝利方的決策數據和EN值作為有效樣本進行保存,將失敗方的數據淘汰;
步驟四、根據步驟三中的有效樣本對EN網絡進行訓練,獲得優化后的網絡參數,將優化后的網絡參數作為新的初始網絡參數;
步驟五、循環重復步驟一到步驟四,實現自博弈訓練。
上述決策網絡模型自博弈訓練方法,步驟二中所述對抗環境為非完備條件的對稱博弈對抗場景。
上述決策網絡模型自博弈訓練方法,利用反向傳播算法對步驟四中的有效樣本進行學習,然后灌入EN網絡進行訓練。
上述決策網絡模型自博弈訓練方法,步驟一中所述采用模擬退火算法對初始網絡參數進行變異,該初始網絡參數的變異為隨機變異。
上述決策網絡模型自博弈訓練方法,所述EN網絡由多個EN子網絡構成,每個EN子網絡的特征輸入為同類型,每個EN子網絡的網絡結構均相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國運載火箭技術研究院,未經中國運載火箭技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811410380.0/2.html,轉載請聲明來源鉆瓜專利網。





