[發明專利]一種基于動作檢測機制的CGF行為建模方法及系統在審
| 申請號: | 202211683042.0 | 申請日: | 2022-12-27 |
| 公開(公告)號: | CN115906664A | 公開(公告)日: | 2023-04-04 |
| 發明(設計)人: | 黃林;潘昕;龔立;劉亞杰;施連會;王康勃;朱一鑫 | 申請(專利權)人: | 中國人民解放軍海軍工程大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06F18/214;G06N3/0442;G06N3/08 |
| 代理公司: | 武漢開元知識產權代理有限公司 42104 | 代理人: | 劉琳 |
| 地址: | 430000 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動作 檢測 機制 cgf 行為 建模 方法 系統 | ||
本發明公開了一種基于動作檢測機制的CGF行為建模方法及系統,在動作和獎勵兩方面引入交互引導式干預,用于訓練CGF行為模型使之可以在特定的任務環境中完成指定的任務,具體為:一是在模型輸出的動作基礎上增加檢測判斷機制;二是CGF與環境交互結果的獎勵值經過檢測判斷后再輸入至DR算法中。相比于直接采取不基于模型的DRL算法直接開展CGF行為模型運算,可以在CGF行為模型中融入更準確的動作經驗值,加速深度強化學習算法的收斂過程。本發明提供了一套較為完整的模型訓練流程和方法,可以為CGF行為建模提供參考,可以廣泛應用于軍事建模與仿真領域。
技術領域
本發明涉及計算機生成兵力行為建模技術領域,特別是涉及一種基于強化學習和動作檢測機制的計算機生成兵力行為建模方法和系統。
背景技術
計算機生成兵力(Computer?Generated?Force,CGF)是作戰仿真領域的重點研究內容之一,其思想是通過仿真的方式模擬戰場環境中的坦克、士兵和作戰飛機等軍事單位,主要用于戰術推演、模擬訓練和輔助決策等,以達到降低成本、擴大規模的目的。傳統的CGF建模方法有有限狀態機、行為樹、動態腳本等知識工程方法,主要針對具體的作戰任務,收集作戰條令、行動規程等領域專家知識直接描述行為輸出,一是通常需要耗費大量的時間和重復性迭代工作;二是CGF行為能力通常僅限于確定的理論和規則,產生的行為缺乏適應性。
強化學習(Reinforcement?Learning,RL)是機器學習的一個重要分支,是一種以環境反饋作為輸入并能通過人為定義的獎勵回報逐步適應環境的學習方法。強化學習智能體(Agent)通過不斷地與環境交互獲取經驗并學習到相應的策略。近年來,由于強化學習算法和計算機硬件能力的提升,該領域取得了長足進步,強化學習控制的智能體能夠適應日益復雜的環境并用于解決相關問題,開始逐步往模擬訓練、兵棋推演、紅藍雙方對抗等應用中拓展。然而,由于強化學習算法訓練所需樣本數量大、超參數影響和算法收斂的穩定性等方面問題,想要訓練得到穩定和可靠的強化學習智能體仍然是比較困難的,并且針對不同的應用領域目前還沒有相對統一的體系框架和通用的解決方案。目前,在強化學習算法及算法改進的領域可以查到大量的相關文獻,但針對特定領域的相對通用化的強化學習算法集成框架的文獻資料較少,相關算法的開發、訓練和應用流程框架也非常有限。
CGF行為建模是具有以下幾大特點,一是CGF在與環境的交互過程中需要盡可能多地試錯,因此需要探索大量的未知動作;二是CGF與環境有實時的交互,并且在交互的過程中會改變環境的狀態;三是CGF與環境的交互關注的是長線回報,即不以完成某個具體的動作如開火或隱蔽等為目的,而是以完成某個特定任務為最終目標。這三點決定了采用DL進行CGF建模是非常自然的且有優勢的。另一方面,深度學習(Deep?Learning,DL)近年來發展迅速,在眾多領域都取得了好的應用效果。深度強化學習(Deep?Reinforcement?Learning,DRL)是DL與RL的結合,是在RL的基礎上引入了深度神經網絡的概念,借助神經網絡強大的表征能力擬合Q函數或直接擬合策略以解決狀態-動作空間過大或連續狀態-動作空間問題,實現了從感知到動作的端到端的學習。因此,基于DRL的CGF行為建模能夠獲得泛化能力強的任務策略,同時能夠自動提取戰術特征,在建模效率、建模的客觀性和探索更大的動作空間方面具有更大的優勢,能夠克服上述所提迭代性工作和缺乏適應性的問題。
但是,即使目前最新的端到端的DRL算法仍然需要巨大的樣本量,而CGF行為建模可供使用的數據通常是有限的,因為戰斗數據的獲取通常非常困難且代價極大,所以DRL算法訓練到收斂的過程極為艱難。
發明內容
為了解決上述背景技術的不足之處,本發明提出一種基于動作檢測機制的強化學習驅動的CGF行為建模方法及系統,在動作和獎勵兩方面引入交互引導式干預,用于訓練CGF行為模型使之可以在特定的任務環境中完成指定的任務。
為實現上述目的,本發明所設計的一種基于動作檢測機制的CGF行為建模方法,其特殊之處在于,所述方法包括如下步驟:
S1基于LSTM-SAC算法框架構建CGF行為預測模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍海軍工程大學,未經中國人民解放軍海軍工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211683042.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于彈簧類零件的檢測夾具
- 下一篇:一種控溫式水處理緩蝕劑溶解混合設備





