[發(fā)明專利]一種基于知識驅動的多智能體強化學習決策方法、系統及存儲介質在審
| 申請?zhí)枺?/td> | 202310089073.1 | 申請日: | 2023-02-03 |
| 公開(公告)號: | CN116090549A | 公開(公告)日: | 2023-05-09 |
| 發(fā)明(設計)人: | 殷昌盛;楊若鵬;楊遠濤;魯義威;韋文夏;石永琪;盧穩(wěn)新;何渤 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06N3/092 | 分類號: | G06N3/092;G06N3/09;G06N3/094;G06N3/042;G06N3/0475 |
| 代理公司: | 武漢東喻專利代理事務所(普通合伙) 42224 | 代理人: | 張英 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 驅動 智能 強化 學習 決策 方法 系統 存儲 介質 | ||
1.一種基于知識驅動的多智能體強化學習決策方法,其特征在于,包括:
S1.將基于知識重構的策略初始優(yōu)化引入智能體初始化步驟中,構成強化學習的初始階段;
S2.將基于知識導向的獎勵函數塑形引入強化學習過程中;
S3.獲取所述S2步驟的樣本數據集,訓練并更新神經網絡,產生輸出策略;
S4.收集所述S3步驟的所述輸出策略,利用所述輸出策略構建基于虛擬自博弈的聯盟訓練,將所述聯盟訓練結果用于更新智能體策略和對手池;
S5.停止訓練后,輸出最終策略。
2.如權利要求1所述的基于知識驅動的多智能體強化學習決策方法,其特征在于,步驟S1具體包括:
在強化學習初始階段引入模仿學習,構建基于先驗知識的智能體作為智能體博弈對抗訓練的對手。
3.如權利要求2所述的基于知識驅動的多智能體強化學習決策方法,其特征在于,還包括:
所述模仿學習是引入生成對抗網絡,采用基于生成對抗網絡的模仿學習方法,從專家策略中學習,實現面向經驗知識的模仿學習;
和/或引入生成對抗網絡,采用基于生成對抗網絡的模仿學習方法,使用重采樣方法從各類失敗樣本中挖掘失敗經驗,實現面向教訓知識的模仿學習。
4.如權利要求1所述的基于知識驅動的多智能體強化學習決策方法,其特征在于,步驟S2具體包括:
在強化學習過程中通過引入獎勵函數塑形方法,利用相應知識引導強化學習和加速學習過程。
5.如權利要求4所述的基于知識驅動的多智能體強化學習決策方法,其特征在于,還包括:
所述獎勵函數塑形方法包括利用歷史經驗知識,將作戰(zhàn)經驗進行形式化建模,并量化成經驗統計量,基于所述經驗統計量對獎勵函數進行塑形;
和/或利用強化學習過程中不斷產生的樣本數據,使用監(jiān)督學習方法從所述樣本數據中挖掘對抗過程成功經驗,基于所述成功經驗對獎勵函數進行塑形。
6.如權利要求3所述的基于知識驅動的多智能體強化學習決策方法,其特征在于,步驟S4具體包括:
收集所述S3步驟的所述輸出策略,利用所述輸出策略構建所述對手池,讓所述對手池內部的策略個體之間相互對抗訓練,重復上述構建對手池-對抗步驟,提升所述對手池內所述策略個體的水平,并利用所述策略個體更新所述智能體策略。
7.如權利要求6所述的基于知識驅動的多智能體強化學習決策方法,其特征在于,還包括:
所述對手池內部的所述策略個體至少分為主策略、聯盟針對者、主策略針對者三類,其中所述主策略是正在訓練的策略及其歷史策略,所述聯盟針對者是能打敗所述對手池里所有所述策略個體的策略,所述主策略針對者是能打敗所述主策略的策略;
所述基于先驗知識的智能體通過所述模仿學習的方式生成所述聯盟針對者策略的初始化策略個體和所述主策略針對者的初始化策略個體,并將上述的初始化策略個體加入所述對手池中;
在任何時刻所述主策略至多有1個正在進行所述相互對抗訓練,在任何時刻所述聯盟針對者策略至多有2個正在進行所述相互對抗訓練,在任何時刻所述主策略針對者至多有1個正在進行所述相互對抗訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310089073.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:存儲結構
- 下一篇:一種小粒徑單晶正極材料及其制備方法與鋰離子電池





