[發明專利]一種基于策略遷移的多智能體協同進化方法在審
| 申請號: | 202111154201.3 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN113869511A | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 劉佳冀;陳思;高放;龍玉婧;王昭;席寶 | 申請(專利權)人: | 中國電子科技集團公司信息科學研究院 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;G06N20/00 |
| 代理公司: | 北京中知法苑知識產權代理有限公司 11226 | 代理人: | 李明;趙吉陽 |
| 地址: | 100086 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 策略 遷移 智能 體協 進化 方法 | ||
本發明涉及一種基于策略遷移的多智能體協同進化方法,包括如下步驟:初始化,將每個多智能體集合為一個向量,種群包含多個向量;對種群中的向量進行變異和交叉,獲得更新的種群;獲得更新的種群中的每個向量的代價值,并將更新后的種群學習經驗存入緩存區;對緩存區的向量進行策略搜索,然后將更新后的策略和學習經驗存入緩存區;用根據個體獎勵優化得到的策略向量替換掉當前種群中最差的向量;重復上述步驟,更新種群和迭代次數,直至迭代次數達到設定次數,結束循環,得到最終的進化種群,并根據代價值找出最優向量。本發明對多智能體種群進行進化,最大化稀疏的團隊獎勵,同時通過構建基于梯度的優化訓練個體策略,最大化密集的個體獎勵。
技術領域
本發明涉及的人工智能技術領域,尤其是一種基于策略遷移的多智能體協同進化方法,通過優化團隊獎勵實現團隊協作目標,同時利用個體獎勵激勵單Agent學習基本技能,再將單Agent學習到的基本技能周期性地加入進化種群,使得差分進化算法能夠利用通過特定個體獎勵學到的技能來優化全局目標。
背景技術
強化學習(reinforcement learning,RL)是機器學習的研究方向之一,其核心思想是通過智能體(Agent)與環境的不斷交互,以最大化累計回報為目標,選擇合理的行動。目前,主要的強化學習研究方法分為三類:基于值函數的強化學習方法、基于策略搜索的強化學習方法和基于環境建模的強化學習方法。
面對大規模復雜背景下的決策問題時,單Agent系統無法實現多個決策者之間存在的相互協作或競爭關系。多智能體系統(multi-agent system,MAS)通過研究單個Agent之間的協同和交互問題,解決復雜實時動態多智能體環境下的任務調度、資源分配、行為協調以及沖突消解等協同問題。多智能體強化學習(multi-agent reinforcement learning,MARL)是當前AI領域的研究熱點。
MARL算法主要可以分為四類:基于行為分析的方法,如自我博弈(self-play)等;基于通信的方法,如RIAL(reinforced inter-agent learning)、CommNet等;基于合作的方法,如多智能體深度確定性策略梯度算法(Multi-Agent Deep Deterministic PolicyGradient,MADDPG)等;基于對手建模的方法,如M3DDPG(Minimax MADDPG)等。
在MAS中,環境通常會給予智能體兩種獎勵:基于群體協作目標的團隊獎勵、基于單個Agent基本技能的個體獎勵。在復雜的多智能體環境下,個體獎勵比較密集,容易學習,而團隊獎勵需要通過多個Agent之間的合作產生,通常比較稀疏。現有的方法,如MADDPG,只優化個體獎勵而忽略團隊獎勵,會導致生成的策略難以高效完成團隊協作目標。而只優化團隊獎勵,忽略個體獎勵,由于團隊獎勵的稀疏性,會導致訓練失敗或者面對復雜任務時樣本無效。通常解決上述問題的方法是獎勵設計,但在復雜的環境下設計獎勵十分困難,并且依賴特定環境和任務,需要手動調優,復用性差。
發明內容
本發明針對上述問題,提出了一種基于策略遷移的多智能體協同進化方法,本發明對多智能體種群進行進化,最大化稀疏的團隊獎勵,同時通過構建基于梯度的優化訓練個體策略,最大化密集的個體獎勵。基于梯度的策略被周期性地加入進化種群中,參與進化;不需要設計復雜的獎勵函數,不依賴特定環境和任務,不需要手動調優,復用性好,可以通過分別直接優化團隊獎勵和個體獎勵達到協同進化的效果。
本發明提供如下技術方案:一種基于策略遷移的多智能體協同進化方法,包括如下步驟:初始化,將每個多智能體集合為一個向量,種群包含多個向量;對種群中的向量進行變異和交叉,獲得更新的種群;獲得更新的種群中的每個向量的代價值,并將更新后的種群學習經驗存入緩存區;對緩存區的向量進行策略搜索,然后將更新后的策略和學習經驗存入緩存區;用根據個體獎勵優化得到的策略向量替換掉當前種群中最差的向量;重復上述步驟,更新種群和迭代次數,直至迭代次數達到設定迭代次數,結束循環,得到最終的進化種群,并根據代價值找出最優向量,既最佳策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司信息科學研究院,未經中國電子科技集團公司信息科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111154201.3/2.html,轉載請聲明來源鉆瓜專利網。





