[發明專利]一種基于狀態動態感知的多智能體合作學習方法有效
| 申請號: | 201910162280.9 | 申請日: | 2019-03-05 |
| 公開(公告)號: | CN109978176B | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 王桂鴻;史景倫;鄧麗;張宇 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 狀態 動態 感知 智能 合作 學習方法 | ||
本發明公開了一種基于狀態動態感知的多智能體合作學習方法,通過自主訓練獲得協調完成任務目標的多智能體控制系統,步驟如下:對各個智能體分別進行狀態編碼;對每個智能體構建一個動態感知層對其狀態集合進行處理,將動態長度的狀態集合映射成固定長度的特征;每個智能體的特征輸入到各自帶有通信單元的Q值網絡,從網絡輸出中選取具有最大Q值的動作作為決策動作;各智能體將動作執行于環境,從環境中獲取反饋獎勵后,對所有智能體的動態感知層參數和Q值網絡參數進行更新;使用上述框架訓練多智能體,獲得多智能體合作控制系統。本發明適用于要求動態數量游戲角色合作完成任務的游戲系統中,可作為游戲中多智能體的人工智能系統。
技術領域
本發明涉及多智能體強化學習技術領域,具體涉及一種基于狀態動態感知的多智能體合作學習方法。
背景技術
多智能體系統是由多個可計算的智能體組成的集合,通過協調具有自主能力的智能體,協同地完成一系列系統動作從而達到預定目標。多智能體系統廣泛存在于現實生產生活中,如倉庫機器人、工業組裝機器人、網絡自動化與智能化及分布式智能決策等。特別是在游戲中,多個游戲角色進行合作完成任務目標的情況非常普遍,游戲角色的人工智能系統也極大地影響游戲產品的質量。多智能體強化學習方法在游戲產品中的應用,一方面可以減少人工對人工智能代碼的編寫,提高游戲的開發效率;另一方面多智能體強化學習具有自學習的特點,能夠根據游戲任務目標不斷學習提高自身能力,具有較強的魯棒性。
針對多智能體強化學習在游戲中的應用,目前提出的方法主要研究有以下三個方面。第一點是學習框架的研究,即采用集中式的多智能體學習框架,和采用分布式的多智能體學習框架。前者框架簡單,但計算量大且集中,后者則通過分布式的計算方式提高計算效率。第二點是信度分配問題,即研究多智能體合作時的各智能體對整體目標的貢獻度。第三點是多智能體間的通訊,主要是在分布式多智能體中,各智能體感知信息受限,如何通過學習有效的通信協議,以提高多智能體間的合作能力從而提高整體對目標的貢獻。
上述的研究對多智能體強化學習在游戲中的應用起到了極大的推動作用。但游戲中的多智能體具有數量變化快的特點。在多智能體參與任務過程中,由于血量和道具等的使用,可以使智能體脫離任務或參與到新任務中;由于智能體的感知域有限,單個智能體空間的變化,也會使其它智能體的感知狀態發生變化。在應用多智能體強化學習時,需要對這種動態變化處理成固定的特征,提高算法的穩定性。但過往的技術有的對智能體的數量進行截斷,導致丟失部分信息;有的通過人工對動態變化狀態進行提取,增加了人工成本投入且擴展性不強;有的則針對各種數量的情況單獨訓練模型,增加了計算的成本。
發明內容
本發明的目的是為了解決現有技術中的上述缺陷,提供了一種基于狀態動態感知的多智能體合作學習方法,通過設計一個狀態動態感知層,將智能體的動態長度狀態映射成固定程度的特征,解決多智能體系統中出現的動態長度狀態的問題;并且通過帶有GRU通信層的Q網絡,使動態數量的多智能體能夠進行合作學習,通過訓練達到完成任務目標的效果。
本發明的目的可以通過采取如下技術方案達到:
一種基于狀態動態感知的多智能體合作學習方法,所述的多智能體合作學習方法包括以下步驟:
S1、對各個智能體分別進行狀態編碼,使每一個智能體形成具有動態長度的狀態集合;
S2、對每個智能體,構建一個動態感知層對其狀態集合進行處理,將動態長度的狀態集合映射成為固定長度的特征;
S3、每個智能體的特征輸入到各自帶有通信單元的Q值網絡,從Q值網絡輸出中選取具有最大Q值的動作作為決策動作;
S4、各智能體將動作執行于環境,從環境中獲取反饋獎勵后,對所有智能體的動態感知層參數和Q值網絡參數進行更新;
S5、使用上述框架訓練多智能體,從而獲得具有完成既定任務目標的多智能體合作控制系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910162280.9/2.html,轉載請聲明來源鉆瓜專利網。





