[發明專利]一種基于強化學習的域協調多智能體系統協作控制方法有效
| 申請號: | 202110863195.2 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113625561B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 張寅;王淑晗 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04;G06F30/27;G06N3/048;G06N3/08;G06N3/0464 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 協調 智能 體系 協作 控制 方法 | ||
本發明公開了一種基于強化學習的域協調多智能體系統協作控制方法。該方法將每個機器人視為多域協作場景中的一個智能體,對其進行域的劃分;然后使用先驗域信息作為監督信號,在圖卷積層中約束同域智能體之間形成更加相似的域共識向量,進行域內強協調。域共識向量可被理解為同域智能體之間應產生的對于環境的共同認知,有助于智能體加深對環境的理解,形成更緊密的合作關系;再通過圖網絡進行鏈路傳播,在集中式價值網絡中溝通各個智能體,完成域內強協調和域外弱協調的統一;模型訓練完成后策略網絡分散執行,根據智能體的觀察決定采取的動作。和現有技術相比,本發明在多域協作場景下有出色表現,大大提高了多智能體系統的協作效率。
技術領域
本發明屬于多智能體系統協作控制的技術領域,具體涉及一種基于強化學習的域協調多智能體系統協作控制方法,針對多域協作場景下的控制任務,可提高多智能體系統協作控制效率。
背景技術
強化學習(Reinforcement?Learning)作為機器學習的一種方法,常用于解決序列決策問題。它將序列決策問題建模為外部環境,根據對外部環境的觀察來采取動作并獲得外部環境的反饋信號。智能體根據這個反饋信號來衡量動作的好壞,并從中總結經驗,逐步學習,得到最優的決策序列。由于傳統強化學習在高維空間存在諸如“維度災難”(curse?ofdimensionality)問題,相關研究利用深度學習來自動學習大規模輸入數據的抽象表征,誕生了深度強化學習(Deep?Reinforcement?Learning)。深度強化學習是人工智能領域的前沿研究方向,具有非常廣闊的應用前景,近年來在游戲、機器人控制任務上都取得出色表現。
常見的領域內先進的強化學習算法,大多是單智能體設置,而在現實世界的問題中,存在著更多并不是單智能體系統能夠解決的決策問題。在人類社會中,個人不是獨立存在并創造價值的,人們通過合理的分工,合作完成許多復雜任務,比如足球比賽、多人競技游戲等等。
相比于單智能體問題,多智能體協作控制任務往往更加困難,面臨著諸多挑戰:1)可伸縮性。隨著智能體數量的增加,多智能體系統的狀態和動作空間呈現指數增長,使得計算控制成本高昂;2)不穩定性。若將多智能體系統建模為多個獨立的單智能體,就忽略了其他智能體的策略隨著時間變化的事實,環境的不穩定性會影響算法收斂;3)部分可觀察性。智能體與環境交互的過程中,并不能獲得環境的全部信息,而是只能獲得自己可見范圍內的一小部分信息,也給策略學習帶來了困難。
對于具有多個機器人人協同工作的場景,如何在多智能體系統中更好地建模代表機器人的智能體之間的關系,并將其用于協調各機器人之間的行為以達成合作,是目前多智能體協作控制算法關注的重點。
發明內容
為了解決多域場景下多智能體的協作問題,提升多智能體協作效率,本發明提供了一種基于強化學習的域協調多智能體系統協作控制算法,并將其用于機器人群體協同控制中,以各個智能體的觀察向量作為輸入,輸出當前采取的動作向量。本發明基于多智能體強化學習Actor-Critic框架,引入了先驗域信息作為監督信號,在圖卷積層中約束同域智能體形成相似的域共識向量,隱含著對環境的共同認知,在域共識向量的基礎上通過圖網絡進行鏈路傳播,達到同步完成域內強協調和域外弱協調的目的。在多域協作控制場景下,本發明相比其他方法有顯著提升。
為了達到上述目的,本發明采用的具體技術方案如下:
一種基于強化學習的域協調多智能體系統協作控制方法,其包括如下步驟:
S1、針對待協作控制的多個機器人,將每個機器人視為多域協作場景中的一個智能體,對其進行域的劃分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110863195.2/2.html,轉載請聲明來源鉆瓜專利網。





