[發明專利]針對智能體意外出錯情況的多智能體強化學習方法及系統在審
| 申請號: | 202110862910.0 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113592099A | 公開(公告)日: | 2021-11-02 |
| 發明(設計)人: | 李厚強;周文罡;趙鑒;趙有朋 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 針對 智能 意外 出錯 情況 強化 學習方法 系統 | ||
本發明公開了一種針對智能體意外出錯情況的多智能體強化學習方法及系統,引入了自適應掉線率,訓練過程中自適應地模擬環境中不同概率的出錯情況,使得模型在執行時能夠更好地去解決這一問題。此外,訓練框架具有普適性,因為不涉及到具體的訓練算法,它可以適用于一切中心化訓練去中心化執行范式的方法。
技術領域
本發明涉及多智能體強化學習技術領域,尤其涉及一種針對智能體意外出錯情況的多智能體強化學習方法及系統。
背景技術
合作多智能體問題近年來在自動駕駛、分布式物流優化、機器人群等多種領域得到了廣泛的應用。隨著深度神經網絡等技術的發展,應用深度強化學習技術已成為解決這一問題的主流方向。
解決此類問題的一種簡單方法是將合作多智能體問題轉化為單智能體強化學習問題,即將所有智能體的聯合狀態/行動空間整合為單一智能體的狀態/行動空間。我們稱之為集中式執行的合作多智能體強化學習方法。但這種方法中,聯合狀態-行動空間會隨著智能體數量的增加呈指數增長。此外,在許多現實環境中,由于智能體的部分可觀和智能體間通信限制,進行集中式執行變得不切實際。
另一種替代方法是把每個智能體當作獨立個體進行訓練,也就是分散式訓練。但是,在只有團隊獎勵的情況下,很難為不同的智能體設計有效的個體獎勵,無法鼓勵智能體直接的合作。與分散式訓練相比,集中式訓練不考慮智能體之間的通信約束,利用訪問全局信息,有利于更好地分配團隊獎勵、協調智能體之間的關系。
現有主流的多智能體強化學習訓練范式為集中式訓練、分散式執行。在這種范式中,每個智能體以中心化的方式使用全局信息進行訓練來學習策略,并以去中心化的方式僅基于局部信息進行執行。當前有許多工作都使用了這一范式,但是現有技術都基于一個假設:所有的智能體都可以連續地保持正常工作,不會出現故障的情況。而在現實中,硬件或軟件錯誤都可能導致某個智能體的意外出錯。而由于分散式執行的影響,其他智能體并不能及時地得知這一信息,而是繼續執行原有策略,這一情況會導致系統性能出現明顯的下降。
現有技術的缺點1:當在實際執行時出現智能體的掉線情況時,其不正常的執行會擾亂其他智能體的觀測輸入,進而破壞其他智能體的正常執行,在有效執行的智能體減少的情況下,進一步引起系統整體性能的下降。
現有技術的缺點2:現有技術在訓練時未考慮智能體的掉線情況,系統可能學習到一個較為簡單的策略就可以取得較為良好的表現,而放棄對最優策略的進一步探索,導致最后學習到的并不是最優策略,在實際出現掉線的情況時難以應對。
發明內容
本發明的目的是提供一種針對智能體意外出錯情況的多智能體強化學習方法及系統,能夠在出現智能體掉線的情況下依然保持性能的穩定。
本發明的目的是通過以下技術方案實現的:
一種針對智能體意外出錯情況的多智能體強化學習方法,其特征在于,包括:
多智能體強化學習過程中,引入自適應掉線率,根據當前自適應掉線率進行隨機采樣,將一部分智能體設置為掉線狀態,其他智能體正常工作,處于掉線狀態的智能體輸出隨機動作;
每隔設定的步數對當前模型進行測試,根據模型測試結果來調整自適應掉線率的大小。
一種針對智能體意外出錯情況的多智能體強化學習系統,該系統包括:
自適應掉線率設置與隨機采樣單元,用于多智能體強化學習過程中,引入自適應掉線率,根據當前自適應掉線率進行隨機采樣,將一部分智能體設置為掉線狀態,其他智能體正常工作,處于掉線狀態的智能體輸出隨機動作;
自適應掉線率調整單元,用于每隔設定的步數對當前模型進行測試,根據模型測試結果來調整自適應掉線率的大小。
一種處理設備,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110862910.0/2.html,轉載請聲明來源鉆瓜專利網。





