[發明專利]一種多智能體協作環境強化學習算法的測試方法有效
| 申請號: | 202010648233.8 | 申請日: | 2020-07-07 |
| 公開(公告)號: | CN111814988B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 殷永峰;謝靜;李秋儒;王軼辰 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;A63F13/822 |
| 代理公司: | 北京清大紫荊知識產權代理有限公司 11718 | 代理人: | 張卓 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 體協 環境 強化 學習 算法 測試 方法 | ||
本發明屬于智能體深度強化學習的測試領域,為多智能體協作環境強化學習算法的測試方法。所述多智能體協作環境深度強化學習算法中的智能體為兩大類,一類是空間動作相對固定化的智能體,一類是動作和狀態空間復雜的智能體,第一類智能體采用求最大置信回報值的算法(UCB算法),第二類智能體采用求取最優聯合動作和狀態的全局函數(QMIX算法)。本發明針對兩種算法的特點,分析多智能體訓練模型輸出的回報值和收益值,得收斂速度和效果的影響因子,通過分析影響因子得出測試多智能體協作環境出算法深度強化學習的測試技術要點,為多智能體協作環境下深度學習算法的驗證提供了有效依據。
技術領域
本發明屬于智能體深度強化學習的測試技術領域,尤其涉及一種多智能體協作環境強化學習算法的測試方法。
背景技術
自然界存在大量的多智能體系統,如魚群、蟻群等,小小的個體通過種群間相互學習獲得強大的生存能力,人工多智能體系統如果也賦予這種群智能,進而獲得最優個體和群體的收益,最直接的思路既是將智能學習算法用于多智能體。
多智能體強化學習需要解決很多難題,首先,在單個智能體做決策時,需要考慮對其他智能體行為的影響,在智能體數量較多且特性不一時,系統復雜度增大,不能保證學習算法在所有情況下都能收斂。其次,智能體之間必須協作有效,才能使得對環境的聯合回報達到最優。
近年來,多智能體深度強化學習得到了比較快速的發展,應用場景涵蓋了很多領域,尤其在軍事領域的應用也越發廣泛,例如DeepMind提出更復雜的即時戰略游戲,在這種環境中對抗雙方都是復雜多智能體系統,且具有連續動作空間,大大增加了學習難度,同時也對算法穩定性提出嚴峻的挑戰。
智能算法中解決多臂賭博機問題的UCB算法,在軍事領域中可用來訓練動作和狀態空間固化或較小類的智能體,從而解決部署問題,對于動作連續性較強類的智能體,可采用DDPG、MADDPG或QMIX算法。智能體學習采用的算法效果如何,就需要對算法進行評估,傳統的測試方法和標準已不能滿足多智能體系統的需求,研究多智能體強化學習軟件的測試技術也顯得尤為重要。如何設計有效的測試策略(輸入和預期效果),對驗證軟件的質量起著關鍵作用。
發明內容
為了解決上述問題,本發明提出一種多智能體協作環境強化學習算法的測試方法,為多智能體協作環境下深度學習算法(UCB和QMIX)的驗證提供了評估依據。
一種多智能體協作環境強化學習算法的測試方法,包括以下步驟:
在測試前期,分析各個智能體訓練算法特性,得出智能體訓練算法影響因子;
根據智能體訓練算法影響因子,得出驗證智能體訓練效果的測試策略;
測試最后階段,分析各個智能體訓練算法協作訓練的測試策略,得出智能體訓練算法協作影響因子;
根據智能體訓練算法協作影響因子驗證智能體訓練效果,得出多智能體協作環境下深度學習算法測試方法。
優選的,所述智能體訓練算法包含UCB算法和QMIX算法,其中UCB算法用于訓練動作和狀態空間固化或較小的智能體(Ⅰ類),QMIX算法用于訓練動作和狀態空間大且復雜的智能體(Ⅱ類)。
優選的,所述驗證智能體訓練效果的測試策略,包括UCB算法訓練效果的驗證和QMIX算法訓練效果的驗證。
優選的,所述UCB算法訓練效果的驗證,具體過程為:
1)根據UCB算法得出訓練影響因子:空間位置獎懲值、智能體數量、空間位置樣本量;
2)輸入調整后的空間位置獎懲值,則空間位置獎懲值較高的位置回報值高且被選次數較多,收斂速度加快;
3)修改智能體數量后開始訓練,在智能體數量增多時算法收斂速度減慢,減小后收斂速度加快,輸出的回報值始終被歸一化;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010648233.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種叉車
- 下一篇:一種有人或無人駕駛裝甲電動車





