[發明專利]一種多智能體協作環境強化學習算法的測試方法有效
| 申請號: | 202010648233.8 | 申請日: | 2020-07-07 |
| 公開(公告)號: | CN111814988B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 殷永峰;謝靜;李秋儒;王軼辰 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;A63F13/822 |
| 代理公司: | 北京清大紫荊知識產權代理有限公司 11718 | 代理人: | 張卓 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 體協 環境 強化 學習 算法 測試 方法 | ||
1.一種多智能體協作環境強化學習算法的測試方法,其特征在于,包括以下步驟:
在測試前期,分析智能體UCB算法訓練算法階段特性,得出影響UCB算法模型訓練效果的智能體訓練算法階段影響因子為智能體位置空間的獎懲值設置、智能體的數量和部署的位置空間樣本量;
根據智能體訓練算法訓練影響因子,通過調整位置空間的獎懲值,產生算法的預期回報值和收斂速度;通過改變智能體的數量,查看智能體訓練的速度和歸一化程度,通過增加或減少位置空間樣本量,查看智能體訓練的預期回報值輸出和收斂速度,驗證測試影響因子有效性,得出驗證智能體學習UCB算法的測試策略;
分析QMIX算法,聯合動作值函數與單個智能體的局部值函數的單調性相同,使聯合動作值函數最大,結合算法特性,得出影響QMIX算法模型訓練效果的因子為單個智能體的動作空間屬性、對抗樣本規則、智能體的數量和樣本量;
通過修改智能體的動作空間屬性,產生算法的預期總收益值和收斂速度;通過改變樣本規則或訓練樣本量,得出智能體訓練的勝率或速度,通過增加或減少智能體數量,得出智能體訓練的預期總收益值和收斂效果,驗證測試影響因子有效性,得出驗證智能體學習QMI算法的測試策略;
測試最后階段,根據智能體UCB算法和QMIX算法的測試策略,分析協作訓練的測試策略,得出智能體訓練算法協作影響因子包括協作訓練規則、智能體訓練和測試樣本、協作智能體數量;
根據智能體訓練算法協作影響因子驗證智能體訓練效果,完成對多智能體協作環境下深度學習算法的測試。
2.根據權利要求1所述的一種多智能體協作環境強化學習算法的測試方法,其特征在于,UCB算法用于訓練動作和狀態空間固化或較小的Ⅰ類智能體,QMIX算法用于訓練動作和狀態空間大且復雜的Ⅱ類智能體。
3.根據權利要求1所述的一種多智能體協作環境強化學習算法的測試方法,其特征在于,所述驗證智能體訓練效果的測試策略,包括UCB算法訓練效果的驗證和QMIX算法訓練效果的驗證。
4.根據權利要求3所述的一種多智能體協作環境強化學習算法的測試方法,其特征在于,所述UCB算法訓練效果的驗證,具體過程為:
1)根據UCB算法得出訓練影響因子:空間位置獎懲值、智能體數量、空間位置樣本量;
2)輸入調整后的空間位置獎懲值,則空間位置獎懲值較高的位置回報值高且被選次數較多,收斂速度加快;
3)修改智能體數量后開始訓練,在智能體數量增多時算法收斂速度減慢,減小后收斂速度加快,輸出的回報值始終被歸一化;
4)修改空間位置樣本量后開始訓練,位置空間增多則收斂速度減慢,位置空間減少時收斂速度加快,被選中位置的回報值最高;
滿足上述過程,則算法訓練效果較好,反之較差。
5.根據權利要求3所述的一種多智能體協作環境強化學習算法的測試方法,其特征在于,所述QMIX算法訓練效果的驗證,具體過程為:
1)根據QMIX算法得出訓練影響因子:智能體動作空間屬性、對抗樣本規則或樣本量、智能體數量;
2)修改動作空間屬性,則智能體動作能力增強后收益值增且收斂速度加快,能力減弱后收益值減小且收斂速度減緩;
3)修改樣本規則后開始訓練,對抗樣本能力增強后勝率降低,減弱后勝率提升;修改樣本量后開始訓練,樣本量增多訓練速度加快,模型勝率提升;
4)修改智能體數量后開始訓練,數量增加時收益值上升且速度減緩,收斂速度減慢但算法依然收斂,滿足勝率要求;
滿足上述過程,則算法訓練效果較好,反之較差。
6.根據權利要求1所述的一種多智能體協作環境強化學習算法的測試方法,其特征在于,所述根據智能體訓練算法協作影響因子驗證智能體訓練效果,完成對多智能體協作環境下深度學習算法的測試,具體為:
1)分析各個智能體訓練算法協作訓練的測試策略,得出智能體訓練算法協作影響因子:協作訓練規則、對抗樣本的訓練和測試樣本、協作智能體數量;
2)修改智能體特性后開始訓練,則智能體動作能力增強后勝率提升,能力減弱后勝率降低;修改對抗樣本規則,樣本能力增強訓練速度減慢,勝率降低,樣本能力減弱則相反;
3)修改樣本量后開始訓練,樣本量增多訓練速度減慢,減小后訓練速度加快,組合算法依然收斂;
4)改變訓練和測試樣本的比例,增大比例訓練速度減緩,測試勝率不穩定,減小比例訓練速度提升勝率穩定但勝率偏低;
5)修改智能體數量后開始訓練,數量增加時收斂速度減緩,勝率提高,數量減少后勝率降低,算法依然收斂,滿足勝率要求;
滿足上述過程,則算法訓練效果較好,反之較差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010648233.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種叉車
- 下一篇:一種有人或無人駕駛裝甲電動車





