[發明專利]基于多Agent環境的深度強化學習算法、設備和存儲介質有效
| 申請號: | 202211114004.3 | 申請日: | 2022-09-14 |
| 公開(公告)號: | CN115392438B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 王旭;周詩佳;張宇;尤天舒;徐勇;富倩;孫偉;李力東;杜麗英;戴傳祗 | 申請(專利權)人: | 吉林建筑大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N20/00;G06Q10/04 |
| 代理公司: | 重慶三航專利代理事務所(特殊普通合伙) 50307 | 代理人: | 萬文會 |
| 地址: | 130118 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 agent 環境 深度 強化 學習 算法 設備 存儲 介質 | ||
本申請提供一種基于多Agent環境的深度強化學習算法、設備和存儲介質,涉及深度強化學習算法技術領域;通過步驟S101、利用Agent中的目標網絡,基于初始狀態信息和動作信息,確定時間差分;步驟S102、根據預設的遮蓋率,對初始狀態信息進行隨機遮蓋,得到目標狀態信息,利用Agent中的預測網絡,以及時間差分,確定誤差值;步驟S103:基于誤差值,以及自適應修改參數,對Agent中的預測網絡和目標網絡各自對應的加權值進行更新;步驟S104:重復步驟S102和步驟S103預設次數,確定目標加權值,從而確定目標深度強化學習模型。具有保證了樣本學習效率,并通過自適應修改參數對深度強化學習模型中的Agent進行迭代更新,以提高收斂速度的效果。
技術領域
本申請涉及深度強化學習算法技術領域,具體而言,涉及一種基于多Agent環境的深度強化學習算法、裝置和存儲介質。
背景技術
多Agent強化學習是指在多Agent環境中,使用強化學習的算法使得智能體之間可以像人一樣進行協作交流,達到智能博弈的效果。
目前多智能體深度確定性策略梯度(MADDPG,Multi-AgentDeep?DeterministicPolicy?Gradient)在Agent環境中具有較強的收斂性、復雜環境適應性以及自我學習能力,但隨著Agent數量的增加,多Agent之間的管理交互的難度會呈現指數級上升,而且對于樣本的利用與探索之間的權衡往往二者不可兼得,對于有價值的樣本可能會被覆蓋或遺忘,導致重要樣本利用率不高,從而影響MADDPG在多Agent環境中的收斂速度以及收斂的獎勵幅度。
發明內容
為了解決隨著Agent數量的增加,多Agent之間的管理交互的難度會呈現指數級上升,而且對于樣本的利用與探索之間的權衡往往二者不可兼得,對于有價值的樣本可能會被覆蓋或遺忘,導致重要樣本利用率不高,從而影響MADDPG在多Agent環境中的收斂速度以及收斂的獎勵幅度的問題,本申請提供了一種基于多Agent環境的深度強化學習算法、設備和存儲介質。
本申請的實施例是這樣實現的:
本申請實施例的提供一種基于多Agent環境的深度強化學習算法,應用于多Agent環境中的深度強化學習模型,所述深度強化學習算法包括:
步驟S101、利用所述Agent中的目標網絡,基于智能體樣本的初始狀態信息,確定時間差分;
步驟S102、根據預設的遮蓋率,對所述初始狀態性信息進行隨機遮蓋,得到目標狀態信息;利用所述Agent中的預測網絡,根據所述目標狀態信息、智能體樣本的動作信息以及所述時間差分,確定誤差值;
步驟S103:基于所述誤差值,以及自適應修改參數,對所述Agent中的預測網絡和目標網絡各自對應的加權值進行更新;
步驟S104:重復步驟S102和步驟S103至預設次數,確定目標加權值,根據所述目標加權值確定目標深度強化學習模型。
上述方案中,所述目標網絡包括目標actor網絡和目標critic網絡;
所述利用所述Agent中的目標網絡,基于智能體樣本的初始狀態信息,確定時間差分,包括:
將所述初始狀態信息輸入至所述目標actor網絡中進行預測,得到當前策略信息;
將所述初始狀態信息和所述當前策略信息輸入至所述目標critic網絡中進行評價,得到對應的當前價值信息;
根據所述當前價值信息以及預設的環境獎懲參數,確定所述時間差分。
上述方案中,所述預測網絡包括critic網絡;
所述利用所述Agent中的預測網絡,根據所述目標狀態信息、智能體樣本的動作信息以及所述時間差分,確定誤差值,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林建筑大學,未經吉林建筑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211114004.3/2.html,轉載請聲明來源鉆瓜專利網。





